• 29
  • Dec

前天qq上有朋友和我探讨了一下文章重复性的问题,说se如何判断文章的相似度。

这位朋友认为文章相似度可以通过某些手法来避免,比如在文章首部加一些转载信息等等,我觉得这样考虑是不对的。

se可以说一个是由全球顶尖的it工程师们开发出的超大型算法程序,远没有想象的那么简单。

判断文章相似度并不是简单的看一个页面

se判断相似度是一个综合指标,并不是简单的看你某页面是否与数据库里的某个页面相似,而是基于整站构架的考虑,如果你全是采集,目录构架和采集站一样的话,仍然能判断出你是重复内容,所以即使你每个页面都加一些例如转载信息类的文字来试图和原页面不同,如果正文还是采集回来的话,se仍然能判断出你是重复内容。

 并不是说换了套不一样的模板就显得不相似了

 se判断页面文字是将所有的html代码去掉看的,所以并不是说换个模板它就认为你和原页面不形似。

另外如果是已经收录了一段时间的站建议不要换模板,因为换模板可能会把每个页面的内部链接变掉,有可能会影响收录,如果实在要换,建议保持原有页面的内部链接规则。

 se会把每个元素分解开来判断

se判别相似度的因素很多,他会把页面的所有因素都劈开判断,如页面title,整体布局,文字信息,内部链接架构,url规律,再综合评判你是否相似。

所以除非你能把采集回来的东西把这些因素都和原站几乎所有的因素都不形似,但是如果你真能做到的话,那也就不叫采集了。

精灵自觉正则写的还可以,但是也做不到,如果有那位兄弟能做到的话,欢迎和我交流^^

如果你觉得本文写的还不错,就请分享到你的微博里哈~

原载: 上海SEO优化研究院 | 作者: 精灵SEO
原文链接:http://www.lijinglin.com/seo-similarity.html
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

Tags: ,

阅读过本文的朋友还读过:

» You can leave a comment, or trackback from your own site.

RSS feed | Trackback URI

3条评论 »

Comment 由 网站优化
2008-08-26 10:35:30

好文章支持一下!

 
Comment 由 网站优化
2008-08-26 10:35:57

好文章支持一下!!!

 
Comment 由 danl
2010-08-06 01:09:26

不错,顶个。

 
名称 (必填)
E-mail (required - never shown publicly)
URI
您的评论 (smaller size | larger size)
You may use <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong> in your comment.