网站排名首页 | 搜索引擎营销网站优化 | ALEXA网站排名研究 | 搜索技巧 | SEO工具GOOGLE排名专题 | 百度排名专题

您当前位置:首页>网站排名>网站优化>网页查重技术的核心是“比较相似”
网页查重技术的核心是“比较相似”
    网络营销世界   2008年4月24日   字体 :【  】   作者 :李宝来

    之前,我和大家谈过网页的查重技术,那网页的查重技术的核心是什么呢?根据相关资料显示,查重技术是1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。

  网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。

  1、两个页面内容格式完全相同。

  2、两个页面内容相同,但格式不同。

  3、两个页面部分内容相同并且格式相同。

  4、两个页面部分重要相同但格式不同。

说白啦,网页的查重技术的核心是“比较相似”。

相关内容及关健字搜索:

【文章出处:本站整理】【责任编辑:网络营销世界】

Yelag搜索
 
网站排名热点
·在搜索引擎中提高排名到前十
·如何提高Google AdSense的收
·迅速提高你网站流量的方法
·网站是否有美女图片直接影响
·著名搜索引擎免费登陆入口大
·搜索引擎优化与搜索引擎排名
·Google如何对网页进行排名?
·ALEXA作弊最厉害的个人网站
最新推荐

· 一招破解google补充结果
· 2007中国企业10大营销趋势
· 赢利模式越简单越容易成功!
· 为什么互联网最适合炒作?
· 韩国将立法禁止进行网游虚拟
· 莫把网页当摆设 网上营销怎无
· 恶意软件有“法”可判 中国
· IT零售终端导购技巧(下篇)

Yelag Ads