网站排名首页 | 搜索引擎营销网站优化 | ALEXA网站排名研究 | 搜索技巧 | SEO工具GOOGLE排名专题 | 百度排名专题

您当前位置:首页>网站排名>网站优化>如何实现网页查重
如何实现网页查重
    网络营销世界   2008年4月25日   字体 :【  】   作者 :kenli

    前些日子,我向大家介绍过,有关什么是网页查重技术的知识,但没有讲,如何实现网页查重,今天,我就来跟大家讲一下。

    网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,

  一、特征抽取。

  二、相似度计算和评价。

  三、消重。

  1.特征抽取

  我们在判断相似物的时候,一般是才能用不变的特征进行对比,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度。

  特征抽取有很多方法,我们这里主要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。

  “I-Match算法”是不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。

  “Shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。

  2.相似度计算和评价

  特征抽取完毕后,就需要进行特征对比,因网页查重第二步就是相似度计算和评价。

  I-Match算法的特征只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些关键特征,即一篇文章中特别高和特别低频的词汇往往不能反应这篇文章的本质。因此通过文档中去掉高频和低频词汇,并且计算出这篇文档的唯一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可得到地址值。),那些Hash值相同的文档就是重复的。QQ:314409658

  Shingle算法是抽取多个特征进行比较,所以处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard 系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。

  3.消重SEO

  对于删除重复内容,搜索引擎考虑到众多收录因素,所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。

  网页查重工作是系统中不可缺少的,删除了重复的页面,所以搜索引擎的其他环节也会减少很多不必要的麻烦,节省了索引存储空间、减少了查询成本、提高了PageRank计算效率。方便了搜索引擎用户。

相关内容及关健字搜索:

【文章出处:本站原创】【责任编辑:网络营销世界】

Yelag搜索
 
网站排名热点
·在搜索引擎中提高排名到前十
·如何提高Google AdSense的收
·迅速提高你网站流量的方法
·网站是否有美女图片直接影响
·著名搜索引擎免费登陆入口大
·搜索引擎优化与搜索引擎排名
·Google如何对网页进行排名?
·ALEXA作弊最厉害的个人网站
最新推荐

· 一招破解google补充结果
· 2007中国企业10大营销趋势
· 赢利模式越简单越容易成功!
· 为什么互联网最适合炒作?
· 韩国将立法禁止进行网游虚拟
· 莫把网页当摆设 网上营销怎无
· 恶意软件有“法”可判 中国
· IT零售终端导购技巧(下篇)

Yelag Ads