中文重复网页的检测算法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网的日益普及和迅猛发展，网络上的信息量呈现爆炸式的增长，搜索引擎成为人们获取信息的主要方式，而且越来越受到重视。重复网页检测一直以来都是搜索引擎研究的重点。本文就如何提高中文重复网页的检测算法效率进行研究。
　　通过比较目前国内外重复网页检测的若干方法，本人发现基于内容的重复网页检测算法有较好的效果，而且加入链接和链接信息并没有明显改善算法性能，于是着手研究基于内容的检测算法。
　　 DSC重复网页检测算法是典型的基于内容的重复网页检测算法，并且被广泛应用。该算法基于网页语法提取网页特征，实验发现该算法不适用于短小文档的检测。Google对DSC算法的试验评估发现在该算法中加入词频信息会提高算法效率。本文结合了词频统计和自然语言理解等策略，在计算词条权重时考虑了词频，倒置文档频率，位置等内容信息，各种信息按一定比例用统计的方法得到关键词权值；另外本文将向量空间模型应用到网页相似度计算中来，将网页进行解析预处理，提取出网页纯文本，然后进行网页中文分词，统计词条权值，提取网页特征向量得到网页文本向量表示后计算这些特征向量的余弦系数便得到网页相似度值。
　　本文也对改进算法进行实验，分析实验结果发现本文的改进中文重复网页检测算法较之前的DSC算法在网页查重的准确率上有所改善。
　　最后本人提出了若干需要后续进一步的地方。

著录项

作者
屠辉;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科计算机应用技术
授予学位硕士
导师姓名吕玉琴;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字处理软件;
关键词
重复网页检测; 中文分词; 网页相似度计算; 向量空间模型; DSC算法; 网页查重;

相似文献

中文文献
外文文献
专利

1. 网页近似重复检测算法研究 [J] . 魏诗云 ,杨家骏 . 计算机光盘软件与应用 . 2012,第008期
2. CCDet:一种高效的大规模中文重复网页检测方法 [J] . 韦永壮 ,袁春风 ,黄宜华 . 计算机研究与发展 . 2013,第0z2期
3. 基于后缀树的中文新闻重复网页识别算法 [J] . 钱爱兵 ,江岚 . 现代图书情报技术 . 2008,第003期
4. 基于网页内容的网页消重高效检测算法研究 [J] . 王祖析 . 佳木斯大学学报（自然科学版） . 2010,第001期
5. 中文网页信息抽取技术及分类算法研究 [J] . 于成龙 . 山东理工大学学报（自然科学版） . 2011,第003期
6. CCDet:一种高效的大规模中文重复网页检测方法 [C] . Wei Yongzhuang ,韦永壮 ,Yuan Chunfeng . 中国计算机学会第一届CCF大数据学术会议 . 2013
7. 基于重复串的STC网页去重算法研究 [A] . 殷波 . 2008

中文重复网页的检测算法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅