首页> 中文学位 >中文重复网页的检测算法研究
【6h】

中文重复网页的检测算法研究

代理获取

目录

文摘

英文文摘

第一章 引言

1.1 互联网发展现状

1.2 搜索引擎简介

1.2.1 搜索引擎简介

1.2.2 提高搜索引擎检索效率的几种策略

1.3 网页去重的应用前景

1.4 本文的主要内容和组织

第二章 重复网页检测算法研究现状

2.1 重复网页检测概述

2.2 重复网页检测算法研究现状

2.2.1 基于内容的重复网页检测

2.2.2 基于链接的重复网页检测

2.2.3 基于链接信息的重复网页检测

2.2.4 几种重复网页检测方法的比较

2.3 重复网页检测相关技术

2.3.1 网页解析

2.3.2 网页文本分词

2.3.3 网页文本表示及特征选择

2.3.4 网页相似度比较

2.4 本章小结

第三章 中文重复网页的改进检测算法研究

3.1 DSC算法模型

3.2 改进中文重复网页检测算法总体设计

3.3 改进中文重复网页检测算法详细设计

3.4 本章小结

第四章 实验设计及结果分析

4.1 实验环境

4.2 实验步骤

4.2.1 网页解析及纯文本提取

4.2.2 网页文本的中文分词

4.2.3 网页向量空间表示及相似度计算

4.3 实验结果分析

4.4 本章小结

第五章 总结和展望

5.1 本文总结

5.2 未来工作展望

参考文献

附录 实验核心代码

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

随着互联网的日益普及和迅猛发展,网络上的信息量呈现爆炸式的增长,搜索引擎成为人们获取信息的主要方式,而且越来越受到重视。重复网页检测一直以来都是搜索引擎研究的重点。本文就如何提高中文重复网页的检测算法效率进行研究。
   通过比较目前国内外重复网页检测的若干方法,本人发现基于内容的重复网页检测算法有较好的效果,而且加入链接和链接信息并没有明显改善算法性能,于是着手研究基于内容的检测算法。
   DSC重复网页检测算法是典型的基于内容的重复网页检测算法,并且被广泛应用。该算法基于网页语法提取网页特征,实验发现该算法不适用于短小文档的检测。Google对DSC算法的试验评估发现在该算法中加入词频信息会提高算法效率。本文结合了词频统计和自然语言理解等策略,在计算词条权重时考虑了词频,倒置文档频率,位置等内容信息,各种信息按一定比例用统计的方法得到关键词权值;另外本文将向量空间模型应用到网页相似度计算中来,将网页进行解析预处理,提取出网页纯文本,然后进行网页中文分词,统计词条权值,提取网页特征向量得到网页文本向量表示后计算这些特征向量的余弦系数便得到网页相似度值。
   本文也对改进算法进行实验,分析实验结果发现本文的改进中文重复网页检测算法较之前的DSC算法在网页查重的准确率上有所改善。
   最后本人提出了若干需要后续进一步的地方。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号