首页> 中文学位 >基于TrustRank的垃圾网页检测算法研究
【6h】

基于TrustRank的垃圾网页检测算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 论文主要工作及创新

1.4 论文的组织结构

第2章 课题相关理论

2.1 搜索引擎工作原理

2.2 常见作弊手段

2.3 垃圾链接

2.4 网页排序算法

2.4.1 HITS算法

2.4.2 PageRank算法

2.4.3 BadRank算法

2.4.4 TrustRank算法

2.5 本章小结

第3章 垃圾网页检测的关键算法

3.1 基于内容重构网络链接拓扑

3.1.1 特征选择与分析

3.1.2 相关性分析

3.1.3 重构网络链接拓扑

3.2 双向游走模型的垃圾网页检测算法TDRank

3.2.1 基本思想

3.2.2 种子集选择与赋值

3.2.3 TDRank算法

3.3 本章小结

第4章 实验与分析

4.1 数据集

4.2 TrustRank重构链接拓扑实验分析

4.3 TDRank算法实验与分析

4.3.1 TDRank算法对垃圾网页检测的有效性

4.3.2 TDRank算法的鲁棒性

4.3.3 种子节点的选取与分析

4.4 TDRank重构链接拓扑实验分析

4.5 本章小结

第5章 总结与展望

5.1 总结

5.2 展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

随着互联网的飞速发展,网络信息量不断增加,垃圾网页也逐渐增多,这极大影响搜索引擎的精度和效率,如何在海量信息中寻找到高质量的搜索结果,以满足用户需求变得越来越重要。如何辨别垃圾网页已成为互联网和搜索引擎面临的最严峻的挑战之一。
  搜索引擎作弊分为两大类,链接作弊和内容作弊。一方面垃圾网页链接到高信任值网页以提高自身排名,另一方面网页采用堆砌关键字等内容作弊方法以提高网页间内容的相似度。论文将垃圾网页检测算法转化为对网页评分与排序,算法基于搜索引擎的作弊特点,对基于网页质量的TrustRank算法分别从链接和内容两方面进行优化。论文主要工作如下:
  (1)阐述国内外研究现状,提出当前算法本身存在的问题:现有基于链接的检测方法多是依照原有链接拓扑进行计算,而忽略垃圾链接存在的可能性;针对这个问题,论文首先根据网页内容抽取特征属性组成向量,通过分析相邻网页间特征向量的相似程度为链接评分,之后对比链接评分与网页访问量识别垃圾链接,并且重新为正常链接设置权重,以此重构网络链接拓扑。
  (2)优化TrustRank算法。传统TrustRank算法基于向下随机游走模型,支持信息的后向传播性,即网页A链接到网页B,A是否是垃圾网页直接影响网页B的评分。论文优化TrustRank算法,提出一种基于双向随机游走模型的Two Direction Rank(TDRank)算法,算法使得网页A与网页B的评分相互影响,从而避免垃圾网页由于引用过多高质量网页而得到高信任值的情况。同时,论文尝试研究其它简单且高速的算法作为选择种子集的方法,为TDRank算法提供一个合适的输入向量,使得实验结果更加准确有效。
  (3)论文基于WEBSPAM-UK2007数据集,设计实验验证上述方法的有效性,同时分析算法准确性与效率。实验结果证明所提算法的有效性。

著录项

  • 作者

    周静;

  • 作者单位

    天津大学;

  • 授予单位 天津大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 喻梅;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    互联网; 搜索引擎; 垃圾网页; 检测算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号