基于TrustRank的垃圾网页检测算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展，网络信息量不断增加，垃圾网页也逐渐增多，这极大影响搜索引擎的精度和效率，如何在海量信息中寻找到高质量的搜索结果，以满足用户需求变得越来越重要。如何辨别垃圾网页已成为互联网和搜索引擎面临的最严峻的挑战之一。
　　搜索引擎作弊分为两大类，链接作弊和内容作弊。一方面垃圾网页链接到高信任值网页以提高自身排名，另一方面网页采用堆砌关键字等内容作弊方法以提高网页间内容的相似度。论文将垃圾网页检测算法转化为对网页评分与排序，算法基于搜索引擎的作弊特点，对基于网页质量的TrustRank算法分别从链接和内容两方面进行优化。论文主要工作如下:
　　(1)阐述国内外研究现状，提出当前算法本身存在的问题:现有基于链接的检测方法多是依照原有链接拓扑进行计算，而忽略垃圾链接存在的可能性;针对这个问题，论文首先根据网页内容抽取特征属性组成向量，通过分析相邻网页间特征向量的相似程度为链接评分，之后对比链接评分与网页访问量识别垃圾链接，并且重新为正常链接设置权重，以此重构网络链接拓扑。
　　(2)优化TrustRank算法。传统TrustRank算法基于向下随机游走模型，支持信息的后向传播性，即网页A链接到网页B，A是否是垃圾网页直接影响网页B的评分。论文优化TrustRank算法，提出一种基于双向随机游走模型的Two Direction Rank(TDRank)算法，算法使得网页A与网页B的评分相互影响，从而避免垃圾网页由于引用过多高质量网页而得到高信任值的情况。同时，论文尝试研究其它简单且高速的算法作为选择种子集的方法，为TDRank算法提供一个合适的输入向量，使得实验结果更加准确有效。
　　(3)论文基于WEBSPAM-UK2007数据集，设计实验验证上述方法的有效性，同时分析算法准确性与效率。实验结果证明所提算法的有效性。

著录项

作者
周静;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机科学与技术
授予学位硕士
导师姓名喻梅;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
互联网; 搜索引擎; 垃圾网页; 检测算法;

相似文献

中文文献
外文文献
专利

1. 基于网页内容的网页消重高效检测算法研究 [J] . 王祖析 . 佳木斯大学学报（自然科学版） . 2010,第001期
2. 基于网页结构与语言特征的垃圾网页链接检测方法 [J] . 杨望 ,江咏涵 ,张三峰 . 东北大学学报（自然科学版） . 2020,第008期
3. 基于二元分类的伪装型垃圾网页高效检测方法 [J] . 魏欢 . 兰州工业学院学报 . 2019,第004期
4. 基于二元分类的伪装型垃圾网页高效检测方法 [J] . 魏欢 . 兰州工业学院学报 . 2019,第004期
5. 基于随机森林和欠采样集成的垃圾网页检测 [J] . 卢晓勇 ,陈木生 . 计算机应用 . 2016,第003期
6. 浅谈垃圾网页检测与青少年教育 [C] . Qihui Qiu ,邱齐辉 . 2012（第五届)全国网络与信息安全学术会议 . 2012
7. 基于链接权重的垃圾网页检测算法研究 [A] . 周姜炜 . 2019

基于TrustRank的垃圾网页检测算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅