首页> 中文学位 >基于社区发现的搜索引擎反作弊方法
【6h】

基于社区发现的搜索引擎反作弊方法

代理获取

目录

声明

摘要

1 绪论

2 背景与相关工作

2.1 相关性排名模型

2.2 重要性排名模型

2.2.1 基础模型

2.2.2 链接模型算法

2.3 搜索引擎作弊

2.3.1 文本作弊

2.3.2 链接作弊

2.3.3 隐藏和重定向

2.3.4 点击作弊

2.4 反作弊算法发展现状

2.4.1 基于内容的反作弊算法

2.4.2 基于链接的反作弊算法

2.4.3 基于用户行为的检测

2.4.4 社交网络的作弊检测

3 基于社区发现的搜索引擎反作弊

3.1 信任传播算法

3.2 Web作弊社区

3.3 社区发现算法

3.3.1 全局社区发现

3.3.2 作弊概率方法

3.3.3 局部社区发现

3.4 带区分的信任传播

3.4.1 带区分的TrustRank

3.4.2 带区分的LCRank

3.4.3 带区分的CPV

3.4.4 带区分的TDRank

3.4.5 算法其他参数

4 实验结果与分析

4.1 参数设置

4.2 社区发现算法实验结果

4.3 改进算法实验结果

4.3.1 Top-k的桶中作弊页面数

4.3.2 作弊页面平均降级数

4.3.3 L-TrustRank与TDR对比

4.3.4 作弊因子对比

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

如今,人们越来越倾向于通过搜索引擎来获取自己所需要的信息,由于与某一查询词相关的网页数量非常之多,因此搜索引擎采用不同的排名算法来评估页面权重。基于链接的排名算法(比如PageRank)就是基于这样的一个假设:网页中的超链接代表该网页对目标网页的推荐,基于链接的搜索排名算法主要采用这一思想进行排序。
  传统的信任传播算法被应用于搜索引擎反作弊,该类算法以等概率的方式传播信任值,均等地将其信任值传播给邻居网页,但是这类算法没有考虑邻居网页是否值得信任。考虑到作弊网页之间通常会紧密链接,本文提出了基于社区发现的信任值区分传播算法。算法第一步将一些已知的作弊网页作为种子,通过这些种子和相应的社区发现算法,找到大量的作弊社区,这些作弊社区中的网页大部分都被验证是作弊网页。本文采用了两种社区发现算法,全局社区发现和局部社区发现分别进行作弊社区的提取。由于不加区分地传播信任值会使得部分作弊页面排名得到提升,因此,算法第二步需要采用相应的降权方法来区分对待不同邻居。在本文框架中,利用发现的可疑作弊社区来实现限制跨社区信任传播,也就是说,当有信任值从非社区网页传播到作弊社区网页中时,对该条链接的权值进行降级,通过该方法实现带区分的信任传播,使得正常页面指向作弊页面的链接得到了限制,同时,该惩罚机制可以与大部分信任传播算法相结合。在真实数据集上的实验结果表明,本文所提出的框架对比传统TrustRank、LCRank、CPV和TDR等基于信任传播算法,反作弊效果会有显著提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号