基于页面结构的作弊站点识别

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的不断发展，网络信息呈现爆炸式的增长，搜索引擎成为用户获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置，将在一定程度上决定网页的访问量。一些网站为了提高自己在搜索引擎中的排名，并不是通过提高网页质量，而是根据搜索引擎自身的特点，采用欺骗手段来提高排名，这就是网页作弊。网页作弊技术具有多样性、隐蔽性、进化性等特点，是搜索引擎面临的重大挑战之一。在网页作弊中，一种极具代表性的作弊方式是利用相同页面模板结构，通过填充不同的作弊内容，产生众多外观相似的作弊站。由于模板统一，可以统一管理，降低成本，该作弊方式被广泛使用。这类垃圾的特点是它们的网页视觉结构特征完全相同，一般由同一站长制作，常常伴随着附件作弊、夹杂、关键词堆砌等作弊手段。目前，检测此类作弊手段的主要方法是基于网页内容信息，判断网页中是否含有色情词或者赌博词，是否含有堆砌关键词等。这种方式存在以下两个问题:1.准确率低。色情赌博网页并不都是垃圾作弊网页，仅识别色情赌博会将色情赌博好站误判为垃圾页面。2.效率低下。同模板下的作弊页面数以百计，单纯的识别每条网页会使得工作量较大，重复性工作较多。为了批量解决此类垃圾，本文首先分析了浏览器渲染网页的过程和网页的HTML结构，提出了两种模板的定义方式，分别为结构为主的模板(DBT:DomBiasedTemplate)和样式为主的模板(CBT:CssBasedTemplate)。基于两种的模板定义方式分别设计了模板抽取算法，抽取出站点的模板结构作为站点的指纹特征。并以准确率和召回率作为评测指标，验证了两种模板定义方式的有效性。通过对两种模板抽取算法的性能比较发现，DBT在召回率上比CBT更高，而CBT在准确率上优于DBT。然后，本文采用了DBT算法来计算模板的指纹特征。为了识别出作弊模板站点，首先根据每个站点的模板指纹对不同站点做了同质聚类，将含有相同的模板指纹的站点聚为一个模板簇。为了提高识别模板站点的准确率，本文提出了基于用户行为特征的优质页面挖掘方法，提出了用户访问忠诚度，访问深度等用户行为特征，利用历史封禁数据，以封禁率和误封率两个特征验证了用户行为特征在识别优质页面的效果。最后利用主题模型训练出了色情词表和赌博词表，定义了模板的色情率和游戏率特征，并使用决策树分类算法识别出作弊模板。

著录项

作者
杨海春;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机技术
授予学位硕士
导师姓名马军;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.08;
关键词
同质聚类; 用户行为; 决策树; 页面结构; 作弊站点识别;

相似文献

中文文献
外文文献
专利

1. 基于页面内容和站点结构的页面聚类挖掘算法 [J] . 杨怡玲 ,管旭东 ,尤晋元 . 软件学报 . 2002,第003期
2. 基于页面标签和文本特征的暗网重要站点识别 [J] . 曹哲超 ,王轶骏 ,薛质 . 通信技术 . 2019,第012期
3. 结合站点拓扑结构的页面视图分析 [J] . 张琦琪 ,陈俊杰 . 太原理工大学学报 . 2004,第004期
4. 基于认知的结构化页面风格识别 [J] . 章蕾 ,董尹 . 合肥师范学院学报 . 2020,第004期
5. 基于目的分析的作弊页面分类 [J] . 余慧佳 ,刘奕群 ,张敏 . 中文信息学报 . 2009,第002期
6. 使用支持向量机进行作弊页面识别 [C] . 李智超 ,余慧佳 ,马少平 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于机器学习的网络游戏作弊行为识别应用研究 [A] . 车林耿 . 2019

基于页面结构的作弊站点识别

摘要

著录项

相似文献

相关主题

期刊订阅