首页> 中文学位 >基于页面结构的作弊站点识别
【6h】

基于页面结构的作弊站点识别

代理获取

摘要

随着互联网的不断发展,网络信息呈现爆炸式的增长,搜索引擎成为用户获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站为了提高自己在搜索引擎中的排名,并不是通过提高网页质量,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊技术具有多样性、隐蔽性、进化性等特点,是搜索引擎面临的重大挑战之一。在网页作弊中,一种极具代表性的作弊方式是利用相同页面模板结构,通过填充不同的作弊内容,产生众多外观相似的作弊站。由于模板统一,可以统一管理,降低成本,该作弊方式被广泛使用。这类垃圾的特点是它们的网页视觉结构特征完全相同,一般由同一站长制作,常常伴随着附件作弊、夹杂、关键词堆砌等作弊手段。目前,检测此类作弊手段的主要方法是基于网页内容信息,判断网页中是否含有色情词或者赌博词,是否含有堆砌关键词等。这种方式存在以下两个问题:1.准确率低。色情赌博网页并不都是垃圾作弊网页,仅识别色情赌博会将色情赌博好站误判为垃圾页面。2.效率低下。同模板下的作弊页面数以百计,单纯的识别每条网页会使得工作量较大,重复性工作较多。为了批量解决此类垃圾,本文首先分析了浏览器渲染网页的过程和网页的HTML结构,提出了两种模板的定义方式,分别为结构为主的模板(DBT:DomBiasedTemplate)和样式为主的模板(CBT:CssBasedTemplate)。基于两种的模板定义方式分别设计了模板抽取算法,抽取出站点的模板结构作为站点的指纹特征。并以准确率和召回率作为评测指标,验证了两种模板定义方式的有效性。通过对两种模板抽取算法的性能比较发现,DBT在召回率上比CBT更高,而CBT在准确率上优于DBT。然后,本文采用了DBT算法来计算模板的指纹特征。为了识别出作弊模板站点,首先根据每个站点的模板指纹对不同站点做了同质聚类,将含有相同的模板指纹的站点聚为一个模板簇。为了提高识别模板站点的准确率,本文提出了基于用户行为特征的优质页面挖掘方法,提出了用户访问忠诚度,访问深度等用户行为特征,利用历史封禁数据,以封禁率和误封率两个特征验证了用户行为特征在识别优质页面的效果。最后利用主题模型训练出了色情词表和赌博词表,定义了模板的色情率和游戏率特征,并使用决策树分类算法识别出作弊模板。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号