首页> 中文学位 >基于段落指纹的大规模近似网页检测算法研究
【6h】

基于段落指纹的大规模近似网页检测算法研究

代理获取

摘要

随着信息技术的飞跃式发展,互联网进入了一个信息爆炸的时代,搜索引擎成为了人们获取信息最主要的途径。然而,互联网上存在很多近似网页,一方面加重了用户从中寻找有价值信息的负担,另一方面,为近似网页建立索引消耗了大量不必要的存储和计算资源,进而影响整个搜索引擎的质量和性能。可见,对网页进行近似检测不仅能够提高索引效率,节约存储资源,同时能够显著地提升搜索引擎的用户体验。
   本文首先对近似网页检测的研究现状做出综述,并对现有算法做出深入分析。
   随后,提出了一种基于加权DOM树的网页正文提取算法,通过实验验证了该算法在各类网页集上均获得高的正文提取准确率,并将其应用于本文的近似网页检测算法。
   接着,提出了一种基于段落指纹的近似网页检测算法,该算法充分利用了中文语言的语法结构、文章主题语义和HTML标签语义,实验数据表明,本文算法能够获得高的准确率和召回率。实现了三种已有的优秀近似网页检测算法,实验数据表明,本文算法在准确率、召回率、效率和指纹占用的存储资源这些关键方面均有优势。
   最后,基于MapReduce计算模型,对本文近似网页检测算法的并行化做出了深入研究,给出了详细的并行化设计方案,并在Hadoop分布式平台上实现了该方案。在不同的Hadoop集群规模下进行实验,数据表明,本文算法经过并行化设计后,效率得到了显著提升,很好地突破了单机处理的资源瓶颈,是一种能够适用于海量数据规模的且实际可行的方案。

著录项

  • 作者

    栾艳;

  • 作者单位

    南京理工大学;

  • 授予单位 南京理工大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 兰少华;
  • 年度 2012
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    网页去噪; 段落指纹; 近似检测; 并行计算;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号