首页> 中文学位 >云环境下搜索引擎系统关键技术研究
【6h】

云环境下搜索引擎系统关键技术研究

代理获取

摘要

随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速度、存储容量以及查准率和查全率方面很难适应现在的互联网环境。本文结合云计算相关技术,研究了搜索引擎系统中文本去重、页面索引以及网络信息采集这三个关键技术,具体工作如下:
  首先,为了减少存储系统中重复页面的数量,本文在传统的文本去重算法Shingling的基础上,结合LCS问题的解决方法,提出了与位置相关的改进的Shingling去重算法SWLR(ShinglingwithLocationRelationship)。提高了文本去重的查准率和查全率。通过与基于比特位的过滤算法相结合,本文进一步提出了快速SWLR算法,实验结果表明,快速SWLR算法在没有降低相似性检测效果的前提下,显著提升了SWLR算法运算的性能。
  其次,为了提高页面索引中短语查询的效率,本文在倒排索引模型的基础上提出了基于链表结构的倒排索引模型,通过在倒排索引模型的Term节点中增加指向相邻关键词的指针,在通过关键词短语进行查询时,可以在单位时间内查找到相邻的关键词并进行匹配。实验结果表明,基于链表结构的倒排索引模型在索引构建、查询以及内存消耗方面均具有性能优势。
  最后,本文结合云计算环境,提出了一种基于Hadoop的网络爬虫系统。在该系统中,解析与爬行两个子系统并行运行,从而充分利用计算机的I/O资源和计算资源。实验结果表明,本文提出的网络爬虫系统具有很好的系统扩展能力和负载均衡能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号