首页> 中文学位 >基于语义的主题搜索引擎研究
【6h】

基于语义的主题搜索引擎研究

代理获取

摘要

随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题。
   通用搜索引擎拥有庞大的索引数据和宽泛的主题,一定程度上解决了信息获取问题,但多元化的人群决定了多元化的信息搜索需求,因此通用搜索引擎不能满足特殊领域、特殊人群的精确化信息的需求。用户往往需要在检索结果中进一步查找才能获得感兴趣的信息,这促使着搜索引擎朝着专业化、智能化的方向发展,所以基于高准确率的主题搜索引擎得到了发展和应用。
   主题搜索引擎是为了提高互联网特定领域信息检索的效率而产生的。它通过网络爬虫获取主题信息并建立索引对用户提供相关信息和服务。主题搜索引擎是对通用搜索引擎的领域细化,满足了行业用户对主题信息快速、准确查找的需求。
   本文在主题搜索引擎系统的开发过程中,对主题搜索引擎中的关键技术进行了研究,其中包括了文本自动分词、特征提取、权值计算、文本分类、文本相似度计算等方面。对传统的相似度计算方法进行了改进,加入了词与词之间语义关系,并将其成功应用在主题搜索引擎中。
   首先,介绍了主题搜索引擎研究的背景与意义,以及国内外研究现状。
   其次,阐述了主题搜索引擎的实现原理及其关键技术,对主题搜索引擎的技术框架、网络爬虫、网页内容分析、网页索引和检索、分类技术和网页排序技术的各个环节依次作了详细介绍。
   然后,深入研究了传统文本相似度算法及其存在的不足。传统文本相似度算法没有考虑语义关系,词与词之间是独立的。针对这些不足进行了算法改进,采用并扩展了广义向量空间模型。通过词汇知识库计算两个词的语义相似度,把语义相似度应用到广义向量空间模型中,从而得到新的文本相似度算法。
   最后,针对Nutch的开源框架进行了二次开发,实现了主题资源发现,中文分词,主题过滤等功能,并将新的文本相似度算法应用到主题过滤中,最终完成了主题搜索引擎实验系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号