首页> 中文学位 >面向主题的信息检索相关技术研究与实现
【6h】

面向主题的信息检索相关技术研究与实现

代理获取

目录

面向主题的信息检索相关技术研究与实现

RESEARCH ON RELATED TECHNOLOGIES OF SUBJECT-ORIENTED INFORMATION RETRIEVAL AND ITS IMPLEMENTATION

摘要

Abstract

第1章 绪论

1.1 研究目的和意义

1.2 搜索引擎的发展

1.3 相关研究综述

1.4 本文主要研究内容和组织

第2章 面向主题的信息检索体系结构

2.1 面向主题的系统结构概述

2.2 信息可视化

2.3 面向主题的检索系统的信息可视化

2.4 本章小结

第3章 采用自动获取词ID 方法建立前向索引

3.1 设计思想

3.2 文件的存储

3.3 文档内容的剖析

3.4 前向索引词典及词ID 的获取

3.5 前向索引的表示

3.6 实验结果及分析

3.7 本章小结

第4章 采用非归并算法建立大规模倒排索引

4.1 文件划分

4.2 临时倒排段

4.3 位置序列文件的整理

4.4 倒排块索引

4.5 词典管理器

4.6 倒排索引的整理

4.7 实验结果及分析

4.8 本章小结

第5章 面向主题的信息检索的设计

5.1 主题的概念和方法

5.2 面向主题的检索

5.3 相似文章推荐

5.4 实验结果及分析

5.5 本章小结

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

随着Internet的迅速增加,查找信息成为问题。搜索引擎的出现在一定程度上解决了找信息难的问题。但由于网络信息增长太快,检索返回的结果太多,查询的歧义性问题,使得用户在返回的大量信息中找到有用信息成了问题。本文提出的面向主题的信息检索系统能在一定程度上解决这种问题。
  面向主题的信息检索系统,主要由爬行器,前向索引器,倒排索引器,检索器,主题分类器,相似文章聚类器组成。与通用搜索引擎最大的区别在于检索结果中有层次主题类信息,相似文章推荐,以及更加友好的人机交互方式等。正是这些功能使得用户在检索时更加主动,获得的信息更加丰富,并且能更加快速地找到有用信息。
  正是如此,本文研究设计了面向主题的信息检索系统。并在索引建立,带有主题信息的检索方法,系统结构和信息可视化上有所改进和创新。
  为了主题分类和相似文章聚类的需要,设计了自动获取TermID来建立前向索引的方法和对前向索引的管理。为了高效建立索引,通过前向索引词典信息来划分存放倒排索引的文件,实现Term和文件的映射。以后处理Term的信息就只需要在划分的对应文件中处理即可。同时,本文提出了通过两遍文件迭代建立海量倒排索引的方法,并且在建立过程中没有使用归并算法,而只进行顺序链接即可。因而速度很快。
  在检索中,为了提高检索的TopN精确率和检索效率,本文提出了对文档抽取摘要信息来建立小索引用于检索。同时设计了文档和主题类的映射关系以及父、子主题类的继承关系,使得检索时获取文档的主题类信息以及判断主题类间的继承关系都是常数时间复杂度。进而带主题信息的检索和通用检索在检索时间上相差不大。
  由于用户输入的查询通常比较短,使得查询有歧义,因而返回的所有结果文档属于多个类别。主题检索系统返回了文档的类别信息,使得用户可根据自己所找信息对应的类别来选择类别,让系统只返回该类别的文档,进而快速找到有用信息。使得用户在检索过程中更加主动。同时,当用户看到一篇相关文档后想看更多与当前文档相似的文档时,系统的相似文章推荐就能满足用户的需求。提供给了用户更丰富的信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号