首页> 中文学位 >基于图的文档检索技术研究
【6h】

基于图的文档检索技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 引言

1.2 研究的背景及意义

1.3 国内外研究现状

1.4 论文的研究工作

1.5 论文的组织及内容安排

第2章 相关技术及研究

2.1 信息检索的相关知识

2.2 文本的表示模型

2.2.1 布尔模型

2.2.2 向量空间模型

2.2.3 概率模型

2.3 依存分析

2.4 基于图的文本表示的研究

2.4.1 用于文本相似性计算的图的文本表示

2.4.2 用于信息检索的图的文本表示

2.5 现有方法的不足

2.6 本章小结

第3章 基于图的文档检索研究

3.1 问题描述

3.2 基本思想

3.3 文档使用图模型表示的研究

3.3.1 文档语义单元

3.3.2 文档的图模型表示

3.4 文本图模型的构建

3.4.1 文本图模型的定义

3.4.2 图模型的构建算法与分析

3.5 图相似度计算方法研究

3.5.1 广义最大公共子图

3.5.2 图模型相似度的计算

3.6 评分计算方法的研究

3.7 本章小结

第4章 实验与结果分析

4.1 实验文档集数据

4.2 实验方法及评价标准

4.3 不同评分方法对检索结果的影响

4.4 与向量空间模型和Google的结果对比

4.4.1 与向量空间模型的结果对比

4.4.2 与Google检索文档集的对比

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

随着计算机技术和互联网的发展,信息检索已经成为日常生产生活中不可缺少的一部分,更受到学术界的高度关注。近年来,图数据的使用方兴未艾,互联网的发展伴随着大数据的增长,使得越来越多的应用产生图数据。图数据的研究近年来也炙手可热。
  文档检索的主要任务是计算用户输入的查询词和文档的相似度,并将文档依照相似度排序返回给用户。向量空间模型是信息检索领域中的基本模型,也是文档检索领域中最常用的模型。当今很多广受欢迎的文档检索系统依旧以向量空间模型为核心。由于向量空间模型在检索中将词项视作独立无关的,割裂了词项之间的关系。而实际的文本中,词项与词项之间通常都有相关性。这就导致了以向量空间模型为核心的文档检索系统会存在如下的情况:计算出与查询词相似度很高的文档,其内容的意思与查询词关联性不够高,甚至意思完全相反。而近年来图数据得到广泛应用,很重要的原因就是图能直观地表示节点与边之间的关系。
  基于以上问题,本文提出了基于图的文档检索方法。将查询词和文档用图进行表示。通过计算查询图和文档图之间的相似度来得到查询词和文档之间相似度的方法,对查询词和文档的相似程度进行定量化计算。首先,本文利用自然语言处理中的依存分析和词性标注的研究成果,提出基于依存分析的文本表示图模型,将查询词和文档文本表示成图。考虑到图计算的开销问题,本文提出文档语义单元的概念,并以文档语义单元为粒度构建图,这样不同于以往信息检索中将查询与文档视为对等的实体,本文提出的方法是将查询词和文档放在不对等的层面上;其次,本文基于图论的相关知识,提出基于广义最大公共子图的图相似度计算算法,由此可得到查询图模型和文本图模型的相似度;再次,使用上一步得到查询和文档各个语义单元的相似度数据,考虑到文档中不同位置的语义单元的重要程度可能不同,本文提出文档评分方法,计算查询和文档之间的相似度并以此作为排序和返回结果的依据。最后,分别利用中文和英文两个文档集,通过分析不同文档评分方法下算法的结果质量的表现以及和现有的方法与技术的结果进行对比,实验表明,本文提出的方法能得到质量更高的文档检索结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号