基于图的文档检索技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机技术和互联网的发展，信息检索已经成为日常生产生活中不可缺少的一部分，更受到学术界的高度关注。近年来，图数据的使用方兴未艾，互联网的发展伴随着大数据的增长，使得越来越多的应用产生图数据。图数据的研究近年来也炙手可热。
　　文档检索的主要任务是计算用户输入的查询词和文档的相似度，并将文档依照相似度排序返回给用户。向量空间模型是信息检索领域中的基本模型，也是文档检索领域中最常用的模型。当今很多广受欢迎的文档检索系统依旧以向量空间模型为核心。由于向量空间模型在检索中将词项视作独立无关的，割裂了词项之间的关系。而实际的文本中，词项与词项之间通常都有相关性。这就导致了以向量空间模型为核心的文档检索系统会存在如下的情况:计算出与查询词相似度很高的文档，其内容的意思与查询词关联性不够高，甚至意思完全相反。而近年来图数据得到广泛应用，很重要的原因就是图能直观地表示节点与边之间的关系。
　　基于以上问题，本文提出了基于图的文档检索方法。将查询词和文档用图进行表示。通过计算查询图和文档图之间的相似度来得到查询词和文档之间相似度的方法，对查询词和文档的相似程度进行定量化计算。首先，本文利用自然语言处理中的依存分析和词性标注的研究成果，提出基于依存分析的文本表示图模型，将查询词和文档文本表示成图。考虑到图计算的开销问题，本文提出文档语义单元的概念，并以文档语义单元为粒度构建图，这样不同于以往信息检索中将查询与文档视为对等的实体，本文提出的方法是将查询词和文档放在不对等的层面上;其次，本文基于图论的相关知识，提出基于广义最大公共子图的图相似度计算算法，由此可得到查询图模型和文本图模型的相似度;再次，使用上一步得到查询和文档各个语义单元的相似度数据，考虑到文档中不同位置的语义单元的重要程度可能不同，本文提出文档评分方法，计算查询和文档之间的相似度并以此作为排序和返回结果的依据。最后，分别利用中文和英文两个文档集，通过分析不同文档评分方法下算法的结果质量的表现以及和现有的方法与技术的结果进行对比，实验表明，本文提出的方法能得到质量更高的文档检索结果。

著录项

作者
王力男;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科软件工程
授予学位硕士
导师姓名张志强;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
文档检索; 图论; 文本表示模型; 相似度计算;

相似文献

中文文献
外文文献
专利

1. 语义桌面环境下一种基于概念图的文档检索方法 [J] . 李胜 ,胡和平 . 计算机工程与科学 . 2009,第008期
2. 基于零件图的装配图生成技术研究 [J] . 刘文清 ,车晓毅 ,蔡悦华 . 机械研究与应用 . 2001,第001期
3. 基于积分图的非局部均值图像去噪技术研究 [J] . 刘光宇 ,曾志勇 ,刘彪 . 赤峰学院学报:自然科学版 . 2022,第1期
4. 基于BIM+GIS的铁路工程建设管理一张图关键技术研究及应用 [J] . 鲍榴 ,杨斌 ,杨威 . 铁道标准设计 . 2021,第005期
5. 基于FME的土地利用现状图缩编技术研究 [J] . 何思宇 ,赵孔阳 . 测绘与空间地理信息 . 2021,第006期
6. 文档动态属性及基于动态属性的文档检索技术研究 [C] . 滕旭东 ,吴宝中 ,杨世宁 . 全国企业应用集成系统与技术学术研讨会(EAIST'05) . 2005
7. 基于RDBMS的XML文档检索技术研究与实现 [A] . 何东彬 . 2006

基于图的文档检索技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅