基于文档相似度的伪相关反馈方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随互联网的飞速发展，网络信息呈现爆发式增长态势。通常，用户根据需求信息，使用搜索引擎进行针对性搜索可大幅提高信息获取效率。然而，网络信息存在非结构化、分布广泛、组织开放、形式多样、更新迅速等诸多因素使信息检索的难度不断加大。如何进一步提高信息获取的效率仍是信息检索领域的重要课题。
　　一般来说，用户对于信息需求的表达往往不够精准，从而造成用户查询与检索到的文档信息不匹配或不相关，因此，传统的检索模型往往不能准确的满足用户查询需求。伪相关反馈技术的产生使该问题在一定程度上得到解决，伪相关反馈模型基于初次检索返回文档信息，对初始查询进行修改或者扩展以改善检索性能。该技术是信息检索中对查询进行优化的一种有效方法，具有重要的研究价值和实际意义。
　　本文主要研究工作如下:
　　首先，本文在伪相关反馈的基础上，基于返回排名靠前的N篇文档，对用户查询进行权重调整，在不添加扩展词的情况下，着重强调了文档与文档之间的相似性，以及初始查询与文档之间的相似性，对初始查询词重新加权，并与不同的传统检索模型相结合，进一步提高了检索性能。本文基于多个TREC数据集进行有效性测试，实验结果表明，基于文档相似度调整权重的伪相关反馈方法相对于传统检索方法来说，检索性能有所提高。
　　其次，将文档相似度进行权重调整的方法与查询扩展相结合，对初始查询词进行加权并添加相关查询词，从而构成新的查询。本文中通过利用传统的建模模型获取相关扩展词，利用文档相似度方法调整初始查询词的权重并与扩展词之间进行平滑，充分考虑了新查询的重要性，并与两种常见的扩展方法相结合，在TREC数据集上进行对比验证，结果表明，该方法有效地提高了检索性能。
　　最后，本文设计并实现了基于文档相似度的信息检索系统，该系统主要包含两个模块，检索模块和用户交互模块。检索模块主要对文档集进行解析、预处理以及文档检索。用户交互模块实现了用户登录系统，选择单个数据集，可以通过条形图快速了解该数据集在多种检索方法上的实验结果。

著录项

作者
刘亚楠;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科软件工程
授予学位硕士
导师姓名黄湘冀;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息检索; 文档相似度; 伪相关反馈; 查询扩展技术;

相似文献

中文文献
外文文献
专利

1. 基于伪文档的伪相关反馈方法 [J] . 闫蓉 ,高光来 . 中文信息学报 . 2016,第006期
2. 采用相关反馈和文档相似度的维吾尔语检索词加权方法 [J] . 于丽 ,亚森·艾则孜 . 华侨大学学报（自然科学版） . 2017,第003期
3. 基于多标记有向树模型的XML文档片段相似度量方法研究 [J] . 宋荣 ,李霞婷 . 电子技术与软件工程 . 2013,第010期
4. 基于文档相似度的双语文档排序学习 [J] . 黄健 . 计算机与数字工程 . 2017,第010期
5. XML文档相似度计算方法研究 [J] . 谌志群 . 情报学报 . 2009,第001期
6. 基于伪文档的伪相关反馈方法 [C] . YAN Rong ,闫蓉 ,GAO Guang-lai . 第十五届全国计算语言学学术会议（CCL2016）暨第四届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD-2016） . -1
7. 基于数据集特征的伪相关反馈中平衡参数自调节方法研究 [A] . 孟烨 . 2015

基于文档相似度的伪相关反馈方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅