首页> 中文学位 >基于文档相似度的伪相关反馈方法研究
【6h】

基于文档相似度的伪相关反馈方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文研究背景

1.2 论文研究意义

1.3 研究现状

1.4 论文的主要研究内容

1.5 论文的组织结构

第二章 相关研究技术

2.1 信息检索模型

2.1.1 向量空间模型

2.1.2 经典概率模型

2.1.3 统计语言模型

2.2 向量相似度计算

2.2.1 文档间向量相似度计算

2.2.2 查询与文档的向量相似度计算

2.3 伪相关反馈技术

2.4 文档平滑技术

2.4.2 Dirichlet Prior平滑技术

2.5 信息检索的评价指标

2.6 本章小结

第三章 基于文档相似度的查询词权重调整

3.1 引言

3.2 利用文档相似度调整查询词权重

3.2.1 利用文档相似度的局部反馈

3.2.2 基于查询的选择

3.3 基于文档相似度的伪相关反馈

3.3.2 语言模型下的查询词权重调整(DS_LM)

3.4 实验结果与分析

3.4.1 实验环境与实验数据集

3.4.2 BM25概率模型下的评估

3.4.3 语言模型下的评估

3.4.4 参数敏感度分析

3.5 本章小结

第四章 基于文档相似度的查询扩展

4.1 引言

4.2 基于文档相似度的查询扩展

4.2.1 Rocchio框架下的查询扩展(DS_Rocchio)

4.2.2 基于语言模型的查询扩展(DS_RM3)

4.3 实验分析

4.3.1 实验数据

4.3.2 结合Rocchio的查询扩展

4.3.3 结合RM3的查询扩展

4.3.4 参数分析

4.4 本章小结

第五章 基于文档相似度的信息检索系统实现

5.1 检索模块

5.2 用户交互模块

5.3 本章小结

第六章 总结与展望

6.2 下一步研究工作

参考文献

攻读硕士期间参加的科研项目

致谢

展开▼

摘要

伴随互联网的飞速发展,网络信息呈现爆发式增长态势。通常,用户根据需求信息,使用搜索引擎进行针对性搜索可大幅提高信息获取效率。然而,网络信息存在非结构化、分布广泛、组织开放、形式多样、更新迅速等诸多因素使信息检索的难度不断加大。如何进一步提高信息获取的效率仍是信息检索领域的重要课题。
  一般来说,用户对于信息需求的表达往往不够精准,从而造成用户查询与检索到的文档信息不匹配或不相关,因此,传统的检索模型往往不能准确的满足用户查询需求。伪相关反馈技术的产生使该问题在一定程度上得到解决,伪相关反馈模型基于初次检索返回文档信息,对初始查询进行修改或者扩展以改善检索性能。该技术是信息检索中对查询进行优化的一种有效方法,具有重要的研究价值和实际意义。
  本文主要研究工作如下:
  首先,本文在伪相关反馈的基础上,基于返回排名靠前的N篇文档,对用户查询进行权重调整,在不添加扩展词的情况下,着重强调了文档与文档之间的相似性,以及初始查询与文档之间的相似性,对初始查询词重新加权,并与不同的传统检索模型相结合,进一步提高了检索性能。本文基于多个TREC数据集进行有效性测试,实验结果表明,基于文档相似度调整权重的伪相关反馈方法相对于传统检索方法来说,检索性能有所提高。
  其次,将文档相似度进行权重调整的方法与查询扩展相结合,对初始查询词进行加权并添加相关查询词,从而构成新的查询。本文中通过利用传统的建模模型获取相关扩展词,利用文档相似度方法调整初始查询词的权重并与扩展词之间进行平滑,充分考虑了新查询的重要性,并与两种常见的扩展方法相结合,在TREC数据集上进行对比验证,结果表明,该方法有效地提高了检索性能。
  最后,本文设计并实现了基于文档相似度的信息检索系统,该系统主要包含两个模块,检索模块和用户交互模块。检索模块主要对文档集进行解析、预处理以及文档检索。用户交互模块实现了用户登录系统,选择单个数据集,可以通过条形图快速了解该数据集在多种检索方法上的实验结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号