首页> 中文学位 >将文档玻尔兹曼机应用于查询扩展
【6h】

将文档玻尔兹曼机应用于查询扩展

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状与分析

1.3 文档玻尔兹曼机简述

1.4 研究内容及面临挑战

1.5 本文组织结构

第2章 利用AIC优化文档玻尔兹曼机

2.1 赤池信息准则AIC

2.2 利用AIC优化文档玻尔兹曼机

2.3 实验设置

2.4 本章小结

第3章 将文档玻尔兹曼机应用于查询扩展

3.1 基于反馈文档构建相关文档玻尔兹曼机

3.2 基于相关文档玻尔兹曼机的查询生成

3.3 相关文档玻尔兹曼机与其他模型的比较

3.4 本章小结

第4章 利用可信信息优先原则优化相关文档玻尔兹曼机

4.1 可信信息优先原则简述

4.2 可信信息优先原则算法

4.3 可信信息优先原则CIF优化相关文档玻尔兹曼机

第5章 实验

5.1 实验设置

5.2 本章小结

第6章 总结和展望

6.1 总结

6.2 展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

关于查询扩展(QE)的研究工作中,大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时,一般使用的是多项分布。本文认为,在查询扩展方法中,应该存在一个更合适的分布对反馈文档进行建模,从而可以更自然地处理反馈文档中词项与词项之间的依赖关系,获得优于传统相关模型(RM,用于生成反馈文档)的建模能力。
  在信息检索领域里,最近,文档玻尔兹曼机(DBM)被提出,它对文档进行建模时,不再保留“词项之间相互独立”的假设,即该模型可以自然地捕获词项与词项之间的依赖关系。同时,DBM已被证明是传统语言模型的泛化,而且该模型在ad hoc查询任务中获得了更好的结果。在本文中,基于这样一个新的文档模型,我们将传统的RM方法中的多项分布替换为DBM,同时保留原始的QE框架,保证模型的简洁。在本文提出的查询扩展方法中,利用反馈文档训练DBM,得到新的相关模型,该相关模型称为相关DBM(rDBM)。扩展后的查询根据rDBM中的参数信息生成,并且本文给出了给定文档中扩展查询的似然函数,该似然函数的值作为对文档的最终评分,从而对文档进行排序。在训练rDBM时遇到的一个难点是数据稀疏问题,这将导致训练出来的rDBM模型是过拟合的,从而影响查询结果。为了解决该问题,本文采用了可信信息优先原则(CIF)优化rDBM模型,优化过的rDBM模型使我们的查询扩展方法更有效率、更有实用价值。本文在TREC数据集上进行了相关对比实验,实验结果证明本文提出的基于DBM的查询扩展方法的有效性,以及模型选择方法CIF的有效性。
  除此之外,本文中采用赤池信息准则AIC方法对文档玻尔兹曼机模型进行优化,一方面降低了模型的复杂度,另一方面避免了由于数据稀疏产生的过拟合现象,提高了检索效果。这也在TREC数据集上得到了证明。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号