将文档玻尔兹曼机应用于查询扩展

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

关于查询扩展（QE）的研究工作中，大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时，一般使用的是多项分布。本文认为，在查询扩展方法中，应该存在一个更合适的分布对反馈文档进行建模，从而可以更自然地处理反馈文档中词项与词项之间的依赖关系，获得优于传统相关模型（RM，用于生成反馈文档）的建模能力。
　　在信息检索领域里，最近，文档玻尔兹曼机（DBM）被提出，它对文档进行建模时，不再保留“词项之间相互独立”的假设，即该模型可以自然地捕获词项与词项之间的依赖关系。同时，DBM已被证明是传统语言模型的泛化，而且该模型在ad hoc查询任务中获得了更好的结果。在本文中，基于这样一个新的文档模型，我们将传统的RM方法中的多项分布替换为DBM，同时保留原始的QE框架，保证模型的简洁。在本文提出的查询扩展方法中，利用反馈文档训练DBM，得到新的相关模型，该相关模型称为相关DBM（rDBM）。扩展后的查询根据rDBM中的参数信息生成，并且本文给出了给定文档中扩展查询的似然函数，该似然函数的值作为对文档的最终评分，从而对文档进行排序。在训练rDBM时遇到的一个难点是数据稀疏问题，这将导致训练出来的rDBM模型是过拟合的，从而影响查询结果。为了解决该问题，本文采用了可信信息优先原则（CIF）优化rDBM模型，优化过的rDBM模型使我们的查询扩展方法更有效率、更有实用价值。本文在TREC数据集上进行了相关对比实验，实验结果证明本文提出的基于DBM的查询扩展方法的有效性，以及模型选择方法CIF的有效性。
　　除此之外，本文中采用赤池信息准则AIC方法对文档玻尔兹曼机模型进行优化，一方面降低了模型的复杂度，另一方面避免了由于数据稀疏产生的过拟合现象，提高了检索效果。这也在TREC数据集上得到了证明。

著录项

作者
黄历铭;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科软件工程
授予学位硕士
导师姓名张亚平;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类系统模型、系统建模;
关键词
文档玻尔兹曼机; 文档建模; 查询扩展模型; 可信信息优先; 赤池信息准则;

相似文献

中文文献
外文文献
专利

1. 基于受限玻尔兹曼机的中文文档分类 [J] . 杨莹 ,吴诚炜 ,胡苏 . 科技创新导报 . 2012,第016期
2. 基于文档平滑和查询扩展的文档敏感信息检测方法 [J] . 苏赢彬 ,杜学绘 ,夏春涛 . 计算机应用 . 2014,第009期
3. 商务手机常用文档浏览器成功应用于多款手机 [J] . . 电脑编程技巧与维护 . 2006,第4期
4. 基于自动查询扩展的专利文档检索方法 [J] . 羊帅 ,王锋 ,林兰芬 . 中国科技论文 . 2013,第010期
5. 基于自动查询扩展的专利文档检索方法 [J] . 羊帅 ,王锋 ,林兰芬 . 中国科技论文 . 2013,第010期
6. 基于相关文档池建模的查询扩展 [C] . 吕碧波 ,赵军 . 第二届全国信息检索与内容安全学术会议 . 2005
7. 短文本文档建模及查询扩展方法研究 [A] . 王琳 . 2016

将文档玻尔兹曼机应用于查询扩展

目录

摘要

著录项

相似文献

相关主题

期刊订阅