基于语言模型的段落检索系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语言模型是一种全新的信息检索框架，其基本思想是：为每篇文档估计一个语言模型，然后计算在该语言模型下“生成”查询的概率，并根据此概率对所有文档进行排序。语言模型为信息检索领域提供了一种全新的有别于其他经典检索模型的评价文档的思路和机制，从而提升了人们对全文本检索的认知。许多实验也证明了语言模型是一个拥有良好理论基础并且检索效果出众的信息检索框架。虽然语言模型在信息检索领域已取得了巨大的成就，但它仍然还有很大的提升空间。本文将通过以下几点来对语言模型进行扩展：
　　首先，将经典语言模型—查询似然模型，和段落检索相结合，并在此基础上提出一种全新的检索模型，即PLM模型。该模型不仅继承了查询似然模型理论完备检索效果出众等优点，又通过利用段落检索将文档的段落特征引入到文档的匹配过程中去，进而优化了查询似然模型在处理长文档尤其是那些跨域多个主题的长文档的能力。
　　其次，为PLM模型引入启发式查询扩展方法，从而降低其词表不匹配的风险，进而达到提升其检索性能尤其是提升其召回率的目的。其中，启发式查询扩展方法是本文提出的一种全新的基于伪相关反馈技术的查询扩展方法。它不仅克服了以往相关反馈需要通过与用户进行交互才能进行查询扩展的弊端，还改变了经典查询扩展方法以词频共现度来进行选词的惯例，而是采取了一种基于语言模型的启发式选词策略来进行扩展词的选取。通过本文后续的实验，也证明了启发式查询扩展方法要优于经典的查询扩展方法，并且相较于经典查询扩展方法，其最大提升PLM模型的MAP幅度为54.7％。
　　最后，为PLM模型引入聚类平滑方法，减轻其因数据稀松而导致对文档和段落的语言模型估计不准确的风险，进而达到提升其检索性能的目的。其中，聚类平滑方法是一种基于Dirichlet平滑方法的全新平滑方法。它除了继承Dirichlet平滑方法平滑效果稳定的优点外，还通过优化Dirichlet平滑方法引入到平滑过程中的文档统计特性，和重新选取文档模型的备选模型等方式，来提升Dirichlet平滑方法的平滑效果。而本文后续的实验也证明了聚类平滑方法达到了预期的目标，其相较于Dirichlet平滑方法来说，最大提升PLM模型的MAP幅度为61.6%。

著录项

作者
张海炜;
展开▼
作者单位

长安大学;

展开▼
授予单位长安大学;
学科计算机软件与理论
授予学位硕士
导师姓名曲卫东;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
段落检索系统; 语言模型; 查询扩展; 聚类平滑; 伪相关反馈;

相似文献

中文文献
外文文献
专利

1. 基于段落检索和段落内容分析的知识化检索系统设计 [J] . 付鸿鹄 ,张晓林 . 情报理论与实践 . 2007,第005期
2. 基于位置语言模型的中文信息检索系统的研究 [J] . 陈雅兰 ,胡小华 ,涂新辉 . 计算机科学 . 2015,第007期
3. 基于主题语言模型的中文信息检索系统研究 [J] . 张俊林 ,孙乐 ,孙玉芳 . 中文信息学报 . 2005,第003期
4. 一种改善的基于语言模型的中文检索系统研究 [J] . 张俊林 ,曲为民 ,孙乐 . 中文信息学报 . 2004,第002期
5. 高中英语段落写作剖析及课堂应用研究——基于一堂段落写作技巧指导示范课的思考 [J] . 王静静 . 英语教师 . 2020,第003期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于语言模型信息检索系统的研究与实现 [A] . 楼炉群 . 2006

基于语言模型的段落检索系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅