基于位置语言模型的中文信息检索方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随着全球信息化进程的迅猛发展，网络上的中文信息资源变得越来越丰富，如何从这些海量数据中挖掘出有价值的中文信息，已逐渐成为信息检索领域的研究热点，信息检索技术的提高也随之变得重要起来。
　　在现有的检索模型中，文档的得分主要都是基于词项在文档内的频率，逆文档频率以及文档长度而得到的，并没有充分考虑匹配到的查询词项在文档中所处位置的近邻性信息。虽然这些检索模型也有被应用到中文信息检索中并取得了不错的成绩，但其检索效果仍有提升的空间。因此，本文就基于位置语言模型的中文信息检索方法进行了研究。主要工作包括以下两个方面:
　　第一，将位置语言模型引入到中文信息检索中进行建模，利用文档中词与词之间出现位置的近邻性关系，将查询词项在文档中出现的位置信息聚集在一起，以便获得与查询主题更为相关的检索文档。我们将中文文本信息采用基于词表和基于二元两种分词方法进行切分，切分后的文档词与词之间用空格区分，在建模时文档中的位置信息以词为单位进行标识，这样不仅考虑了词与词之间的位置近邻性，而且在一定程度上考虑了词间的复合关系，有助于提高检索的准确率。我们在NTCIR-5和NTCIR-6中文文档测试集上均进行了实验，实验结果表明，基于位置语言模型的中文信息检索建模方法相对于传统的检索方法来说拥有更好的检索性能。
　　第二，在伪相关反馈方法中加入文档的位置特征，帮助原始查询获取更合适的扩展词项。该方法将反馈文档中的词项位置信息添加到相关性模型中，充分考虑了查询词项在反馈文档中出现的位置，利用位置语言模型将反馈文档中的词项与查询词项间的位置关系聚集起来，给那些靠近查询词项出现的词分配更高的权重，进而获取与查询主题更为相关的词来作为扩展词项。文中考虑了两种估计伪相关反馈的方法，独立同分布抽样方法和条件抽样方法。在文档集NTCIR5下我们基于词表索引分别验证了两种反馈方法的检索效果，实验结果表明，基于位置语言模型的中文伪相关反馈方法的检索性能要优于传统的反馈方法。

著录项

作者
陈雅兰;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名胡小华,涂新辉;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
中文信息检索; 位置语言模型; 反馈文档;

相似文献

中文文献
外文文献
专利

1. 基于位置语言模型的中文信息检索系统的研究 [J] . 陈雅兰 ,胡小华 ,涂新辉 . 计算机科学 . 2015,第007期
2. 基于主题语言模型的中文信息检索系统研究 [J] . 张俊林 ,孙乐 ,孙玉芳 . 中文信息学报 . 2005,第003期
3. 融合主题与语言模型的蒙古文信息检索方法研究 [J] . 斯日古楞 ,林民 ,田长波 . 计算机应用研究 . 2016,第012期
4. 基于统计语言模型的信息检索演进探析 [J] . 李进华 ,周朴雄 . 图书情报知识 . 2010,第003期
5. 基于语言模型的信息检索研究 [J] . 康恺 . 科技风 . 2010,第023期
6. 信息检索中基于MLS的语言模型准确性分析 [C] . 蔡勋梁 ,赵军 . 中国中文信息学会二十五周年学术会议 . 2006
7. 基于词共现的语言模型信息检索方法研究 [A] . 赵祥重 . 2013

基于位置语言模型的中文信息检索方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅