首页> 中文学位 >基于位置语言模型的中文信息检索方法研究
【6h】

基于位置语言模型的中文信息检索方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文研究背景

1.2 论文研究意义

1.3 论文的主要研究内容

1.4 论文的组织结构

第二章 相关研究工作

2.1 信息检索模型

2.1.1 向量空间模型

2.1.2 BM25概率模型

2.1.3 统计语言模型

2.2 伪相关反馈技术

2.3 中文索引技术

2.4 文档平滑技术

2.4.1 Jelinek-Mercer平滑技术

2.4.2 Dirichlet Prior平滑技术

2.5 信息检索的评价指标

第三章 基于位置语言模型的中文信息检索建模

3.1 引言

3.2 位置语言模型

3.2.1 基本原理

3.2.2 传播数度量

3.3 中文信息检索系统的建模与实现

3.3.1 实验环境和实验数据集

3.3.2 模型的实现

3.3.3 检索过程解析

3.3.4 不同文档集上位置语言模型的评估

3.3.5 不同索引方法在位置语言模型上的比较

3.3.6 不同核函数和平滑方法的比较

3.4 本章小结

第四章 基于位置语言模型的中文伪相关反馈

4.1 引言

4.2 基于位置语言模型的伪相关反馈

4.2.1 相关性模型

4.2.2 位置相关模型

4.2.3 两种不同的估计方法

4.2.4 基于位置语言模型的查询似然估计

4.3 实验及结果分析

4.3.1 实验环境和实验数据集

4.3.2 不同反馈方法的对比分析

4.4 本章小结

第五章 总结与展望

5.1 总结

5.2 进一步研究工作

参考文献

攻读硕士学位期间参加的科研项目与公开发表的学术论文

致谢

展开▼

摘要

伴随着全球信息化进程的迅猛发展,网络上的中文信息资源变得越来越丰富,如何从这些海量数据中挖掘出有价值的中文信息,已逐渐成为信息检索领域的研究热点,信息检索技术的提高也随之变得重要起来。
  在现有的检索模型中,文档的得分主要都是基于词项在文档内的频率,逆文档频率以及文档长度而得到的,并没有充分考虑匹配到的查询词项在文档中所处位置的近邻性信息。虽然这些检索模型也有被应用到中文信息检索中并取得了不错的成绩,但其检索效果仍有提升的空间。因此,本文就基于位置语言模型的中文信息检索方法进行了研究。主要工作包括以下两个方面:
  第一,将位置语言模型引入到中文信息检索中进行建模,利用文档中词与词之间出现位置的近邻性关系,将查询词项在文档中出现的位置信息聚集在一起,以便获得与查询主题更为相关的检索文档。我们将中文文本信息采用基于词表和基于二元两种分词方法进行切分,切分后的文档词与词之间用空格区分,在建模时文档中的位置信息以词为单位进行标识,这样不仅考虑了词与词之间的位置近邻性,而且在一定程度上考虑了词间的复合关系,有助于提高检索的准确率。我们在NTCIR-5和NTCIR-6中文文档测试集上均进行了实验,实验结果表明,基于位置语言模型的中文信息检索建模方法相对于传统的检索方法来说拥有更好的检索性能。
  第二,在伪相关反馈方法中加入文档的位置特征,帮助原始查询获取更合适的扩展词项。该方法将反馈文档中的词项位置信息添加到相关性模型中,充分考虑了查询词项在反馈文档中出现的位置,利用位置语言模型将反馈文档中的词项与查询词项间的位置关系聚集起来,给那些靠近查询词项出现的词分配更高的权重,进而获取与查询主题更为相关的词来作为扩展词项。文中考虑了两种估计伪相关反馈的方法,独立同分布抽样方法和条件抽样方法。在文档集NTCIR5下我们基于词表索引分别验证了两种反馈方法的检索效果,实验结果表明,基于位置语言模型的中文伪相关反馈方法的检索性能要优于传统的反馈方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号