首页> 中文学位 >基于主题分析的文本检索方法研究
【6h】

基于主题分析的文本检索方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究内容

1.4 文章结构安排

第二章 相关理论与技术研究

2.1 信息检索

2.2 词向量

2.2.1 词向量概述

2.2.2 几种语言模型

2.2.3 词向量的讷练

2.2.4 词向量的应用

2.3 主题模型

2.3.1 潜在狄利克雷主题模型

2.3.2 词向量主题模型

2.4 语义相关度

2.4.1 基于语义词典的计算方法

2.4.2 基于语料库的计算方法

2.4.3 基于在线百科的计算方法

2.5 本章小结

第三章 基于词向量主题模型的文本检索方法

3.1 问题引入

3.2 基于词向量主题模型的文本检索方法

3.2.1 主题聚类算法描述

3.2.2 词语贡献度计算

3.2.3 查询语句与候选文档相关度计算

3.2.4 文本排序算法描述

3.2.5 文本检索方法描述

3.3 实验结果分析

3.3.1 主题聚类实验结果分析

3.3.2 文本检索实验结果对比与分析

3.4 本章小结

第四章 基于聚类主题模型的文本检索方法

4.1 问题引入

4.2 基于二次特征选择的文本聚类方法

4.2.1 文本特征选择

4.2.2 初始聚类中心确定

4.3 基于聚类主题模型的文本检索方法

4.3.1 词语贡献度计算

4.3.2 查询语句与候选文档相关度计算

4.3.3 文本排序方法描述

4.3.4 文本检索方法描述

4.4 实验结果对比与分析

4.4.1 文本聚类实验对比与分析

4.4.2 语义相关度实验对比与分析

4.4.3 文本检索实验结果对比与分析

4.5 本章小结

第五章 工作总结与展望

5.1 工作总结

5.2 工作展望

参考文献

攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

得益于搜索引擎的推广,我们可以随时随地从互联网上获取自己所需的信息。但是基于信息呈指数级的增长速度和人们对搜索结果的更高要求,使得搜索引擎的智能化和个性化成为目前迫切需要解决的问题。那么如何在浩瀚的知识海洋中快速、准确地查找自己想要的那部分信息已成为新时代检索技术所面临的挑战。
  在传统的信息检索系统中,搜索引擎在描述用户查询与候选文档之间的关系时,往往仅考虑了词与词之间的字面匹配,并没有充分利用词语之间语义表达上的关联信息,这使得搜索结果与用户所需差距较大。
  本文从相关度出发,先利用主题模型对文档建模以抽取文档的主题信息,然后利用主题信息计算查询语句与候选文档之间的相关度并根据相关度对文档进行排序,最后将排序结果呈现给用户。然而,在上述过程中,主题模型表现出了自身的不足,一是主题模型中主题k值的选择过于随机化,这有可能因为不恰当的k值选择而使得主题与主题之间的区分度不够明显,造成主题之间的高重叠性;二是基于语料层的主题分布在某种程度上并不能完全代表单篇文章的主题分布,这可能会造成文档主题概率分布的高稀疏性,甚至会有损单篇文章的主题特征表示精度。基于以上两点,本文第三章和第四章分别对模型进行改进,使其能够最大程度地在信息检索任务上发挥作用。
  本文第三章提出了一种基于词向量主题模型的文本检索方法,该方法的主题建模部分充分考虑了主题之间的重叠关系和Gibbs抽样的初始过程。首先,利用词向量优秀的词语语义表达能力对主题之间的关系进行刻画,进而对主题模型中的k值进行再确定,使主题之间保持相对独立。另外,利用词向量对词进行聚合以改进Gibbs抽样过程中的词语的初始主题分配。然后,利用确定的k值,我们对语料进行主题建模,得出“文档—主题”、“主题一词”两个多项式分布矩阵,进而对矩阵进行运算得到“词”对“文档”的表征关系,这种“表征关系”在本文中被称为“贡献度”。在词语贡献度的基础上,我们可以把查询语句和候选文档集之间语义关系的紧密程度用“数值”描述出来。最后,通过这种“数值”关系对候选文档进行排序,进而将排序结果显示在用户查询界面上。
  本文第四章提出了一种基于聚类主题模型的文本检索方法,该方法是在第三章的基础上对主题建模方法和排序方法做出更进一步的改进。对于主题建模方法,基于传统主题模型在信息检索任务上的不理想表现,我们通过分析得出,对语料层上的主题建模在一定程度上造成了单篇文章主题分布的稀疏性并损失了主题在单篇文档中的特征表达精度,这就影响了单篇文档主题的真实概率分布。基于以上分析,我们在文本建模前先对文档集聚类,使主题相同或相近的文档集合尽可能聚集在一起,然后依次对聚类簇进行主题建模,充分发挥主题模型在信息检索任务上的建模能力。对于排序方法,在词语相关度计算方面,我们采用互动百科知识库对词语之间的相关度计算进行改进,使它们之间的语义关系变得更准确。
  本文实验所采用的语料库是NTCIR-5(NACSIS Test Collections for IR),实验后利用TREC信息检索评测工具进行相关指标的测评。从实验结果可以看出,文中提出的基于词向量主题模型的文档检索方法和基于聚类主题模型的文档检索方法在MAP、R-precision和P@N指标上有良好的表现,提高了检索系统的准确率和召回率。这也间接表明本文方法的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号