首页> 中文学位 >信息检索中信息需求域的研究
【6h】

信息检索中信息需求域的研究

代理获取

目录

声明

摘要

图目录

表目录

第一章 引言

1.1 信息检索概述

1.1.1 信息检索的基本概念

1.1.2 研究现状和发展趋势

1.1.3 结构化、半结构化和非结构化信息

1.2 选题思路

1.2.1 已有的主要理论方法分析

1.2.2 查询扩展、相关反馈研究现状

1.2.3 选题思路和研究内容

1.3 论文研究目标与内容

1.4 研究意义及创新点

1.5 论文组织结构

第二章 信息需求域

2.1 机器信息检索:用关键词匹配逼近语义匹配

2.2 文档、句子及词语之间的语义关系

2.3 信息需求域

2.4 信息需求域的理论推导

2.5 信息需求域的子域、近似域

2.6 查询请求与信息需求的关系

2.7 信息需求域的理论意义

2.8 信息需求域的一种粗糙集解释

2.8.1 粗糙集的基本概念

2.8.2 信息需求域的粗糙集解释

2.9 本章小结

第三章 信息需求域基础上的信息检索

3.1 信息需求域的结构

3.2 文档相似度的定义

3.2.1 文档与信息需求域之间的涵盖度

3.2.2 文档与信息需求域间的向量相似度

3.2.3 信息需求域的统计语言模型

3.3 本章小结

第四章 文档索引的建立

4.1 附加统计信息的倒排索引

4.2 停用词

4.3 词干提取

4.4 词形归并

4.5 本章小结

第五章 信息检索系统的评价方法

5.1 测试集

5.2 无序检索结果的评价

5.3 排序检索结果的评价

5.4 本章小结

第六章 伪相关文档反馈需求域模型信息检索

6.1 伪相关文档反馈机制

6.2 需求域去噪

6.3 伪相关文档反馈机制的模型分析

6.3.1 去噪性能分析与实验

6.3.2 去噪参数β的取值分析与实验

6.3.3 参数α的取值分析与实验

6.3.4 伪相关反馈文档数目及稳定性分析与实验

6.4 伪相关文档反馈机制下的需求域模型结论

6.4.1 需求域模型结论

6.4.2 检索性能对比实验分析

6.5 本章小结

第七章 用户相关文档反馈需求域模型信息检索

7.1 用户相关文档反馈机制

7.2 用户相关文档反馈机制下的模型分析

7.2.1 用户相关文档反馈下的上界优化分析与实验

7.2.2 优化参数β的取值分析与实验

7.2.3 参数α的取值分析与实验

7.2.4 相关反馈文档数目及稳定性的分析与实验

7.3 用户相关文档反馈机制下的需求域模型结论

7.3.1 需求域模型结论

7.3.2 检索性能对比实验分析

7.4 需求域模型计算性能分析

7.5 本章小结

第八章 结论与进一步工作

8.1 论文的主要结论

8.2 进一步的研究工作

参考文献

附录

致谢

攻读博士学位期间论文和课题情况

展开▼

摘要

信息检索作为信息获取的手段,是信息处理的重要内容,是当前信息处理研究领域中的研究热点。信息检索主要包括三个方面的内容:信息需求表达、文档表达和检索模型。其中,需求表达是一个重要的环节。只有当需求被正确地理解和表达时,才有可能得到好的检索结果;否则,如果不能很好地表达需求,再好的检索系统也无法得到好的检索结果。当前,机器检索本质上是基于关键词匹配的检索,将用户查询请求假定为是对用户信息需求的一个准确描述。但事实上,查询请求往往不能准确地描述用户的信息需求,这将不可避免地导致不太理想的检索结果。
  为了更好地描述和表达用户的信息需求,通常使用相关反馈的方法。相关反馈(包括用户相关反馈和伪相关反馈)方法试图从反馈的文档中寻找一组关联词项以增强用户的初始查询请求。实验显示,这种处理方法有一定的效果。然而,注意到这些词项的选取只是一种启发式的想法,通常假定用户的信息需求具有一个准确的描述。相关反馈方法试图利用反馈信息寻求用户需求的准确描述,但实际上用户需求的准确描述是难以得到的。这种利用相关反馈的方法进行的查询扩展只是对用户信息需求的一种猜想,并不准确。
  在本文中,我们采取了不同的方法。我们假定需求是一个语义范围。一开始,用户使用初始查询提出查询请求,当我们获得了一些反馈信息后(用户相关反馈或伪相关反馈),我们就能够建立一种对信息需求更好的描述,但这种描述不是试图去建立对信息需求的准确描述,而是概括性地去框定一个需求的范围。我们使用反馈信息建立需求的下界(R)和上界(R),从而界定需求的一个范围。下界对应反馈文档的共有部分,上界对应反馈文档的全部内容。论文导出了需求的下界和上界,得到了需求域的两个边界,从而建立了需求域模型I=((R),(R))。信息需求域具有以下特点:
  (1)信息需求域的下界表达了信息需求集中关注的内容,代表了信息需求的精度,也代表了信息需求的内涵;
  (2)信息需求域的上界包含了信息需求的延伸和扩展的内容,代表了信息需求的广度,也代表了信息需求的外延;
  (3)信息需求域较为松散地界定了用户信息需求的一个范围。
  论文中给出了建立需求域的两种机制:用户相关文档反馈机制和伪相关文档反馈机制。用户相关文档反馈机制要求用户从初始查询结果中标注反馈若干个相关文档,用这些文档建立信息需求域。伪相关文档反馈机制从初始检索结果中自动选取前n个(top n)文档,用这n个文档建立需求域。此方法的优点是自动化,无需用户参与,缺点是由于是伪相关文档反馈的结果,所反馈的文档不一定都是用户所需要的文档,因此,所得到的信息需求域是用户需求域的近似域。
  论文在需求域基础上,分析了文档相似度的计算方法,建立了需求域基础上的相似度计算模型。论文在通用的TREC测试集上通过一系列实验对所建立的模型进行了模型训练和分析,并进一步进行了一系列检索性能对比实验,以验证其有效性。在检索性能对比实验中,将所建立的需求域基础上的相似度计算模型与三种经典的模型(伪相关反馈语言模型Mixfb_kl_dir、伪相关反馈tf_idf模型Fb_tf_idf以及伪相关反馈概率模型Fb_okapi)进行了对比,对比实验结果显示,需求域基础上的相似度计算模型的检索性能得到了提高,表明所建立的模型是有效的,结果令人满意。
  与传统的方法相比较,传统的方法往往试图建立信息需求的一种准确的描述,而本文则是为信息需求建立一种较为松散的描述,使用需求域的方法去界定信息需求的一个范围。概况起来,论文研究的主要创新点为:
  (1)提出了用户信息需求域的概念,给出了确定信息需求域的方法;
  (2)提出了一种基于粗糙集的信息需求域的数学模型;
  (3)提出了一种基于信息需求域模型基础上的相似度计算模型。
  总之,论文研究的主要意义在于充实了信息需求的理论基础,并在此基础上建立了相应的相似度计算模型,提高了信息检索性能。从而为信息检索领域提供新的研究思路,充实新的理论和方法,并在实际应用中提高信息检索效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号