首页> 中文学位 >基于语言模型的文本检索技术及检索结果重排序的研究
【6h】

基于语言模型的文本检索技术及检索结果重排序的研究

代理获取

目录

基于语言模型的文本检索技术及检索结果重排序的研究

RESEARCH ON INFORMATIONRETRIEVAL BASED ON LANGUAGEMODEL AND RERANKING FORRETRIEVAL RESULTS

摘要

Abstract

第1章 绪论

1.1 课题背景及意义

1.2 课题研究现状

1.3 “863 计划信息检索评测”介绍

1.4 IRWEB 检索系统介绍

第2章 文本检索预处理技术

2.1 文本预处理

2.2 超文本正文提取

2.3 语言处理

2.4 全文自动索引

2.5 查询的自动生成

2.6 本章小结

第3章 基于一般语言模型的文本检索

3.1 一般语言模型

3.2 Ponte 模型

3.3 一般语言模型与其他模型的对比

3.4 主要平滑方法

3.5 平滑方法间的比较

3.6 本章小结

第4章 基于词义语言模型的文本检索

4.1 基于同义词词典的词义表示

4.2 基于词义的语言模型

4.3 参数估计

4.4 实验结果及分析

4.5 本章小结

第5章 检索结果重排序

5.1 重排序方法

5.2 实验及结果分析

5.3 语言模型之间的融合

5.4 本章小结

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

信息检索(InformationRetrieval,IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算,从而影响最终的返回结果。因此,对检索模型的研究和改进对于信息检索有着十分重要的意义。
  2005年863信息检索评测是本文的一个重要课题背景。本文首先介绍了在2005年863评测中构造的信息检索系统使用的各种文本处理技术,如超文本正文提取、分词、全文索引、查询自动生成等等。这些技术是多检索模型融合研究的基础。
  向量空间模型VSM是得到广泛应用的经典检索模型之一。可是VSM本身排序策略是经验性强的公式,而且没有深入到语言层面。为了利用语言知识进行检索,近年来基于统计语言模型(SLM-based)的信息检索得到了快速发展。本文研究重点之一是研究SLM-based语言模型中Ponte、GLM模型在中文检索测试集上的表现,并与经典的VSM对比。
  在基于词义语言模型的信息检索研究中,介绍了同义词词典的词义表示方法,在实验中使用TREC语料把基于词义的语言模型并与其他语言模型进行了比较,实验表明,基于词义的语言模型方法要好于传统的TD-IDF方法,如果有更加精准的词义消歧工具,实验结果还会有进一步提高。
  在检索结果重排序部分,本文提出了将不同检索系统的结果相融合的方法,并采用线性插值的方法来对不同检索模型之间的检索结果进行融合实验。研究和实验显示,多模型融合能够更好地将各种影响信息检索的因素融合为一体,为中文信息检索提供更为强大的工具,为人们提供更好的信息服务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号