基于语言模型的文本检索技术及检索结果重排序的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息检索(InformationRetrieval,IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算，从而影响最终的返回结果。因此，对检索模型的研究和改进对于信息检索有着十分重要的意义。
　　2005年863信息检索评测是本文的一个重要课题背景。本文首先介绍了在2005年863评测中构造的信息检索系统使用的各种文本处理技术，如超文本正文提取、分词、全文索引、查询自动生成等等。这些技术是多检索模型融合研究的基础。
　　向量空间模型VSM是得到广泛应用的经典检索模型之一。可是VSM本身排序策略是经验性强的公式，而且没有深入到语言层面。为了利用语言知识进行检索，近年来基于统计语言模型(SLM-based)的信息检索得到了快速发展。本文研究重点之一是研究SLM-based语言模型中Ponte、GLM模型在中文检索测试集上的表现，并与经典的VSM对比。
　　在基于词义语言模型的信息检索研究中，介绍了同义词词典的词义表示方法，在实验中使用TREC语料把基于词义的语言模型并与其他语言模型进行了比较，实验表明，基于词义的语言模型方法要好于传统的TD-IDF方法，如果有更加精准的词义消歧工具，实验结果还会有进一步提高。
　　在检索结果重排序部分，本文提出了将不同检索系统的结果相融合的方法，并采用线性插值的方法来对不同检索模型之间的检索结果进行融合实验。研究和实验显示，多模型融合能够更好地将各种影响信息检索的因素融合为一体，为中文信息检索提供更为强大的工具，为人们提供更好的信息服务。

著录项

作者
胡晓光;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名唐好选;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
语言模型; 文本检索技术; 检索结果重排序; 向量空间模型;

相似文献

中文文献
外文文献
专利

1. 一种基于文档相似度的检索结果重排序方法 [J] . 周博 ,岑荣伟 ,刘奕群 . 中文信息学报 . 2010,第003期
2. 基于聚类语言模型的生物文献检索技术研究 [J] . 文健 ,李舟军 . 中文信息学报 . 2008,第001期
3. 一种基于语言模型的微博检索技术 [J] . 潘超 ,王菁菁 . 电子设计工程 . 2015,第009期
4. 基于预训练语言模型的建筑施工安全事故文本的命名实体识别研究 [J] . 宋建炜 ,邓逸川 ,苏成 . 图学学报 . 2021,第002期
5. 基于预训练语言模型的建筑施工安全事故文本的命名实体识别研究 [J] . 宋建炜 ,邓逸川 ,苏成 . 图学学报 . 2021,第002期
6. 相关反馈任务中一种基于文档相似度的检索结果重排序方法 [C] . 周博 ,岑荣伟 ,刘奕群 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 统计语言模型N-best重排序算法的研究 [A] . 郭一鸣 . 2013

基于语言模型的文本检索技术及检索结果重排序的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅