首页> 中文学位 >信息检索中的查询扩展及相关技术研究
【6h】

信息检索中的查询扩展及相关技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景

1.2查询扩展研究现状

1.3本文主要工作

1.4本文内容组织

第二章信息检索及其相关理论概述

2.1信息检索概述

2.2信息检索概念

2.3信息检索相关技术

2.3.1索引模型

2.3.2网络爬虫

2.3.3中文分词

2.3.4文本分类

2.3.5相关性排序研究

2.4信息检索评价

第三章N层向量空间模型及其应用研究

3.1相关研究工作

3.1.1布尔模型

3.1.2向量空间模型

3.1.3概率模型

3.2 N层向量空间模型

3.3实验结果及分析

第四章基于局部共现的查询扩展方法研究

4.1查询扩展意义

4.2相关研究工作

4.2.1基于用户相关反馈的查询扩展

4.2.2基于全局语料集的查询扩展

4.2.3基于局部文档集的查询扩展

4.3基于局部共现的查询扩展方法

4.3.1局部共现定义

4.3.2扩展词选取策略

4.3.3扩展词重新加权

4.4实验结果及分析

4.4.1实验测试集

4.4.2评测方法

4.4.3实验结果与分析

第五章网络信息检索系统设计与实现

5.1系统设计

5.2系统主要功能模块

5.2.1网页预处理模块

5.2.2分词模块

5.2.3索引生成模块

5.2.4检索模块

5.2.5查询扩展模块

5.3系统性能评价

第六章总结与展望

6.1全文总结

6.2进一步工作

参考文献

硕士期间发表的论文和参与的项目

致谢

展开▼

摘要

随着互联网技术的迅速发展,网上信息飞速增长。如何从这些海量信息中检索出所需要的相关信息已成为一个非常重要的研究课题。而由于用户查询与文档信息不匹配和表达不完整等现象的存在,传统信息检索的结果难以达到用户的查询目标。因此研究信息检索中的查询扩展技术,通过对用户的初始查询进行扩展和重构,具有重要的理论价值和实践意义。本文的主要研究工作如下: (1)比较研究了传统检索模型的检索性能,包括布尔模型、向量空间模型和概率模型。并提出了一种改进的向量空间模型——N层向量空间模型,该模型首先识别文档的结构,将文档划分为N层,根据各层对文档的重要程度,给各层中词项的权重赋予不同的比例系数,对词项的权重进行调整,以更好地区分相关文档和不相关文档,提高系统的检索性能。 (2)重点分析研究了基于用户相关反馈的查询扩展方法、基于全局语料集的查询扩展方法和基于局部文档集的查询扩展方法,比较了它们各自的优势和局限性。结合基于全局语料集的方法和基于局部文档集的方法的优势,提出了一种基于局部共现的查询扩展方法。该方法利用词项与所有查询词在局部文档集中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与查询主题有更好的语义相关性。在NTCIR一6测试集上进行的实验结果表明,相对于伪相关反馈方法,基于局部共现的方法具有更优的检索性能以及更好的稳定性和实用性。 (3)设计并实现了一种网络信息检索系统,该系统采用了N层向量空间模型以更好地区分相关文档和不相关文档,使用基于局部共现的查询扩展方法对查询进行扩展,提高了系统的召回率和准确率,本系统还具有良好的可扩展性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号