首页> 中文学位 >提高信息检索性能的有效机制与算法研究
【6h】

提高信息检索性能的有效机制与算法研究

代理获取

目录

文摘

英文文摘

声明和关于论文使用授权的说明

第一章引言

1.1信息检索的现状

1.2 WEB信息特点及融合多元特征的WEB信息检索

1.3用反馈提高信息检索的性能

1.4本文的组织

第二章信息检索概述

2.1基本定义

2.2评价方法

2.2.1准确率和召回率

2.2.2准确率和召回率变化图

2.2.3平均准确率

2.2.4相关文档对应的平均准确率

2.2.5 R—准确率

2.3布尔检索模型

2.4向量空间模型

2.4.1用向量表示文档

2.4.2词的权重

2.4.3查询的向量化表示

2.4.4权重的规格化

2.4.5相似度计算

2.5概率检索模型

第三章综合利用多元特征的更精确WEB信息检索

3.1 WEB信息检索简介

3.2 TREC简介

3.3基于文本内容的检索

3.4命名网页发现/主页发现子任务

3.5主题提取子任务

3.6本章小结

第四章伪相关反馈应用参数稳定性分析与检索性能的改进

4.1伪相关反馈简介

4.1.1向量空间模型中的反馈方法

4.1.2概率模型中的反馈

4.1.3伪相关反馈方法的缺陷

4.2扩展规模对伪相关反馈的影响

4.3默认的相关文档数量对反馈性能的影响

4.4扩展索引词权重加权参数对反馈性能的影响

4.5动态调整反馈参数的设想

第五章基于互信息的伪相关反馈与查询扩展

5.1改进伪相关反馈技术的研究

5.2在反馈中引入互信息

5.3利用互信息进行伪相关反馈的实验

5.4本章小结

第六章总结与展望

参考文献

致谢

作者简介

展开▼

摘要

随着互联网的飞速发展,以电子形式存在的信息大量增长,在给用户带来更多可获取的信息的同时,也给用户获取这些信息增加了难度.如果没有合理的信息检索手段,人们很难充分利用这些信息.信息检索技术可以帮助人们从大规模的文本数据中获取所需要的信息.而WEB信息检索又同传统的信息检索不同,WEB的呈现方式与普通文本有区别,同时WEB还有自身的拓扑结构.在参加文本检索会议(TREC)的过程中,我们对如何利用这些WEB的特性来对传统的信息检索技术进行改造进行了研究,并取得了一定的成果.由于在自然语言理解上尚无法取得突破,计算机还仅能从用户提交查询中关键词的有无来判断是否相关,检索系统不能智能的判断文档的相关性,使得用户构造查询的难度也大大增加.反馈可以帮助系统对用户的查询进行改造,目的是更精确的描述用户的需求.伪相关反馈是指无需用户参与的一种反馈方法.伪相关反馈实际上是一种统计方法,利用它可以自动调整查询计算模型的参数,也可以对查询特征进行更精确的扩展.我们首先通过对影响反馈性能因素的研究,得到稳定的参数调整方法,并提出了一种动态调整反馈参数的构想.同时,用户的查询输入是需求的简单表述,我们利用互信息作为查询扩展时特征选择的依据之一,降低反馈后查询的不确定性,从而达到最高反馈性能的目的.这种方法在TREC2002主题提取子任务中取得了不错的效果,跟传统的反馈算法相比有较大的提高.

著录项

  • 作者

    杨哲;

  • 作者单位

    中国科学院计算技术研究所;

  • 授予单位 中国科学院计算技术研究所;
  • 学科 计算机软件理论
  • 授予学位 硕士
  • 导师姓名 程学旗;
  • 年度 2004
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 检索机;
  • 关键词

    信息检索; WEB检索; 伪相关反馈; 互信息;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号