首页> 中文学位 >检索结果集选取算法研究
【6h】

检索结果集选取算法研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景及意义

1.1.1搜索引擎的发展

1.1.2目前搜索引擎存在的问题

1.2搜索引擎排序技术

1.2.1以传统IR技术为基础的内容分析技术

1.2.2基于信息发布者知识信息的技术

1.2.3基于信息检索者知识信息的技术

1.3新颖性研究技术

1.3.1事件级别上的新颖性发现

1.3.2语句级别上的新颖性发现

1.4最小文档集合生成技术研究

1.5相关工作的不足

1.6本论文研究的主要目的和内容

1.7论文的算法概述及结构

第2章检索结果集的选取算法

2.1查询主题与相关结果的获取

2.2算法描述

2.2.1获取子主题

2.2.2相关结果集合的生成

2.3本章小结

第3章相关结果集的排序算法

3.1相关度

3.2并集度

3.3新颖度

3.4相关结果集的排序算法

3.5本章小结

第4章实验与结果分析

4.1数据集

4.1.1查询主题集

4.1.2查询的相关结果集

4.1.3文档聚类集合

4.2评估方法

4.3评估结果

4.4本章小结

结论

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

随着网络的发展,网络上的信息量不断增加,为了让人们能够方便地从海量信息中获得所需信息,搜索引擎技术应运而生并且不断发展壮大。但是现在搜索引擎上查看的结果都是单一呈现的,结果孤立缺乏整体性,依然需要用户人工对信息进行组装,进而获得一个完整的信息,同时结果之间包含的信息具有很大的冗余性,特别是排在前面的结果冗余更大。这就需要寻求一种方法尽量来解决这个问题。
   本文分析了现有搜索引擎的排序算法,结果之间新颖性的研究方法以及最小文档集合生成算法,得出现有搜索引擎返回给用户的相关结果存在着结果之间冗余性较大,结果单一以及信息不完整等不足,在满足用户查询需求的满意度上有一定的局限性。所以本文利用了一种基于子主题提取的文档集合生成算法对相关检索结果进行组合,并且提出了一个并集度的概念,又考虑了新颖性方法,提出了一个新颖度定义,并给出了公式说明,利用结果集合的相关度、并集度和新颖度对初始结果集合进行重新排序,保证排在前面的文档集合在不降低相关性的基础上,尽量使集合包含的信息更加完整,冗余性更小。
   对于算法中的三个因素,采用了实验对比的方法来确定他们的因子。确定因子组合后,根据此因子组合得到的文档聚类集合的结果,和初始文档集合进行实验结果比较,实验结果表明在进行算法改进后,整体相关度有所上升,同时排在前面的文档集合又具有较大的并集性和新颖性。这样的结果不仅满足了用户的查询请求,同时让用户获得了更好的查询满意度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号