首页> 中文学位 >基于语言模型的网页排序问题研究
【6h】

基于语言模型的网页排序问题研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 引言

1.2 研究现状

1.2.1 信息检索中的排序模型

1.2.2 语言模型

1.3 本文主要研究内容

1.3.1 基于多元组的文档-查询相似度算法研究

1.3.2 基于互联网多层次特性的平滑算法研究

1.3.3 基于朴素贝叶斯的文档先验概率估计

1.4 本文组织结构

第二章 相关工作综述

2.1 信息检索

2.1.1 布尔逻辑模型

2.1.2 向量空间模型

2.1.3 概率检索模型

2.1.4 统计语言模型

2.1.5 基于监督学习方法的排序模型

2.2 统计语言模型详述

2.2.1 信息检索中的语言模型

2.3 信息检索评价指标

2.3.1 MAP

2.3.2 rNDCG

第三章 基于互联网特性的文档-查询相似度估计

3.1 引言

3.2 基于多元组的文档-查询相似度算法

3.2.1 查询模型

3.2.2 基于多元组的文档-查询相似度算法

3.3 基于多元组的文档-查询相似度算法性能分析

3.3.1 实验平台简介

3.3.2 实验结果及分析

3.4 基于互联网多层次特性的平滑算法

3.4.1 多层次平滑的意义及模型

3.4.2 多层次数据存储结构及构建算法

3.4.3 基于互联网多层次特性的平滑算法

3.5 基于互联网多层次特性的平滑算法实验与分析

3.5.1 实验设置

3.5.2 实验结果及分析

3.6 基于互联网特性的文档-查询相似度算法实验及分析

第四章 基于朴素贝叶斯的文档先验概率估计

4.1 引言

4.2 文档结构知识与相关性

4.2.1 URL深度

4.2.2 文档长度

4.2.3 Inlinks和Outlinks

4.2.4 PageRank、HITS Authority/Hub

4.3 文档先验知识融合

4.4 实验及分析

4.4.1 原始文档-查询相似度数据

4.4.2 实验及结果分析

第五章 结束语

5.1 本文工作总结

5.2 未来工作展望

参考文献

致谢

个人简历

展开▼

摘要

排序问题是信息检索领域的核心问题,多年来一直是信息检索领域研究的热点。Web是当今最大的非结构化数据集合,如何排序web文档必然成为了信息检索领域研究的焦点所在。而语言模型建立在完善的统计理论基础之上,可以采用统计学方法便捷的进行模型参数估计,同时能够很好的适用于各种复杂的检索问题。作为处理网页检索问题的性能最好的非监督方法之一,在引入到信息检索领域之后,就得到了大量学者的重视和研究。近些年来,基于语言模型的方法逐渐形成了一套完整的检索模型体系。经典语言模型在处理网页排序问题时,存在着对查询单词之间的关联考虑不足、进行未见词平滑时对数据的层次没有加以更好的利用以及对于文档先验概率的忽视三个方面的问题。本文由语言模型中文档查询似然概率、未见词平滑算法和文档先验概率这三个方面入手,探讨了其中的一些改进。
   本文由基于贝叶斯风险最小化理论得出的相似性公式为出发点,以查询产生每个单词及元组的概率不同为假设,提出了考虑查询单词之间多个元组共同出现的概率分布的方法建立查询模型。并且,在此模型基础之上,提出了基于多元组的文档-查询相似度算法。同时,考虑了算法实现的可能性和可用性,给出了一个切合实际的算法,并且用实验验证了算法的有效性。本文在实验结果中,分析了该算法的引入所带来性能提升的主要因为,总结了该算法本身的优劣。
   同时,本文探讨了互联网数据本身的结构特性和层次特征,即互联网本身是由文档、目录、站点、整个互联网这四个层次逐层组成的有机结构。本文在此基础上,提出了一种基于这四个层次数据来进行语言模型中未见词平滑的算法。同时,本文考虑了多层次算法实现细节和数据结构相关内容,并且用实验验证了多层平滑算法由于加入了更多的层级信息,给平滑带来了一定程度的性能提升。
   与以往的工作不同,本文将文档的先验概率视为语言模型非常重要的一部分,本文通过探讨多种文档先验概率知识和文档相关性之间的相关关系来说明,很多与文档和查询内容无关的先验知识可以用于排序之中。同时,本文尝试了使用朴素贝叶斯方法来进行多种先验知识的融合,并对这种融合后的语言模型的性能进行了实验验证,结果表明语言模型的整体性能获得了很大的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号