基于语言模型的网页排序问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

排序问题是信息检索领域的核心问题,多年来一直是信息检索领域研究的热点。Web是当今最大的非结构化数据集合,如何排序web文档必然成为了信息检索领域研究的焦点所在。而语言模型建立在完善的统计理论基础之上,可以采用统计学方法便捷的进行模型参数估计,同时能够很好的适用于各种复杂的检索问题。作为处理网页检索问题的性能最好的非监督方法之一,在引入到信息检索领域之后,就得到了大量学者的重视和研究。近些年来,基于语言模型的方法逐渐形成了一套完整的检索模型体系。经典语言模型在处理网页排序问题时,存在着对查询单词之间的关联考虑不足、进行未见词平滑时对数据的层次没有加以更好的利用以及对于文档先验概率的忽视三个方面的问题。本文由语言模型中文档查询似然概率、未见词平滑算法和文档先验概率这三个方面入手,探讨了其中的一些改进。
　　本文由基于贝叶斯风险最小化理论得出的相似性公式为出发点,以查询产生每个单词及元组的概率不同为假设,提出了考虑查询单词之间多个元组共同出现的概率分布的方法建立查询模型。并且,在此模型基础之上,提出了基于多元组的文档-查询相似度算法。同时,考虑了算法实现的可能性和可用性,给出了一个切合实际的算法,并且用实验验证了算法的有效性。本文在实验结果中,分析了该算法的引入所带来性能提升的主要因为,总结了该算法本身的优劣。
　　同时,本文探讨了互联网数据本身的结构特性和层次特征,即互联网本身是由文档、目录、站点、整个互联网这四个层次逐层组成的有机结构。本文在此基础上,提出了一种基于这四个层次数据来进行语言模型中未见词平滑的算法。同时,本文考虑了多层次算法实现细节和数据结构相关内容,并且用实验验证了多层平滑算法由于加入了更多的层级信息,给平滑带来了一定程度的性能提升。
　　与以往的工作不同,本文将文档的先验概率视为语言模型非常重要的一部分,本文通过探讨多种文档先验概率知识和文档相关性之间的相关关系来说明,很多与文档和查询内容无关的先验知识可以用于排序之中。同时,本文尝试了使用朴素贝叶斯方法来进行多种先验知识的融合,并对这种融合后的语言模型的性能进行了实验验证,结果表明语言模型的整体性能获得了很大的提升。

著录项

作者
杨波;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名黄亚楼;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
语言模型; 网页排序; 文档相关性; 算法实现; 信息检索; 先验概率; 文档查询; 实验验证; 互联网数据; 平滑算法; 先验知识; 四个层次; 排序问题; 检索问题; 朴素贝叶斯方法; 单词; 相似度算法; 整体性能; 有机结构; 相关关系;

相似文献

中文文献
外文文献
专利

1. 基于Web网页与PDF文档自动构建更新语言模型 [J] . 张强 ,陶宏才 . 成都信息工程学院学报 . 2009,第005期
2. 基于Web网页语料构建动态语言模型 [J] . 李雪涛 ,文茂平 ,杨鉴 . 信息技术 . 2006,第008期
3. 基于机器语言模型的小区开放对道路影响问题研究 [J] . 王锦升 ,蒋志豪 . 数学建模及其应用 . 2018,第004期
4. 基于机器语言模型的小区开放对道路影响问题研究 [J] . 王锦升1 ,蒋志豪1 . 数学建模及其应用 . 2018,第004期
5. 基于单机排序和多因素决策的飞机排序问题研究 [J] . 陈爽 ,夏学知 ,何志峰 . 舰船电子工程 . 2008,第004期
6. 一种基于社会性标注的网页排序算法 [C] . 刘凯鹏 ,方滨兴 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 基于改进PageRank算法的网页排序问题研究 [A] . 周秋丽 . 2016

基于语言模型的网页排序问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅