首页> 中文学位 >基于时态和搜索关键词间的距离关系的网页排序算法
【6h】

基于时态和搜索关键词间的距离关系的网页排序算法

代理获取

目录

第一章 绪论

1.1 课题研究的背景及意义

1.2 国内外研究现状

1.3 本文的研究内容和论文结构

第二章 搜索引擎相关理论概述

2.1 搜索引擎的发展历程

2.2 网页排序算法介绍

2.3 搜索引擎的原理及相关技术

2.4 搜索引擎评价标准

2.5 本章小结

第三章 基于查询关键词距离关系的网页排序算法

3.1查询关键词的位置信息刻画

3.2关键词的聚类

3.3 关键词集聚类分析

3.4 关键词簇内位序关系

3.5 基于PageRank算法改进的算法

3.6 本章小结

第四章 基于时态和搜索关键词间距关系的网页排序算法

4.1 时态相关理论发展简介

4.2 网页时态关键词的识别

4.3 时态语义

4.4 时态关系与时态匹配度计算

4.5 基于时态和关键词位置的网页排序算法改进

4.6 本章小结

第五章 系统构建与实验分析

5.1 技术选型

5.2 系统架构

5.3 系统实现

5.4 实验结果分析

5.5 本章小结

结论

本文工作总结

展望

参考文献

攻读学位期间发表的论文

声明

致谢

展开▼

摘要

随着信息技术的快速发展,互联网中的网页数量也在不断增加,用户在感受获取信息便利的同时,也伴随着从海量数据中快速查找需要的信息而变得日益困难。在这样的情形下,搜索引擎成为用户快速找到目标信息的最佳途径。搜索引擎是根据一定的策略,从互联网中收集信息,对信息进行组织和处理之后,为用户提供检索服务。一般而言,用户更倾向于点击前几页的网页链接,因此,合理的对返回检索结果进行排序显得尤为重要,这关系到用户对反馈结果的满意度。对搜索引擎的检索结果进行排序的算法中,PageRank算法最具有代表性,PageRank算法是基于网页链接结构,优点在于它对互联网上的网页给出了一个全局的重要性排序,并且算法的计算过程是通过线下完成的,这样有利于迅速响应检索请求,不过,其缺点在于主题无关性,偏重旧网页。
  时间是网页信息中的一个重要纬度,当人们阅读一篇网页新闻时,他们首先会把文章的内容和时态信息联系起来。网页中不仅包含有文本信息,同时也包含有大量的时态信息。而传统的搜索引擎,只是简单的对文本关键词进行检索,却没有关注时态信息的检索,因此,将时间信息运用在Web信息检索中,可以大大加强文本信息检索效果。时态信息包含确定时态信息和不确定时态信息,其中,对不确定时态信息的处理是学术界的难点,它包括对不确定时态信息的语义、时态粒度、时态跨度等定义与分析。针对不确定语义造成的时态不确定性与多样性问题,提出了对不确定语义进行转换的思想,使得时态信息可以参与量化计算。
  构成词语(或者短语)成分之间的线性排列次序也同样反映出人类思维与认知的轨迹,即词序映照人的思维与认知顺序。通过大量的调查发现,一般用户搜索输入的关键词数量集中在2至8个关键词之间,若这些查询关键词集分布在网页内容的位置相对聚集,则表明该网页与用户查询关键词的相关度较高。因此,在Web检索中,加入搜索关键词集之间的位置关系信息在网页中的分布作为排序参考的因子,可以大大提高搜索结果的准确率。
  本文通过对经典的PageRank算法进行研究学习,针对搜索关键词在网页中的距离关系特征,提出了对查询关键词进行聚类的思想,将其转换成计算搜索关键词在网页中的聚集程度,在原有的PageRank算法的基础上增加对关键词的聚合密度考量,并给出了搜索词聚类的形式化描述模型;并结合搜索词中含有时态关键词信息,考虑时态的粒度属性与不确定的语义,提出了一种基于时态和搜索关键词间的距离关系的PageRank改进算法,并最终在实验中验证该算法的有效性。
  论文的主要创新点在于:(1)利用层次聚类的方式将网页中的查询关键词进行聚类,通过遍历聚类之后的各个簇来分析聚类效果,包括聚类簇是否在一句话中、簇中命中查询关键词个数等,利用这些特征,结合 PageRank算法进行网页权值打分排序。(2)分析聚类之后簇中关键词与查询关键词的位序关系,给予不同的位序权重。(3)结合查询关键词包含时态信息进行网页检索排序。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号