基于时态和搜索关键词间的距离关系的网页排序算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的快速发展，互联网中的网页数量也在不断增加，用户在感受获取信息便利的同时，也伴随着从海量数据中快速查找需要的信息而变得日益困难。在这样的情形下，搜索引擎成为用户快速找到目标信息的最佳途径。搜索引擎是根据一定的策略，从互联网中收集信息，对信息进行组织和处理之后，为用户提供检索服务。一般而言，用户更倾向于点击前几页的网页链接，因此，合理的对返回检索结果进行排序显得尤为重要，这关系到用户对反馈结果的满意度。对搜索引擎的检索结果进行排序的算法中，PageRank算法最具有代表性，PageRank算法是基于网页链接结构，优点在于它对互联网上的网页给出了一个全局的重要性排序，并且算法的计算过程是通过线下完成的，这样有利于迅速响应检索请求，不过，其缺点在于主题无关性，偏重旧网页。
　　时间是网页信息中的一个重要纬度，当人们阅读一篇网页新闻时,他们首先会把文章的内容和时态信息联系起来。网页中不仅包含有文本信息，同时也包含有大量的时态信息。而传统的搜索引擎，只是简单的对文本关键词进行检索，却没有关注时态信息的检索，因此，将时间信息运用在Web信息检索中，可以大大加强文本信息检索效果。时态信息包含确定时态信息和不确定时态信息，其中，对不确定时态信息的处理是学术界的难点，它包括对不确定时态信息的语义、时态粒度、时态跨度等定义与分析。针对不确定语义造成的时态不确定性与多样性问题，提出了对不确定语义进行转换的思想，使得时态信息可以参与量化计算。
　　构成词语(或者短语)成分之间的线性排列次序也同样反映出人类思维与认知的轨迹,即词序映照人的思维与认知顺序。通过大量的调查发现，一般用户搜索输入的关键词数量集中在2至8个关键词之间，若这些查询关键词集分布在网页内容的位置相对聚集，则表明该网页与用户查询关键词的相关度较高。因此，在Web检索中，加入搜索关键词集之间的位置关系信息在网页中的分布作为排序参考的因子，可以大大提高搜索结果的准确率。
　　本文通过对经典的PageRank算法进行研究学习，针对搜索关键词在网页中的距离关系特征，提出了对查询关键词进行聚类的思想，将其转换成计算搜索关键词在网页中的聚集程度，在原有的PageRank算法的基础上增加对关键词的聚合密度考量，并给出了搜索词聚类的形式化描述模型；并结合搜索词中含有时态关键词信息，考虑时态的粒度属性与不确定的语义，提出了一种基于时态和搜索关键词间的距离关系的PageRank改进算法，并最终在实验中验证该算法的有效性。
　　论文的主要创新点在于：（1）利用层次聚类的方式将网页中的查询关键词进行聚类，通过遍历聚类之后的各个簇来分析聚类效果，包括聚类簇是否在一句话中、簇中命中查询关键词个数等，利用这些特征，结合 PageRank算法进行网页权值打分排序。（2）分析聚类之后簇中关键词与查询关键词的位序关系，给予不同的位序权重。（3）结合查询关键词包含时态信息进行网页检索排序。

著录项

作者
杨翰;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科软件工程
授予学位硕士
导师姓名左亚尧;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
网页排序算法; 搜索引擎; 信息检索; 距离关系特征;

相似文献

中文文献
外文文献
专利

1. 基于社区搜索模块排序算法的网页设计教学质量评估系统 [J] . 李素贞 . 现代电子技术 . 2020 ,第004期
2. 基于领域模型的网页搜索排序算法 [J] . 潘澄 ,吴共庆 ,李磊 . 计算机系统应用 . 2015 ,第011期
3. 基于网页分块的搜索引擎排序算法改进 [J] . 高乐 ,张健 ,钱杰 . 浙江工业大学学报 . 2009 ,第005期
4. 一种基于关键词的网页搜索结果多样化方法 [J] . 林古立 ,彭宏 ,马千里 . 华南理工大学学报（自然科学版） . 2011 ,第005期
5. 基于网页布局及关键词组的垂直搜索技术 [J] . 龙波 ,邓健爽 ,陈琼 . 现代计算机（专业版） . 2006 ,第009期
6. 搜索引擎中关键词间语义关系的研究 [C] . 李卫星 ,康南生 ,牛文琪 . 第二届全国Web信息系统及其应用会议（WISA2005'） . 2005
7. 基于搜索引擎网页排序算法研究 [A] . 李宜兵 . 2011

基于时态和搜索关键词间的距离关系的网页排序算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅