首页> 中文学位 >PageRank算法应用在文献检索排序中的研究及改进
【6h】

PageRank算法应用在文献检索排序中的研究及改进

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 引言

1.1 研究背景

1.2 课题来源

1.3 研究现状和意义

1.4 本人主要工作

1.5 论文组织结构

第2章 PageRank算法的原理和基本思路

2.1 PageRank算法概述

2.2 PageRank算法原理和基本思路

2.3Rank Sink与Rank Leak

2.4 PageRank算法的计算

2.5 PageRank算法总结

第3章 PageRank算法应用到文献检索

3.1 链接分析和引文分析概述

3.2 链接分析和引文分析的相似性和差异性

3.3 PageRank算法应用到文献检索的可行性分析

3.4 PageRank算法的应用

第4章 多维检索排序算法

4.1 文献价值分析

4.2 文献活跃度

4.3 多维检索排序法

第5章 系统设计与实证分析

5.1 系统设计

5.2 系统开发

第6章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

随着互联网的高速发展,越来越多的信息以电子形态存储和交换,于是信息检索技术应运而生,并且仍在不断的发展和完善。文献检索作为科研人员获取资源信息的重要途径,已经成为信息检索中一块重要的领域。科学的文献检索可以帮助科研人员借鉴和总结前人的研究成果,不仅能够促进文献资源的迅速开发和利用,还可以避免重复研究等现象的出现。
  传统文献检索大多按照被引次数、发表时间、搜索词出现频次等条件之一对结果进行排序,角度单一且忽略了文献相互引用带来的价值流动,往往会出现部分文献排名过高或过低的现象。为此,很多国内外学者提出将PageRank算法应用到文献检索中,并取得了一定程度的改进,但是仍忽略了一些特殊情况,如文献使用价值可能会随时间的推移而产生衰退,还有一些发表时间较短的文献被引次数为零,如何去评估他的价值等。
  本文针对这些问题,提出了一种多维检索排序法,在对文献间互引所构成的引文网络的结构进行分析的基础上,综合考虑各种因素带来的影响,并引入文献活跃度的概念,以加权的方式将文献价值量化。最后,本文选择开源网络爬虫Heritrix作为样本采集工具,采用Struts2开发框架,Html+JavaScript脚本语言以及Oracle11g数据库等开发工具设计并实现了一个简易的在线文献检索系统。
  该系统从中国知网上爬取对文献进行描述的Html和Aspx文件并进行解析,通过解析结果创建实验数据集。实验证明,多维检索排序法比传统文献检索排序法效果更好,而且由权值迭代所带来的额外的计算量大部分为离线完成,在提高准确率的同时也很好的保持了检索的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号