首页> 中文学位 >Web结构挖掘中PageRank算法研究
【6h】

Web结构挖掘中PageRank算法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

1.1论文研究背景

1.2国内外研究现状

1.3本文的研究意义和主要工作

1.4本文的组织结构

第二章数据挖掘概述及相关知识

2.1数据挖掘简介

2.1.1数据挖掘的由来

2.1.2数据挖掘的定义

2.1.3数据挖掘的步骤

2.1.4数据挖掘的发展趋势

2.2 Web数据挖掘简介

2.2.1 Web数据挖掘的定义

2.2.2 Web数据挖掘的特点

2.2.3 Web数据挖掘的步骤

2.3 Web数据挖掘的分类

2.3.1 Web内容挖掘

2.3.2 Web结构挖掘

2.3.3 Web访问信息挖掘

2.4本章小结

第三章Web结构挖掘算法

3.1 PageRank算法

3.1.1引言

3.1.2算法原理

3.1.3PageRank算法的问题

3.2 HITS算法

3.2.1引言

3.2.2算法原理

3.2.3 HITS算法存在的问题

3.3 PageRank算法与HITS算法的比较

3.4本章小结

第四章Web结构挖掘算法改进

4.1强化学习简介

4.1.1强化学习定义

4.1.2强化学习分类

4.2 DisRank算法

4.2.1问题描述

4.2.2算法描述

4.3本章小结

第五章Web结构挖掘改进算法测试与分析

5.1实验方案

5.2实验步骤

5.2.1主题选取

5.2.2数据的收集

5.2.3算法实现

5.3实验结果与分析

5.4本章小结

第六章总结与展望

6.1研究总结

6.2对今后工作的展望

参考文献

攻读学位期间发表(录用)论文

致谢

展开▼

摘要

随着Web信息技术的迅速发展,用户可以越来越方便快捷地获取各种信息,与此同时,也面临着如何从大量Web信息中获取相关及有用信息的问题。虽然,通过使用传统的Google、百度、Lycos等搜索引擎,可以大大减少无用信息的干扰,但这些搜索引擎搜索的结果有时也不完整或不相关,很难完全满足用户的需求。值得庆幸的是,目前Web数据挖掘技术的研究可以解决Web上过量信息的问题,通过对Web超链接结构进行分析,为用户提供更精确、更相关的数据。因此,Web数据挖掘逐渐成为目前研究的热点。 本文从Web结构挖掘入手,在对Web结构挖掘中典型算法PageRank深入研究的基础上,针对PageRank算法只考虑Web页面之间的链接关系而忽略Web页面本身的文本内容,对权威性高的网页随着时间的推移赋予很高的权威值,而对新出现的网页赋予很低的权威值,从而导致搜索结果出现“主题漂移”和种种缺陷的问题,提出了一种基于超链接网页之间的距离及强化学习相结合的改进算法——DisRank。该算法把网页之间的距离作为“处罚”因子,以此来计算Web网页的等级值及对其进行排序。我们首先通过网页爬行算法抓取基于某个主题的、一定数量的网页作为训练样本,然后存储到数据库中,最后分别调用PageRank算法和改进算法DisRank进行实验,以证明改进算法的有效性。这其中包括改进算法DisRank抓取相关网页的吞吐量、不同β取值算法的吞吐量、精确度、收敛速度及算法时间复杂度等。 最后,对本文所做的工作进行了总结,并提出改进算法需要进一步完善的地方及下一步研究工作的方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号