Web结构挖掘中PageRank算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Web信息技术的迅速发展，用户可以越来越方便快捷地获取各种信息，与此同时，也面临着如何从大量Web信息中获取相关及有用信息的问题。虽然，通过使用传统的Google、百度、Lycos等搜索引擎，可以大大减少无用信息的干扰，但这些搜索引擎搜索的结果有时也不完整或不相关，很难完全满足用户的需求。值得庆幸的是，目前Web数据挖掘技术的研究可以解决Web上过量信息的问题，通过对Web超链接结构进行分析，为用户提供更精确、更相关的数据。因此，Web数据挖掘逐渐成为目前研究的热点。本文从Web结构挖掘入手，在对Web结构挖掘中典型算法PageRank深入研究的基础上，针对PageRank算法只考虑Web页面之间的链接关系而忽略Web页面本身的文本内容，对权威性高的网页随着时间的推移赋予很高的权威值，而对新出现的网页赋予很低的权威值，从而导致搜索结果出现“主题漂移”和种种缺陷的问题，提出了一种基于超链接网页之间的距离及强化学习相结合的改进算法——DisRank。该算法把网页之间的距离作为“处罚”因子，以此来计算Web网页的等级值及对其进行排序。我们首先通过网页爬行算法抓取基于某个主题的、一定数量的网页作为训练样本，然后存储到数据库中，最后分别调用PageRank算法和改进算法DisRank进行实验，以证明改进算法的有效性。这其中包括改进算法DisRank抓取相关网页的吞吐量、不同β取值算法的吞吐量、精确度、收敛速度及算法时间复杂度等。最后，对本文所做的工作进行了总结，并提出改进算法需要进一步完善的地方及下一步研究工作的方向。

著录项

作者
范聪贤;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名徐汀荣;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序设计、软件工程;
关键词
数据挖掘; 超链接结构; PageRank算法;

相似文献

中文文献
外文文献
专利

1. 基于PageRank和HITS的Web结构挖掘算法研究 [J] . 刘栋 ,刘希玉 ,郝婷婷 . 山东科学 . 2006,第004期
2. Web结构挖掘中的PageRank算法改进 [J] . 钱杰 ,张健 ,高乐 . 计算机系统应用 . 2008,第007期
3. 应用Web结构挖掘的PageRank算法的改进研究 [J] . 范聪贤 ,刘秋菊 ,徐汀荣 . 计算机工程与应用 . 2010,第009期
4. Web结构挖掘的PageRank算法改进 [J] . 吴春旭 ,郭磊 . 情报杂志 . 2005,第010期
5. 数据挖掘中pagerank算法研究 [J] . 刘学超 . 计算机光盘软件与应用 . 2012,第002期
6. Web结构挖掘在互联网资源搜索引擎中的应用研究 [C] . 李凯 ,穆筝 ,孙大鹏 . 辽宁省通信学会2010年通信网络与信息技术年会 . 2010
7. Web结构挖掘中的页面排序算法研究 [A] . 杨成 . 2011

Web结构挖掘中PageRank算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅