首页> 中文学位 >基于MapReduce计算模型的PageRank算法的优化与实现
【6h】

基于MapReduce计算模型的PageRank算法的优化与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

专用术语注释表

第一章 绪论

1.1研究的背景及意义

1.2国内外研究现状

1.3论文的组织结构

第二章 Web结构挖掘和分布式计算

2.1链接分析简介

2.2 PageRank算法简介

2.3 HITS算法简介

2.4其他链接分析算法

2.5分布式计算

2.6本章小结

第三章 PageRank算法的优化

3.1主题漂移现象优化

3.2网页权值平均化现象优化

3.3侧重旧网页现象优化

3.4用户兴趣无关性现象优化

3.5 I-PR算法实验分析

3.6本章小结

第四章 分布式I-PR算法

4.1数据的预处理

4.2 Map函数处理

4.3 Combine过程

4.4 Reduce函数处理

4.5分布式平台搭建

4.6实验

4.7本章小结

第五章 总结与展望

5.1本文的工作总结

5.2进一步工作展望

参考文献

致谢

展开▼

摘要

随着互联网数据量的激增,对网络中的海量数据的分析以及信息挖掘都面临着在计算能力和存储空间方面的瓶颈。针对此瓶颈,一般会选用MapReduce去处理,MapReduce是一个编程模型,主要用于在一个集群中用并行、分布式算法处理针对大型数据集的可并行化的问题。该模型主要融合了网格计算、并行化、分布式等技术,不仅降低了终端设备要求,而且提高了数据处理能力。本文旨在针对经典的基于链接关系的网页排名算法PageRank存在的不足,优化网页排名算法,并设计适于MapReduce分布式计算模型的优化算法。
  本文主要工作如下:
  (1)对Web结构挖掘理论做了深入分析,并重点研究了PageRank算法、HITS算法、SALSA算法等以及这些算法之间的异同。
  (2)针对PageRank算法常见的四个缺点(主题漂移、权值平均化、偏重旧网页、兴趣无关性)分别提出了相应的解决方案,提出了优化算法I-PR,并通过实验证明使用它对网页进行排序的优越性。
  (3)设计了基于MapReduce计算模型的I-PR算法,解决了传统PageRank算法在串行化处理时效率低、存储困难等问题,并在Hadoop分布式平台上进行了实验验证与结果分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号