首页> 中文学位 >云计算平台下的数据挖掘研究
【6h】

云计算平台下的数据挖掘研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1课题背景

1.2研究目的和意义

1.3论文研究内容

1.4论文组织结构

第二章 云计算平台相关技术介绍

2.1 分布式数据存储系统BigTable

2.2 Google分布式文件系统GFS

2.3 MapReduce编程框架

2.4 Hadoop云计算平台

2.5 本章小结

第三章 基于MapReduce的逻辑回归研究

3.1 逻辑回归简介

3.2基于模拟退火的随机梯度下降算法

3.3 特征变量选择

3.4 算法MapReduce化

3.5 本章小结

第四章 基于MapReduce的关联规则挖掘研究

4.1关联规则挖掘简介

4.2关联规则挖掘详解

4.3常见关联规则算法

4.4基于频繁项集划分的并行化关联算法

4.5基于HBase的Eclat并行化关联规则算法

4.6本章小结

第五章 实验与分析

5.1实验环境

5.2实验一:挖掘潜在消费者的逻辑回归

5.3实验二:用户广告推荐的关联规则挖掘

5.4本章小结

第六章 总结与展望

6.1论文总结

6.2未来展望

参考文献

附录1 攻读硕士学位期间撰写的论文

致谢

展开▼

摘要

现代的互联网信息中蕴含着非常丰富的商业价值,高速准确地从这些数据中挖掘出有用的信息和知识,可以让互联网提供商在激烈的商业竞争中占领先机,从而获取商业上的成功与经济利益。数据挖掘最初只是用于处理少量数据,随着输入的数据规模增大,程序处理耗费的时间将会非常长,对于如今爆炸式增长的互联网数据甚至达到了单机都无法处理的地步。
  云计算平台非常适合处理大规模数据,具有非常高的可拓展性,可以通过动态增加平台计算节点个数来增强其存储和计算能力。如果我们能够将传统的数据挖掘算法进行相应的改造,将其部署到云计算平台之上,那么无疑可以解决互联网大规模数据挖掘的难题。
  本论文首先从云计算平台的相关理论出发,分析了Google文件系统、分布式编程模型map-reduce、分布式数据存储系统BigTable以及目前应用非常广泛的开源云计算平台hadoop的框架结构;其次以逻辑回归算法和关联规则算法为代表,提出了改进过后的能够应用于云计算平台上的算法;最后将算法移植到hadoop平台上进行实验后发现算法耗费时间随着hadoop集群规模的增大而呈线性下降的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号