云计算及若干数据挖掘算法的MapReduce化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

云计算是2008年以来国际IT业热炒的概念,近两年来已开始在中国落地生根,是业界不可回避和逆转的一大趋势。我们可以把云计算看作是分布处理、并行处理以及网格计算的发展,其中并发、分布是云计算的关键,海量数据处理和海量计算是云计算的重头戏。但是云计算本身只是一种思维模式,要真正发挥它的魔力,除了硬件以外,更重要的是还得有软件的云计算平台支撑以及可以在平台上高效运行的并行化程序。
　　海量数据处理和海量计算是数据挖掘领域的一个常见问题,许多传统数据挖掘算法往往只能适用小规模输入数据,当输入数据增大时,它们往往会因计算量的增大而速度减慢甚至无法运行,这无疑是许多传统挖掘算法的瓶颈。云计算则恰好擅长处理大规模数据和大规模计算,如果我们能够将传统数据挖掘算法并行化,并将之部署到云计算平台上运行,数据挖掘领域中的上述瓶颈问题就能迎刃而解。而能否有效借助云计算平台解决上述问题,关键在于能否合理地将相应的数据挖掘算法并行化。
　　所以本论文首先主要从分布式文件系统和分布式编程模式两大方向分析了Google、Sector/Sphere和Hadoop三大云计算平台框架;然后从用户角度出发,综合考虑文本内容、人类遗忘性和话题流行度等因素,提出了一种基于网络日志的中文热点话题提取算法,并将其MapReduce化后部署到Hadoop云计算平台上运行,取得了良好的加速比效果,成功地提高了算法的运行速度和扩大了算法输入数据的规模;最后通过分析传统协同过滤算法、局部线性回归算法和朴素贝叶斯算法的详细流程、瓶颈问题和可并行化点,采取并行和串行相结合的方式,提出了将这几大算法MapReduce化的方法,不但证明了这些算法的可MapReduce化,而且在输入大批量数据的Hadoop集群实验中,取得了不错的加速比效果,比较成功地解决了这些算法计算量过大和计算时间过长的难题。本论文的研究为数据挖掘领域相关算法提供了可行的MapReduce化方案,实验结果证明了上述方案的切实有效性。

著录项

作者
李军华;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名傅彦;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
云计算; 数据挖掘; 挖掘算法; 计算平台; 输入数据; 海量数据处理; 算法并行化; 运行速度; 瓶颈问题; 朴素贝叶斯算法; 协同过滤算法; 线性回归算法; 加速比; 算法计算量; 分布式; 证明; 用户角度; 文件系统; 文本内容; 网络日志;

相似文献

中文文献
外文文献
专利

1. 云计算环境下基于MapReduce的并行化排列熵算法 [J] . 曹建1 ,李峥1 ,杨璞1 . 电力信息与通信技术 . 2019,第001期
2. 云计算环境下Apriori算法的MapReduce并行化 [J] . 李晓飞 . 长春工业大学学报（自然科学版） . 2013,第006期
3. 云计算环境下的数据挖掘算法研究 [J] . 张健 . 电脑编程技巧与维护 . 2021,第003期
4. 基于云计算的数据挖掘算法研究 [J] . 李宁 . 安阳师范学院学报 . 2018,第005期
5. 云计算平台下数据挖掘算法研究 [J] . 查道贵 ,许彩芳 ,陈伟 . 信阳农业高等专科学校学报 . 2017,第001期
6. 一种针对流水线任务的云计算模型基于MapReduce的改进 [C] . ZHENG Yuhan ,郑宇瀚 ,GUO Yanhui . 2013年中国信息通信研究新进展研讨会暨第五届数字媒体技术专业建设研讨会 . 2013
7. 基于云计算的数据挖掘算法并行化研究与实现 [A] . 李星 . 2018

云计算及若干数据挖掘算法的MapReduce化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅