基于云计算的海量数据挖掘分类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着数据存储量的急剧增加，海量数据处理和海量数据计算成为了数据挖掘领域中一个重要的问题。传统的串行数据挖掘算法往往只能够处理一些小规模的数据，当面对海量数据时，它们的执行速度会降低甚至无法运行，因此这对目前的数据挖掘提出了严峻的挑战和考验。而分类算法作为数据挖掘中极其重要的一个部分，在信息检索、网络搜索以及CRM等方面扮演着重要的角色。目前绝大多数的分类算法都是串行的，在处理大数据集时可行性差、效率低、分类准确率低的问题日益突出，导致了计算资源的不可估量以及执行时间的无限延长。
　　现代社会所处理的数据是海量的，在云计算出现以前，在做数据挖掘时以往都期望用高性能机或者是更大规模的计算设备来进行处理；另外在海量数据的背景下，挖掘过程当中需要有很好的开发环境和应用环境，在这样的情况下，采用基于云计算的方式来进行数据挖掘是比较合适的。而且由于目前并行分类算法的缺少，大规模数据集日益庞大，传统的数据挖掘系统已经不能对这些海量数据进行高效挖掘和利用，如何提高算法的并行性和效率是目前亟需解决的问题。
　　本论文以实验室粤港关键领域重点突破项目为基础，分析和研究了舆情分析系统项目中应用到的海量数据挖掘的相关技术。由于舆情分析系统处理的数据都来自因特网，每天需要处理的数据量非常庞大，要对这些海量数据集进行训练和分类，就必须保证舆情分析系统能维持在一个稳定、高效的环境。如何提高舆情分析系统分类的效率和性能，是本论文要解决的问题。
　　本论文的先进性在于，分类算法在舆情分析系统中是非常重要的一部分，根据舆情分析系统的需求分析和系统设计，为舆情分析系统设计了一种基于Strategy模式的分类算法模块。并且设计了不同的并行分类算法，通过在MapReduce框架下对分类算法的封装，大大提高了算法的运行效率，使得分类算法的加速比接近于线性加速比。舆情分析系统根据这个算法模型，可以动态地调用不同的分类算法对舆情数据进行分类，提高了系统分类算法的性能和效率，从而大大提高了舆情分析系统的稳定性和可靠性。

著录项

作者
何元;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名佘堃;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
数据挖掘; 分类算法; 云计算; MapReduce框架; 舆情分析系统;

相似文献

中文文献
外文文献
专利

1. 云计算环境下海量数据挖掘分类算法研究 [J] . 高文强 ,张晓梅 . 信息与电脑 . 2016,第015期
2. 基于云计算技术下海量数据挖掘的实现研究 [J] . 何欣 . 现代信息科技 . 2020,第009期
3. 基于云计算技术下海量数据挖掘的实现研究 [J] . 何欣 . 现代信息科技 . 2020,第009期
4. 基于云计算的海量数据挖掘研究 [J] . 李候梅 . 信息技术与信息化 . 2019,第001期
5. 基于云计算的海量数据挖掘研究 [J] . 陈健 . 数字技术与应用 . 2017,第007期
6. 搭建基于云计算的开源海量数据挖掘平台 [C] . 赵华茗 . 第二十四届全国计算机信息管理学术研讨会 . 2010
7. 基于海量数据挖掘的分类算法研究 [A] . 涂敬伟 . 2015

基于云计算的海量数据挖掘分类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅