基于Spark的流数据分类挖掘算法的研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网的快速发展,面对实时到达、连续、无限的流数据,传统的数据挖掘算法已难以满足挖掘需求,流数据挖掘算法成为了热点研究课题. 本文把面向流数据的分类挖掘算法作为重点研究对象,以提高流数据分类挖掘效率和性能为目标,不仅改进了已有的分类算法,而且将改进算法部署到大数据处理平台Spark上并行化实现. 为了提高流数据分类挖掘效率,将概念自适应快速决策树算法CVFDT进行了属性间的并行化,并借助Spark的流计算机制,设计了CVFDT基于Spark的并行化实现方案.在Spark平台上实施该方案的结果表明:在Spark集群环境下,CVFDT算法的分类效率相对于单机环境有显著提高,改进后的并行化CVFDT算法对大规模流数据处理有良好的适应能力. 为了提高CVFDT算法在处理含有连续属性的平稳流数据方面的能力,对CVFDT算法做了两方面的改进:使用多元Delta方法代替Hoeffding边界计算和设计了更为高效准确的连续属性分割与权衡重计算方法;从而形成了面向连续属性的CVFDT算法,命名为C-CVFDT.并且进一步设计了C-CVFDT基于Spark的并行化实现方案.基于该方案的算法实现和测试实验结果表明,C-CVFDT算法对包含连续属性的流数据样本有更好的预测精度和分类效率. 针对CVFDT算法不能有效处理不稳定流数据的问题,利用集成分类器思想,集成CVFDT算法基础分类器和朴素贝叶斯算法基础分类器,设计了一种面向不稳定流数据的概念自适应的集成分类算法ECA(Ensemble Classification Algorithm).其核心思想是:使用CVFDT分类方法和朴素贝叶斯分类方法进行学习,形成集成分类器,在出现概念漂移使分类器准确率下降到设定的临界值时,使用新的基分类器来优化集成分类器以适应新的流数据.实验结果表明ECA算法适应概念漂移的能力较强. 本文研究的流分类算法及其基于Spark的并行化实现方案能适应海量流数据的无限性、快速性和实时性,研究内容较为先进,且研究成果具有一定的理论价值和较好的实用性.

著录项

作者
庄荣;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科计算机软件与理论
授予学位硕士
导师姓名李玲娟;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类汽车工程;
关键词
Spark; 流数据;

相似文献

中文文献
外文文献
专利

1. 基于流数据分类挖掘算法在入侵检测的应用 [J] . 朱参世 ,李响 ,朱琳 . 微计算机信息 . 2010,第012期
2. 基于一车一协议配置化Spark实时流数据解析的研究与应用 [J] . 刘光俊 ,张杜玮 ,张珍文 . 通讯世界 . 2017,第019期
3. 基于Spark Streaming的实时流数据处理模型化研究与实现 [J] . 云惟英 ,苟宇 ,王京 . 测绘与空间地理信息 . 2017,第0z1期
4. 基于Spark的关联规则挖掘算法并行化研究 [J] . 许德心 ,李玲娟 . 计算机技术与发展 . 2019,第003期
5. 基于Spark的并行关联规则挖掘算法研究综述 [J] . 刘莉萍 ,章新友 ,牛晓录 . 计算机工程与应用 . 2019,第009期
6. 基于滑动窗口的流数据频繁模式挖掘算法 [C] . 孟军 ,大连理工大学软件学院 ,姜军晓 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于STORM的流数据分类挖掘算法的研究 [A] . 张发杨 . 2016

基于Spark的流数据分类挖掘算法的研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅