首页> 中文学位 >基于Spark的流数据分类挖掘算法的研究
【6h】

基于Spark的流数据分类挖掘算法的研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着互联网的快速发展,面对实时到达、连续、无限的流数据,传统的数据挖掘算法已难以满足挖掘需求,流数据挖掘算法成为了热点研究课题. 本文把面向流数据的分类挖掘算法作为重点研究对象,以提高流数据分类挖掘效率和性能为目标,不仅改进了已有的分类算法,而且将改进算法部署到大数据处理平台Spark上并行化实现. 为了提高流数据分类挖掘效率,将概念自适应快速决策树算法CVFDT进行了属性间的并行化,并借助Spark的流计算机制,设计了CVFDT基于Spark的并行化实现方案.在Spark平台上实施该方案的结果表明:在Spark集群环境下,CVFDT算法的分类效率相对于单机环境有显著提高,改进后的并行化CVFDT算法对大规模流数据处理有良好的适应能力. 为了提高CVFDT算法在处理含有连续属性的平稳流数据方面的能力,对CVFDT算法做了两方面的改进:使用多元Delta方法代替Hoeffding边界计算和设计了更为高效准确的连续属性分割与权衡重计算方法;从而形成了面向连续属性的CVFDT算法,命名为C-CVFDT.并且进一步设计了C-CVFDT基于Spark的并行化实现方案.基于该方案的算法实现和测试实验结果表明,C-CVFDT算法对包含连续属性的流数据样本有更好的预测精度和分类效率. 针对CVFDT算法不能有效处理不稳定流数据的问题,利用集成分类器思想,集成CVFDT算法基础分类器和朴素贝叶斯算法基础分类器,设计了一种面向不稳定流数据的概念自适应的集成分类算法ECA(Ensemble Classification Algorithm).其核心思想是:使用CVFDT分类方法和朴素贝叶斯分类方法进行学习,形成集成分类器,在出现概念漂移使分类器准确率下降到设定的临界值时,使用新的基分类器来优化集成分类器以适应新的流数据.实验结果表明ECA算法适应概念漂移的能力较强. 本文研究的流分类算法及其基于Spark的并行化实现方案能适应海量流数据的无限性、快速性和实时性,研究内容较为先进,且研究成果具有一定的理论价值和较好的实用性.

著录项

  • 作者

    庄荣;

  • 作者单位

    南京邮电大学;

  • 授予单位 南京邮电大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 李玲娟;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 汽车工程;
  • 关键词

    Spark; 流数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号