首页> 中文学位 >基于分布式极限学习机的不确定数据流分类技术的研究与实现
【6h】

基于分布式极限学习机的不确定数据流分类技术的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 问题的提出和本文主要工作

1.4 本文组织结构

第2章 相关工作概述

2.1 ELM

2.1.1 ELM的提出

2.1.2 极限学习机算法描述

2.1.3 PELM的提出

2.2 Mapreduce

2.2.1 MapReduce编程模型

2.2.2 Hadoop平台

2.3 不确定数据挖掘概述

2.3.1 不确定数据产生原因

2.3.2 不确定数据模型

2.3.3 不确定数据分类算法

2.4 数据流分类算法及其概念漂移的处理

2.4.1 数据流及概念漂移

2.4.2 数据流分类算法简述

2.5 本章小结

第3章 基于不确定数据的分布式极限学习机算法

3.1 不确定数据的相关问题

3.1.1 不确定数据模型

3.1.2 不确定数据的分类方法

3.2 分布式极限学习机算法

3.2.1 PELM

3.2.2 DELM算法的矩阵划分方法

3.2.3 基于并行矩阵分块乘法的DELM算法详细描述

3.3 本章小结

第4章 基于分布式ELM的加权集成数据流分类算法

4.1 WE-DELM算法提出的背景知识

4.1.1 不确定数据流

4.1.2 WEC算法

4.1.3 概念漂移数据流分类器的构建

4.1.4 概念漂移的检测

4.2 算法WE-DELM的基本思想

4.3 算法主要过程描述

4.3.1 新分类器建立及权值调整

4.3.2 分类器更新与裁减

4.4 算法WE-DELM的详细描述

4.5 基于概念缓冲的CBWE-DELM算法的主要思想及框架模型

4.6 基于概念缓冲的CBWE-DELM算法的详细描述

4.7 本章小结

第5章 实验及结果分析

5.1 实验环境

5.2 数据集

5.3 实验分析

5.3.1 大数据集下准确率及效率的对比

5.3.2 大数据集下加速比及扩展性的对比

5.3.3 DELM算法分块策略的影响

5.3.4 不确定数据流环境下WE-DELM与DCE,UCVFDT的对比

5.3.5 概念往复不确定数据流环境下算法性能的对比

5.4 本章小结

第6章 总结与展望

6.1 本文总结

6.2 工作展望

参考文献

致谢

攻硕期间参与项目及发表的论文

展开▼

摘要

数据流分类技术是数据流挖掘中的重要组成部分。然而在许多实际应用中,数据的不确定性是普遍存在的,并且随着数据量的急剧增加,传统的集中式的分类方法已经不能有效地学习这样的海量数据。面向不确定数据流的分类面临如下的挑战:(1)如何对不确定流数据进行有效的分类处理;(2)对数据流概念漂移的检测和处理;(3)如何利用分布式算法解决大数据的学习问题。
  基于此,本文对于具有概念漂移的不确定数据流分类问题展开了以下研究工作:
  首先,了解不确定数据流产生的背景及特点,之后研读并掌握已有的不确定数据的分类算法以及数据流分类算法的核心思想。其次,利用MapReduce技术对大矩阵运算进行优化,提出了能够满足于大量数据处理的分布式极限学习机(Distributed ExtremeLearning Machine,DELM),使得传统集中式的极限学习机(Extreme LearningMachine,ELM)能够以更高的效率来适用于大规模流数据处理。再次,针对不确定数据流分类问题,提出了基于分布式极限学习机的加权集成分类算法(Weighted EnsembleClassifier based on Distributed ELM,WE-DELM)。该算法首先建立不确定数据模型,将不确定数据通过建立可能世界模型的方式转换为确定数据的处理,并且可以根据各个基分类器的分类结果动态的调整基分类器的权值,使得在发生概念漂移时,能够删除旧的不再适应新概念的基分类器,同时重新建立能够更加快速准确地收敛于新概念的分类器。然后,根据实际应用中数据流蕴含的概念往往会有一些往复出现的特点,基于WE-DELM算法提出了基于概念缓冲的加权集成分布式极限学习机算法(Concept BufferWeighted Ensemble Classifier based on Distributed ELM,CBWE-DELM),该方法有效的避免了已有的分类算法一般仅存储当前的概念,当新概念发生时模型每次都需要重新学习的缺点,更加适用于有概念往复现象的数据流的学习。
  最后通过大量的实验对算法的性能进行了验证。实验结果表明:本算法能够有效的解决的不确定数据流的分类问题,能够解决概念漂移的问题,同时对于海量且高速的数据流具有更高的效率和较高的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号