首页> 中文学位 >基于数据流的概念漂移检测及集成分类研究
【6h】

基于数据流的概念漂移检测及集成分类研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 研究现状及问题

1.3 研究内容及结构安排

1.3.1 主要研究内容

1.3.2 组织结构安排

2 知识背景与相关技术

2.1 概要结构

2.1.1 simHash算法

2.1.2 分层概要结构

2.2 概念漂移

2.2.1 FKNNModel算法

2.2.2 卡方拟合检验

2.3 数据流集成分类

2.4 Spak开源框架

2.5 本章小结

3 基于simHash的数据流分层遗忘概要结构

3.1 问题描述

3.2.2 SH-HAS动态维护算法

3.3 对比试验与分析

3.3.1 实验环境

3.3.2 实验数据集

3.3.3 实验评价指标

3.3.4 实验设置

3.3.5 实验测试与分析

3.5 本章小结

4 MFKNNModel概念漂移检测算法

4.1 问题描述

4.1.1 MFKNNModel思想概述

4.2.2 MFKNNModel详细设计

4.2.3 MFKNNModel算法描述

4.3 对比实验与分析

4.3.1 实验环境

4.3.2 实验数据集

4.3.3 实验评价指标

4.3.4 实验设置

4.3.5 实验测试与分析

4.4 本章小节

5 基于概念漂移的数据流集成分类模型

5.1 问题描述

5.2 ECCDDS分类模型

5.2.1 ECCDDS整体设计

5.2.2 ECCDDS算法描述

5.3 对比实验与分析

5.3.1 实验评价指标

5.3.2 实验设置

5.3.3 实验测试与分析

5.4 本章小结

6 总结与展望

6.1 工作总结

6.2 工作展望

参考文献

致谢

攻读研究生期间科研成果

展开▼

摘要

大数据引领了信息时代的重要变革,影响了经济、科技和社会等各个层面,大数据的其中一种形式以海量实时数据流的方式呈现。这些海量的实时数据中隐藏着巨大的价值,如何更好的挖掘处理这些实时数据流已经成为了国内外数据挖掘领域的研究重点和热点。
  数据流具有有序性、实时性、高速性、动态性、潜在无限性等特点,对数据流的处理包含存储、处理、分析和应用等。概要结构是用于解决数据流潜在无限性问题的处理技术,但现有的概要结构算法存在着重构数据流与原数据流相对重构误差较大和参数难以调整的缺点。概念漂移检测技术用于解决数据流的动态性问题,数据流集成分类具有较高的分类准确率和概念漂移适应能力而被广泛地应用到数据流分类中。但概念漂移检测和集成分类处理通常基于数据流标签及时可用的假设,在实际应用中这一假设很难成立。针对这些问题,本文做了以下三方面的工作:
  (1)实现了基于simHash的数据流分层遗忘概要结构(SH-HAS)。该结构采用simHash算法获取概要信息,并动态调整SH-HAS结构,解决了重构数据集与原数据集误差较大的问题。实验证明,SH-HAS结构具有更小的相对重构误差。
  (2)改进FKNNModel概念漂移检测算法,提出了MFKNNModel概念漂移检测算法。MFKNNModel利用数据的空间分布的改变来检测数据流概念漂移,并利用Spark Streaming高效并行计算来提升算法的运行效率,解决了FKNNModel算法中的人工干预及计算效率问题。实验效果表明,在缺乏人工干预的情况下,MFKNNModel具有良好的概念漂移检测能力和较高的运行效率。
  (3)提出了基于概念漂移的数据流集成分类模型(Ensemble Classifier Based onConcept-Drifting Data Stream,ECCDDS)。采用水平集成的方式生成基分类器,通过加权投票的方法对基分类器的分类结果进行投票,生成集成分类器的分类结果;ECCDDS算法首先形成数据流的概要结构,然后引入概念漂移检测算法MFKNNModel,在发生概念漂移时更新集成分类模型,最后对数据进行分类。ECCDDS打破了集成分类器以数据流标签及时可用为假设的前提,解决了集成分类器以分类精度作为概念漂移检测和模型更新为依据所带来的后序到达的数据流类标签不能及时可用的问题。利用SparkStreaming流式计算框架解决了集成分类器在计算资源和计算效率方面的问题。在真实数据集和人工数据集上的实验验证了ECCDDS集成分类模型的有效性。

著录项

  • 作者

    未春凤;

  • 作者单位

    四川师范大学;

  • 授予单位 四川师范大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 郭涛;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据流; 概念漂移; 集成分类; 并行计算;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号