首页> 中文学位 >面向大数据的流分类挖掘算法及其概念漂移应用研究
【6h】

面向大数据的流分类挖掘算法及其概念漂移应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

专用术语注释表

第一章 绪论

1.1课题研究背景和意义

1.2课题研究现状及目标

1.3论文组织结构

第二章 相关背景知识介绍

2.1大数据的特点和关键技术

2.2面向数据流的分类算法

2.3基于分布式计算平台的流数据挖掘框架设计

2.4本章小结

第三章 面向大数据抵抗概念漂移流分类挖掘算法

3.1传统抵抗概念漂移算法及系统

3.2基于strom的并行化窗口抵抗渐进型概念漂移

3.3基于Storm的滑动窗口抵抗突变型概念漂移算法

3.4本章小结

第四章 基于Storm的抵抗概念漂移流分类挖掘算法系统设计

4.1系统总体架构设计

4.2基于Storm实现概念漂移并行化窗口bwin(bolt-window)

4.3基于Storm的并行化系统

4.4系统的应用设计

4.5本章小结

第五章 系统的实现与测试

5.1 Storm平台硬件环境、软件环境以及分布式测试环境的搭建

5.2实验数据流配置介绍

5.3系统指标测试

5.4本章小结

第六章 总结与展望

6.1总结

6.2展望

参考文献

附录1 程序清单

附录2 攻读硕士学位期间撰写的论文

附录3 攻读硕士学位期间申请的专利

附录4 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域。这些领域中产生的流数据具有数据量庞大、实时性要求高、数据动态变化和数据形式复杂等特点,这使得传统针对静态数据的数据挖掘不再适用于当前面向大数据的数据挖掘,因此面向大数据的流分类挖掘算法及其概念漂移研究成为当前亟待解决的问题。
  现有的针对分类算法和其概念漂移的研究成果主要还是依赖于数据结构和算法优化上,主要还是通过计算资源有限的独立计算机完成数据挖掘以及概念漂移的检测。但是大数据的的数据量级和数据复杂度不断增长和升级,使得仅仅依赖于算法本身和单机计算资源是不够的。采用分布式计算平台来应对大数据环境下算法的时间复杂度和空间复杂度的巨大消耗以及解决数据流中概念漂移的问题成为人们关注的重点。
  因此,本文提出基于分布式计算平台Storm的流分类挖掘算法及系统,主要用于解决面向大数据的流分类中出现的突变型概念漂移和渐进型概念漂移问题。针对数据流中的渐进型概念漂移问题,本文采用并行化窗口方案提前预测数据流中是否发生概念漂移,自适应的改变数据的流入的的速率,从而提高建树模型的准确率和效率。实验结果表明S-CVFDT(Concept drifting Very Fast Decision Tree based on Storm)算法较原先的CVFDT(Concept drifting Very Fast Decision Tree)算法可以有效地检测到数据流中的概念漂移,并尽快恢复到较高的建树模型准确率。另外,针对数据流中的突变型概念漂移如流媒体视频中视频热点的突变性,本论文提出用于解决视频服务器缓存的视频热点资源预测算法MCVFDT(Media Concept drifting Very Fast Decision Tree),该算法主要用于在视频缓存资源有限的情况下对视频热点进行预判,使得内容服务器的缓存中保持热点资源的存储,从而提高用户感受,提升服务质量。同时也为缓存设备迁移数据,动态调整负载等等方面提供了一个更可靠的标准。最后,针对于解决原先CVFDT算法系统设计基于单机模式而无法面向大数据的应用问题,尤其是当数据流中样本数的不断增多而造成计算资源在样本属性计算上的损耗,本论文提出基于Storm分布式计算平台来并行化计算样本的属性增益,实验表明该系统提高了流分类挖掘算法系统的精度和效率。

著录项

  • 作者

    谈海宇;

  • 作者单位

    南京邮电大学;

  • 授予单位 南京邮电大学;
  • 学科 信息网络
  • 授予学位 硕士
  • 导师姓名 季一木;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据挖掘; 分类算法; 概念漂移; 大数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号