面向大数据的流分类挖掘算法及其概念漂移应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着云计算、物联网等技术的兴起，流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域。这些领域中产生的流数据具有数据量庞大、实时性要求高、数据动态变化和数据形式复杂等特点，这使得传统针对静态数据的数据挖掘不再适用于当前面向大数据的数据挖掘，因此面向大数据的流分类挖掘算法及其概念漂移研究成为当前亟待解决的问题。
　　现有的针对分类算法和其概念漂移的研究成果主要还是依赖于数据结构和算法优化上，主要还是通过计算资源有限的独立计算机完成数据挖掘以及概念漂移的检测。但是大数据的的数据量级和数据复杂度不断增长和升级，使得仅仅依赖于算法本身和单机计算资源是不够的。采用分布式计算平台来应对大数据环境下算法的时间复杂度和空间复杂度的巨大消耗以及解决数据流中概念漂移的问题成为人们关注的重点。
　　因此，本文提出基于分布式计算平台Storm的流分类挖掘算法及系统，主要用于解决面向大数据的流分类中出现的突变型概念漂移和渐进型概念漂移问题。针对数据流中的渐进型概念漂移问题，本文采用并行化窗口方案提前预测数据流中是否发生概念漂移，自适应的改变数据的流入的的速率，从而提高建树模型的准确率和效率。实验结果表明S-CVFDT（Concept drifting Very Fast Decision Tree based on Storm）算法较原先的CVFDT（Concept drifting Very Fast Decision Tree）算法可以有效地检测到数据流中的概念漂移，并尽快恢复到较高的建树模型准确率。另外，针对数据流中的突变型概念漂移如流媒体视频中视频热点的突变性，本论文提出用于解决视频服务器缓存的视频热点资源预测算法MCVFDT（Media Concept drifting Very Fast Decision Tree），该算法主要用于在视频缓存资源有限的情况下对视频热点进行预判，使得内容服务器的缓存中保持热点资源的存储，从而提高用户感受，提升服务质量。同时也为缓存设备迁移数据，动态调整负载等等方面提供了一个更可靠的标准。最后，针对于解决原先CVFDT算法系统设计基于单机模式而无法面向大数据的应用问题，尤其是当数据流中样本数的不断增多而造成计算资源在样本属性计算上的损耗，本论文提出基于Storm分布式计算平台来并行化计算样本的属性增益，实验表明该系统提高了流分类挖掘算法系统的精度和效率。

著录项

作者
谈海宇;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科信息网络
授予学位硕士
导师姓名季一木;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 分类算法; 概念漂移; 大数据;

相似文献

中文文献
外文文献
专利

1. 大数据分类挖掘算法及其概念漂移应用研究 [J] . 陆莉莉 ,张永潘 ,谈海宇 . 计算机科学与探索 . 2016,第012期
2. 面向非平衡与概念漂移的数据流分类的研究 [J] . 陈荣 . 现代计算机（专业版） . 2020,第004期
3. 面向概念漂移的数据流分类研究分析 [J] . 王军 ,刘三民 ,刘涛 . 绵阳师范学院学报 . 2017,第005期
4. 面向水资源数据分析的大数据挖掘算法 [J] . 王健 . 自动化技术与应用 . 2019,第011期
5. 面向智能电网大数据的数据挖掘算法概述 [J] . 大数据技术团队1 . 上海电力 . 2019,第001期
6. 大数据分类挖掘算法及其概念漂移应用研究 [C] . Lu Lili ,陆莉莉 ,Zhang Yongpan . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 概念漂移数据流分类算法研究 [A] . 孙艳歌 . 2019

面向大数据的流分类挖掘算法及其概念漂移应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅