基于同步的数据流分层压缩研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据流已成为当前大数据时代数据的主要表现形式之一，如传感器数据、轨迹数据、社交数据、交通数据等都能以数据流形式体现。如何有效地分析和挖掘数据流已成为当前数据挖掘和机器学习研究的重点和难点问题。有别于传统的静态数据，数据流数据具有实时、海量、连续、演化等特征，使得数据流上的挖掘任务比传统数据的挖掘要面临更多的问题和挑战。针对数据流中数据的海量性和实时性，数据流挖掘任务需要在有限的时间和空间下进行。因此，如何有效的对数据流中的数据进行压缩成为数据流挖掘领域的一个重要研究课题。目前传统的数据流压缩方法如采样、投影、降维、聚类等，几乎都针对数据流中数据的海量性或实时性进行研究，往往忽略了数据流的演化特征。因此，如何对具有概念漂移的数据流进行聚类和压缩成为研究的难点，具有重要的理论和实践意义。
　　针对目前数据流压缩存在的问题，本文将聚焦概念漂移下基于同步聚类的数据流压缩算法研究。具体而言，针对数据流的演化性，研究首先提出了一种在概念漂移下基于同步的数据流聚类算法。有别于传统的数据流聚类，新提出的算法提出一种基于同步的微簇结构。该结构不仅能有效的保存数据本身的簇结构，而且可以支持不同粒度的数据聚类。在同步数据流聚类的基础上，进一步提出了基于同步聚类的数据流压缩方法。鉴于同步聚类的优势，压缩算法可以支持不同尺度的压缩率，且可以根据参数估计和聚类参数对压缩后的数据进行重构。因此，本文的研究以基于同步的数据流聚类以及在此基础上的压缩算法构成全文的核心内容。主要的贡献如下：
　　（1）提出了在概念漂移下基于同步的数据流聚类算法。不同于传统的基于簇特征的聚类方法，新提出的算法SyncTree能对数据流中的簇结构进行更好的封装，从而支持更高质量的聚类。更重要的是，基于同步的微簇能有效处理不同形状的簇，同时能有效的对数据流中的聚类演化进行跟踪和描述。此外，为了适应不同存储空间的要求，SyncTree支持不同粒度的聚类。实验结果表明，SyncTree相比目前流行的数据流聚类算法具有更好的性能，尤其是拥有较好的处理数据流演化的能力。
　　（2）提出了基于同步聚类的数据流压缩算法。不同于传统数据流压缩算法，新提出的算法在压缩后能有效保持数据流数据本身的结构信息，将数据按压缩粒度从密集到稀疏存储在一个树形结构上，并根据压缩需求调整树形结构上数据的压缩粒度。同时，提出基于泛化指数幂分布模型对簇进行参数估计，使得压缩算法可以对压缩后的数据进行有效重构。实验表明，所提出的压缩算法不仅具有较高的压缩比，且失真率和重构误差小。

著录项

作者
谭越;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机技术
授予学位硕士
导师姓名邵俊明;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
数据流压缩; 同步聚类; 概念漂移; 参数估计;

相似文献

中文文献
外文文献
专利

1. 基于同步分层运动估计架构的参考帧压缩方法 [J] . 包雪娜 ,刘佩林 . 信息技术 . 2012 ,第003期
2. 基于XMPP协议的XML数据流压缩模型研究 [J] . 齐铖 ,吴静 . 微型机与应用 . 2016 ,第001期
3. 基于Bloom Filter的XML数据流压缩技术研究 [J] . 裴喜春 . 科技创新与生产力 . 2010 ,第003期
4. 基于同步多维数据流的脑网络动态特征辨识方法研究 [J] . 马洒洒 ,王彬 ,薛洁 . 计算机应用研究 . 2017 ,第011期
5. 基于主成分分析和分层树集合划分的rHuffman算法图像压缩研究 [J] . 方炫苏 ,黄樟灿 ,陈亚雄 . 浙江大学学报（理学版） . 2018 ,第001期
6. 基于DSP的高速数据流无损压缩方法的研究 [C] . 王振海 . 第十二届全国青年通信学术会议 . 2007
7. 基于GEP的多数据流分类压缩并行算法研究 [A] . 杨文 . 2013

基于同步的数据流分层压缩研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅