基于可拓关联函数的数据流聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着传感器技术的日益普及和信息社会的快速发展,许多新兴应用领域中出现了实时连续、海量无限和快速变化的数据,这些数据以不同的更新速率连续地流进和流出计算机系统,学术界将它们定义为数据流。面对这种新型的数据形式,仍然运用传统的数据挖掘方法对其进行分析和研究显然是不恰当的。因此,迫切需要开发出新的技术和新的方法以解决目前的窘境。聚类是数据挖掘领域中一项非常重要的技术,对数据流进行聚类分析有相当大的现实意义。迄今为止,已有许多优秀的数据流聚类算法被相继提出,它们在一定程度上解决了数据流聚类分析的难题。
　　本文的研究内容集中于如何设计出一种高效率、高质量的数据流聚类算法。文章总结了相关的聚类理论和技术并且对现有的数据流聚类算法进行了分析和比较,在此基础上,针对数据流本身所具有的特点提出了一种高效、准确的数据流聚类算法EXCluStream。该算法借鉴了CluStream算法经典的在线—离线两阶段框架,并且根据可拓学的物元和经典域概念修改了微簇聚类特征结构。EXCluStream算法的聚类过程是:在线阶段使用本文所提出的基于可拓关联函数的聚类算法CABDF进行微簇的初始化,然后,当新数据点到来时,根据其关联度取值的情况将该数据点划分至关联度最大的簇中,以上过程进行的同时需要计算机每隔一段固定的时间就将微簇聚类特征以快照的形式存储于金字塔结构中以便于后续的分析。离线阶段将从硬盘中取出用户指定时间范围内的所有微簇,选取含有一定数目的微簇作为虚拟点,再次调用CABDF算法进行聚类。倘若用户需要对数据流的演变进行分析和比较,那么通过在线阶段存储下来的快照就可以做到。通过实验表明,本文所设计出的CABDF算法具有聚类质量高、可扩展性好的特点,除此之外,数据流聚类算法EXCluStream也达到了聚类纯度高、单遍扫描、实时返回结果的要求,该算法适用于大规模的动态数据集聚类的分析和研究。

著录项

作者
潘丽娜;
展开▼
作者单位

西北师范大学;

展开▼
授予单位西北师范大学;
学科计算机应用技术
授予学位硕士
导师姓名王治和;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
可拓关联函数; 数据流聚类算法; 数据形式; 聚类特征;

相似文献

中文文献
外文文献
专利

1. 基于关联函数的数据流聚类算法 [J] . 潘丽娜 ,王治和 ,党辉 . 计算机应用 . 2013,第001期
2. 基于可拓聚类分析的软件质量测度算法研究 [J] . 余平 ,胡玲 . 西南师范大学学报（自然科学版） . 2018,第011期
3. 基于离群点检测的不确定数据流聚类算法研究 [J] . 叶福兰 . 中国电子科学研究院学报 . 2019,第010期
4. 一种基于质量估算的空间数据流聚类算法研究 [J] . 樊超 ,李宏伟 ,朱燕 . 计算机应用研究 . 2017,第009期
5. 基于近邻传播的文本数据流聚类算法研究 [J] . 李一鸣 ,倪丽萍 ,方清华 . 计算机科学 . 2016,第005期
6. 基于关联函数的可拓综合评价应用研究 [C] . . 中国人工智能学会第10届全国学术年会 . 2003
7. 基于元组聚类特征的不确定性数据流聚类算法研究 [A] . 梁达鹏 . 2010

基于可拓关联函数的数据流聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅