高维数据流聚类分析及离群点检测研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘是在海量数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法，是20世纪90年代初解决“数据丰富、知识贫乏”问题应运而生的一种新技术．十多年来，众多学者围绕数据挖掘这一主题开展深入而系统的研究与探索工作，并已出现诸多研究成果．特别是近几年来，随着计算机技术深入应用擞据流(Data Stream)作为一类新的数据模型，对现有的数据挖掘技术研究提出了新的要求擞据流广泛出现在诸如金融应用、网络监视、通信数据管理、Web 应用以及传感器网络数据处理等众多领域．由于数据流具有快速、无限、连续、只能一遍扫描等特点，因而对基于数据流模型的数据挖掘技术提出了更高的要求，数据流数据挖掘算法亦已成为重要的研究课题．在众多的数据挖掘任务中，聚类分析和离群点检测由于其在知识发现中所发挥的重要作用而得到重视和深入研究．目前，针对大规模高维数据的聚类分析和离群点检测问题，研究人员业已提出了一些有效的算法，其中子空间技术是解决其“维数灾难”的方法之一但是高维数据流的数据挖掘算法的研究刚刚起步，“维数灾难”以及数据流数据本身所固有的特性，使得这一研究更具有其特有的难度．针对数据流中聚类分析的需求以及现有数据流聚类算法无法有效处理高维数据流的不足，本论文首先提出了基于Hoeffding界的高维数据流的子空间聚类发现及维护算法．该算法将数据流分段(分段长度由Hoeffding界确定)，在数据流分段上进行子空间聚类，通过迭代逐步得到满足聚类精度要求的聚类结果．同时针对数据流的动态性，算法对聚类结果进行调整和维护；其次，研究了数据流的聚类演化分析，针对现有算法的局限性，提出了相应的改进算法，并进行理论和实验上的讨论．内容主要包括金字塔时间结构的改进，子空间密集网格的计数方法以及聚类演化分析的策略等；最后针对考察特定时间周期内数据流数据的应用需求，提出了基于时间相关滑动窗口的高维数据流聚类算法．该算法能够有效处理Turnstile型数据流的聚类问题，着重讨论了子空间网格的内存保存机制，滑动窗口中数据的更新方式以及对于Turnstile型数据流的适应性．本论文还针对高维类别属性数据流离群点检测问题，首先提出了基于加权频繁模式离群因子(WFPOF)的数据流离群点检测算法．该算法利用WFPOF能够有效度量高维数据离群度的特点，结合可适应离群点检测处理需求的数据流频繁模式发现维护方法，快速检测离群点．同时通过数据衰减系数的设定，可以有效的处理数据流数据中的概念转移问题．该算法还对数值属性和混合属性的数据流的处理、数据离群原因的解释以及类离群点检测问题进行了深入讨论．本论文进一步将离群点检测问题扩展到分布式数据流环境下，提出了基于时间相关滑动窗口和WFPOF的高维分布式数据流离群点检测算法．该算法将不同站点的数据流放在同等地位上，将它们作为全局数据流的子集，在每个分布站点上维护本地数据流的频繁模式，并在此基础上由中心站点生成全局频繁模式，而各分布站点利用全局频繁模式计算WFPOtF值，检测本地的离群点．算法对分布环境下站点间的协调通信以及局部频繁模式和全局频繁模式的维护等问题进行了详细的讨论，并通过实验验证了算法的可行性和有效性．综上，高维数据流中的聚类分析和离群点检测是一类重要的数据挖掘方法，本论文针对与此相关的问题，提出并实现了一系列改进算法．这些新算法在一定程度上完善并丰富了这一领域的研究内容同时将其应用到聚类分析和离群点检测中，获得了比较满意的效果．

著录项

作者
周晓云;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机应用
授予学位博士
导师姓名孙志挥;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
知识发现; 数据挖掘; 数据流; 数据流挖掘; 聚类分析; 离群点检测; 海量数据;

相似文献

中文文献
外文文献
专利

1. 高维数据流的聚类离群点检测算法研究 [J] . 程艳 ,苗永春 . 江西师范大学学报（自然科学版） . 2014 ,第005期
2. 基于离群点检测的不确定数据流聚类算法研究 [J] . 叶福兰 . 中国电子科学研究院学报 . 2019 ,第010期
3. 高维数据流映射聚类算法的研究概述 [J] . 陈启崧 . 福建电脑 . 2007 ,第004期
4. 高维数据流聚类及其演化分析研究 [J] . 周晓云 ,孙志挥 ,张柏礼 . 计算机研究与发展 . 2006 ,第011期
5. 基于随机投影的高维数据流聚类 [J] . 朱颖雯 ,陈松灿 . 计算机研究与发展 . 2020 ,第008期
6. 融合Shadowed Sets聚类的离群点检测算法 [C] . WANG Dan ,王丹 ,MAO Ziyang . 第29届中国数据库学术会议 . 2012
7. 高维数据的聚类及离群点检测算法的研究与实现 [A] . 康杨 . 2007

高维数据流聚类分析及离群点检测研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅