不确定数据的聚类分析与异常点检测算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

不确定数据作为一种新型的数据模型，被广泛应用于金融、基于位置的服务、移动物体监测、传感器网络等许多类型应用领域。近年来出现的面向不确定数据的分析处理技术已成为数据库、数据挖掘等领域的研究热点。不确定性的存在给研究人员带来了新的挑战:一方面，传统的数据挖掘技术中的基本概念都是面向确定数据的，需要扩展后应用于不确定数据;另一方面，不确定数据对应的可能世界模型中的实例数量是指数级增长的，会增加挖掘算法的复杂度并增加运行时间、内存占用率等资源消耗。
　　基于此，在了解和掌握数据挖掘基本概念和相关算法、不确定数据的产生背景及数据模型特点的基础上，本文主要研究了不确定数据的聚类和异常点检测问题，旨在为不确定数据提供更为多样的聚类分析和异常点检测功能。同时，对本文所提出的算法进行大量的相关实验分析，实验结果证明了提出算法的有效性和高效性。本文的主要贡献体现在以下几个方面:
　　(1)本文提出了一种障碍空间中不确定数据聚类算法OBS-UK-means(ObstacleUncertain K-means)，为了保证聚类准确性的前提下提高算法效率，分别提出了基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念。通过实验验证了OBS-UK-means算法的高效性和准确性，同时证明了剪枝策略在不损害聚类有效性的情况下，能够有效的提高聚类效率。
　　(2)本文提出了基于密度的局部不确定数据异常点检测算法。首先提出了一个新的基于密度的局部异常点的定义，其次，为提高算法效率，提出基于动态规划的方法进行异常点检测。最后，设计相应的剪枝策略以降低存储代价并提高算法的效率。
　　(3)本文提出了基于不确定数据流参数可变的异常点检测算法。首先根据不确定数据流上异常点的性质，提出了可以有效检测不确定数据流中异常点的算法CUOD(Continuous Uncertain Outlier Detection)。其次为了提高算法效率，提出了通过估计异常点的概率而进行剪枝的算法PCUOD（Probability pruning forContinuous Uncertain Outlier Detection）。然后，为了满足用户在不同时刻对异常点查询参数有不同的需求，提出了不确定数据流中参数可变的异常点查询算法。
　　(4)本文提出了面向不确定数据流基于距离的异常点检测算法。首先针对特定的不确定数据模型提出了异常点的定义，同时设计动态存储结构，以满足算法在检测效率和存储空间两方面的要求。其次，为了降低近邻查询的代价以进一步提高算法的效率，提出了基于SM-tree（Statistics M-tree）的近邻查询算法。最后，为解决异常点定义中涉及的参数过多，造成用户难以得到理想查询结果的问题，提出了不确定数据流top-n异常点查询算法。
　　综上所述，针对分析不确定数据所面临的挑战，本文提出了几种面向不确定数据的聚类和异常点检测算法，是对现有不确定数据挖掘技术的有益补充。理论分析和实验结果均证明，本文所提出的算法在准确性、执行效率及存储代价等方面，均优于现有算法。

著录项

作者
曹科研;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机系统结构
授予学位博士
导师姓名王国仁;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.01;
关键词
计算机网络; 不确定数据; 聚类分析; 异常点; 检测算法;

相似文献

中文文献
外文文献
专利

1. 不确定数据基于密度的局部异常点检测 [J] . 曹科研 ,栾方军 ,孙焕良 . 计算机学报 . 2017,第010期
2. 不确定数据流上Top-k异常点查询算法 [J] . 曹科研 ,王国仁 ,韩东红 . 计算机科学与探索 . 2015,第002期
3. 基于聚类分析的家电回收异常点挖据 [J] . 姜晓茜 ,王宇 ,冒嘉驹 . 现代商业 . 2017,第004期
4. 一种基于密度的不确定数据离群点检测算法 [J] . 姜元凯 ,郑洪源 ,丁秋林 . 计算机科学 . 2015,第004期
5. 局部异常点检测算法的电能表高压泄露计量 [J] . 汤野 ,程文玉 ,王晨 . 信息技术 . 2021,第011期
6. DNA阵列数据的聚类分析与不确定数据的解决 [C] . 刘培强 ,范辉 ,朱大铭 . 2004年全国理论计算机科学学术年会 . 2004
7. 数据挖掘中的异常点分析和聚类分析 [A] . 王元明 . 2009

不确定数据的聚类分析与异常点检测算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅