针对非均匀数据集的DBSCAN过滤式改进算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。由聚类所生成的类是一组数据对象的集合，这些对象与同一个类中的对象彼此相似，与其它类中的对象相异。在许多应用中，可将一个类中的数据对象作为一个整体处理。当分析一个较大的、复杂的、连续的、有许多变量的数据库和完全未知的结构时，聚类是一个非常有用的工具。
　　目前，聚类分析算法大体上分为划分的方法，层次的方法，基于密度的方法，基于网格的方法和基于模型的方法。DBSCAN算法是一种典型的基于密度的方法，该算法的优点是可以发现任意形状的聚类，且聚类结果受噪音点影响小。但是该算法存在如下缺点：算法中需使用到全局变量Eps和MinPts，若变量取值不当，会影响聚类质量；当数据分布不均匀时，采用全局统一的变量，会降低聚类质量。
　　针对DBSCAN算法的缺点，本文在结合一种减少邻域搜索思想的同时，提出了一种DBSCAN过滤式改进算法。该算法首先对k-dist数据进行一维聚类，同时去掉噪声类，从而得到能代表主要密度水平的类；然后再根据一维聚类结果自动计算出Epsi,为后面的过滤式聚类作好准备。
　　在得到参数Epsi后，该算法根据不同的Eps分别进行聚类，从而找出非均匀数据集中的各种聚类。在聚类过程中，每当下一次调用聚类算法进行聚类时，将去掉已经聚成类的数据点，以避免数据点被重复聚类。
　　由于改进算法首先通过对k-dist数据进行一维聚类，以得到不同密度水平的Epsi，然后再根据Epsi进行过滤式聚类。因此，在针对密度不均匀的数据集时，改进算法的聚类质量更好，并更能反映数据集的分布特征。

著录项

作者
吴林敏;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名熊忠阳;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论 ;
关键词
数据挖掘; 非均匀密度; 过滤式改进算法; 聚类分析;

相似文献

中文文献
外文文献
专利

1. 针对非均匀数据集的DBSCAN过滤式改进算法 [J] . 熊忠阳 ,吴林敏 ,张玉芳 . 计算机应用研究 . 2009 ,第010期
2. Greedy DBSCAN:一种针对多密度聚类的DBSCAN改进算法 [J] . 冯振华 ,钱雪忠 ,赵娜娜 . 计算机应用研究 . 2016 ,第009期
3. 针对不平衡数据集的Bagging改进算法 [J] . 李明方 ,张化祥 . 计算机工程与应用 . 2010 ,第030期
4. 针对修正余弦相似度改进的协同过滤推荐算法 [J] . 褚宏林 ,刘其成 ,牟春晓 . 烟台大学学报（自然科学与工程版） . 2021 ,第003期
5. 一种改进Minhash的分布式协同过滤推荐算法 [J] . 吴博文 ,陈曦 . 计算机工程与应用 . 2016 ,第012期
6. 基于改进的DBSCAN聚类算法的云任务调度策略研究 [C] . 王李彧 ,孙斌 . 2016年全国通信软件学术会议 . 2016
7. 针对非均匀数据集的DBSCAN聚类算法研究 [A] . 陈若田 . 2013

针对非均匀数据集的DBSCAN过滤式改进算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅