首页> 中文学位 >基于变精度粗糙集的K-means聚类算法研究
【6h】

基于变精度粗糙集的K-means聚类算法研究

代理获取

目录

声明

西北师范大学研究生学位论文作者信息

1绪论

1.1研究背景及意义

1.2国内外研究现状

1.3论文的主要研究内容

1.4论文的组织结构

2相关理论

2.1聚类理论

2.2变精度粗糙集理论

2.3本章小结

3基于变精度粗糙集的K-means聚类算法

3.1 K-means聚类算法

3.2自适应的K-means聚类算法

3.3基于变精度粗糙集的K-means聚类算法

3.4本章小结

4基于变精度粗糙集的K-means聚类算法在合成数据集中的应用

4.1实验数据集

4.2 K-means聚类算法在合成数据集中的应用

4.3小类的合并与大类的分割

4.4自适应的K-means聚类算法在合成数据集中的应用

4.5基于变精度粗糙集的K-means聚类算法在合成数据集中的应用

4.6算法的聚类效果指标

4.7实验分析

4.8本章小结

5总结与展望

5.1本文主要工作总结

5.2今后工作展望

参考文献

6攻读硕士学位期间发表的论文及参与的科研项目

致谢

展开▼

摘要

数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不明确的以及不完备的信息,可以从庞杂的数据中提取出蕴含的重要模式。但是,当数据集中存在噪音数据时,粗糙集在处理此类数据时存在过拟合而无法准确的提高数据处理能力的问题。因此为增强对噪音数据的抗干扰能力,W.Ziarko于1993年提出了变精度粗糙集(Variable Precision Rough Set,VPRS)模型,该模型通过引入了一个精度β来降低RS理论对近似边界区域的严格要求,使得集合的上、下近似拓展到任意精度水平β∈[0,0.5),VPRS是对经典RS的一种理论拓展。
  聚类分析是根据对象之间的差异性来反映对象间的相似性,使得类内对象之间的差异性尽可能小,类间对象的差异性尽可能大。K-means聚类算法是一种重要的划分方法,该算法是任意选取簇数K以及聚类中心,将样本数据集分成多个类或簇。K-means聚类算法存在的不足之处是任意选取初始化聚类中心、簇数K以及数据集中存在的噪音数据对聚类结果的影响等问题。本文主要针对K-means算法中的不足之处进行改进,首先将粗糙集理论与K-means算法相结合,提出了自适应的K-means聚类算法;其次将变精度粗糙集理论与K-means聚类算法相结合,提出了基于变精度粗糙集的K-menas聚类算法。通过在合成数据集上做实验验证了本文提出的方法的有效性。本文主要的研究工作如下:
  1.提出了自适应的K-means聚类算法。主要针对K-means聚类算法中任意选取聚类中心、K值以及数据集中存在噪音点数据对聚类的影响。该算法无需设置初始聚类中心以及K值,利用数据集中数据对象的密度区域连续分布这一特点进行聚类。该算法主要采用粗糙集理论中的上下近似与K-means聚类算法相结合来实现小类的合并,最终自适应的完成聚类。
  2.提出了基于变精度粗糙集的K-menas聚类算法。主要针对自适应的K-means聚类算法中的噪音点数据对聚类结果的影响做出进一步的改进,该算法将变精度粗糙集理论与K-means聚类算法相结合,采用小类合并的方法,通过设置不同的半径值求出样本对象密度连续区域中小类的上下近似区域,使得更多的样本对象进入近似区域中,并采用K-means聚类算法计算聚类中心,自适应的统计出聚类个数K。
  3.将自适应的K-means聚类算法与基于变精度粗糙集的K-menas聚类算法应用于合成数据集的分类。基于变精度粗糙集的K-menas聚类算法能够有效处理噪音点对聚类效果的影响,同时通过设置不同的半径r来确定相应的阈值β,进而可以得到相应的近似区域以及边界域。并通过实验验证了本文算法在合成数据集上的聚类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号