首页> 中文学位 >改进的模糊C均值聚类与连续属性离散化算法研究
【6h】

改进的模糊C均值聚类与连续属性离散化算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 数据挖掘概述

1.1.1 数据挖掘的定义

1.1.2 数据挖掘的方法和技术

1.1.3 数据挖掘的任务

1.1.4 数据挖掘的应用

1.2 连续属性离散化

1.2.1 基本概念

1.2.2 主要的离散化方法

1.2.3 国内外研究现状

1.3 模糊聚类

1.3.1 基本概念

1.3.2 主要方法

1.3.3 国内外研究现状

1.4 研究内容与论文组织

1.4.1 论文的研究内容

1.4.2 论文的组织

第二章 模糊聚类与粗糙集理论中的相关性

2.1 模糊聚类

2.1.1 模糊理论

2.1.2 模糊集合

2.1.3 模糊C均值算法

2.2 粗糙集理论中的相关性

2.3 本章小节

第三章 基于大密度区域的模糊聚类算法

3.1 引言

3.2 模糊C均值聚类(FCM)算法分析

3.3 改进的FCM聚类算法

3.3.1 利用密度函数确定初始聚类中心

3.3.2 引入改进隶属度函数

3.3.3 改进的FCM算法

3.4 实验结果分析

3.4.1 初始聚类中心实验结果

3.4.2 实际数据型数据分类实验结果

3.4.3 算法抗噪性能实验结果

3.4.4 天体光谱数据聚类效果实验

3.5 本章小结

第四章 基于改进模糊聚类的离散化算法

4.1 引言

4.2 基于DCFCM的离散化算法(软划分)

4.3 实验结果分析

4.3.1 UCI数据集离散化测试

4.3.2 天体光谱数据集离散化测试

4.4 结束语

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

研究生期间发表的文章及参与项目

个人简介及联系方式

展开▼

摘要

连续属性的离散化是数据挖掘理论中重要的研究内容之一,有监督离散化没有考虑属性之间的相容性,对最终的效果造成一定的偏差,无监督离散化对分布不均匀以及含有噪声的数据集十分敏感。在现实世界中,很多数据之间的分类界线是非常模糊的,很难断定一个数据具体属于哪个类别。在没有先验知识的指导下,人为的将数据集进行划分,不但破坏了数据之间的相关信息,而且最终得出的结果也无法令人信服。针对传统模糊离散化算法对噪声数据敏感和忽略属性之间相关性等缺陷,对模糊C均值聚类和连续属性的离散化进行了研究,主要工作如下:
  (1)针对模糊C均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,给出一种基于大密度区域的模糊聚类DCFCM算法。该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性。最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果。
  (2)在上述基础之上,给出了一种基于DCFCM的软划分离散化算法。该算法利用决策表中决策属性对条件属性的相容性原理作为评判标准,对算法参数动态调整,达到优化的离散化效果。通过UCI和天文光谱数据,实验验证该算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号