首页> 中文学位 >基于Weka平台的改进模糊C均值聚类算法研究与应用
【6h】

基于Weka平台的改进模糊C均值聚类算法研究与应用

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景和意义

1.2 课题研究现状

1.2.1 数据挖掘工具Weka的研究现状

1.2.2 模糊C均值聚类算法的研究进展及现状

1.3 本文研究的主要工作和论文结构

1.3.1 本文的主要工作

1.3.2 论文的组织结构

第二章 数据挖掘工具和FCM聚类算法

2.1 数据挖掘工具Weka

2.1.1 Weka平台简介

2.1.2 Weka的数据格式

2.1.3 Weka的主要功能

2.2 FCM聚类算法

2.2.1 FCM聚类算法的原理

2.2.2 FCM聚类算法的算法步骤

2.2.3 FCM聚类算法的优缺点

2.3 本章小结

第三章 改进的模糊C均值聚类算

3.1 相关定义

3.2 改进的模糊C均值聚类算法DFCM

3.3 改进后的模糊C均值聚类算法实验

3.4 本章小结

第四章 Weka平台下的二次开发

4.1 Weka的结构

4.2 Weka开发环境及过程

4.3 Weka扩展实验

4.3.1 SmipleChameleon算法

4.3.2 模糊C均值聚类算法

4.3.3 改进后的模糊C均值聚类算法

4.4 本章小结

第五章 DFCM聚类算法在社会保险审计数据的应用

5.1 社会保险审计数据的特点及其预处理

5.2 改进算法在社会保险审计数据上的应用

5.3 实验结果分析

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读硕士学位期间发表论文

展开▼

摘要

数据挖掘是从大量数据资源中获取有用信息和知识资源的方法。聚类算法是数据挖掘算法中被广泛使用和研究的算法之一,其中模糊C均值聚类算法利用模糊理论根据隶属度来划分实例属于哪个类别,对待聚类数据的分析更加客观。
   本文分析研究了模糊C均值聚类算法,该算法简单且聚类性能较好,但是对初始值较敏感,容易使算法陷入局部极小值,而得不到全局最优,不但迭代次数会增加,而且最终容易导致聚类失败。针对模糊C均值聚类算法存在的这种问题,提出了一种基于实例密度的模糊C均值聚类算法,使类中心更加接近实际聚类中心,减少了迭代次数,提高了聚类效果。通过在模拟数据集和UCI数据集上进行实验,验证了改进后算法的有效性。
   系统功能丰富、操作简便、基于Java语言的开源数据挖掘工具Weka倍受数据挖掘研究者的关注。但是Weka在聚类方面集成算法较少,因此,针对Weka系统的开发环境结构、接口规范、添加新算法的具体方法及实现步骤进行研究,对其进行二次开发,实现了层次聚类算法SmipleChameleon算法、模糊C均值聚类算法以及改进后的模糊C均值聚类算法。
   为了进一步验证改进后算法的有效性,本文将改进后算法应用于社会保险审计数据中。通过对社会保险审计数据进行分析研究,根据其数据具有数据量大、缴费类型多以及存在冗余数据的特点,对数据进行数据合并和属性选择等预处理,将传统模糊C均值聚类算法及改进后算法针对每个地区的四个聚类目的进行对比实验。通过分析实验结果,得出改进后算法减少了迭代次数的同时提高了聚类效果,再次验证了改进后算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号