基于Weka平台的改进模糊C均值聚类算法研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘是从大量数据资源中获取有用信息和知识资源的方法。聚类算法是数据挖掘算法中被广泛使用和研究的算法之一，其中模糊C均值聚类算法利用模糊理论根据隶属度来划分实例属于哪个类别，对待聚类数据的分析更加客观。
　　本文分析研究了模糊C均值聚类算法，该算法简单且聚类性能较好，但是对初始值较敏感，容易使算法陷入局部极小值，而得不到全局最优，不但迭代次数会增加，而且最终容易导致聚类失败。针对模糊C均值聚类算法存在的这种问题，提出了一种基于实例密度的模糊C均值聚类算法，使类中心更加接近实际聚类中心，减少了迭代次数，提高了聚类效果。通过在模拟数据集和UCI数据集上进行实验，验证了改进后算法的有效性。
　　系统功能丰富、操作简便、基于Java语言的开源数据挖掘工具Weka倍受数据挖掘研究者的关注。但是Weka在聚类方面集成算法较少，因此，针对Weka系统的开发环境结构、接口规范、添加新算法的具体方法及实现步骤进行研究，对其进行二次开发，实现了层次聚类算法SmipleChameleon算法、模糊C均值聚类算法以及改进后的模糊C均值聚类算法。
　　为了进一步验证改进后算法的有效性，本文将改进后算法应用于社会保险审计数据中。通过对社会保险审计数据进行分析研究，根据其数据具有数据量大、缴费类型多以及存在冗余数据的特点，对数据进行数据合并和属性选择等预处理，将传统模糊C均值聚类算法及改进后算法针对每个地区的四个聚类目的进行对比实验。通过分析实验结果，得出改进后算法减少了迭代次数的同时提高了聚类效果，再次验证了改进后算法的有效性。

著录项

作者
郑文娟;
展开▼
作者单位

太原理工大学;

展开▼
授予单位太原理工大学;
学科计算机技术
授予学位硕士
导师姓名陈俊杰;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
Weka平台; 模糊C均值聚类; 实例密度; 社会保险审计; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于Weka平台下的改进FCM算法的二次开发 [J] . 康同曦 ,刘波 ,刘强 . 无线互联科技 . 2016,第014期
2. 改进的FCM聚类算法在Weka平台的应用 [J] . 王晶 ,于威威 . 计算机系统应用 . 2015,第011期
3. Weka平台上解决聚类的改进差分进化算法 [J] . 姜凯 ,左风朝 . 计算机工程与设计 . 2012,第002期
4. 基于改进遗传算法的加权模糊C均值聚类算法 [J] . 李同强 ,周天弋 ,吴斌 . 计算机应用 . 2009,第0z2期
5. 基于改进遗传算法的加权模糊C均值聚类算法 [J] . 李同强 ,周天弋 ,吴斌 . 计算机应用 . 2009,第B12期
6. 改进的模糊C均值聚类算法 [C] . 刘坤朋 ,罗可 . 2009年全国理论计算机科学学术年会 . 2009
7. 基于Weka平台的改进KNN中文网页分类研究 [A] . 黄超 . 2018

基于Weka平台的改进模糊C均值聚类算法研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅