类属型数据的加权粗糙聚类算法及应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着数据规模的不断增大，竞争的日趋激烈，人们迫切需要从大量数据中挖掘出有用的知识和信息来辅助决策，数据挖掘技术随之应运而生。聚类分析是数据挖掘的一种重要技术，但以往的研究大多限于数值型数据，类属型数据的聚类算法则被研究地较少。
　　类属型数据的值域是无序的，无法进行其值的大小比较。因此，我们不能用基于距离的方法度量类属型数据对象间的相似性，传统聚类算法也对类属型数据聚类失效。现存的一些类属型数据聚类算法，期望的簇数目需人工确定，聚类结果对样本输入顺序敏感，没有考虑不同属性对聚类的重要性，降低了聚类分析的质量和效率，限制了聚类分析的应用。
　　鉴于此，本文提出了一种加权粗糙聚类算法：首先把各个属性特征看作同等重要，赋予相同的权值，根据粗糙集相似关系得到初始聚簇；然后利用信息增益率去衡量属性特征对聚类的重要性；最后用信息增益率值更新属性的权值，不断迭代，直到产生满足要求的聚簇。该算法能够处理类属型数据，不需要预先给定簇的数目，对样本输入顺序不敏感，考虑了属性对聚类的重要性，提高了聚类的质量。
　　最后，利用来自UCI的数据集实验，证实了该算法在分类正确率和聚簇的纯度上均有提高。并将该算法应用于中医亚健康数据，发现了数据中的潜在规律，给中医亚健康状态分类辨识研究提供了一定的理论支撑，为亚健康的发现和防治提供了科学依据。

著录项

作者
李翠兰;
展开▼
作者单位

中山大学;

展开▼
授予单位中山大学;
学科计算机应用技术
授予学位硕士
导师姓名印鉴;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
类属型数据; 聚类分析; 粗糙集; 信息增益率; 亚健康数据; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 类属型数据核子空间聚类算法 [J] . 徐鲲鹏 ,陈黎飞 ,孙浩军 . 软件学报 . 2020,第011期
2. 属性加权的类属型数据非模聚类 [J] . 陈黎飞 ,郭躬德 . 软件学报 . 2013,第011期
3. 类属数据的贝叶斯聚类算法 [J] . 朱杰 ,陈黎飞 . 计算机应用 . 2017,第004期
4. 基于最大似然原理的分类属性数据分层聚类算法 [J] . 李建伏 ,赵玉成 ,贺怀清 . 计算机应用与软件 . 2015,第003期
5. 分类属性数据的泛化中心聚类算法 [J] . 武森 ,张桂琼 ,潘静 . 运筹与管理 . 2014,第006期
6. 一种新的类属型数据模糊聚类算法 [C] . 吴书 ,姜青山 ,董槐林 . 第二十三届中国数据库学术会议（NDBC2006） . 2006
7. 类属型数据的聚类算法研究 [A] . 吴书 . 2007

类属型数据的加权粗糙聚类算法及应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅