首页> 中国专利> 一种利用簇内散度和簇间散度的数据聚类框架

一种利用簇内散度和簇间散度的数据聚类框架

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种利用簇内散度和簇间散度的数据聚类框架，包括多个数据对象，多个所述数据对象通过聚类算法被分类形成以簇为单元的数据聚类框架，每个簇内含有多个具有相似特性的数据对象，不同簇内的数据对象具有不同的特性，所述聚类算法是无特征加权的扩展简单Kmeans、矩阵特征加权的扩展AWA算法中的任意一种。该发明能有效的解决高维数据中多噪音、特征稀疏性和高计算复杂性的问题，降低噪音维度在聚类中所起的作用，从而提高聚类的精确度。

著录项

公开/公告号CN112990338A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人扬州千代科技有限公司;
展开▼

申请/专利号CN202110356807.9
发明设计人詹爱军;单君忆;张婷;黄文博;
展开▼

申请日2021-04-01
分类号G06K9/62(20060101);G06F17/16(20060101);
代理机构44355 深圳市科冠知识产权代理有限公司;
代理人王久明
地址 225000 江苏省扬州市广陵产业园科技创业园C3幢
入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及数据处理，尤其是一种利用簇内散度和簇间散度的数据聚类框架。

背景技术

在如今快速发展的时代，人们为了研究找出某些事情发生的原因并对其进行相应的预判，从而预防不好的事情的再次发生或对好的事情加以改进，都会进行相应的监测，通过监测每天都会产生数量庞大的不同的数据，若不能对其进行归纳整理，那么这些数据就会对我们无用，只有对其进行有效的归纳整理来区分出噪音，以及对未来事项的预判，从而进行有效的监控。聚类算法就是一种用于归纳整理的方法，其目标是把数据对象划分成不同的簇，使得簇内散度尽可能小，而簇间散度尽可能大，通过聚类算法，就能够划分不同大类的数据类型，从而找出问题的所在。在现有kmeans算法的聚类过程中会平等利用所有的特征进行聚类，其初始聚类中心是随机选择的，不同的聚类中心会获得不同的聚类结构，使得聚类结果不稳定，精度也不高，对于高维数据中的噪音、稀疏性的特征也不能精确的予以区分出来，而且其计算也比较复杂，不利于应用。

发明内容

针对现有的不足，本发明提供一种利用簇内散度和簇间散度的数据聚类框架。

本发明解决其技术问题所采用的技术方案是：一种利用簇内散度和簇间散度的数据聚类框架，包括多个数据对象，多个所述数据对象通过聚类算法被分类形成以簇为单元的数据聚类框架，每个簇内含有多个具有相似特性的数据对象，不同簇内的数据对象具有不同的特性；所述聚类算法是无特征加权的扩展简单Kmeans、矩阵特征加权的扩展AWA算法中的任意一种；

所述无特征加权的扩展简单Kmeans是通过如下扩展目标函数来计算分类数据对象，

其中：z

所述矩阵特征加权的扩展AWA算法是通过如下扩展目标函数来计算分类数据对象，

其中：W为权重。

作为优选，所述无特征加权的扩展简单Kmeans是通过迭代求解将目标函数最小化来分类数据对象的，包括:

2-1)，固定

2-2)，固定

作为优选，所述矩阵特征加权的扩展AWA算法是通过迭代求解将目标函数最小化来分类数据对象的，包括:

3-1)，固定质心

得出

3-2)，固定分配矩阵

得出

3-3)，固定分配矩阵

得出

本发明的有益效果在于：该发明引入了数据集的全局质心，并对聚类算法的目标函数进行了扩展，目标函数的分子部分保证了簇内散度最小，而目标函数的分母部分则保证了最大化的簇间散度，就能够利用簇间散度进行施加有效的特征选择，降低噪音维度在聚类中所起的作用，从而提高聚类结果的精确性以及聚类框架的稳定性，更利于在实际中对高维数据的分析利用。

具体实施方式

为了更清楚地说明本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明作进一步说明，进行清楚、完整的描述，显然，所描述的实施例是本发明的部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例，一种利用簇内散度和簇间散度的数据聚类框架，包括多个数据对象，多个所述数据对象通过聚类算法被分类形成以簇为单元的数据聚类框架，每个簇内含有多个具有相似特性的数据对象，不同簇内的数据对象具有不同的特性，簇内散度即在聚类过程中只考虑每个数据对象到簇中心的距离，簇间散度则是不同簇之间的距离；所述聚类算法是无特征加权的扩展简单Kmeans、矩阵特征加权的扩展AWA算法中的任意一种；两种算法都对目标函数进行了扩展，使得它们都能同时使用簇内散度和簇间散度，使得聚类的精确度更高，扩展加权算法还能够利用簇间散度进行施加有效的特征选择，降低噪音维度在聚类中所起的作用，进一步提高聚类结果的精确性。

所述无特征加权的扩展简单Kmeans是通过如下扩展目标函数来计算分类数据对象:

其中：z

所述矩阵特征加权的扩展AWA算法是通过如下扩展目标函数来计算分类数据对象，

进一步的改进，所述无特征加权的扩展简单Kmeans是通过迭代求解将目标函数最小化来分类数据对象的，包括:

2-1)，固定

2-2)，固定

进一步的改进，所述矩阵特征加权的扩展AWA算法是通过迭代求解将目标函数最小化来分类数据对象的，包括:

3-1)，固定质心

得出

3-2)，固定分配矩阵

得出

3-3)，固定分配矩阵

得出

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种利用簇内散度和簇间散度的数据聚类框架 [P] . 中国专利： CN112990338A . 2021-06-18
2. 一种WIA-PA网络中簇内节点间监听式时钟同步的方法 [P] . 中国专利： CN104993898B . 2018.04.27
3. Labeling materials using metal nanoclusters , the metal nanoclusters , immunochromatography kit , a method for producing metal nanoparticles clusters using metal nanoclusters , the production method and metal nanoparticles labeled material using metal nanoclusters method of manufacturing the immunochromatographic kit using the cluster . [P] . 日本专利： JP5581480B2 . 2014-09-03

机译：使用金属纳米簇标记材料，金属纳米簇，免疫层析试剂盒，一种利用金属纳米簇制备金属纳米颗粒簇的方法，该生产方法和使用金属纳米簇标记金属纳米颗粒的材料制备使用簇的免疫层析试剂盒。
4. Divergence estimate the divergence selector which it is related to the byte range inside order cash in order to specify quickly [P] . 日本专利： JP2001521241A . 2001-11-06

机译：散度估计与定单现金内的字节范围有关的散度选择器以便快速指定
5. METHOD AND APPARATUS FOR IMAGE SEGMENTATION USING JENSEN-SHANNON DIVERGENCE AND JENSEN-RENYI DIVERGENCE [P] . AU2003256972A1 . 2004-02-23

机译：利用詹森-香农散度和詹森-仁义散度的图像分割方法和装置