首页> 中国专利> 一种缺失条件下的高斯混合模型聚类机器学习方法

一种缺失条件下的高斯混合模型聚类机器学习方法

摘要

本发明公开了一种缺失条件下的高斯混合模型聚类机器学习方法,包括:S11.获取聚类任务和目标数据样本;S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;S13.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。本发明将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。

著录项

  • 公开/公告号CN113076970A

    专利类型发明专利

  • 公开/公告日2021-07-06

    原文格式PDF

  • 申请/专利权人 浙江师范大学;

    申请/专利号CN202110204941.7

  • 申请日2021-02-24

  • 分类号G06K9/62(20060101);G06N20/00(20190101);

  • 代理机构33246 浙江千克知识产权代理有限公司;

  • 代理人赵芳

  • 地址 321004 浙江省金华市婺城区迎宾大道688号

  • 入库时间 2023-06-19 11:44:10

说明书

技术领域

本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种缺失条件下的高斯混合模型聚类机器学习方法。

背景技术

近年来,聚类学习算法在人工智能机器学习领域中,仍然是一个非常值得关注且重要的研究热点。聚类是一种非常重要的无监督学习方法,其目的是在已给定了一组数据的条件下,按照数据间互相的相似性来划分为不同的簇,该划分将使得属于同一个簇的样本的相似性尽可能高,即尽量相似;使得属于不同的簇的样本差异性尽可能高,即尽量不相似。换种说法,聚类是将数据样本或特征向量等无监督地分类为一个个组簇。在许多研究背景领域中和很多研究者的努力下,聚类学习的主要问题目前已经得到了解决,这反映了它作为探索性数据分析步骤之一的广泛吸引力和实用性。然而,聚类方法的相互结合和改善仍然是一个比较难的问题,不同的研究背景和科学领域中,常常有着很多差异与不同的假设,这使得常见且有效的一些通用的概念和方法的转移结合都会发展得很慢。目前一些传统常见的聚类方法主要包括:K均值(K–means)聚类、C均值(C–means)聚类、Dbscan聚类及高斯混合模型(GMM)聚类等。由于高斯分布的普适性和广泛性以及混合模型对多模态数据的较好拟合,导致了高斯混合模型能够比较好地处理大规模多模态的数据。并且目前高斯混合模型聚类已经得到了广泛的研究和应用,并且也取得了比较好的结果。

上述的聚类算法在机器学习、模式识别、机器视觉、数据挖掘等领域被广泛研究,并已成功应用于轨迹线分析、异常检测、目标跟踪、图像分割、场景发现、社交网络等诸多场景。然而尽管现有的聚类算法在理论上和实际应用中均已取得了极大成功,但是上述的聚类算法通常都共享一个基本假设:所有数据样本的特征都是可观测的,也就是说每一个数据样本的每一个特征都没缺失。然而,在许多聚类算法的实际应用的数据收集过程中,经常会遇到无法正确收集到某些测量值或某个变量的全部测量值,因此也就造成了很多数据集中常常存在变量的特征值出现缺失的情况,从而使得聚类性能降低。

不完整数据的存在使得利用所有数据样本的信息进行聚类变得异常困难。一个直接的补救措施就是先用一种填补算法来填补缺失值,然后利用一种标准的聚类算法进行聚类。一些常用的填补算法有零填充、均值填充、k近邻填充和期望最大化填充算法和其他改进算法。这些方法试图通过预处理来减少缺失数据对聚类产生的负面影响,尽管在各种应用中展现了很好的聚类性能,但是上述算法有一个共同的缺点,它们的数据填补和聚类过程是分开进行的,导致缺失特征的填补过程不能服务于聚类任务,这抑制了两个过程之间相互的引导协调,进而降低了聚类性能。

发明内容

本发明的目的是针对现有技术的缺陷,提供了一种缺失条件下的高斯混合模型聚类机器学习方法。

为了实现以上目的,本发明采用以下技术方案:

一种缺失条件下的高斯混合模型聚类机器学习方法,包括:

S1.获取聚类任务和目标数据样本;

S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;

S3.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;

S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。

进一步的,所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:

其中,X表示目标数据样本矩阵;k表示聚类个数;x

进一步的,所述步骤S3中还包括定义高斯混合概率分布,表示为:

pM(X)=∑α

其中,μ

进一步的,所述第i个高斯混合分量对应的第j个采样值的概率密度p(x

其中,x

进一步的,所述步骤S3中还包括引入随机变量z

z

其中,l表示第i个高斯混合分量,

进一步的,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,表示为:

其中,μ

进一步的,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数具体为:利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数。

进一步的,所述利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数具体包括:

根据当前参数计算每个样本属于每个高斯混合分量的后验概率,表示为:

其中,γ

进一步的,所述步骤S4具体为:

S41.固定目标数据样本矩阵X,优化参数α

将目标函数

S42.固定α、μ和Σ,优化目标数据样本矩阵X;

将目标函数

令x

其中,m表示矩阵的缺失部分,o表示矩阵的可观测部分;

求解公式(8)对x

其中,P

进一步的,所述步骤S41具体包括:

S411.固定α

在α

S412.固定α

在α

S413.固定μ

对于α

其中,m表示矩阵的缺失部分。

与现有技术相比,本发明提出了一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。本发明使得填充和聚类两个过程能够互相引导协调,通过使用高斯混合模型聚类结果对填充过程的引导,填充值能更好地服务于最终的聚类目标,达到聚类效果提升的目的。在八个公共数据集上的实验结果证明了本发明的性能优于现有方法。

附图说明

图1是实施例一提供的一种缺失条件下的高斯混合模型聚类机器学习方法流程图;

图2是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的ACC性能对比示意图;

图3是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的NMI性能对比示意图;

图4是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的F-score性能对比示意图;

图5是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的PUR性能对比示意图;

图6是实施例二提供的随迭代次数增加,算法的目标函数值的变化示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

本发明针对现有缺陷,提供了一种缺失条件下的高斯混合模型聚类机器学习方法。

实施例一

本实施例提供的一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类;如图1所示,该方法具体步骤包括:

S11.获取聚类任务和目标数据样本;

S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;

S13.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;

S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。

在步骤S13中,利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数。

在本实施例中,建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:

其中,X表示目标数据样本矩阵;k表示聚类个数;x

步骤S13中还包括定义高斯混合概率分布,表示为:

pM(X)=∑α

其中,该高斯混合概率分布由k个高斯分布组成,每个高斯分布可以看成一个混合分量。μ

第i个高斯混合分量对应的第j个采样值的概率密度p(x

其中,x

步骤S13中还包括引入随机变量z

z

其中,l表示第i个高斯混合分量,

在步骤S14中,采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。

采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,即通过最大化对数似然值来求解参数,表示为:

LL(X)=ln(∏pM(x

其中,μ

进一步的可以利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数,具体包括:

期望步:根据当前参数计算每个样本属于每个高斯混合分量的后验概率,表示为:

其中,γ

最大化步:步骤S14具体为:

S41.固定目标数据样本矩阵X,优化参数α

基于对高斯混合模型的每个分量相互独立的考虑,将公式(1)的目标函数

S411.固定α

在α

S412.固定α

在α

S413.固定μ

对于α

S42.固定α、μ和Σ,优化目标数据样本矩阵X;

考虑到每个样本x

令x

其中,m表示矩阵的缺失部分,o表示矩阵的可观测部分。

求解公式(12)对x

其中,P

如公式(13)所示,每个样本x

与现有技术相比,本实施例提出了一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。本发明使得填充和聚类两个过程能够互相引导协调,通过使用高斯混合模型聚类结果对填充过程的引导,填充值能更好地服务于最终的聚类目标,达到聚类效果提升的目的。

实施例二

本实施例提供的一种缺失条件下的高斯混合模型聚类机器学习方法与实施例一的不同之处在于:

本实施例在8个MKL标准数据集上测试了本发明方法的聚类性能。

8个MKL标准数据集包括Iris、AlcoholQCM、Seeds、Wine、Segment、ElectricalGrid、Avila和Letter。数据集的相关信息参见表1。

表1

本实施例分别将提出的动态高斯混合模型聚类算法与几种常用的填充方法,包括均值填充(MF)、零填充(ZF)、期望最大填充(EM)进行了比较。此外,本实施例还与最近提出的结合前三种方法的动态k-means填充(DK)方法进行了比较。对于所有数据集,假设簇的真实数目k是已知的,并且将其设置为类的数目。由原始完全数据矩阵随机生成缺失数据,缺失率均为10~70%,其中缺失率会影响算法的性能。

为了更深入地说明这一点,本实施例从缺失率的角度对这些算法进行了比较。使用广泛使用的聚类准确率(ACC)、归一化互信息(NMI)、F-Score和纯度(PUR)来评价每种算法的聚类性能。

对于所有算法,本实施例对每个实验进行50次随机初始化,以减小k-means和GMM聚类算法初值选取的随机性的影响,并报告平均结果。同时,本实施例按照上述方式随机生成了10次缺失数据,并上报了统计结果。

图2-图6展示了不同聚类算法在八个数据集上随缺失率变化的聚类性能对比图,根据这些图可以观察到:

(1)所提出的算法明显且一致地优于现有的两阶段填充聚类方法。例如,Seeds数据集中,随着缺失率从0到70%的变化,本实施例算法的ACC值分别比效果最优的两阶段聚类方法(EM)高0%、21.2%、6.0%、16.7%、14.8%、17.3%、20.6%和20.2%,本实施例算法的NMI值分别高出0%、22.2%、5.0%、19.0%、15.1%、21.6%、26.3%和22.4%。F-score和Purity指标的趋势也是相同的。

(2)虽然最近提出的动态K-均值填充聚类算法得到了不错的性能,但高斯混合模型聚类能够处理更复杂的多模态数据,取得了更好的性能。例如,Seeds数据集中,随着缺失率从0到70%的变化,该算法在ACC值方面将次优方法(DK+Mean)的性能分别提高了3.3%、6.1%、7.8%、13.0%、16.1%、15.8%、9.9%和9.3%;本实施例算法的NMI值则分别比其高出了5.8%、13.6%、17.6%、23.0%、26.3%、22.0%、14.1%和10.1%。从图4、图5中能看到F-score和Purity指标的趋势也是相同的。这些结果验证了高斯混合GMM模型聚类对于缺失数据聚类的性能要优于动态k–means方法。

(3)当缺失率超过40%时,现有的两阶段填充聚类方法的性能会明显下降。然而,本实施例提出的缺失数据高斯混合模型聚类与其他比较算法相比,具有最好的鲁棒性,并且在缺失率增加的情况下仍能保持最佳的性能。

如表2所示展示了本实施例的方法以及对比算法在所有数据集上的聚类效果综合的评价指标和标准偏差,其中最佳结果以粗体显示。

表2

根据表2可以观察到:

本实施例所提出的算法几乎总是在所有八个数据集的每个性能度量上都达到最优的性能水平。例如,本实施例提出的算法在Iris、Seeds、Wine和Avila等数据集上的ACC值(聚类准确率)分别比去年针对缺失数据提出的动态K–means聚类方法(DK+Em)高出8.4%、11.4%、11.8%和6.1%,NMI值(标准化互信息)分别高出8.3%、18.5%、15.2%和3.2%。本实施例提出的算法与传统的GMM聚类算法进行比较,聚类性能也有着巨大的优势。例如,在Iris、Seeds、Wine、Segment、ElectricGrid和Letter数据集上,本实施例提出的算法的ACC值(聚类准确率)比采用EM填充的GMM聚类高出8.4%、14.6%、5.2%、6.1%、14.9%和5.4%,F-score值则分别高出6.8%、13.3%、5.1%、8%、14%和6.2%,PUR值(纯度)则分别高出8.2%、14.5%、3.8%、6.1%、8.8%和5.7%。这些结果与前述内容各个聚类性能指标的曲线图中的观察结果一致,很好地表明了本实施例提出算法的有效性。

本实施例也给出了随着迭代次数的变化时,目标函数值的变化情况,如图6所示为在Seeds和Letter数据集上执行的随迭代次数变化的目标函数值。可以看出聚类的目标函数值在迭代过程中单调递增,目标函数值很快就趋于稳定,并且算法通常少于100次迭代就能够达到收敛。

现有基本聚类算法已经在各种应用中表现出不错的效果,但他们都不能有效处理数据缺失的问题。本实施例联合优化缺失填充和高斯混合模型聚类来解决这个问题。这使得两个学习过程无缝融合,取得了更好的聚类结果。通过大量的实验,在多个公开数据集上都验证了聚类结果得到明显改善。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号