首页> 中国专利> 一种基于一致图学习的多视图聚类方法

一种基于一致图学习的多视图聚类方法

摘要

本发明公开了一种基于一致图学习的多视图聚类方法,包括:S11.输入原始数据矩阵,得到谱嵌入矩阵;S12.根据谱嵌入矩阵计算相似图矩阵和拉普拉斯矩阵;S13.对计算得到的相似图矩阵使用谱聚类,得到谱嵌入表征;S14.将标准化谱嵌入表征的内积堆叠成一个三阶张量,使用低秩张量表征学习得到一致的距离矩阵;S15.将谱嵌入表征学习和低秩张量表征学习进行整合至统一的学习框架,得到目标函数;S16.通过交替迭代优化策略对得到的目标函数进行求解;S17.根据求解结果构建一致相似图;S18.对一致相似图使用谱聚类得到聚类结果。本发明从谱嵌入特征上构建一个一致相似图进行聚类。在此低维度空间中,噪声和冗余信息被有效地过滤,因而得到的相似图能够很好地描述数据的类簇结构。

著录项

  • 公开/公告号CN112990264A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 浙江师范大学;

    申请/专利号CN202110171227.2

  • 申请日2021-02-08

  • 分类号G06K9/62(20060101);

  • 代理机构33246 浙江千克知识产权代理有限公司;

  • 代理人赵芳

  • 地址 321004 浙江省金华市婺城区迎宾大道688号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及信号处理、数据分析技术领域,尤其涉及一种基于一致图学习的多视图聚类方法。

背景技术

随着信息获取技术的发展,多媒体数据,如,文本,音频,图像,视频等,通常能从现实应用场景中的多种来源获取。例如,在多媒体图像检索任务中,颜色、纹理和边缘可以被用来描述图像;在视频场景分析任务中,不同拍摄角度的摄像机可以为同一个场景的场景分析提供更多信息。此类型的数据被称之为多视图数据,随之产生了一系列的多视图学习算法,如,跨视图领域自适应、多视图聚类、多视图异常点检测等。数据语义信息的获取是多媒体数据挖掘中的一个重要研究课题。多视图聚类以无监督的方式分析数据的多视图特征,以捕获数据的内在类簇信息,在近些年来得到越来越多的关注。

谱聚类由于其良好的数学框架和对任意形状聚类的划分能力,成为了目前比较流行的聚类算法。因而,近年来越来越多基于谱聚类的多视图聚类算法被提出并应用于分析处理多媒体数据。大多数基于谱聚类的多视图聚类算法通常包含以下两个步骤:一是,从多视图数据中构建一个共享的相似图。然后,对这个相似图使用谱聚类得到聚类结果。由于多媒体采集源的异构性,多视图数据常常具有冗余性、相关性和多样性等特征。这使得如何有效地挖掘多视角数据的信息为聚类构建一个优质的相似图,成为提升多视图聚类算法的聚类性能的一个关键问题。为此,Gao等人将子空间学习和谱聚类结合,为多视图数据学习一个共有的聚类划分。Cao等人使用希尔伯特施密特准则强制多个子空间表征之间差异,从而挖掘视图之间的互补信息。Wang 等人引入了一种排它正则化约束使得多个子空间表征之间足够差异,同时从多个子空间表征中获取一个一致的聚类划分。Nie等人结合聚类和局部结构学习,得到了一个具有拉普拉斯秩约束的相似图。以上方法通常使用成对策略挖掘视图之间的差异性和一致信息以提高聚类性能。与此不同的是,近年来,一些算法通过将多个表征堆叠为张量并进一步挖掘数据的高阶关联,取得了较好的聚类效果,并得到了越来越多的关注。

虽然先前的多视图聚类算法从各方面提升了聚类性能,但是,它们通常直接从包含噪声和冗余信息的原始特征中学习相似图。因此,得到的相似图并不准确,使得聚类的性能受限。

为了解决这个问题,本发明提出了一种基于一致图学习的多视图聚类(CGLMVC)方法从一个新的特征空间中学习一致相似图进行聚类。

发明内容

本发明的目的是针对现有技术的缺陷,提供了一种基于一致图学习的多视图聚类方法。

为了实现以上目的,本发明采用以下技术方案:

一种基于一致图学习的多视图聚类方法,包括:

S1.输入原始数据矩阵,得到谱嵌入矩阵;

S2.根据谱嵌入矩阵计算相似图矩阵和拉普拉斯矩阵;

S3.对计算得到的相似图矩阵使用谱聚类,得到谱嵌入表征;

S4.将标准化谱嵌入表征的内积堆叠成一个三阶张量,使用低秩张量表征学习得到一致的距离矩阵;

S5.将谱嵌入表征学习和低秩张量表征学习进行整合至统一的学习框架,得到目标函数;

S6.通过交替迭代优化策略对得到的目标函数进行求解;

S7.根据求解结果构建一致相似图;

S8.对一致相似图使用谱聚类得到聚类结果。

进一步的,所述步骤S3中得到谱嵌入表征,表示为:

其中,

进一步的,所述步骤S4中使用低秩张量表征学习得到一致的距离矩阵,表示为:

其中,

进一步的,所述步骤S5中得到目标函数,表示为:

其中,λ表示惩罚参数;

进一步的,所述步骤S6具体为:

S61.固定

其中,T

S62.令

其中,

S63.固定

其中,

S64.对

进一步的,所述步骤S7中构建一致相似图,表示为:

其中,

进一步的,所述步骤

其中

其中

与现有技术相比,本发明提出了种基于一致图学习的多视图聚类方法,从谱嵌入特征上构建一个一致相似图进行聚类。在此低维度空间中,噪声和冗余信息被有效地过滤,因而得到的相似图能够很好地描述数据的类簇结构。

附图说明

图1是实施例一提供的一种基于一致图学习的多视图聚类方法流程图;

图2是实施例一提供的CGLMVC方法的算法框图图;

图3是实施例二提供的不同参数组合下六个数据集上的ACC结果示意图;

图4是实施例二提供的不同参数组合下六个数据集上的NMI结果示意图;

图5是实施例二提供的不同参数组合下六个数据集上的Purity结果示意图;

图6是实施例二提供的CGLMVC方法在六个数据集上的目标函数收敛曲线图图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

本发明针对现有缺陷,提供了一种基于一致图学习的多视图聚类方法。

实施例一

本实施例提供的一种基于一致图学习的多视图聚类方法,如图1 所示,包括:

S11.输入原始数据矩阵,得到谱嵌入矩阵;

S12.根据谱嵌入矩阵计算相似图矩阵和拉普拉斯矩阵;

S13.对计算得到的相似图矩阵使用谱聚类,得到谱嵌入表征;

S14.将标准化谱嵌入表征的内积堆叠成一个三阶张量,使用低秩张量表征学习得到一致的距离矩阵;

S15.将谱嵌入表征学习和低秩张量表征学习进行整合至统一的学习框架,得到目标函数;

S16.通过交替迭代优化策略对得到的目标函数进行求解;

S17.根据求解结果构建一致相似图;

S18.对一致相似图使用谱聚类得到聚类结果。

本实施例提出了一种基于一致图学习的多视图聚类(CGLMVC) 方法从一个新的特征空间中学习一致相似图进行聚类。具体地,首先从各个视图的相似图中得到谱嵌入表征,并将多个标准化谱嵌入表征的内积堆叠成一个三阶张量。然后,利用加权张量核范数挖掘多个视图之间的高阶一致性信息。进一步将谱嵌入和低秩张量学习整合进一个统一的学习框架联合学习谱嵌入和张量表征。本实施例考虑多个视图中的噪声和冗余性的分布不同。通过约束多个视图的全局一致性,噪声和冗余信息可以被有效地过滤。因此,学习得到的潜入表征更利于构建数据的内在相似图进行聚类任务。基于求解的谱嵌入特征,可以构建一个一致相似图进行聚类。如图2所示为CGLMVC方法的算法框图。

对于实际数据,噪声和冗余信息不可避免地混合在原始特征中。因此,从原始特征中学习的相似图不准确。为了解决这个问题,在一个新的低维度特征空间上学习自适应邻域图。自适应邻域图可以通过求解如下问题得到:

其中,

在步骤S11中,输入原始数据矩阵,得到谱嵌入矩阵。

原始数据矩阵

在S12中,根据谱嵌入矩阵计算相似图矩阵和拉普拉斯矩阵。

谱嵌入矩阵可以通过对视图特有的相似图W

其中,

上述公式中得到的S主要取决于距离矩阵D

在步骤S14中,将标准化谱嵌入表征的内积堆叠成一个三阶张量,得到低秩张量表征学习。

其中,

在步骤S15中,将谱嵌入表征学习和低秩张量表征学习进行整合至统一的学习框架,得到目标函数。

本实施例提出的基于一致图学习的多视图聚类方法的目标函数可以表示如下:

其中,λ为惩罚参数,τ为奇异值阈值,

其中

在上述公式中,每个奇异值都使用相同的奇异值阈值τ进行收缩操作。但是,相对较大的奇异值量化了主成分方向的信息,应该受到较少的收缩操作。对较大奇异值的过度惩罚不利于挖掘张量的主要信息。因此,本实施例引入了一种加权张量核范数以增加张量核范数的灵活性。该加权张量核范数表示如下:

其中,

使用加权张量核范数替换上述目标函数中的核范数,得到最终的目标函数。

本实施例提出的基于一致图学习的多视图聚类方法的目标函数可以表示如下:

其中,λ表示惩罚参数;

通过求解目标函数,一致相似图S可以使用自适应邻域图学习方法从矩阵

在步骤S16中,通过交替迭代优化策略对得到的目标函数进行求解。具体步骤为:

S61.固定变量

其中,T

S62.令

其中,

进而,有如下等式:

通过整合以上公式,优化问题可以进步一改写如下:

其中

S63.固定变量

对于张量

其中,

S64.对

其中

其中

在步骤S17中,根据求解结果构建一致相似图,表示为:

其中,

本实施例提供了一种基于一致图学习的多视图聚类方法 (CGLMVC),与其它多视图聚类算法,如:LT-MSC、MLAN、GMC 和SM2SC等进行比较,CGLMVC方法从谱嵌入特征上构建一个一致相似图进行聚类。在此低维度空间中,噪声和冗余信息被有效地过滤,因而得到的相似图能够很好地描述数据的类簇结构。图2给出了 CGLMVC算法的算法框图。通过联合学习谱嵌入和低秩张量表征,既保持了数据的原始几何结构,又使得谱嵌入特征具有高阶视图一致性。此外,设计了一种有效的迭代算法来优化求解CGLMVC方法的目标函数。

实施例二

本实施例提供的一种基于一致图学习的多视图聚类方法与实施例一的不同之处在于:

为了充分验证本发明CGLMVC方法的有效性,首先在六个常用的基本数据库上(MSRCV1、ORL、20newsgroups、100leaves、COIL20、 handwritten)测试CGLMVC方法的性能,同时与以下两种单视图聚类算法和七种目前比较流行多视图聚类算法进行比较:

(1)SC:谱聚类算法。

(2)LRR:该方法利用核范数约束构建一个低秩子空间表征进行聚类。

(3)MLAN:该方法在自动地为每个视图分配权重的同时,学习一个具有拉普拉斯秩约束的相似图进行聚类。

(4)MCGC:该方法使用一个协同正则项减少视图之间的差异性。同时,从多个谱嵌入矩阵中学习一个具有拉普拉斯秩约束的相似图进行聚类。

(5)GMC:该方法整合自适应邻域图学习和多相似图融合进一个统一的框架,从而学习一个具有拉普拉斯秩约束的相似图进行聚类。

(6)SM2SC:该方法使用变量分割和乘法分解策略从视图特有的子空间表征中挖掘多视图的内在结构,并构建了一个结构化的相似图进行聚类。

(7)LT-MSC:该方法将多个子空间表征堆叠为一个张量,通过约束张量的三个模态低秩,从而学习一个低秩张量子空间表征进行聚类。

(8)t-SVD-MS:该方法将多个子空间表征堆叠为一个张量,通过使用基于张量奇异值分解的张量核范数约束张量低秩,从而学习一个低秩张量子空间表征进行聚类。

(9)ETLMSC:该方法将多个概率转移矩阵堆叠为一个张量,使用张量核范数和l

实验中,在六个公开的数据库上对CGLMVC方法与其他九种聚类方法进行对比试验。六个数据库具体信息如下:

MSRCV1:它包含七类共210张场景识别图片。每张图片使用六类不同的特征进行描述,如,256维LBP特征,100维HOG特征, 512维GIST特征,48维Color Moment特征,1302维CENTRIST特征,和210维SIFT特征。

ORL:它包含在不同光照、时间、以及面部细节下40位人的共 400张人脸图片。在本实验中,三类不同的特征,如4096维intensity 特征,3304维LBP特征,和6750维Gabor特征用于描述每张人脸图片。

20newsgroups:它是一个包含五类共500个样本的文档数据集。在本实验中,三种不同的文档预处理手段产生了三类不同的特征。

100leaves:该数据集包含100类共1600张植物图片。在本实验中,本实施例从每张图片中提取了形状、材质、边缘三种不同的特征。

COIL20:它包含20种共1400张物体图片。对于每张图片,本实施例提取了1024维intensity特征,3304维LBP特征和6750维 Gabor特征。

handwritten:它包含从0到9共2000张手写数字图片。对于每张图片,本实施例提取了76维FOU特征,216维FAC特征,64维 KAR特征,240维Pix特征,47维ZER特征,以及6维MOR特征。

SC和LRR为两个单视图聚类算法,本实施例在数据的每一个视图执行它们,并给出最好的聚类结果。对于SC算法,自适应邻域相似图的最近邻个数设置为15。对于LRR算法,参数从范围 [10

结果分析:

表1给出了不同方法在六个数据库上的七个聚类指标结果。本实施例有如下结论。

(1)CGLMVC算法显著优于其它对比算法。以MSRCV1数据集为例,CGLMVC算法比第二优的SM2SC算法在ACC、NMI和Purity 指标上分别高出5.24、10.66和5.24个百分点。这验证了本实施例所提出方法的优点和有效性。CGLMVC算法能取得更好聚类效果主要有以下两点原因。第一,CGLMVC算法从谱嵌入矩阵而不是原始特征中学习相似图;第二,同时进行谱嵌入和低秩张量学习能够得到很好的谱嵌入特征。

(2)CGLMVC算法优于MCGC,MLAN、GMC和ETLMSC 这四个基于图的多视图聚类算法。对于MLAN、GMC和ETLMSC 算法,它们从原始特征学习相似图进行聚类。然而,原始特征中包含的噪声和冗余信息使得学习的相似图不足以揭示数据的内在结构,因而,它们的聚类效果受限。对于MCGC算法,它成对的挖掘多视图的关联性,并从谱嵌入中学习一个一致相似图进行聚类。因而聚类性能也会受限制。

(3)CGLMVC算法在大部分数据集上优于LT-MSC、t-SVD-MS 和ETLMSC这三个基于张量的多视图聚类算法。这表明了相比对原始特征空间,在谱嵌入特征空间中能更好地学习相似图进行聚类。

(4)相比于LT-MSC、t-SVD-MS和SM2SC三个基于子空间的多视图聚类算法,CGLMVC算法能在大部分数据集上取得最好的结果。LT-MSC和t-SVD-MS算法在20newsgroups数据集上取得较好的结果的原因可能为,l

(5)SC和LRR为两个效果不错的单视图聚类算法。相比于其它比较方法,它们常常能取得可行甚至更好的聚类效果。但是,CGLMVC算法在所有数据集上都能取得更好聚类效果。这表明 CGLMVC算法的优越性。

表1

为了验证CGLMVC算法学习到的嵌入特征比原始特征更有利于构建聚类任务的内在相似性图。本实施例分别从原始特征和学习的嵌入特征中得到视图特有的相似图和平均相似图。然后,本实施例在这些相似图上进行谱聚类并记录聚类ACC指标。如表2所示,随着迭代次数的增加,本实施例CGLMVC算法所学习的嵌入特征能构建更好的相似图,提供更好的聚类效果。这有效的验证了CGLMVC算法的优越性。

表2

参数灵敏度

本发明包含两个参数λ和C。在本实施例的实验中,参数λ和C从范围[1,5,10,50,100,500,1000,5000]中使用网格搜素的方式选取。图3、图 4、图5分别给出了不同参数组合下CGLMVC算法在六个数据集上的ACC,NMI和Purity结果。对于MSRCV1,ORL,100leaves和handwritten对于参数扰动不敏感,能在大范围的参数组合下取得令人满意的效果。对于COIL20数据集,CGLMVC算法的性能很大程度上取决于参数的选取。

CGLMVC算法的计算复杂度分析

优化算法求解目标函数过程中,计算复杂度主要位于更新变量

CGLMVC算法的经验收敛性:

为了验证CGLMVC算法的收敛性,本实施例记录了算法在六个数据集上的目标函数收敛曲线。如图6所示,算法的目标函数值随着迭代次数逐渐下降并在100次内收敛到稳定值。因此,CGLMVC算法具有很好的收敛性。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号