技术领域
本发明属于聚类技术领域,具体涉及一种基于图自编码器的融合子空间聚类方法及系统。
背景技术
聚类分析是最基本的数据分析手段,是无监督学习最重要的组成部分,被广泛应用于各个领域,对人们的日常生活产生着重要影响。
传统聚类技术,包括基于划分的、基于层次的和基于密度的算法等,都依赖于手工设计的特征。而对于高维复杂数据,手工设计的特征往往不能满足实际需求。由于数据的特征质量决定了机器学习算法的性能上界,低质量的手工特征严重限制了聚类算法的性能。
常规深度聚类技术,凭借常规神经网络(全连接神经网络、卷积神经网络、递归神经网络等)强大的表示学习能力能够提取高质量的特征向量,再用传统聚类算法对其进行分析,可以大大提升聚类效果。但常规神经网络只擅长处理独立同分布的样本,不能有效处理图数据。
例如申请号为CN201611027489.7的中国专利,其公开了一种基于卷积神经网络的社交网络文本聚类方法,包括下列步骤:文本预处理:过滤无用字符,同时转换为词向量。特征映射:通过局部特征保持算法将词向量映射为卷积神经网络模型可用的二元特征向量,作为卷积神经网络训练的目标特征。卷积神经网络:卷积神经网络训练过程,以词向量为输入,二元特征向量为目标特征进行训练。K-means聚类:根据卷积神经网络输出的二元特征向量,使用机器学习中的无监督学习算法K-means进行聚类,获得聚类结果。该专利的方案便基于卷积神经网络进行聚类,因此无法有效处理图数据。
发明内容
针对现有技术中存在的上述问题,本发明提出一种基于图自编码器的融合子空间聚类方法及系统,在图数据上具有较高的聚类精度。
本发明采用以下技术方案:一种基于图自编码器的融合子空间聚类方法,包括步骤:
S1、通过图数据集G(X,A)对图卷积编码器参数、图卷积解码器参数、自表达系数矩阵进行初始化,其中X为特征矩阵,A为邻接矩阵,图卷积编码器以及图卷积解码器构成图卷积自编码器;
S2、通过初始化图卷积自编码器对图数据集进行映射以重构图数据集的邻接矩阵;
S3、计算图卷积自编码器的重建损失L
S4、从更新后图卷积编码器的各图卷积层抽取图数据特征,以抽取特征以及特征矩阵为输入计算融合子空间聚类损失L
S5、使用更新后的图卷积编码器参数、图卷积解码器参数、自表达系数矩阵,计算重建损失L
S6、以最小化联合损失L
S7、通过谱聚类算法将最终得到的自表达系数矩阵转化为聚类标签。
作为优选方案,步骤S2中,具体包括以下步骤:
S2.1、通过初始化图卷积编码器对图数据集进行映射,得到图数据的嵌入特征;
S2.2、通过初始化图卷积解码器对嵌入特征进行映射以重构邻接矩阵。
作为优选方案,步骤S2.1中通过初始化图卷积编码器对图数据集进行映射,得到图数据的嵌入特征,具体采用Z=Q(X,A;W);
步骤S2.2中通过初始化图卷积解码器对嵌入特征Z进行映射以重构邻接矩阵,具体采用
其中,W={W
作为优选方案,步骤S3中重建损失L
步骤S4中,融合子空间聚类损失L
其中,K为图卷积编码器的图卷积层层数,Z
作为优选方案,步骤S6中具体包括以下步骤:
S6.1、固定自表达系数矩阵,并以最小化联合损失L
S6.2、固定图卷积编码器的参数、图卷积解码器的参数,并以最小化联合损失L
作为优选方案,步骤S6与S7之间还包括步骤:重复步骤S5-S6,至预设迭代次数。
相应地,还提供一种基于图自编码器的融合子空间聚类系统,包括依次相连的初始化模块、图卷积自编码模块、第一更新模块、第二更新模块、聚类模块,其中图卷积自编码模块包括图卷积编码单元以及图卷积解码单元;
初始化模块,用于通过图数据集G(X,A)对图卷积编码单元参数、图卷积解码单元参数、自表达系数矩阵进行初始化,其中X为特征矩阵,A为邻接矩阵;
图卷积自编码模块,用于对图数据集进行映射以及重构图数据集的邻接矩阵;
第一更新模块,用于计算图卷积自编码模块的重建损失L
第二更新模块,用于使用更新后的图卷积编码单元参数、图卷积解码单元参数、自表达系数矩阵,计算重建损失L
聚类模块,用于通过谱聚类算法将最终得到的自表达系数矩阵转化为聚类标签。
作为优选方案,图卷积自编码模块通过图卷积编码单元对图数据集进行映射,以得到图数据的嵌入特征,具体采用Z=Q(X,A;W);
图卷积自编码模块通过图卷积解码单元对嵌入特征Z进行映射以重构邻接矩阵,具体采用
图卷积自编码模块还包括抽取单元,抽取单元用于从图卷积编码单元的各图卷积层抽取图数据特征;
其中,W={W
作为优选方案,
第一更新模块中的重建损失L
第一更新模块中的融合子空间聚类损失L
其中,K为图卷积编码单元的图卷积层层数,Z
作为优选方案,第二更新模块中所述以最小化联合损失L
固定自表达系数矩阵,并以最小化联合损失L
固定图卷积编码器的参数、图卷积解码器的参数,并以最小化联合损失L
本发明的有益效果是:
(1)使用图自编码器的聚类分析方法,能够有效处理图数据,在保持数据的拓扑结构不变的同时学习图数据的多层次特征表达。
(2)将学习的自表达系数矩阵作为监督信号,使用图卷积自编码器重建损失和融合子空间聚类损失对图卷积自编码器进行联合优化,使特征质量和聚类性能迭代提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述一种基于图自编码器的融合子空间聚类方法的流程图;
图2是本发明所述一种基于图自编码器的融合子空间聚类系统的结构示意图。
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
实施例一:
参照图1,本实施例提供了一种基于图自编码器的融合子空间聚类方法,包括步骤:
S1、通过图数据集G(X,A)对图卷积编码器参数、图卷积解码器参数、自表达系数矩阵进行初始化,其中X为特征矩阵,A为邻接矩阵,图卷积编码器以及图卷积解码器构成图卷积自编码器;
其中,自表达系数矩阵为子空间聚类算法中每个样本被其他样本线性表示的系数组成的矩阵。
S2、通过初始化图卷积自编码器对图数据集进行映射以重构图数据集的邻接矩阵;
S3、计算图卷积自编码器的重建损失L
S4、从更新后图卷积编码器的各图卷积层抽取图数据特征,以抽取特征以及特征矩阵为输入计算融合子空间聚类损失L
S5、使用更新后的图卷积编码器参数、图卷积解码器参数、自表达系数矩阵,计算重建损失L
S6、以最小化联合损失L
S7、通过谱聚类算法将最终得到的自表达系数矩阵转化为聚类标签。
具体地:
步骤S2中,具体包括以下步骤:
S2.1、通过初始化图卷积编码器对图数据集进行映射,得到图数据的嵌入特征;
S2.2、通过初始化图卷积解码器对嵌入特征进行映射以重构邻接矩阵。
进一步地,
步骤S2.1中通过初始化图卷积编码器对图数据集进行映射,得到图数据的嵌入特征,具体采用Z=Q(X,A;W);
步骤S2.2中通过初始化图卷积解码器对嵌入特征Z进行映射以重构邻接矩阵,具体采用
其中,W={W
步骤S3中重建损失L
步骤S4中,融合子空间聚类损失L
其中,K为图卷积编码器的图卷积层层数,Z
步骤S6中具体包括以下步骤:
S6.1、固定自表达系数矩阵,并以最小化联合损失L
S6.2、固定图卷积编码器的参数、图卷积解码器的参数,并以最小化联合损失L
步骤S6与S7之间还包括步骤:重复步骤S5-S6,至预设迭代次数,预设次数可以设置为10次。
且上述更新图卷积编码器的参数、图卷积解码器的参数、自表达系数矩阵时均采用梯度下降和反向传播算法。
本发明使用图自编码器的聚类分析方法,能够有效处理图数据,在保持数据的拓扑结构不变的同时学习图数据的多层次特征表达。且将学习的自表达系数矩阵作为监督信号,使用图卷积自编码器重建损失和融合子空间聚类损失对图卷积自编码器进行联合优化,使特征质量和聚类性能迭代提升。
进一步的,本实施例在多个数据集上与现有的DEC、GAE两种方法进行对比(其中DEC采用深度嵌入聚类算法,通过全连接自编码器得到聚类结果;GAE也采用图卷积自编码方法,但是其与本发明相比缺少了子空间聚类算法的应用),以验证本发明方法的有效性,采用的数据集为:
Cora:论文引用数据集,包含2708篇论文,分为基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习、理论七类,每篇论文特征向量维度为1433。
Citeseer:论文引用数据集,和Cora类似,包含3327个样本,每个样本维度3703,共分为6类。
DBLP:论文合作关系数据集,包含4058个节点,每个节点维度为334,共分为4类。
最终的聚类性能如下表1所示:
表1
可见本发明的聚类性能明显优于两对比方法。
实施例二:
参照图2,本实施例提供了一种基于图自编码器的融合子空间聚类系统,包括依次相连的初始化模块、图卷积自编码模块、第一更新模块、第二更新模块、聚类模块,其中图卷积自编码模块包括图卷积编码单元以及图卷积解码单元;
初始化模块,用于通过图数据集G(X,A)对图卷积编码单元参数、图卷积解码单元参数、自表达系数矩阵进行初始化,其中X为特征矩阵,A为邻接矩阵;
图卷积自编码模块,用于对图数据集进行映射以及重构图数据集的邻接矩阵;
第一更新模块,用于计算图卷积自编码模块的重建损失L
第二更新模块,用于使用更新后的图卷积编码单元参数、图卷积解码单元参数、自表达系数矩阵,计算重建损失L
聚类模块,用于通过谱聚类算法将最终得到的自表达系数矩阵转化为聚类标签。
具体地:
图卷积自编码模块通过图卷积编码单元对图数据集进行映射,以得到图数据的嵌入特征,具体采用Z=Q(X,A;W);
图卷积自编码模块通过图卷积解码单元对嵌入特征Z进行映射以重构邻接矩阵,具体采用
图卷积自编码模块还包括抽取单元,抽取单元用于从图卷积编码单元的各图卷积层抽取图数据特征;
其中,W={W
第一更新模块中的重建损失L
第一更新模块中的融合子空间聚类损失L
其中,K为图卷积编码单元的图卷积层层数,Z
第二更新模块中所述以最小化联合损失L
固定自表达系数矩阵,并以最小化联合损失L
固定图卷积编码器的参数、图卷积解码器的参数,并以最小化联合损失L
上述更新图卷积编码单元参数、图卷积解码单元参数、自表达系数矩阵时均采用梯度下降和反向传播算法。
需要说明的是,本实施例提供的一种基于图自编码器的融合子空间聚类系统,与实施例一类似,在此不多做赘述。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。
机译: 一种正面认证方法,其增强了计算机生成全息图转换的数字全息图标记的安全级别,这是一种基于计算机生成的全息图的正认证系统数字全息图标记发生器,用于基于计算机生成的全息图的正验证系统
机译: 基于无线局域网
机译: 一种基于半自动的共轭点对的韩国土地信息系统的地籍图与拓扑图之间的几何图转换的方法