首页> 中国专利> 面向论文网络数据的自适应图卷积聚类方法

面向论文网络数据的自适应图卷积聚类方法

摘要

面向论文网络数据的自适应图卷积聚类方法适用于数据挖掘领域。该方法首次将自适应图卷积网络应用到深度图卷积聚类任务中,自适应的更新图结构并学习最优的数据表示;其次,该方法创造性地提出了一个基于注意力机制的融合模块,逐层加权融合两个并行网络的数据表示,同时有效缓解了图卷积网络的过平滑的问题。该方法的提出,主要解决的技术问题包括所有样本之间内在结构的挖掘,确保模型能够捕获更完整的数据结构信息,避免不准确的图结构对聚类性能产生的负影响,以及异构信息的有效融合。

著录项

  • 公开/公告号CN113869404A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202111136030.1

  • 申请日2021-09-27

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人刘萍

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明适用于数据挖掘领域、机器学习和模式识别等领域,尤其是面向包含噪声和异常值的论文网络的聚类任务。

背景技术

随着社交媒体的发展,大量的图像、视频、微博在互联网上广泛传播,但是这些数据大多是无标签的,使得数据驱动的分类任务难以实现,而这些数据之间天然的存在底层结构属性,可以提供更显著的差异性信息,这激励了深度图卷积聚类的发展。

Wang Chun等人提出了端到端的图注意力自编码聚类模型,有效融合了数据的属性信息和结构信息,同时利用自监督机制来指导网络的优化过程。Pan Shirui等人提出了一种对抗正则化图卷积自编码器,重构了原始数据和图结构,该对抗训练模型增强了数据表示的鲁棒性。但是这些图嵌入网络会产生过平滑的问题,进而损害聚类性能。Bo Deyu等人设计了一个传递算子,将自编码器模块学习到的数据表示传递到相应的图卷积层,同时利用了自监督机制来统一两个不同的深度神经架构。

现有的基于图卷积的聚类方法主要依赖于初始图结构的质量,并且在模型优化的过程中图结构是保持不变的,但在实际情况中,图结构会包含噪声和异常值,难以准确描述数据之间的连接关系,进而影响聚类性能。这些方法没有有效的融合数据的属性信息和结构信息。

为解决这个问题,提出了一种基于图卷积网络的论文聚类方法,在模型优化的过程中以自适应图代替固定的图来捕捉更完整的结构信息;设计了一个基于注意力机制的融合模块,提取更关键的差异性信息,有效避免了图卷积网络过平滑的问题。

为解决现有深度图卷积聚类方法聚类包含噪声的论文网络数据出现的问题,本发明提出一种基于图卷积网络的论文聚类方法。该方法首次将自适应图卷积网络应用到深度图卷积聚类任务中,自适应的更新图结构并学习最优的数据表示;其次,该方法创造性地提出了一个基于注意力机制的融合模块,逐层加权融合两个并行网络的数据表示,同时有效缓解了图卷积网络的过平滑的问题。该方法的提出,主要解决的技术问题包括所有样本之间内在结构的挖掘,确保模型能够捕获更完整的数据结构信息,以及异构信息的有效融合。

发明内容

本发明所提出的面向论文网络数据的自适应图卷积聚类方法能够有效解决现有的深度聚类方法的不足,提出自适应图卷积网络,在图卷积过程中以自适应的图结构代替固定不变的图结构,有利于模型挖掘更完整的内在结构信息,避免不准确的图结构对聚类性能产生的负影响;提出了一种基于注意力机制的融合模块,选择性地对异构信息进行加权以提取关键信息,有效缓解了图卷积网络过平滑的问题。图1展示了所提出的方法的整体框架。

本发明通过以下技术方案实现:

(1)首先利用自编码器从输入数据中提取属性信息,

H

其中H

同时,为了尽可能地保留原始数据的特征,最小化重构数据

其中,N是样本的个数,定义Frobenius范数为

(2)通过自适应图卷积模块来捕获数据的高阶结构信息。

Z

其中,U

具体的,通过计算融合表示F

然后,将学习到的自适应图

其中,∈是平衡系数,本发明中设置∈为0.5。

最后,为了使学习到的中间层数据表示Z

其中,

(3)提出基于注意力机制的融合模块来高效的融合自编码器模块和自适应图卷积模块提取到的数据表示。具体的,对于网络的第l层,级联分别从自编码模块和自适应图卷积模块学习到的数据表示H

Y

其中[·]是级联运算。

由级联特征Y

a=f(Y

e=softmax(sigmoid(a)/τ)

W=mean(e)

F

其中,W

(4)引用自监督聚类模块来训练端到端的模型。

其中,q

最后,提出的总体目标函数为:

其中λ

随机初始化模型中的权重和偏差,包括W

C

选择了ACC、NMI、ARI和F1作为标准测量值,指标的较高值会反映更好的性能。

附图说明

图1是本发明的框架图。

具体实施方式

本发明对上述方法进行了实验验证,并取得了明显的效果。

本方法在六个公开数据集上进行评估,包括USPS、HHAR、REUT、DBLP、ACM和CITE数据集。

为了验证所提方法聚类性能的优越性,将提出的基于图卷积网络的论文聚类方法(AGCC)与K-means、AE、IDEC、GAE、DAEGC、SDCN几种现有最先进的聚类方法进行比较。

表1所展示的聚类结果表明,在大多数情况下,所提出的面向论文网络数据的自适应图卷积聚类方法的聚类性能明显优于其他对比方法。

对于直接提供图结构的论文数据集ACM和CITE,DAEGC的聚类性能优于IDEC。而对于由K近邻方法构建初始图结构的数据集USPS,HHAR和REUT,GAE和DAEGC的聚类性能没有AE和IDEC的好。相信由K近邻构建的图不能准确描述数据之间的关系,从而导致GAE和DAEGC的聚类性能不佳。因此,一个优良的自适应图的学习方法是必要的。

在CITE和ACM数据集上,的方法相对于最重要的基准方法SDCN取得了很大的提升,SDCN在图卷积的过程中使用的是固定的图结构,但这些样本之间的结构信息是包含噪声和异常值的,因而对聚类性能产生了负影响。而在的所提出的方法中的不断更新的图结构能够更准确的反应样本之间的相似性,从而增强了图卷积网络的性能。而且,AGCC提出基于注意力机制的融合模块,充分融合了数据的属性信息和结构信息。这些异构信息相互补充以高效的学习数据的特征表示,使得聚类性能显著提高。并有效缓解了图卷积网络过平滑的问题。

表1:六个数据集上聚类性能对比

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号