首页> 中国专利> 一种基于社交网络拓扑图的关联用户身份识别方法

一种基于社交网络拓扑图的关联用户身份识别方法

摘要

目前的大多数方法都将社交网络嵌入到低维向量空间中,然后将用户对齐到低维空间中。然而,由于社会网络极其复杂和庞大,在网络嵌入过程中很容易受到不同邻居的误差传播和噪声的影响。基于此,本发明提供了一种基于社交网络拓扑图的关联用户身份识别方法,首先形成用户的ego网络(即提取用户的一节邻居形成的局部网络),然后使用随机游走提取用户节点序列,接着使用自然语言模型框架学习用户的低维向量表示,最后训练矩阵将两个社交网络映射到相同的特征空间中进行对齐。本发明通过利用ego网络可以避免高阶邻居带来的干扰,因此可以提高节点嵌入结果,提升关联准确度。

著录项

  • 公开/公告号CN114782209A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN202210429087.9

  • 申请日2022-04-22

  • 分类号G06Q50/00;G06F16/2458;G06F16/901;

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人罗飞

  • 地址 430072 湖北省武汉市武昌区珞珈山街道八一路299号

  • 入库时间 2023-06-19 16:06:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及多交网络数据分析及挖掘技术领域,尤其涉及一种基于社交网络拓扑图的关联用户身份识别方法。

背景技术

关联用户身份识别,旨在发现同一个用户在多个社交网络平台中的不同身份之间的对应关系,是多个社交网络数据分析及挖掘领域的关键技术,具有广泛的商业应用需求,在网络安全和个性推荐方面有着重要的应用。

目前大多数方法都是基于DeepWalk(Perozzi B.,AI-Rfou R.,SkienaS.DeepWalk:Online learning of social representations[C]//Proceedings of the20th ACM SIGKDD International Conference on Knowledge discovery and datamining.New York:ACM Press,2014:701-710.)的方法,该方法借鉴了Word2vec(MikolovT.,Sutskever I.,Chen Kai,et al.Distributed representations of words andphrases and their compositionality[C]//Proceedings of the 26th InternationalConference on Neural Information Processing Systems.Red Hook:CurranAssociates Inc.,2013:3111-3119.)方法。Word2vec方法是在自然语言处理中获取词向量的方法,可以将稀疏的,高维离散向量转化为相对稠密、低维连续的向量。虽然这种方法是用于词向量,通过中心词向量来重构它周围的词向量,但节点表示亦可借用这种思想。由于社交网络中节点和自然语言中的单词都具有幂律分布,所以DeepWalk方法便是由此来将词向量中的方法应用到社交网络中来。这种方法将随机游走和Skip-gram方法结合,采用随机游走的方式将社交网络中的节点提取出一条条的节点序列,然后利用Skip-gram方法得到节点的嵌入向量。但这种方法只是得到两个特征空间,并没有将特征空间统一起来。

之后,在2020年,Fan等人提出了ACCM的方法(Zhou F,Zhang K,Xie S,etal.Learning to Correlate Accounts Across Online Social Networks:An Embedding-Based Approach[J].INFORMS Journal on Computing,2020,32.),他们同样是利用随机游走提取出节点序列,然后通过Skip-gram方法将节点序列的集合映射为一个特征向量空间。这样就能得到两个社交网络各自的特征空间。为了将特征空间做统一,他们还利用部分已知的匹配用户做约束,来训练一个映射矩阵,这样便可以将两个社交网络的特征空间投影到同一个特征空间中。由此在这个统一的特征空间中做相似性度量,然后根据相似度结果做相似性用户身份关联。虽然这种方法减少了两个社交网络的特征向量空间的不同,难以更好的匹配所带来的误差,但由于其方法在进行网络嵌入时是使用的是整张社交网络,这样会导致节点的高阶邻居影响过大,而高阶邻居往往对节点并不会起到什么关键性的作用,相反可能还会引入更多的噪声干扰,使得节点嵌入结果并不是很准确,引入了更多的误差。

发明内容

本发明的目的在于提出一种基于社交网络拓扑图的关联用户身份识别方法,用于解决现有方法在进行邻居节点的嵌入时过多的引入了高阶邻居(即没有与该节点直接相连的其他节点)的噪声,从而导致识别精度较低的技术问题。

为了解决以上技术问题,本发明提供了一种基于网络表示的关联用户身份识别方法,包括如下步骤:

S1:获取已知的两个社交网络数据集,其中,已知的社交网络数据集包括用户和用户之间的好友关系,两个社交网络数据集具有关联用户;

S2:根据社交网络数据集中的用户以及好友关系分别构建社交网络G

S3:分别将两个社交网络G

S4:利用skip-gram模型将形成的两个社交网络的节点序列集合分别映射成两个特征空间,并在映射的特征空间中学习节点的低维向量表示,得到每个节点的特征向量表示;

S5:根据两个社交网络数据集的关联用户训练得到一个目标特征映射矩阵,将两个特征空间映射成同一个的特征空间,然后计算社交网络G

在一种实施方式中,两个社交网络数据集包括数据集一和数据集二,步骤S2包括:

S2.1:根据数据集一构建社交网络G

S2.2:根据数据集二构建社交网络G

在一种实施方式中,步骤S3包括:

S3.1:根据G

S3.2:根据G

在一种实施方式中,S4包括:

S4.1:将G

S4.2:将G

在一种实施方式中,步骤S5包括:

S5.1:将步骤S1中两个社交数据集的关联用户作为映射依据,训练得到一个目标特征映射矩阵,基于目标特征映射矩阵将两个社交网络的向量空间映射到同一个特征空间中;

S5.2:根据目标特征映射矩阵,将G

在一种实施方式中,步骤S5.1包括:

采用S4得到的两个新的特征空间构建映射矩阵,通过最小化目标函数W

在一种实施方式中,步骤S5.2包括:

根据目标映射矩阵,将G

其中,u

计算每一个新节点与社交网络G

其中,u′

通过比较

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本发明提供的基于社交网络拓扑图的关联用户身份识别方法,在构建社交网络拓扑图后,为了获得更好的嵌入,首先形成用户的ego网络(即提取节点的一节邻居形成的局部网络),然后使用随机游走提取用户节点序列,接着使用自然语言模型框架学习用户的低维向量表示,最后训练矩阵将两个社交网络映射到相同的特征空间中进行对齐。本发明的方法通过利用ego网络可以避免高阶邻居带来的干扰,因此可以提高节点嵌入结果,提升关联准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于网络表示的关联用户身份识别方法流程图。

具体实施方式

跨社交网络用户对齐是指在多个社交网络中寻找具有相同身份的用户。它在链接预测、个性推荐等自然科学领域有着重要的应用,在数据挖掘领域具有一定的研究价值。本申请发明人通过大量的研究与实践发现:目前的大多数方法都将社交网络嵌入到低维向量空间中,然后将用户对齐到低维空间中。然而,由于社会网络极其复杂和庞大,在网络嵌入过程中很容易受到不同邻居的误差传播和噪声的影响。

基于此,为了获得更好的嵌入,本发明的方法首先形成用户的ego网络(即提取用户的一节邻居形成的局部网络),然后使用随机游走提取用户节点序列,接着使用自然语言模型框架学习用户的低维向量表示,最后训练矩阵将两个社交网络映射到相同的特征空间中进行对齐。本发明通过利用ego网络可以避免高阶邻居带来的干扰,因此可以提高节点嵌入结果,提升关联准确度。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种基于社交网络拓扑图的关联用户身份识别方法,包括:

S1:获取已知的两个社交网络数据集,其中,已知的社交网络数据集包括用户和用户之间的好友关系,两个社交网络数据集具有关联用户;

S2:根据社交网络数据集中的用户以及好友关系分别构建社交网络G

S3:分别将两个社交网络G

S4:利用skip-gram模型将形成的两个社交网络的节点序列集合分别映射成两个特征空间,并在映射的特征空间中学习节点的低维向量表示,得到每个节点的特征向量表示;

S5:根据两个社交网络数据集的关联用户训练得到一个目标特征映射矩阵,将两个特征空间映射成同一个的特征空间,然后计算社交网络G

请参见图1,为本发明实施例提供的基于网络表示的关联用户身份识别方法流程图,其中,SG模型即为skip-gram模型。

具体来说,步骤S1是数据集的获取,步骤S2是根据获取的给定的社交网络数据集形成社交网络拓扑图,并通过提取节点的一阶邻居生成网络的ego网络拓扑图。步骤S3是从节点的ego网络中利用随机游走的方法提取包含节点结构信息的序列,由多个节点序列组成一个节序列的语料库。步骤S4是利用自然语言处理中的连续词袋模型(skip-gram模型)将语料库中的节点序列转换,求得节点的表示向量。步骤S5是通过部分已知的关联节点,求得一个空间映射矩阵,将两个社交网络的向量空间映射到同一个向量空间中,并在这个新的空间中,利用新求得的表示向量来获取节点的相似度。

其中,S2中,需要对两个社交网络G

S4中,将节点序列映射为向量矩阵所采用的是自然语言处理中的skip-gram模型,此模型在python中有自带的函数包,只需要调用,然后调整我们所需要的参数即可。

在步骤S4中本发明会训练一个映射矩阵W,通过k个已知的匹配的关联节点X={u

本发明方案可采用技术软件实现自动流程运行。

在一种实施方式中,两个社交网络数据集包括数据集一和数据集二,步骤S2包括:

S2.1:根据数据集一构建社交网络G

S2.2:根据数据集二构建社交网络G

在一种实施方式中,步骤S3包括:

S3.1:根据G

S3.2:根据G

具体实施过程中,步骤S3.1中的s条节点序列分别为:l

在一种实施方式中,S4包括:

S4.1:将G

S4.2:将G

在一种实施方式中,步骤S5包括:

S5.1:将步骤S1中两个社交数据集的关联用户作为映射依据,训练得到一个目标特征映射矩阵,基于目标特征映射矩阵将两个社交网络的向量空间映射到同一个特征空间中;

S5.2:根据目标特征映射矩阵,将G

具体来说,在步骤S4形成两个特征空间后,由于两个特征空间维度不一致,因此需要训练一个特征映射矩阵,将两个特征空间映射成一个特征空间,之后计算每个节点的相似度。

在一种实施方式中,步骤S5.1包括:

采用S4得到的两个新的特征空间构建映射矩阵,通过最小化目标函数W

在一种实施方式中,步骤S5.2包括:

根据目标映射矩阵,将G

其中,u

计算每一个新节点与社交网络G

其中,u′

通过比较

具体来说,由于G

举例来说,当我们得到了两个社交网络的向量空间G

将G

最后,将结果与准确结果作比较,求得身份关联指标值

其中,

申请人在Intel(R)Core(TM)i5-9500CPU@3.00GHz 3.00GHz的计算机上运行,使用本实施例方法,使用公开的数据集Foursquare-Twitter和文献(Tan S,Guan Z,CaiD,QinX,Bu J,Chen C(2014)Mapping users across networks by manifold alignment onhypergraph.Proc.AAAI Conf.Artificial Intelligence,Quebec City,Canada,159-165.),(Perozzi B.,AI-Rfou R.,Skiena S.DeepWalk:Online learning of socialrepresentations[C]//Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge discovery and data mining.New York:ACM Press,2014:701-710.),(Zhou F,Zhang K,Xie S,et al.Learning to Correlate Accounts AcrossOnline Social Networks:An Embedding-Based Approach[J].INFORMS Journal onComputing,2020,32.)做了比较,身份关联的效果有了提升,因此可以应用于推荐系统、网络安全等领域。

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明技术领域的技术人员可以对所描述的具体实施例做各种各样的修改补充或者采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号