首页> 中国专利> 基于全视角特征的跨社交网络用户识别方法

基于全视角特征的跨社交网络用户识别方法

摘要

本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。

著录项

  • 公开/公告号CN107480714A

    专利类型发明专利

  • 公开/公告日2017-12-15

    原文格式PDF

  • 申请/专利权人 东北大学;

    申请/专利号CN201710674020.0

  • 发明设计人 申德荣;汪潜;聂铁铮;寇月;于戈;

    申请日2017-08-09

  • 分类号G06K9/62(20060101);G06Q50/00(20120101);

  • 代理机构21234 沈阳优普达知识产权代理事务所(特殊普通合伙);

  • 代理人俞鲁江

  • 地址 110819 辽宁省沈阳市和平区文化路3号巷11号

  • 入库时间 2023-06-19 04:03:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-21

    授权

    授权

  • 2018-01-09

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20170809

    实质审查的生效

  • 2017-12-15

    公开

    公开

说明书

技术领域

本发明属于社交网络的数据挖掘和数据集成领域,主要涉及一种基于全视角特征的跨社交网络用户识别方法。

背景技术

随着互联网的发展,越来越多的人在网络上建立了各种虚拟的账户。和传统SMS(Short Message Service)等应用不同,社交网络作为WEB2.0时代的产物,侧重于社交属性,为人们提供了丰富的社交服务,比如利用社交网络分享动态、传递知识、发布话题等等。其中大多数人会通过多种社交网络和朋友进行交流沟通,但是用户的不同账户由于分布在不同社交网络上,彼此之间互不关联。如果能够把这些线上的关系网融合成一个单一的环境,可以有助于用户保持联系,同时也提供了一种在多网络上进行用户搜索的途径。另外,多社交网络的融合也将提升好友推荐、商业广告发布等的精准度。用户识别(匹配)作为多社交网络融合的一种方式,已成为当今热门的研究方向之一。

跨社交网络用户识别作为多社交网络融合的重要方面,通过分析社交网络上用户之间的好友关系及用户本身生成内容,将分布在不同社交网络上属于同一实体的用户识别出来,从而达到对多社交网络融合的目的。跨社交网络用户识别通常处理利用爬虫获取到的社交网络数据,这些数据主要由三个部分组成:一部分用来描述社交网络好友关系,一部分用于描述社交网络用户的属性信息(通常来源于用户在个人主页上填写的信息),最后一部分来源于用户在社交网络上发布的内容。通过分析和识别这些社交网络用户数据,从而将不同社交网路上的用户识别出来:一方面,通过多社交网络融合,丰富用户的概要信息,并解决冷启动的问题;另一方面,可以“间接”实现单点登录SSO(Single Sign On)的登录模式,提升用户服务体验。

社交网络用户主要包括三个步骤:用户特征提取、用户之间相似度计算和用户匹配过程。在用户特征提取阶段,目的在于将用户之间的好友关系和属性、内容等特征从社交网络数据中提取出来。通常通过设计高效、合理的机器学习模型来完成这一目标。其次,计算用户之间相似度,如果用户之间的相似度越大,则属于同一实体的可能性越大,通常利用提取的用户特征和相似度函数来计算用户相似度。最后,根据用户相似度来完成用户识别,这里通常采用特定的匹配策略。

现有的混合式的社交网络用户匹配研究主要是考虑对社交网络的信息特征处理上,存在一些不足之处:首先,是冷启动问题。传统的混合匹配模型只是把结构信息和属性信息简单的结合在一起,把共同的关系用户数目作为了亲密程度的定义,比如MNA算法中把候选匹配对中邻居已匹配的个数作为结构相似度的度量,所以在开始阶段,由于已匹配的信息较少或者不全面,就面临了冷启动的问题。如果盲目的采用启发式的算法来解决,会使初始的点的计算脱离于结构,给后续的计算带来一定的影响。其次,只考虑了局部的结构信息。现有的方法只考虑两者的邻居或者是两者相关联的地点等局部信息。然而,用户在社交网络的位置,并不仅仅是和周围的用户有关,从社交网络整体的角度来看,网络的结构一般是由大量的星网状核心子图构成。这是因为社交网络的关系可以大致分为强关系和弱关系,简单来说,强关系就是现实生活中的朋友、同事、师生、家人等直接关系,弱关系则主要指关系较浅但是社会关系广泛的一类关系,比如说兴趣关系,这是社交网络上广泛存在的一种关系。在社交网络中,用户往往因为一些兴趣或者工作关系被集中到一起,或者说,用户在社交网络中的位置往往取决他的兴趣、他的工作方向、个人生活经历等等。因此,需要从全局角度来考虑用户的概要信息。

发明内容

针对已有跨社交网络用户识别方法的不足,本发明提供了一种基于全视角特征的跨社交网络用户识别方法。

对于跨社交网络用户识别问题,本发明采用的技术方案包括以下几个步骤:

步骤1.全视角特征相似度求解。本步骤的主要目的是求解社交网络用户的全视角特征,同时根据用户的全视角特征计算用户之间的全视角特征相似度。以用户和社交网络上已知匹配用户的关系,作为全视角特征。可以看出,用户和不同已知匹配用户之间的关系不同,可以反映用户的兴趣特征和身份特质,因而是全局的。主要分为以下两个子步骤:

步骤1-1.全视角特征求解。给定G=(U,E,A)来表示社交网络,其中U代表用户集合,E代表用户之间的关系集合,A代表用户的属性集合。为了方便计算,如图2所示我们把社交网络看作是由用户之间关系集合构建的结构图。初始给定有部分已知匹配用户,这部分已知匹配用户可以通过人工去选取并识别。将这些已知匹配用户作为参照点或称核心锚链接用户对,对于某一用户u,以用户及其邻居到社交网络上已知匹配用户的最近路径距离作为全视角特征。如公式1所示,对于用户到每个已知匹配用户进行这样的计算,其中N(u)代表用户的邻居,d(li,j)代表用户到已知匹配用户的距离,d(li,j)代表邻居到已知匹配用户的距离。

这样,如公式2所示,将每个用户表示成全视角特征向量。

F(u)=(r(l1,u),r(l2,u)…r(l|L(U)|,u))(2)

步骤1-2.全视角特征相似度计算。对于得到的代表用户全视角特征的特征向量,如公式3所示,采用余弦公式来计算用户之间全视角特征相似度,其中u和v分别代表不同社交网路上的两个用户。

步骤2.用户相似度计算阶段。在考虑用户的全视角特征后,还需要考虑用户在属性和局部结构上的特征相似度。如公式(4)所示,结合传统已有的属性相似度和局部结构相似度计算方法来综合计算用户之间的相似度,其中u和v分别代表不同社交网路上的两个用户,α为衡量不同相似度计算结果的权值,SimGSS为全视角特征相似度,Simattr&structure为属性和局部结构特征相似度;

Sim(u,v)=αSimGSS(u,v)+(1-α)Simattr&structure(u,v)(4)

步骤3.用户匹配阶段。步骤1中以所有已知匹配用户作为参照点,当已知匹配用户分布不均时,识别结果准确率和召回率较低。本步骤通过改进的稳定婚姻匹配方法来识别用户并提高匹配准确率。同时采用迭代的识别策略,在每轮迭代结束后,更新参考点集合进行下一轮的迭代,提高识别召回率。

步骤3-1.改进的稳定婚姻匹配。传统的稳定婚姻匹配算法是指,当一对用户彼此之间都认为对方是自己最“理想”的用户时,即相似度大于和其他用户的相似度,认为该对用户最稳定,代表了同一用户实体。改进的稳定婚姻匹配方法描述为,当同时有多个用户和某用户的相似度结果较为接近时(即差值小于阈值时),不再认为这样用户识别结果有效,存在误识别的可能性,需要通过下次迭代,来继续识别。

步骤3-2.参考点集合更新。为了避免参考点分布不均,这里采用了有效的集合更新策略。首先,采用已有社区划分方法将各社交网络划分成不同社区。接下来,在社区内部进行相同的参考点更新策略:在社区内部,当已有的参考点数量少于设定的阈值时,将每轮新识别的用户加入参考点集合中。当数量超过阈值时,分别计算社区内参考点的中心度,根据中心度大小,决定是否替换掉集合当前中心度最小的参考点。中心度公式如公式(5)所示,其中u,v是一对识别出的用户,|N(u)|和|N(v)|分别代表用户的邻居数量,而|NC(u)(u)|和|NC(v)(v)|分别代表和该用户处于同一社区的邻居数量。通过这样更新策略,使参考点分布均匀,也降低了全视角特征计算的时间复杂度。

C(u,v)=|NC(u)(u)|/|N(u)|+|NC'(v)(v)|/|N(v)|(5)

重复上述的相似度计算和用户匹配步骤,直到参考点集合不再更新或不再有新的用户匹配结果。

本发明的优点是:

采用本发明的跨社交网络用户识别方法,给定相同的社交网络数据集条件下,可以识别出更多的不同社交网络上的用户;通过综合考虑全视角特征以及改进的迭代式用户匹配方法提高了识别方法的准确率和召回率。

附图说明

图1本发明总体流程图;

图2社交网络结构示意图;

图3本发明与已有的其它三个方法的准确率和召回率对比图。

具体实施方式

下面结合附图1-3以及具体实施例,对本发明进一步详细说明。

图3中GAUI为本文设计实现的方法,其余为已有方法。

如表1所示,有来自不同社交网络SA和SB上的用户样例数据集。在社交网络SA上有u1...u5共5个用户,社交网络SB上有r1...r5共5个用户。对应的完整正确的用户识别结果应为{{u2,r5},{u3,r2},{u4,r3},{u5,r4}}。其中{u3,r2},{u5,r4}为已知的用户识别对。希望在尽可能多识别出代表同一实体的社交网络用户时,也尽可能提高识别的准确率。

表1社交网络用户数据集,包含10条用户记录,属性有姓名、年龄、工作和所在城市。

首先,进行全视角特征相似度求解。这一步首先需要分别计算社交网络上SA和SB上用户的全视角特征,由于已知有两对已识别用户{u3,r2}、{u5,r4},将这两对用户作为初始参考点,即SA上用户根据公式1分别计算其到u3、u5两点的最短路径距离,并以此构造全视角特征向量;同理SB上用户根据公式1分别计算其到r2、r4两点的最短路径距离,以此构造全视角特征向量。在社交网络SA上u2到u3、u4的距离为1.2,3.1,则其全视角特征向量为(1.2,3.1)。如r1到r2、r3的距离为1.7,1.5,则其全视角特征向量为(1.7,1.5)。同理计算出其余各用户的全视角特征。然后针对不同网络的用户之间,根据公式3计算不同网络间用户的全视角特征相似度,例如,u2和r1分布在SA和SB上,其特征向量分别为(1.2,3.1)、(1.7,1.5),计算其全视角特征相似度为0.89,对于其他可能有的用户匹配关系,进行类似的计算过程。

2.之后,针对用户的局部结构和属性特征,利用已有基于结构相似度和属性相似度计算方法计算其他类型的用户相似度,并以公式4计算出不同网络间用户的全视角特征相似度。例如,u2和r1分布在不同的社交网络SA和SB上,利用元路径的相似度计算和编辑距离相似度计算方法计算出,其相似度为0.76。当α设为0.6时,利用公式4结合全视角特征计算出u2和r1的相似度为0.838。同理,计算出其余可能有的用户对之间的相似度。

3.次之,识别匹配用户。具体如下:

首先根据已有的稳定婚姻匹配策略,进行不同网络间用户匹配工作,即通过选取相互之间最稳定的匹配对来作为识别结果。最终识别出u1和r3、u2和r5两对用户对。但u1和r3以及u4和r3的相似度非常接近,根据策略,u1和r3之间相似度相对更高一些,因而更为稳定、将u1和r3匹配起来。但实际上u1和r3的职业完全不同,相比之下,u4和r3的不相似部分可能是由于用户在不同时间注册账号引起的差异,因而更为可信。对于这种相似度较为接近的多个用户对,认为需要通过全视角特征的不断更新,还需要迭代才能识别出。

4.接着,更新参考点集合,进行下一次迭代。根据已有的社交网络社区划分方法,将用户分为成多个社区,其中,在社交网络SA中,u1...u5被划分到同一个社区中,而在社交网络SB中,r1、r2和r5划分到同一社区,其余用户划分至另一社区。其中u2和r5为本次迭代中新识别出的用户,由中心度计算公式可得,C(u3,r2)<C(u2,r5)。若社区内参考点数量阈值为1时,由于u2,r5所在社区的参考点数量均大于1,用u2,r5将所在社区中心度最小的参考点(u3,r2)替换。通过参考点的更新,使得参考点分布更加均匀,提高识别结果的准确率和召回率。在下一次迭代中,识别出一对用户u4和r3

5:最后,当参考点集合不变迭代终止,得到最后的匹配用户对集合。

可以看出,通过引入全视角特征和迭代的用户匹配方法,可以有效的改进社交网络用户识别方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号