首页> 中国专利> 一种基于平均场理论和扩展系数的社会网络度分析方法

一种基于平均场理论和扩展系数的社会网络度分析方法

摘要

本发明公开了一种基于平均场理论和扩展系数的社会网络度分析方法,利用平均场理论对用户安全信息交换社会网络的度分布进行研究分析,该社会网络用户加入的时间间隔呈指数分布。为了进一步提高度分析的精确度,提出了一种基于亲密关系的扩展系数方法,该方法通过用户之间的亲密度来确定加入的用户数目。实验表明,该社会网络度分布符合幂律分布和小世界网络特性,并且对比现有的方法,本发明提出的方法在提高度分析精确度的同时大大降低时间复杂度。

著录项

  • 公开/公告号CN104850728A

    专利类型发明专利

  • 公开/公告日2015-08-19

    原文格式PDF

  • 申请/专利权人 湖南大学;

    申请/专利号CN201510069445.X

  • 发明设计人 张大方;郑怡;谢鲲;

    申请日2015-02-10

  • 分类号

  • 代理机构长沙正奇专利事务所有限责任公司;

  • 代理人马强

  • 地址 410082 湖南省长沙市岳麓区麓山南路2号

  • 入库时间 2023-12-18 10:31:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-24

    授权

    授权

  • 2015-09-16

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20150210

    实质审查的生效

  • 2015-08-19

    公开

    公开

说明书

技术领域

本发明涉及社会网络中的节点度分布研究,特别是联合平均场理论和扩展系数的方法。

背景技术

复杂网络是一个由网络中的大量个体以及个体之间的相互作用而构成的复杂系统。1998年Watts和Strogatz发表了开创小世界网络的代表性文章,提出了小世界网络的高集聚性和较小平均路径长度的性质。1999年Barabasi和Albert提出了BA模型,通过模型,他们发现了在现实中的许多复杂网络的度分布呈幂律分布的特性,从而为复杂网络的研究开创了先河。

当社交网站不断涌现后,社会网络的研究越来越成为研究者研究的热点之一。社会网络研究社会群体中的社会成员之间的关系,网络的节点是社会成员,而边是社会成员之间的关系。社会网络中著名的“六度分离”推断为人们所熟知,即世界上的两个人往往可以通过六个人来相互认识。社会网络是由节点和边组成的,节点的度指的是与该节点连接的边数。度具有其它一些性质,如在研究社区划分中,度可以表示为一个人在这个社区中的地位和影响力;在推荐算法的研究中,度又可以表示为推荐者对其他人贡献的程度。

社会网络中的度分布问题是通过节点在某个变化趋势下,研究节点的度的变化,从而便于我们探讨随着人的变化而变化的人与人之间关系。研究社会网络的度分布问题,建立度值的微分方程并推得度值概率表达式,形成该社会网络的拓扑模型。有利于给人们提供有用的信息;有利于研究这个社会网络内部的兴趣爱好(在健身爱好之余的);有利于为人们进行兴趣推荐。例 如,研究调查表明:世界上20%的网站有80%的人在浏览;80%的财富掌握在20%的人的手中等等现象。然后,社会网络节点变化模式的不断改变,内部关系的错综复杂等因素给度分析带来了不少挑战。

Albert R等在BA模型的基础上,研究了复杂网络的统计力学的性质。基于此,复杂网络不断得到了发展,学者们首先在马尔科夫链的基础上,利用主方程的方法研究复杂网络中节点度分布。主要有Linyuan Lu等人在2011年提出的复杂网络的链接预测方法(LPME)和P.L.Krapivsky等人在2013年提出的特殊社会网络的度分析方法(DDME)。主方程方法由于在几个点上的不连续,需要分情况来讨论计算,大大的复杂了计算过程。

在此之后,利用连续性原理对复杂网络中节点度的变化进行分析,并利用平均场理论的连续性的性质给出了经典的BA模型的度分析。2013年,Ajendra Dwivedi等人通过研究基于最大流的复杂网络来分析电力系统的脆弱性,对该复杂网络进行了度分析。针对通常的社会网络模型,Mahdi Jalili在2013年研究社会权利和意见形成对网络模型中度分布的作用,探讨了社会权利在网络模型和一些真实社会网络的观点演变的影响(SPMF)。

度分析是根据节点的增长来计算的。在现实中特定的社会网络中人的个数会随着一些因素的改变而改变,其中最主要影响因素是人与人之间存在的亲密关系,这会对度分布的研究有所影响。虽然我们在研究的模型中每次加入1个人,但是在实际情况中,这个人往往有亲密的人,他们会跟着一起加入。例如:在社团一次加入1个人的同时,这个人与未加入社团的另外M个人关系非常好,就一起加入这个社团,那么这次就加入了1+M个人。因此,我们需要一个系数来衡量社会网络中节点因相互之间的亲密关系而增长的特性,从而确定一个社会网络中节点增长的快慢。扩展系数通过计算在这个特 殊社会网络模型中实际加入节点的个数来解决这一问题。扩展系数可以通过分析节点之间的关系来提高度分析的精确程度,它主要是由亲密度值和控制阀值来决定的。

发明内容

本发明所要解决的技术问题是,针对现有技术不足,提供一种基于平均场理论和扩展系数的社会网络度分析方法。

为解决上述技术问题,本发明所采用的技术方案是:一种基于平均场理论和扩展系数的社会网络度分析方法,其特征在于,包括以下步骤:

1)计算加入社区中的节点的相邻节点与该加入的节点之间的亲密度值组成的集合At:其中,为在t时刻加入的节点i和与节点i相邻的节点l的亲密度值,n为社区中的节点个数;

2)由下列条件确定节点是否加入社区:

其中G为与加入的节点i相邻的节点的个数,α为阀值,取值范围为(0,1);

3)利用下式计算第k次加入节点的扩展系数δk:δk=1+sk;其中,sk为第k次符合步骤2)的条件加入社区的节点个数;sk=size(C),其中C为所有符合步骤2)的条件的节点与加入的节点i之间的亲密度值在At中对应的下标组成的数组;size()为求数组中元素个数的函数;

4)重复步骤2)和步骤3),直到NMI达到最大值,NMI是信息化理论中最重要的熵测量之一。NMI分数越高表明加入的节点与实际情况越符合。当NMI分数为1时,表明加入节点与实际情况完全符合;

5)利用下式计算总的扩展系数δ:其中,N为加节点的总次数;

6)利用下式计算社区的度分布概率P(k*):P(k*)=2δβm2·k*-3;其中,k*为社区的度值;m为加入社区的节点个数,由实验中所定,β为指数分布的参数。

与现有技术相比,本发明所具有的有益效果为:本发明应用了平均场理论中的连续特性节省了计算步骤,社会网络度分布符合幂律分布和小世界网络特性,本发明提出的方法在提高度分析精确度的同时大大降低时间复杂度,更为便捷,能更快地得到结果。

附图说明

图1(a)是特定社会网络节点增长初始阶段示意图;图1(b)为特定社会网络节点增长初始阶段后的演示图;

图2(a)中的λ表示亲密度中的的值,图2(b)中的λ表示亲密度中的γ:μ的值;

图3是本发明中阀值的确定;

图4(a)为本发明中PGP社会网络的度分布,图4(b)为度分布取对数后的图;

图5是本发明中不同β相同m下的度分布分析图;

图6是本发明中相同β不同m下的度分布分析图;

图7是本发明中精确度对比分析;

图8是本发明中实现时间对比分析。

具体实施方式

社会网络中节点的关系可以分为两种:本社区内的和社区外的。本社区内的为有关系的双方因为社区从而之间有着相互联系,如社区内的两个人因为共同的兴趣或者爱好而加入这个社区的;社区外的为有关系的双方除了他们在这个社区内的关系之外的亲情、友情等相互关系。

本发明实现过程如下:

1)针对指数增长模型,我们在呈指数分布的时间间隔内加入节点,必须精确地确定每一次加入的节点的个数,才能更好的对节点度进行分析。旨在提高度分析精确度的扩展系数设计是在亲密度的基础上进行的。度分析是根据节点的增长来计算的。在现实中特定的社会网络中人的个数会随着一些因素的改变而改变,其中最主要影响因素是人与人之间存在的亲密关系,这会对度分布的研究有所影响。虽然我们在研究的模型中每次加入1个人,但是在实际情况中,这个人往往有亲密的人,他们会跟着一起加入。例如:在社团一次加入1个人的同时,这个人与未加入社团的另外M个人关系非常好,就一起加入这个社团,那么这次就加入了1+M个人。因此,我们需要一个系数来衡量社会网络中节点因相互之间的亲密关系而增长的特性,从而确定一个社会网络中节点增长的快慢。扩展系数通过计算在这个特殊社会网络模型中实际加入节点的个数来解决这一问题。扩展系数可以通过分析节点之间的关系来提高度分析的精确程度,它主要是由亲密度值和控制阀值来决定的。在社会网络中,我们用度值来表示节点之间以及社区与社区之间的亲密关系,从而体现了相互之间的关系亲近紧密程度。在本文中,亲密关系主要由三个方面组成:亲情、友情和爱好,呈现了社会网络节点相互之间在这三方面的密切程度。传统的加权度值是根据关系的远近来给出的,若两人相互之间不认识则为0;若两人相互认识,根据关系的远近给出相应的度值。而本文提出的亲密度是在传统的加权度值上,加入他们之间的多种亲密因素,进一步精确细化相互之间的关系。亲密度值越大说明两者之间的亲密程度也就越大;亲密度值越小则两者之间的亲密程度也越小。我们关注与加入节点相邻的节点(非社团内节点),判断它们之间的亲密度是否满足条件,能否一起加入。 在扩展系数的设计中,我们研究的与加入节点相邻节点均为社团外节点。在亲密度值的基础上,我们可以得到加入节点的相邻节点与加入节点之间的亲密度值所组成的集合表示如下:

At=(Iilt)1×n

其中,为在t时刻加入节点i与它相邻的节点l的亲密度值。 

2)由于亲密度是由亲情、友情和爱好组成的,根据已有研究中的社会网络亲情度集合、社会网络友情度集合和社会网络成员的爱好相似度集合,我们可以得到亲密度值集合的表达式为:

At=μTt+φFt+γHt

其中,在t时刻,At为亲密度值集合,Tt为社会网络亲情度值集合,Ft为社会网络友情度值集合,Ht为社会网络爱好相似度值集合。我们将在仿真实验中分析不同的μ、和γ对度分布的影响。

3)我们确定哪些节点随着一起加入(与加入节点i相邻的节点共有G个):

阀值是控制与该节点有亲密关系的节点是否一起加入的定值,亲密度值大于阀值的节点随着一起加入社区;反之,则不加入。

4)我们把所有符合条件的节点与加入节点之间的亲密度值在At中对应的下标组成一个数组C,计算符合条件的一起加入社区的个数s:

s=size(C)

上式中size()为求数组中元素个数的公式。

5)我们得到第k次的扩展系数的表达式:

δk=1+sk

其中δk为第k次的扩展系数,sk为第k次符合条件加入社区的节点个数。 重复3)到5)直到NMI达到最大值,然后进行6)。

6)结合平均场理论的平均效果替代总和效果的思想,我们可以得到总的扩展系数的表达式:

δ=Σk=1NδkN

上式中,δ为总的扩展系数,N为加节点的总次数。

7)我们在前面六个步骤的基础上利用平均场理论连续性的特性结合特定社会网络节点的增长方式来计算度分布,它的核心思想是假设度值k是连续的。由于这个特殊的社会网络模型是在呈指数分布的时间间隔内加入新的节点,因而节点度的分布与时间t息息相关,随着t的变化而变化。根据这一性质,我们构建起节点i的度ki与t的微分方程,如下所示:

kit=a·P(ki)=akiΣjkj

8)由于m0为初始社区中的节点数,每个时间间隔a=mδβ内向该网络加入δ个节点,因此可得加入后节点度的增量为Δk=mδβ,所以,可得:

kit=mδβkim0+2mδβtki2t

9)由于初始条件为节点i在时刻ti被添加到网络,连接度为ki(ti)=m,代入上式则解为:

ki(t)=m(tti)12

10)网络的度分布为:

p(ki(t)<k)=p(ti>(mk)2·t)

11)根据网络增长的假设,ti的概率密度为:

pi(ti)=δβe-δβti

12)可得:

p(ti>(mk)2·t)=1t1p(ti>(mk)2·t)dt=1t1δβm0+δβtp(ti>(mk)2·t)dt=δβm0+δβt(1-p(ti(mk)2·t))=δβm0+δβte-δβ(mk)2·t

13)微分后可得: 

P(k)=p(ki(t)<k)k=δβm0+δβte-δβ(mk)2·t·2δβtm2·1k3

14)在网络节点中,由于k>>m,当t→∞时,得到近似值如下:

P(k)=2δβm2·k-3

本发明所研究的社会网络是一个特定的社区,这类社会网络具有节点增长的时间间隔呈指数分布方式的特点。如大学周边的一个健身俱乐部,创始阶段有m0个人,每个人初始度值为1(每个人有且仅有一个人与他(她)有关系),在时间间隔t内加入健身者或者工作人员,这个人携带与之亲密度高的人一起加入,加入后分别与m(m≤m0)个人有关系。随着俱乐部自身的广告宣传、知名度的提高、人与人之间的口碑相传,会员的人数增长的也越来越快。根据我们大量的社会实际调查,会员的人数呈指数增长,因此,每一次加入这个社团的时间间隔t符合指数分布。

在图1(a)的初始阶段,这个社会网络社区内原有8人,两个人一对,分为四对人,每对两两相互之间有关系,与其他人没有关系,即每个节点的度值均为1。步骤一为加入一个人,形成一个拥有9人的社会网络社区,加入的 这个人与原有8人中的四个人有关系。步骤二后,形成一个拥有11人的社会网络社区,这个人带着与他(她)亲密度高的人一起加入,加入的这两个人分别与原来9人中四个人有关系。依次进行直到步骤n后图1(a)下方的社会网络。每个单位时间发生的次数(各个步骤)服从参数为β的泊松分布,如图1(b)所示,则每个步骤发生的时间间隔服从参数为β的指数分布。时间间隔t1、t2-t1、t3-t2、…、tn-tn-1满足指数分布。

为了提高度分析的精确度,我们引入扩展系数的概念。扩展系数是在亲密关系的基础上,一种利用节点之间的亲密度找到一起加入的节点,从而精确计算加入节点数量的系数。

以下阐述本发明分布式的算法的技术原理:

本发明由于利用平均场理论的两大优点:平均效果替代总和效果、连续性,简化了计算过程,因此大大降低了时间复杂度。与现有的三种主要方法的时间复杂度对比分析如表1所示:

虽然随着时间的增大,N也会增大到一个较大的值,但是由于我们是采用了平均的方式,可以用加入次数较小时的平均值预测整体平均值。因此,O(f(n))+O(δ)<O(f(n))+2*n<2*O(f(n))+n<4*O(f(n)),其中f(n)为计算度分析的表达式。我们所采用的结合扩展系数的平均场理论的方法对比现有的三种主要方法,时间复杂度最低。通过理论上的分析,MFSC算法更优,更好的解决社会网络度分析问题。

表1时间复杂度对比

这样我们就可以给出MFSC算法的伪代码描述,Comm表示社会网络中的节点集合,P表示通过算法后得到的度分析。

本发明的MFSC算法在平均场理论和扩展系数的基础上对节点加入时间间隔呈指数分布的这类特殊社会网络的度分布进行了精确分析。MFSC算法首先应用了计算扩展系数的ISC算法,ISC算法是一种在节点之间亲密度的基础上对一起加入节点的数量进行计算的算法,从而为进一步的度分析提供了前提条件。然后利用改进的平均场理论的方法对节点度进行研究。最后得到这类社会网络的度分析结果。

下面分析本发明方法的性能。

本发明的实验依据UCINET网络分析平台和MATLAB数据计算平台综合在dell服务器(配置为Intel Xeon E5-2603 1.80Ghz,内存16G)上进行分析。

实验所采用的数据来源于用户使用个人微机加密程序进行安全信息交换的社会网络(PGP network),它由10680个用户组成,每个人初始度值为1(每个人有且仅有一个人与他(她)有关系),在时间间隔t内加入一个用户并携带与他(她)亲密度高的用户,这些用户加入后与m个用户有关系,时间间隔t符合指数分布。

实验分为三个部分,第一部分为验证性实验,对我们的算法给出了验证;第二部分为改变参数实现性实验,分别给出了不同指数增长系数β相同加入节点的度数m、相同β不同m下的对比分析图;第三部分为对比性实验,分别在精确度和实现时间上与主方程方法进行对比分析。

本发明的实验中,我们把标准化互信息(NMI)作为度分析准确的评判标准。NMI是信息化理论中最重要的熵测量之一。NMI分数越高表明加入的节点与实际情况越符合。当NMI分数为1时,表明加入节点与实际情况完全符合。我们把精确度和实现时间作为算法的评价指标。

1、幂律分布验证

首先,利用NMI来确定亲密度中的μ、和γ,还有相应的阀值α。

通过研究μ、和γ的改变对NMI分数的影响来确定亲密度中三个系数的比值。进行NMI测试实验分析如附图2所示。

附图2(a)中的λ表示的值,(b)中的λ表示γ:μ的值。可以得到,随着参数λ的改变(亲密度中系数比值的改变),NMI分数也随着改变。当γ:μ=0.4时,NMI分数分别达到最大值1。因此时,NMI分数最大且为1,因此我们确定了亲密度中μ、和γ。

同样的可以给出阀值的确定方法。根据大量的实验,我们得到加入PGP社会网络的节点对应的α在0.71到0.89之间。我们选择其中有代表性的进行分 析,取α在0.78到0.87之间。进行NMI测试实验分析如附图3所示。

从图3中可以得到,随着参数ω(ω越大,节点在它所属社区中的强度也越弱)的改变,NMI分数也随着改变。其中阀值α=0.82时,NMI分数最为趋近于1,因此确定这个社会网络的相应的阀值。

根据亲密度中的比例系数和这个特定社会网络的阀值,给出亲密值后,计算得到扩展系数为δ=15.26。下面我们研究节点在不断增长的情况下的度分析。

利用MATLAB平台,在该社会网络中节点指数增长系数β=1,m=500的情况下,我们给出该社会网络的度分布,如附图4所示。

由附图4(a)我们可以得到,对于这个特殊的社会网络的度分布符合幂律分布,极少数节点存在较大的连接数,较大数节点存在较小的连接数,符合无标度网络的特性;同时,该社会网络中平均通过几个人后可以认识其他人,体现了社会网络作为一个复杂网络的小世界网络性质。我们对式(17)进行了两边取对数运算后,得到附图4(b),图中显示为一直线,也同样验证了度分布符合幂律分布,该社会网络具有小世界网络的性质。

2、改变参数后的对比分析

在式(17)中有众多影响度分析结果的因素,下面我们通过改变指数增长系数β和加入节点的度数m来得到结果的变化。

a、不同的β相同m

我们在相同的m=500下改变指数增长系数,得到分析图如附图5所示。

由图5,我们可以得到不同β相同m下该社会网络的度分布图。随着指数增长系数的增大,节点的连接概率也相应的增大。时间间隔减小后,相当于在相同的时间内加入更多的节点,连接概率也随着增大,符合实际情况。

b、相同β不同m

我们在相同的β=1下改变指数增长系数,得到分析图如下图6所示:

由图6,我们可以得到相同β不同m下该社会网络的度分布图。随着加入节点的度数m的增大,节点的连接概率也相应的增大。随着m的不断变大,即初始加入的节点所包含的边的个数不断变大,节点的连接概率也随着变大,符合现实中的现象。

3、本发明的方法与现有算法的对比分析

实验的第三部分为本发明的MFSC算法与现有的基于社会权利的度分析方法(SPMF)、特殊社会网络的度分析方法(DDME)和复杂网络的链接预测方法(LPME)进行对比分析。

首先,我们对这四种方法度分析的精确度进行对比分析,如附图7所示。

由附图7所示,其中横坐标为时间,纵坐标为度分析的精确度。即分析在每个时间点上,各个算法对该社会网络度分析的精确度。随着时间的不断增大,本发明的算法所得到的结果与现实基本一致,而现有的算法均未考虑附加节点的加入,精确度不断下降,我们的方法优势更大。经过数值分析我们可以得到,MFSC算法比SPMF算法、DDME算法、LPME算法在精确度上平均提高了29.04%、44.34%、86.71%。

然后,我们对这四种方法的实现时间进行对比分析,如附图8所示。

由附图8所示,横坐标为t时刻,纵坐标为算法的实现时间。即分析了在t时刻上,各个算法所需要的实现时间。通过在50、100、400、800、1000和1200s的对比分析后,我们得到,MFSC算法由于需要计算扩展系数,所以时间消耗不断增大,但是始终低于现有算法。经过数值分析我们可以得到,MFSC算法比SPMF算法、DDME算法、LPME算法在实现时间上平均减少了69.31%, 132.67%,189.11%。

通过实验的分析,本发明利用结合扩展系数的平均场理论方法得到了特殊社会网络的度分布,该社会网络是幂律分布,符合小世界网络的性质。在本发明的方法与现有方法的对比中,MFSC算法比现有最好的方法SPMF算法在精确度上提高了29.04%,在实现时间上降低了69.31%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号