首页> 中国专利> 基于ReciprocityRank算法的微博网络影响力节点发现方法

基于ReciprocityRank算法的微博网络影响力节点发现方法

摘要

本发明公开了一种基于ReciprocityRank算法的微博网络影响力节点发现方法,其实现步骤为:首先建立节点数为N、有向边数为M的有向网络,引入一个背景节点与有向网络中的每个节点双向连接;然后为所有节点赋权值,背景节点权值为0,网络节点权值为1,初始化时间t=0;接着,时间t加1,对于每个网络节点,分别计算该网络节点与各个相邻节点之间的转移概率后和预设的概率阈值进行比较,并将该网络节点的权值分配给与其之间转移概率大于预设的概率阈值的相邻节点,重复该步骤,直至所有网络节点的权值达到稳态值;最后,根据节点的最终权值进行排序。

著录项

  • 公开/公告号CN105337773A

    专利类型发明专利

  • 公开/公告日2016-02-17

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN201510800062.5

  • 发明设计人 宋玉蓉;阚长江;付文豪;

    申请日2015-11-19

  • 分类号H04L12/24(20060101);H04L12/58(20060101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人刘传玉

  • 地址 210046 江苏省南京市栖霞区文苑路9号

  • 入库时间 2023-12-18 14:21:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-05

    授权

    授权

  • 2016-03-16

    实质审查的生效 IPC(主分类):H04L12/24 申请日:20151119

    实质审查的生效

  • 2016-02-17

    公开

    公开

说明书

技术领域

本发明涉及复杂网络中影响力节点发现方法,特别涉及于基于ReciprocityRank算法的微 博网络影响力节点发现方法。

背景技术

随着互联网和Web2.0技术的快速发展,网络对于人们生活的影响越来越大,尤其是以微 博为代表的社交媒体平台已经随着网络的发展逐渐进入人们的生活。目前,微博已经成为群 众发布、获取、分享、讨论的主流平台之一,其特有的分列式信息传递方式使得用户信息得 到快速而广泛的传播,但是大量负面、虚假甚至是违法的信息也在网络中传播和蔓延,因此 怎样寻找网络中的影响力节点从而控制微博网络中的信息传播过程已成为一个至关重要的问 题。

网络中高影响力的节点通常更易于被感染,同时也更易于感染网络的其他节点。为解决 这个问题,各种各样的中心性指标被提出。如度中心性、介数中心性、紧密度中心性、K-壳 分解法等。在有向网络中,PageRank算法以其较好的排序效果以及较高的商业价值吸引了研 究者的关注,常被推广应用到各种不同的网络。LeaderRank算法在PageRank算法的基本思想 上进行改进。这两种算法均认为节点的影响力取决于跟随者的数量和质量,节点的粉丝影响 力越大,那么节点是高影响力节点的概率就越高。但是LeaderRank算法相比于PageRank算法, 在信息传播、抵抗噪声鲁棒性和抗击鲁棒性等方面全面优于PageRank算法。但是这些算法均 是只基于网络的拓扑结构提出来的,未考虑到节点自身行为的差异性对节点影响力的影响。

发明内容

为了解决以上现有算法的缺陷,特别针对于LeaderRank算法中未考虑到节点自身行为的 差异性对节点影响力的影响,本发明提供了一种基于ReciprocityRank算法的微博网络影响力 节点发现方法,以提高影响力节点发现的准确度。

基于ReciprocityRank算法的微博网络影响力节点发现方法,包括以下步骤:

步骤1),建立节点数为N、有向边数为M的有向网络,其中,N、M均为自然数;

步骤2),引入一个背景节点与步骤1)中的有向网络中的每个网络节点双向连接;

步骤3),为所有节点赋权值,背景节点权值为0,网络节点权值为1,初始化时间t=0;

步骤4),时间t加1,对于每个网络节点,分别计算其与各个相邻节点之间的转移概率;

步骤5),对于每个网络节点,分别将其与各个相邻节点之间的转移概率和预设的概率 阈值进行比较,并将该网络节点的权值分配给与其之间转移概率大于预设的概率阈值的相邻 节点;

步骤6),重复步骤4)至步骤5),直至所有网络节点的权值达到稳态值;

步骤7),根据网络节点的最终权值进行排序。

作为本发明基于ReciprocityRank算法的微博网络影响力节点发现方法进一步的优化方 案,所述步骤4)中转移概率的计算方法为:

ci=1kiout×Mi

其中,ci为节点i的转移概率;为加入背景节点后网络中节点i的出度;为加 入背景节点后网络中节点i的出边互惠数。

作为本发明基于ReciprocityRank算法的微博网络影响力节点发现方法进一步的优化方 案,所述步骤5)中将网络节点的权值分配给与其之间转移概率大于预设的概率阈值的相邻 节点的具体公式如下:

RRj(t)=Σi=1N(1-ci)aijkiout-1RRi(t-1)+1NΣi=1NciRRi(t-2)

其中,RRi(t)表示节点i在t时刻的权值;RRN+1(t)表示背景节点在t时刻的权值;aij为 有向网络的网络邻接矩阵中对应的项元素,aii=0。

作为本发明基于ReciprocityRank算法的微博网络影响力节点发现方法进一步的优化方 案,所述预设的概率阈值为30%。

作为本发明基于ReciprocityRank算法的微博网络影响力节点发现方法进一步的优化方 案,所述预设的概率阈值为50%。

本发明将基于节点出边互惠数和出度的ReciprocityRank算法用于微博网络影响力节点发 现,在保持较好的抵抗噪声鲁棒性和抗击鲁棒性等性能,还融入了节点行为差异的因素,提 高了算法的精确度。本发明对真实网络,尤其是社交网络的节点影响力发现效果最佳。

附图说明

图1是本发明的方法流程图;

图2-a、图2-b分别为对采集的SM网络在取L=50时本发明与PageRank算法、本发明与 LeaderRank算法的传播范围对比示意图;

图3-a、图3-b分别为对采集的TM网络在取L=50时本发明与PageRank算法、本发明与 LeaderRank算法的传播范围对比示意图;

图4-a、图4-b分别为对采集的SM网络在取L=20时本发明与PageRank算法、本发明与 LeaderRank算法的传播范围对比示意图;

图5-a、图5-b分别为对采集的TM网络在取L=20时本发明与PageRank算法、本发明与 LeaderRank算法的传播范围对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发 明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用 于限定本发明。

如图1所示,该方法包括以下步骤:

步骤1,建立节点数为N、有向边数为M的有向网络;

为了更加直观的显式出本发明的实际效果,应用本发明于微博网络。通过对某两种微博 网络的数据采集,以用户为节点,节点间的关注与被关注关系为有向边,分别构建有向关系 网络SM和TM,其参数如表1所示。

表1:

参数\网络 SM TM 节点数(N) 16459 86043 连变数(M) 129682 1027372 度(kin/kout) 7.88 11.94 平均路径长度(d) 3.3649 3.2352

步骤2,引入一个背景节点与初始网络中的每个节点双向连接;

为了解决网络的不连通性而导致的排序结果不唯一,因此在初始有向网络中引入一个背 景节点,并且背景节点与初始有向网络中的所有节点双向连接,此时的网络节点数为N+1, 有向边数为M+2×N,网络为强连通网络。

步骤3,为所有节点赋权值,背景节点权值为0,网络节点权值为1,初始化时间t=0;

步骤4,时间t加1,对于每个网络节点,分别计算其与各个相邻节点之间的转移概率, 然后将其与各个相邻节点之间的转移概率分别和预设的概率阈值进行比较,并将该网络节点 的权值分配给与其之间转移概率大于预设的概率阈值的相邻节点;

单位时间内,节点以转移概率ci选择访问访问背景节点或是初始网络节点,这一概率反 映了节点的不活跃程度,节点越不活跃,显然也就不容易在自己的关注对象和粉丝对象之间 起到桥梁作用,自身的影响力也就不容易起到作用。最直观的感受,节点i关注的对象越多, 其获取的信息来源也就更广泛,则产生转发或发表信息行为的概率也就越高。同样的,节点i 有越多的真实好友使用微博网络,则其对于微博网络的重视程度也就越高于那些没有或者只 有少数朋友使用微博的用户,也就意味着节点i在微博活动中活跃度同样也就会越高。

根据上述所提出的思想,我们假设,节点的转移概率即访问背景节点的概率受其关注数 和互惠边数共同影响,即节点i的转移概率为:

ci=1kiout×Mi

其中,ci为节点i的转移概率;为加入背景节点后,网络中节点i的出度;为 加入背景节点后,网络中节点i的出边互惠数。引入互惠边因素以及背景节点后,在时间t内 逐个将节点的权值分发给访问节点,以边i→j为例,具体表达式如下:

RRj(t)=Σi=1N(1-ci)qijktout-1RRi(t-1)+1NRRN+1(t-1)RRN+1(t)=Σi=1NciRRi(t-1)

消除背景节点后,上式可以表示为:

RRj(t)=Σi=1N(1-ci)aijkiout-1RRi(t-1)+1NΣi=1NciRRi(t-2)

其中,RRi(t)表示节点i在t时刻的权值;RRN+1(t)表示背景节点在t时刻的权值;aij为 网络邻接矩阵对应项元素,aii=0。

所述预设的概率阈值为可以设定为30%或者50%或者其他。

步骤5,重复步骤4,直至所有网络节点的权值达到稳态值;

经过时间tc次的迭代,所有节点的分数值将会达到一个稳态值,因此判断标准是将tc时 刻网络所有节点的权值和上一个时刻tc-1时网络所有节点的权值比较。若是相等则跳出循环, 否则循环继续,时间t加1。

步骤6,根据节点的最终权值进行排序;

为保证网络中的排序值不变,在tc时刻,排序达到稳定状态后,将背景节点的排序值均 分给网络中的原有节点,则节点i的最终权值为:

RRi=RRi(tc)+RRN+1(tc)N

将所有节点的权值大到小排序,即权值越大,排名越靠前。

为说明算法在发现影响力节点方面的有效性,将ReciprocityRank算法与有向网络中的两 个经典PageRnak算法、LeaderRank算法进行比较。

我们分别选取在PageRank算法、LeaderRank算法和ReciprocityRank算法中排序靠前的 L个节点进行比较。这里分别选取L=50和L=20进行比较,分别将PageRank算法和 ReciprocityRank算法、LeaderRank算法和ReciprocityRank算法排序前L的节点进行两两比较, 剔除那些同时存在的节点,并将剩下的节点作为各算法的信息传播的源节点,获取各节点的 传播范围并取平均值作为衡量各算法有效性的标准。显然,算法的平均传播范围越广,算法 寻找到的影响力节点其实际影响力越大。

使用经典的病毒传播模,SIR传播模型衡量节点传播范围。在SIR模型中,一般将用户分 为易感染节点(S态)、感染节点(传播节点,I态)和免疫节点(R态),其传播机制如下

S+IλI+IIμR

若S态的个体处于I态的个体接触会以概率λ被感染成为I态,而感染节点I由于自身或 外在的治愈能力会以概率μ康复成为免疫节点R并不再被感染。在SIR模型中当系统达到稳 定时,网络趋于无I态节点,即I态节点最终都会成为R态节点。

例如SM网络中,PageRank算法和ReciprocityRank算法各有6个节点不存在于对方的排 序前50的节点中,则在比较时,分别以这6个节点为信息源,每个节点平均传播100次,获 取网络免疫节点比例r(t)随时间变化情况,则每个算法总共传播了6*100次,取这600次传播 的平均值作为算法的传播值。在SIR模型中,固定传播概率λ为0.05,恢复概率μ=1。图2-a、 图2-b分别为对采集的SM网络在取L=50时本发明与PageRank算法、本发明与LeaderRank 算法的传播范围对比示意图;图3-a、图3-b分别为对采集的TM网络在取L=50时本发明与 PageRank算法、本发明与LeaderRank算法的传播范围对比示意图;图4-a、图4-b分别为对 采集的SM网络在取L=20时本发明与PageRank算法、本发明与LeaderRank算法的传播范围 对比示意图;图5-a、图5-b分别为对采集的TM网络在取L=20时本发明与PageRank算法、 本发明与LeaderRank算法的传播范围对比示意图,r(t)表示各算法在t时刻的平均免疫节点比 例。可以看到,在SM网络和TM网络中,在Top50与Top20的情况下,与PageRank算法 和LeaderRank算法相比,ReciprocityRank算法均取得了比较好的传播结果,信息传播的更快 更广。说明,除了那些各算法均可找到的高影响力节点外,对于那些难以发现但是实际影响 力可能较高的节点,ReciprocityRank算法更容易赋予其较高的排序值,从而作为影响力节点 的候选节点被挖掘出来。

本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术 语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理 解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一 致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在 本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号