首页> 中国专利> 一种基于随机游走的社交网络信息传播源求解方法

一种基于随机游走的社交网络信息传播源求解方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于随机游走的社交网络信息传播源求解方法，通过在社交网络中选取观测节点，观测选取的节点是否被感染，将被感染的观测节点放入观测集，直到得到含有K个已被感染节点的观测集，再从观测集的已被感染节点出发，进行多步基于随机游走的回溯，将所到达的节点放入候选源节点集，这样得到一个节点个数不超过观测节点集中节点个数的候选源点集，重复多次进行这样的回溯，记录各个节点在多次实验中被选入候选源点集的次数，得到被选中概率最高的节点作为源节点求解结果，这样考虑利用增强学习的思想加快算法收敛速度，也保证了求解结果的准确性。

著录项

公开/公告号CN106557985A

专利类型发明专利
公开/公告日2017-04-05

原文格式PDF
申请/专利权人云南大学;
展开▼

申请/专利号CN201611040867.5
发明设计人张志坚;岳昆;刘惟一;吴鸿;刘凌;
展开▼

申请日2016-11-21
分类号G06Q50/00;
代理机构成都行之专利代理事务所(普通合伙);
代理人温利平
地址 650091 云南省昆明市翠湖北路2号
入库时间 2023-06-19 01:53:56

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-24

授权

授权
2017-05-03

实质审查的生效 IPC(主分类):G06Q50/00 申请日:20161121

实质审查的生效
2017-04-05

公开

公开

说明书

技术领域

本发明属于社交网络技术领域，更为具体地讲，涉及一种基于随机游走的社交网络信息传播源求解方法。

背景技术

随着Internet技术的发展以及微博、微信、Facebook、Twitter和LinkedIn等在线社交网络的普及，社交网络(Social Network)已经成为人与人之间传播信息的重要渠道。社交网络上传播的信息不仅包含有用的和正确的信息，还包含着大量错误的和虚假的甚至是有害的信息，例如谣言信息以及计算机病毒信息等。社交网络中如何尽快发现并有效控制有害信息的传播、求解信息传播的源节点，是信息传播的重要研究问题。这对于谣言信息和计算机病毒等有害信息的有效控制，减少此类信息在社交网络中传播带来的损害具有重要的意义。我们针对如何求解信息传播的源节点，提出利用随机游走的方法，旨在回溯求解最有可能的信息传播源节点。

社交网络中信息传播源的确定问题，是指在某一信息传播模型下，某个信息源开始传播后，通过获取该信息源的传播情况，采用某种方法求解出最有可能的信息传播源节点的问题。这里的传播模型，我们采用经典的独立级联模型，它能较好地反映传播过程的随机性。在独立级联模型的基础上，我们采用随机游走的方法回求解最有可能的信息传播源节点。

薛一波等(<专利CN201510379989.6>，2015)给出了基于社交网络中边的介数的谣言控制方法，该方法需要掌握网络的整体信息并求解边的介数，而现有社交网络中很难获取到整个网络的具体信息。顾亦然等(<物理学报>2012)根据谣言信息传播特征改进了传染病模型，并提出了基于熟人的免疫方法。以上方法给出了控制谣言传播的方法，却无法求解谣言产生的节点。张聿博等(<东北大学学报>2016)给出了基于部分路径求解信息源节点的方法，该方法只能求解路径上单个源节点的情况。黄震华等(<专利CN201510121263.2>，2015)提出一种从源节点出发利用随机游走方法根据用户特征求解推荐用户的方法，利用随机游走的思想寻找相似用户。金弟等(<软件学报>，2012)提出基于随机游走的蚁群算法求解复杂网络中的簇结构问题，同样是利用随机游走的思想求解相似用户。吴春琼等(<计算机应用研究>，2015)采用随机游走方法选取网络中的采样节点，能有效地得到网络的统计特性。张珊靓等(<计算机应用与软件>，2014)提出基于随机游走的社交网络链路预测方法。这些工作都体现出随机游走方法在社交网络采样、链路预测以及相似用户求解等应用中的优势。

在有害信息的传播问题的研究中，除了快速抑制有害信息的传播之外，如何确定有害信息源节点也是亟待解决的问题之一。虽然随机游走方法在解决信息传播问题时具有一定的优势，但信息传播的过程是一个扩散的过程，即一个节点会把信息传递给多个子节点，这给我们描述有害信息的传播过程带来了困难。然而，反向回溯源节点的问题正好可以看作是一个随机游走的过程，我们可采用随机游走的方法反向回溯源节点。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于随机游走的社交网络信息传播源求解方法，基于对传播信息的部分观测结果，利用随机游走回溯的方法，经过多次回溯，逐步精确求解信息的传播源节点。

为实现上述发明目的，本发明基于随机游走的社交网络信息传播源求解方法，其特征在于，包括以下步骤：

(1)、获取观测集

(1.1)、从社交网络中随机选取节点，并观测选取的节点是否感染，若选取的节点已被感染，则将该节点加入到观测集O中；若选取的节点未感染，则丢弃该节点，并随机选取下一节点；

(1.2)、统计观测集O中已感染节点数是否达到K个，若已有K个已感染节点，则停止选取，并进入步骤(2)；若未达到K个已感染节点，则返回步骤(1.1)；

(2)、基于随机游走的回溯

(2.1)、设置每次游走的最大回溯步数为MaxBS，将观测集O作为候选源节点集S，在S中随机选取个节点作为起始节点，并进行首次游走的首步回溯；

(2.2)、求出候选源节点集S中每一个已感染节点v_i的父节点v_j，其中，v_i∈S，i＝1,2,…,K，j＝1,2,…,m，m表示已被感染v_i的父节点个数；

遍历所有的父节点v_j，观测父节点v_j是否感染，若某一个父节点v_j已被感染，则将v_j放入v_i已被感染父节点集AF_i中，再进入步骤(2.3)；若v_i已无已被感染父节点，则不做处理，将v_i保留在候选源节点集S中作为候选源节点；

(2.3)、设信息传播中父节点v_j感染节点v_i的感染概率为p_ji；计算节点v_i在随机游走中转移回到自己的概率为：

其中，N_i表示N次实验结果中，节点v_i被选为候选源节点的次数；δ为增量参数δ≥0；

(2.4)、令节点v_i向已感染父节点v_j回溯的转移概率p_ij等于父节点v_j在信息传播时感染节点v_i概率p_ji，即：p_ij＝p_ji；

对从v_i出发，经过首步随机游走能够到达的节点的转移概率进行归一化处理，即：

v_j∈AF_i，且有

(2.5)、根据随机游走方法，依转移概率值BtP_ii及BtP_ij选取从v_i出发回溯到的下一个节点v_k；

(2.6)、根据首步游走结果更新候选源节点集

在S中删除游走的出发节点v_i，把回溯到的下一个节点v_k加入到候选源节点集S；

(2.7)、当首步游走结束后，在S中随机选取下一个节点作为起始节点，并按照步骤(2.2)-(2.6)所述方法进行首次游走的下一步回溯，直到游走的步数达到最大回溯步数MaxBS时，首次游走结束，并进入步骤(2.8)；

(2.8)、统计本次游走结束后，保留在候选源节点集S中的各个节点，并对各个节点进行计数，使其计数值加1；

(2.9)、当首次游走结束时，按照步骤(2.1)-(2.8)所述方法重复实验N次；

(3)、求解最有可能的源节点

根据各个节点被选为候选源节点的计数值，得到该节点被选为候选源节点的次数，再挑选次数最高的节点作为最终的源节点。

本发明的发明目的是这样实现的：

本发明基于随机游走的社交网络信息传播源求解方法，通过在社交网络中选取观测节点，观测选取的节点是否被感染，将被感染的观测节点放入观测集，直到得到含有K个已被感染节点的观测集，再从观测集的已被感染节点出发，进行多步基于随机游走的回溯，将所到达的节点放入候选源节点集，这样得到一个节点个数不超过观测节点集中节点个数的候选源点集，重复多次进行这样的回溯，记录各个节点在多次实验中被选入候选源点集的次数，得到被选中概率最高的节点作为源节点求解结果，这样考虑利用增强学习的思想加快算法收敛速度，也保证了求解结果的准确性。

同时，本发明基于随机游走的社交网络信息传播源求解方法还具有以下有益效果：

(1)、考虑了社交网络中信息传播源节点的求解问题，利用随机游走描述回溯源节点过程，更好的描述了节点被激活的实际过程，提供了一种符合实际情形的求解源节点的方法。与公知的信息传播图中源节点求解方法相比，更适用于目前大规模的社交网络，而不需完全了解整个网络的结构特性。

(2)、从观测到的已感染节点出发，利用随机游走的方法反向回溯求解传播源节点，较好地重现了传播的过程，能有效地进行传播源节点的求解；与公知的单个源节点求解方法相比，能适用于多个源节点的求解问题。

(3)、在求解方法中加入增量学习的思想，节点在随机游走过程中回到自己的概率随着多次实验中其被选中次数增加而增大，这使得在求解源节点时，该方法比现有公知方法具有更快的收敛速度。

附图说明

图1是本发明基于随机游走的社交网络信息传播源求解方法流程图；

图2是图1所示步骤2中基于随机游走的回溯流程图；

图3是社交网络的信息传播示例图；

图4是随机游走转移概率的计算示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于随机游走的社交网络信息传播源求解方法流程图。

在本实施例中，如图1所示，本发明基于随机游走的社交网络信息传播源求解方法，包括以下步骤：

(1)、获取观测集

在本实施例中，除了随机选取节点的办法外，也利用其他方法进行选取。例如，当已知网络结构时，可选取社交网络中出度较大的节点或者介数较大的节点。

(1.2)、统计观测集O中已感染节点数是否达到K个，若已有K个已感染节点，则停止选取，并进入步骤(2)；若未达到K个已感染节点，则返回步骤(1.1)；

这样重复随机选取节点进行观测，直到观测集含有K个已感染节点。观测集中节点个数K与网络大小和源节点个数有关，太小或者太大都会使得源节点集的求解结果偏差较大，因此根据实际社交网络规模和信息传播时间确定合适的观测集大小将有利于源节点的求解。在实本实施例中，K的取值为源节点个数的2-5倍时，计算结果较好。

在本实施例中，根据某社交网络平台用户及用户之间的联系得到社交网络，其中社交网络中的节点表示用户，社交网络之间的边表示用户之间的联系。如图3所示，其中，v₁、v₂、v₃、v₄、v₅、v₆、v₇、v₈、v₉和v₁₀分别表示用户1、用户2、用户3、用户4、用户5、用户6、用户7、用户8、用户9和用户10。设有一信息从源节点v₃开始传播，经过一段时间后，节点v₁、v₂、v₃、v₄、v₆和v₈被感染。采用随机选取观测节点的方法，观测节点是否被感染，若节点被感染则加入到观测集，假设选取的观测集合需含有2个节点，经过随机选取、观测后，已感染节点v₁和v₈被放入观测集，即观测集为：O＝{v₁,v₈}。

(2)、如图2所示，基于随机游走的回溯的具体流程为：

(2.1)、设置每次游走的最大回溯步数为MaxBS＝2，将观测集O作为候选源节点集S，即：S＝O＝{v₁,v₈}；在S中随机选取个节点作为起始节点，并进行首次游走的首步回溯；其中，起始节点满足：起始节点的父节点中至少存在一个父节点已被感染；

(2.2)、求出候选源节点集S中每一个已感染节点v_i的父节点v_j，其中，v_i∈S，i＝1,2,…,K，j＝1,2,…,m，m表示已被感染v_i的父节点个数；

在本实施例中，从候选源节点集S＝{v₁,v₈}中的v₁出发，首先求出v₁的已感染父节点集合，可知AF₁＝{v₃,v₆}；

(2.3)、设信息传播中父节点v_j感染节点v_i的感染概率为p_ji；计算节点v_i在随机游走中转移回到自己的概率为：

其中，N_i表示N次实验结果中，节点v_i被选为候选源节点的次数；δ为增量参数δ≥0，δ的大小影响到求解方法的收敛速度和准确性；

经过多次实验后，随着节点被选中的次数增多，很小的增量参数δ都可能使得转移p_ii大于1，即p_ii>1，而本方法中步骤(2.4)的归一化处理能保证进行随机游走时，各个转移概率都小于1。

(2.4)、令节点v_i向已感染父节点v_j回溯的转移概率p_ij等于父节点v_j在信息传播时感染节点v_i概率p_ji，即：p_ij＝p_ji；

对从v_i出发，经过首步随机游走能够到达的节点的转移概率进行归一化处理，即：

v_j∈AF_i，且有

(2.5)、根据随机游走方法，依转移概率值BtP_ii及BtP_ij选取从v_i出发回溯到的下一个节点v_k；

(2.6)、根据首步游走结果更新候选源节点集

在S中删除游走的出发节点v_i，把回溯到的下一个节点v_k加入到候选源节点集S；

在本实施例中，给定δ＝0.01，第一次实验时v₁被选中为候选源节点的次数为0，即N₁＝0，则有另已知v₁转移到其他父节点的概率为：p₁₃＝p₃₁＝0.4和p₁₆＝p₆₁＝0.5。

对从v₁出发进行随机游走到达下一可能节点的转移概率进行归一化处理，得到：

各概率值如表1所示，

表1.v₁出发的转移概率

依据各转移概率进行随机游走，假设v₆被选中，即转移到节点v₆。

将v₆加入到候选源节点集S，并从S中删除v₁，候选源节点集更新为：S＝{v₆,v₈}。

从候选源节点集中另一节点v₈出发随机游走一步，方法与从v₁出发的随机游走相同，如图4(a)和(b)所示，可知从v₈出发的转移概率如表2所示，

表2.v₈出发的转移概率

假设根据转移概率随机游走到下一节点v₆，则候选源节点集S更新为S＝{v₆}。

以上一步更新后的候选源节点集S＝{v₆}中的节点为出发点，继续进行随机游走。

从候选源节点集中节点v₆出发随机游走一步，方法与上一步中的随机游走相同，可知从v₆出发的转移概率如表3所示，

表3.v₆出发的转移概率

假设根据转移概率随机游走到下一节点v₃，则候选源节点集S更新为：S＝{v₃}。

经过两步随机游走，从观测节点集O＝{v₁,v₈}出发，得到了候选源节点集S＝{v₃}。也就是说，在这次实验中节点v₃被选为传播的源节点。于是更新节点的被选中次数，即将N₃的值加1。

(2.8)、统计本次游走结束后，保留在候选源节点集S中的各个节点，并对各个节点进行计数，使其计数值加1；

(2.9)、当首次游走结束时，按照步骤(2.1)-(2.8)所述方法重复实验N次；

(3)、求解最有可能的源节点

根据各个节点被选为候选源节点的计数值，得到该节点被选为候选源节点的次数，再挑选次数最高的节点作为最终的源节点。

在经过10次实验后，各节点被选中次数如表4所示，次数最高的节点为v₃，N₃＝6，则v₃作为源节点求解结果输出。

表4.10次实验后各节点被选中的次数

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于随机游走的社交网络信息传播源求解方法 [P] . 中国专利： CN106557985B . 2020.03.24
2. 一种基于随机游走的社交网络信息传播源求解方法 [P] . 中国专利： CN106557985A . 2017-04-05
3. Method for creating a web-based contact book which includes multi-sourced contact-generated content (from social networks) in a custom and private stand-alone contact book with information selectively pulled from multiple outside sources, including multiple social networks, via a unique combination of a user decision node and a main and subordinated data tables structure, yielding no explicit or implicit source level value judgments or biases [P] . 美国专利： US2009138475A1 . 2009-05-28

机译：用于创建基于网络的联系人簿的方法，该方法包括在定制和私有独立联系人簿中包含多源联系人生成的内容（来自社交网络），并通过唯一的方式从多个外部资源（包括多个社交网络）中有选择地提取信息用户决策节点与主数据表和从属数据表结构的组合，不会产生显式或隐式的源级别值判断或偏差
4. METHOD OF RESOLVING HEAVY METAL CONTAMINATION SOURCE BASED ON SEQUENTIAL EXTRACTION SCHEME AND ISOTOPE ANALYSIS SCHEME [P] . 美国专利： US2015079686A1 . 2015-03-19

机译：基于序贯提取方案和同位素分析方案的重金属污染源求解方法
5. A BUSINESS METHOD USING TARGETED ADVERTISEMENTS BASED ON BUCKETLIST GENERATED BY USER'S SOCIAL NETWORK ACTIVITIES [P] . 韩国专利： KR20120088635A . 2012-08-08

机译：一种基于用户社交网络活动生成的基于bucketlist的有针对性的广告的业务方法