技术领域
本发明属于互联网技术领域,尤其是社交网络分析技术领域,具体涉及一种基于观点向量化的影响力传播模型的建立方法。
背景技术
社交网络影响力是个人在互联网平台中,通过发表或转发观点内容,从而影响到其他用户行为的一种体现,具体表现在点赞、转发等。近年来,随着计算机技术的快速发展和普及,越来越多的用户通过在推特(Twitter)、微博等社交网络平台上发表观点、传播内容,并影响到其他用户。围绕着用户之间的社交影响力这一方面,研究人员展开了大量的工作,并实现了多种应用,包括市场营销、广告投放和舆情控制等诸多领域。
信息、观点或情感的接受、融合及扩散是社交网络中的基本过程,可以通过社交行为,如转发等,进行广泛的传播,从而影响到更大规模的用户。在许多应用,诸如病毒式营销中,为了使影响力达到最大化,往往需要发现用户之间的影响力强度,建立相应的影响力传播模型。社交网络中的影响力传播取决于多种因素,包括用户之间的属性差异,用户之间的兴趣相似以及时间因素等。以往的研究方法中,为了建立影响力传播模型,研究人员通常将模型定义为预测用户之间的边的权重,该权重即表示用户之间的影响力。然而,这种方法存在许多局限性。首先,边的定义存在着局限性,只有当用户之间存在关注关系,或者说用户之间有着相应的交互,才能确定一条边的存在,因此,这种方法无法预测全体用户之间的影响力;其次,虽然在社交网络存在大量的边,但相较于全体用户数量来说,边的数据依旧是稀疏的,模型无法有效的计算用户之间的影响力;最后,许多通过边来计算影响力的方法,是通过挖掘社交网络中的强特征来实现的,这种方法没有普适性,通常只能在单一的社交网络或者群体环境中有着一定的效果。
发明内容
本发明的目的是针对现有方法中存在的问题,提供一种基于观点向量化的影响力传播模型的建立方法,利用随机游走,搜寻用户影响到的局部近邻用户集合,并考虑社交网络的全局性,搜寻与用户观点相似的全局性用户集合。另外,考虑到观点有着正反的相对性,本发明搜寻与用户观点相对的用户集合。最终,在词向量和节点向量化的思想下,利用搜寻到的用户集合作为观点影响力的上下文,并建立观点影响力传播计算模型。
本发明方法包括如下步骤:
步骤A.爬取社交网络中用户原创内容的相关信息,并建立基于观点影响力的传播网络;
步骤B.利用随机游走,搜寻影响力传播网络中的与用户观点一致的局部影响用户集合;
步骤C.根据观点相似性,搜寻影响力传播网络中与用户观点相似的全局影响用户集合;
步骤D.搜寻影响力传播网络中与用户观点相反的用户集合;
步骤E.建立基于观点的影响力传播模型。
进一步,步骤A首先利用scrapy模块创建爬虫,对社交网络进行数据爬取,包括用户的原创、转发、关注关系以及相应的操作时间;然后根据用户的转发关系,建立观点影响力传播网络;定义一个观点的影响力传播网络,该传播网络的所有用户对同一内容均进行了转发,并发表了自己的观点,这些观点有些是相同的,有些是相反的。根据关注关系网络、观点信息和转发时间,建立观点影响力的传播网络;具体如下:
A1.根据用户关系,建立用户之间的网络结构图G=(V,E),其中V属于全体用户集合,为节点集,E表示用户之间的关系,为有向边集;
A2.对原创内容d,利用主题提取工具提取主题内容,并用情感分析工具分析情感倾向,将主题和情感倾向结合,得到原创的观点;
A3.对所有转发该原创内容且带有评论内容的转发,利用情感分析工具分析评论内容的情感倾向,并结合原创内容的主题,得到评论内容的观点;
A4.在网络结构G中,选择转发d且观点一致的用户集合V
进一步,步骤B是在观点影响力传播网络G
B1.定义需要搜集到的用户u的影响近邻集合为NL
B2.设置扩散概率p为当前位置节点的邻接点数量之和的倒数,按照p随机选择一个当前位置节点的近邻节点v,且v没有被标记访问,将v添加到集合NL
B3.根据回退概率q,如果达到了回退条件,则将当前位置回退,否则,进入步骤B4;
B4.如果集合NL
进一步,步骤C是根据观点相似性,在观点影响力传播网络G
C1.从V
C2.将节点v添加到集合NG
C3.如果集合NG
进一步,步骤D是考虑观点具有正反性的特点,即用户即使转发了原创内容d,但如果是评论中带有相反的观点意见,那么该转发观点对用户的影响力趋近于无穷小。定义与用户u在原创内容d上观点相反的用户集合为NR
D1.提取原创内容d中的主题和情感倾向,组合成d的观点倾向;
D2.如果用户u是原创内容d的原创作者,则用户u的观点以d的观点倾向表示,并转到步骤D5,否则,进入步骤D3;
D3.如果用户u转发了原创内容d,且没有发表评论内容,则用户u的观点以d的观点倾向表示,并转到D5,否则,进入步骤D4;
D4.用户u转发了原创内容d,且发表评论内容,利用情感分析工具分析评论内容的情感倾向,并与提取的d中的主题组合,表示用户u的观点倾向;
D5.定义所有转发d的用户集合U
D6.遍历集合U
D7.如果u′的观点倾向和u的观点倾向不一致,则将u′添加至集合NR
D8.如果集合NR
进一步,步骤E是根据步骤B、步骤C、步骤D所得到的三个用户集合,并根据节点向量化的思想所建立的。定义从所有原创内容中提取的观点集合为O={o
其中,Pr(v|u,o)表示用户u在观点o下对用户v的影响力,概率越大,影响力越大,NG
其次,NR
定义用户u在每个观点o下包含两个向量:S
综上所述,该模型的目标是使概率Pr(NL
模型的训练目标即是使Obj最大化,并拟合得到每个用户u在每个观点o下包含两个向量:S
模型训练方式是以随机梯度下降方法进行拟合,本发明对此不做叙述。
本发明基于观点向量化的影响力传播模型,采用了节点向量化的思想,运用以上的技术方案,与现有技术相比,具有以下优势:
在基于观点的影响力传播模型中,融入了情感倾向,对现实的社交网络特征进行了更深层次的模拟,采用节点向量化的思想,能够使模型不局限于特定的社交网络中,能够将模型运用于不同的环境中。另外,在模型中,综合考虑了局部和全局性的特征,使得模型更加的全面,此外,根据观点具有正反性的特点,本发明考虑了与用户观点相反的影响用户集合,能够建立更为准确反映基于观点下的影响力传播模型。
附图说明
图1为本发明方法的流程图;
图2为本发明方法中步骤B的流程图;
图3为本发明方法中步骤D的流程图。
具体实施方式
以下结合附图和实施实例对本发明加以详细说明。
如图1所示,基于观点向量化的影响力传播模型的建立方法,该方法包括如下步骤:
步骤A:爬取社交网络中用户博文的相关信息,并建立基于观点影响力的传播网络;
如针对微博社交网络平台,利用scrapy模块创建爬虫,对微博进行数据爬取,包括用户的原创博文、转发博文、关注关系以及相应的操作时间。之后,根据用户的转发关系,建立相应的观点影响力传播网络。具体来说包括以下步骤:
A1:根据用户关系,建立用户之间的网络结构图G=(V,E),其中V属于全体用户集合,为节点集,E表示用户之间的关系,为有向边集;
A2:对原创博文d,利用主题提取工具LDA提取主题内容t,并用情感分析工具SnowNLP分析情感倾向s,将主题和情感倾向结合,得到原创博文的观点o=(s,t);
A3:对所有转发该原创博文且带有评论内容的转发博文,利用情感分析工具分析评论内容的情感倾向,并结合原创博文的主题,得到评论内容的观点;
A4:在网络结构G中,选择转发过该篇博文d,且观点一致的用户集合V
步骤B:利用随机游走,搜寻影响力传播网络中的与用户观点一致的局部影响用户集合;
步骤B中是在步骤A中所得到的观点影响力传播网络G
B1:定义回退概率q设置为0.5,定义需要搜集到的用户u的影响局部集合为NL
B2:将概率p设置为当前位置节点的邻接点数量之和的倒数,按照概率p随机选择一个当前位置节点的近邻节点v,且v没有被标记访问,将v添加到集合NL
B3:根据回退概率q,如果达到了回退条件,则将当前位置回退,否则,进入步骤B4;
B4:如果集合NL
步骤C:根据观点相似性,搜寻影响力传播网络中与用户观点相似的全局影响用户集合;
定义用户u的影响全局集合为NG
C1:从V
C2:将节点v添加到集合NG
C3:如果集合NG
步骤D:搜寻影响力传播网络中与用户观点相反的用户集合;
定义与用户u在博文d上观点相反的用户集合为NR
D1:提取博文d中的主题t和情感倾向s,组合成博文d的观点倾向o=(t,s);
D2:如果用户u是博文d的原创作者,则用户u的观点以博文d的观点倾向表示,并转到步骤D5,否则,进入步骤D3;
D3:如果用户u转发了博文d,且没有发表评论内容,则用户u的观点以博文d的观点倾向表示,并转到D5,否则,进入步骤D4;
D4:用户u转发了博文d,且发表评论内容,利用情感分析工具分析评论内容的情感倾向,并和博文d提取的主题组合,表示用户u的观点倾向;
D5:找出所有转发了博文d的用户集合,定义为U
D6:遍历集合U
D7:如果u′的观点倾向和u的观点倾向不一致,则将u′添加至集合NR
D8:如果集合NR
步骤E:建立基于观点的影响力传播模型。
建立基于观点的影响力传播模型,是根据步骤B、步骤C、步骤D所得到的三个用户集合,并根据节点向量化的思想所建立的。定义从所有博文中提取的观点集合为O={o
其中,Pr(v|u,o)表示用户u在观点o下对用户v的影响力,概率越大,影响力越大,NG
其次,NR
定义用户u在每个观点o下包含两个向量:S
Pr(v|u,o)=exp(S
综上所述,该模型的目标是使概率Pr(NL
模型的训练目标即是使Obj最大化,并拟合得到每个用户u在每个观点o下包含两个向量:S
模型训练方式是以随机梯度下降方法进行拟合,对此不做叙述。
该方法在基于节点向量化的思想上,提出一种新的社交网络中的影响力传播模型建立方法。社交网络中用户有着不同的兴趣主题,他们在这些主题上对其他用户也有着不同的影响力,如“政治”类博主在“娱乐”相关主题上的影响力显然低于“政治”相关的。作为主题和情感倾向的结合,用户在观点上也应有着不同的影响力。与主题不同的是,观点影响力传播模型有着更为复杂的场景。在基于主题的影响力传播模型中,用户B转发了用户A一条相关博文,便认为A对B在该主题上有着一定的影响力。然而,在基于观点的影响力传播模型中,即使用户B转发了用户A的一条博文,但是用户B不赞成A的观点,只是为了反驳A,那么用户A在该观点上的影响力对B来说,应该是趋近于无。由此可见,观点影响力的传播模型比一般的影响力传播模型,更为复杂。
该方法基于观点向量化的影响力传播模型,采用了节点向量化的思想,对社交网络中的观点影响力的传播模型问题,提出了一个更有效的方法。不同于传统的影响力传播模型,本发明针对的是用户在观点上的影响力,问题模型更为的复杂,结合主题信息和情感倾向,能够挖掘出社交网络中更为详细的影响力相关细节。模型采用了节点向量化的思想,没有考虑工程性的特征,比如点赞等,能够让模型不局限与特定的社交网络中,使其能够运用在不同的社交网络平台上。其次,该方法综合考虑了局部和全局性的特征,使得模型更加的全面,此外,根据观点具有正反性的特点,该方法考虑了与用户观点相反的影响用户集合,更能准确地反映基于观点下的影响力传播模型。
上面结合附图对本发明的实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
机译: 基于人工智能处理用户请求的对白分析模型的建立方法及使用该模型的系统
机译: 基于人工智能处理用户请求的对白分析模型的建立方法及使用该模型的系统
机译: 基于人工智能处理用户请求的对白分析模型的建立方法及使用该模型的系统