首页> 中国专利> 一种提高社交网络用户产生内容信息影响力准确性的方法

一种提高社交网络用户产生内容信息影响力准确性的方法

摘要

本发明公开了一种提高社交网络用户产生内容信息影响力准确性的方法,所述用户产生内容UGC包括M个关键词,共有N个用户参与所述UGC,该方法包括:建立社交网络UGC成员参与机制,根据所述UGC的用户粉丝关系构建粉丝网络无权有向图并进行社群划分;根据所述UGC的用户回复关系构建兴趣网络有权无向图并进行社群划分;根据所述成员参与机制各影响因素间的相关程度计算用户X的社交影响力U

著录项

  • 公开/公告号CN103902690A

    专利类型发明专利

  • 公开/公告日2014-07-02

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN201410119194.7

  • 发明设计人 李蕾;林鑫;王博远;

    申请日2014-03-27

  • 分类号G06F17/30;

  • 代理机构北京德琦知识产权代理有限公司;

  • 代理人郑红娟

  • 地址 100876 北京市海淀区西土城路10号

  • 入库时间 2024-02-20 00:20:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-22

    授权

    授权

  • 2014-07-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140327

    实质审查的生效

  • 2014-07-02

    公开

    公开

说明书

技术领域

本发明涉及信息监测技术,特别是一种提高社交网络用户产生内容信息影 响力准确性的方法。

背景技术

互联网已经进入到web2.0时代,每个用户都可以自由发表言论,很多重要 内容或者新闻都是通过用户产生内容(UGC,User Generate Content)首先产生 出来,继而通过社交网络广泛传播,最终在某个特定的社交圈子内甚至整个社 会产生巨大的影响力。因此,UGC影响力的研究对于信息采集、监测、预测等 都具有非常重要的作用。但是由于UGC的数量过于庞大,增加的速度非常快, 很难对所有UGC进行处理,必须要筛选出质量好而且影响力高的UGC来进行 研究和利用。由此,对UGC的质量和信息影响力评估的研究越来越受到重视。

目前关于信息影响力的研究主要应用影响力扩散模型(IDM,Influence  Diffusion Model)及其改进模型(如影响力扩散概率模型IDPM,Influence  Diffusion Probability Model等)进行分析。基于文本会话的影响力扩散模型IDM 利用会话中的回复链结构,基于词频计算文本间的相似性来计算源的影响力扩 散能力,每条回复扩散的影响力之和即为该文本的影响力扩散能力。该模型提 出后,成为信息影响力研究的重要基石,后人对于信息影响力的研究大多是对 该模型进行改进;影响力扩散概率模型IDPM通过在整个兴趣空间上定义单个 关键词语传播概率影响力来解决IDM模型中的影响力传递结构断层问题和灌 水导致的虚假影响力传播问题,通过考虑句子中的有效关键词语来解决IDM模 型中的影响力传递内容断层问题。

但是这些模型存在一些非常明显的缺陷,如每个评论或者回复的权值都相 同、没有考虑用户之间的关系等。以BBS上的一个帖子作为UGC为例,如图 1所示:

用户1为信息发布者,用户2~用户5为用户1的回复者,A、B、C、D、 E、F为该帖子包括的关键词,粗实线表示帖子在用户中的影响力传播关系,粗 实线的方向为帖子的影响力传播方向,点划线表示用户间粉丝关系,虚线表示 用户在兴趣网络中属于同一社群的关系,细实线表示用户在粉丝网络中属于同 一社群的关系。

图1中,用户2~用户5都回复了用户1的帖子,不过用户2是用户1的粉 丝,用户3与用户1属于相同兴趣网络社群,用户4与用户1属于相同粉丝网 络社群(但不是用户1的粉丝),用户5是新用户,之前可能几乎与用户1没有 关系。

由此可以看出,IDPM模型中没有对UGC的关键词进行分别加权处理会 导致计算UGC的信息影响力存在偏差。

发明内容

有鉴于此,本发明提出了一种提高社交网络用户产生内容信息影响力准确 性的方法,有效解决了现有技术中不对UGC的关键词进行分别加权处理导致 计算UGC的信息影响力存在偏差的缺陷。本发明提出的技术方案是:

一种提高社交网络用户产生内容信息影响力准确性的方法,该方法包括:

A.建立社交网络UGC成员参与机制,确定所述成员参与机制各影响 因素间的路径系数,所述路径系数为所述成员参与机制各影响因素间的相关 程度;

B.根据所述UGC的用户粉丝关系构建粉丝网络无权有向图,对所述 粉丝网络无权有向图进行社群划分;根据所述UGC的用户回复关系构建兴 趣网络有权无向图,对所述兴趣网络有权无向图进行社群划分;

C.根据所述成员参与机制各影响因素间的相关程度计算用户X的社交 影响力UX

D.根据计算用户X发布关键词K的社交影响力,m为关键词 K在用户X上的传播次数,如果m=0,则SKX=0;

E.根据公式计算关键词K在所述UGC中的综合社交影响 力;

F.计算所述M个关键词在所述UGC中的综合社交影响力之和,得到 所述UGC的信息影响力INF。

上述方案中,所述成员参与机制包括信息质量、群体认同感、价值感知 和参与四个影响因素,信息质量和群体认同感的路径系数为a1,信息质量和 价值感知的路径系数为a2,价值感知和群体认同感的路径系数为a3,参与和 群体认同感的路径系数为a4

上述方案中,所述步骤C进一步包括:

根据公式计算所述UGC中用户X的社交影响 力,

其中,b为用户X在所述UGC中被直接回复的次数,如果用户不存在 直接回复者,则UX=0;

如果用户X与其直接回复者属于相同兴趣网络社群,C1=a1,否则,C1=1;

如果用户X与其直接回复者属于相同粉丝网络社群,C2=a2×a3,否则, C2=1;

如果用户X是所述UGC信息发布者的粉丝,f=a2,否则f=1。

上述方案中,所述步骤F进一步包括:

根据公式所述UGC的信息影响力INF。

上述方案中,信息质量和群体认同感的路径系数a1=0.333,信息质量和 价值感知的路径系数a2=0.824,价值感知和群体认同感的路径系数a3=0.624, 参与和群体认同感的路径系数a4=0.437。

综上所述,本发明提出了一种提高社交网络用户产生内容信息影响力准确 性的方法,应用社交性拓展影响力扩散概率模型(S-IDPM,Sociability-based  Influence Diffusion Probability Model)计算UGC信息影响力,主要利用用户社 交网络(包括粉丝网络和兴趣网络)和回复链结构来对不同用户的回复进行加 权,从而对UGC的关键词分别进行加权处理,提高了社交网络用户产生内容 信息影响力计算的准确性。

附图说明

图1为用户间及所发帖子间关系图。

图2为粉丝网络图。

图3为兴趣网络图。

图4为用户成员参与机制。

图5为方法实施例一的UGC结构图。

图6为方法实施例一的流程图。

图7为方法实施例二的人工标注精品帖累积含有率对比图。

图8为方法实施例二的类-特征值对照图。

图9为方法实施例二的机器标注精品帖累积含有率对比图。

具体实施方式

为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附 图及具体实施例对本发明再作进一步详细的说明。

本发明一个实施例的技术方案是:

A.建立社交网络UGC成员参与机制,确定所述成员参与机制各影响 因素间的路径系数,所述路径系数为所述成员参与机制各影响因素间的相关 程度;

B.根据所述UGC的用户粉丝关系构建粉丝网络无权有向图,对所述 粉丝网络无权有向图进行社群划分;根据所述UGC的用户回复关系构建兴 趣网络有权无向图,对所述兴趣网络有权无向图进行社群划分;

C.根据所述成员参与机制各影响因素间的相关程度计算用户X的社交 影响力UX

D.根据计算用户X发布关键词K的社交影响力,m为关键词 K在用户X上的传播次数,如果m=0,则SKX=0;

E.根据公式计算关键词K在所述UGC中的综合社交影响 力;

F.计算所述M个关键词在所述UGC中的综合社交影响力之和,得到 所述UGC的信息影响力INF。

本发明技术方案将用户因素添加到用户产生内容信息影响力计算中,将 BBS、微博、人人网等社交网络的所有用户划分为信息发布者与信息回复者。 根据参与UGC的用户粉丝关系构建粉丝网络无权有向图,如图2所示,用 户1是用户2的粉丝,则用户1与用户2之间有一条从用户1指向用户2的 边;根据参与UGC的用户回复关系构建兴趣网络有权无向图,如图3所示, 用户1与用户2共同参与了7个信息发布者发布的信息讨论,则用户1和用 户2之间存在一条权值为7的无向边。

根据现有技术将上述粉丝网络与兴趣网络进行社群划分,并对划分的社 群进行编号,属于同社群用户的社群编号相同,相同社群编号(相同粉丝网 络社群编号或相同兴趣网络社群编号)的用户在一定程度上具有相似的价值 观。用户社群划分技术为现有技术,在此不再详述,表1为图2社群划分后 的粉丝网络社群,表2为社群划分后的兴趣网络社群示例,由表1可知,用 户1和用户3为同一粉丝网络社群,由表2可知,用户1与用户2为同一兴 趣网络社群。

表1

用户 粉丝网络社群编号f 1 1 2 2 3 1 4 3 5 4 6 5

表2

用户 兴趣网络社群编号r 1 3 2 3 3 1 4 2 5 4 6 5

本发明技术方案构建了用户成员参与机制,如图4所示。

信息质量为社交网络中UGC的信息影响力,代表所述UGC的稳定性、 信息的正确性、及时性、新颖性和服务品质的优劣。

价值感知利用社交网络中用户间的粉丝关系来表示。对于一个信息发布 者U1,如果U1的粉丝用户U2回复了该信息发布者,则认为驱动粉丝用户 U2回复U1的因素除了对U1的认可外,还带有一定的维持人际关系的因素, 这种情况下,不仅仅是U1发布的信息影响驱动了粉丝用户U2的参与,其 中还掺杂了用户之间人际关系的因素,在社交网络UGC信息影响力计算中, 对粉丝用户回复的内容要减小相应的权重。

群体认同感表示社交网络中用户间的社群划分与回复评价对UGC信 息影响力的影响。社群划分是前述的粉丝网络与兴趣网络的社群划分,如果 回复者与被回复者属于相同社群(相同粉丝网络社群和/或相同兴趣网络社 群),则减轻相应权重,否则增大相应权重;如果一个UGC的内容质量很 高或者具备产生一定影响力的潜力,用户大多愿意参与这样的UGC,因此 回复评价成为UGC影响力计算的重要因素。回复评价中关键词在UGC中的 传播次数越多,说明该UGC的影响力越大。

图4用户成员参与机制中的路径系数衡量的是两个变量之间的相关程 度,分别用a1、a2、a3、a4来表示,且0<a1<1,0<a2<1,0<a3<1,0<a4<1。

根据所述成员参与机制各影响因素间的相关程度计算社交网络UGC的 参与用户X的社交影响力UX

UX={1+ln[+Σi=1b(C1×C2)]}×f---(1)

其中,b为用户X在一个UGC中被直接回复的次数。如果用户X没有被 直接回复,则UX=0。

C1表示用户X的回复者是否与用户X属于相同的兴趣网络社群,如果是, 由于信息质量与群体认同感有a1的相关程度,C1=a1;否则,C1=1。C1=1表 明如果能吸引到不同兴趣网络社群的用户进行回复,则影响力更强。

C2表示用户X的回复者是否与用户X属于相同的粉丝网络社群,如果是, 由于信息质量与价值感知有a2的相关程度,价值感知与群体认同感有a3的相 关程度,所以C2=a2×a3;否则,C2=1。C2=1表明如果能吸引到不同粉丝网 络社群的用户进行回复,则影响力更强。

f表示用户X是否为该UGC的信息发布者的粉丝,如果是,由于信息 质量与价值感知有a2的相关程度,f=a2;否则f=1。这表明如果用户X是信 息发布者的粉丝,则用户X的回复不仅仅是对内容的肯定,还带着维持社交 关系的原因,因此要减小权重。

社交网络中用户X在一个UGC中的社交影响力UX确定以后,该用户X 发布的关键词K的社交影响力可以进一步确定:

SKX=Σi=1mUX---(2)

其中,m为关键词K在用户X上的传播次数,即用户X的直接回复者中, 也回复关键词K的直接回复者数量,如果m=0,则SKX=0。

关键词K在整个UGC中的综合社交影响力即为该UGC所有用户(包 括信息发布者和回复者)发布关键词K的社交影响力之和,即:

SumK=Σi=1NSKi---(3)

其中,N为参与该UGC的用户数量(即信息发布者和回复者的数量之 和)。

UGC信息影响力即为该UGC中所有关键词的综合社交影响力之和,即:

INF=Σi=1Mlog[1+SuniΣj=1MSumj]---(4)

其中,M为该UGC包含的所有关键词数量。

下面以实施例对本发明技术方案作进一步说明。

方法实施例一

图5为本实施例一个UGC的结构图,如图5所示,该UGC包含4个用 户:用户1、用户2、用户3、用户4。用户1为信息发布者,发布的关键词 为A、B、C;用户2和用户3分别直接回复了用户1,用户2发布的关键词 为A、C、D,用户3发布的关键词为B、F;用户4直接回复了用户2,发 布的关键词为C、F。兴趣网络社群编号用r表示,r1=1,r2=1,r3=2,r4=3; 粉丝网络社群编号用f表示,f1=1,f2=2,f3=1,f4=3。用户2和用户4 是信息发布者用户1的粉丝。本实施例为成员参与机制中各因素之间的路径 系数赋值为:a1=0.333,a2=0.824,a3=0.624,a4=0.437。图6为本实施例的 流程图,如图6所示,包括以下步骤:

步骤601:分别计算各用户在该UGC中的社交影响力。

根据公式分别计算各用户的社交影响力。以计 算用户1的社交影响力为例进行说明,用户2~用户4与此计算方法相同, 不再赘述。

用户1的直接回复者数量是2,即b=2;用户2与用户1在不同兴趣网 络社群,相同粉丝网络社群中,因此C1=a1=0.333,C2=1;用户3与用户1 在相同兴趣网络社群,不同粉丝网络社群中,因此C1=1,C2=a2×a3=0.514; 用户1不是自身粉丝,f=1,因此

U1={1+ln[1+a1×1+1×a2×a3]}×1=1.614

同理U2=1.395,U3=0,U4=0。

步骤602:分别计算该UGC中每个关键词的综合社交影响力。

以关键词C的综合社交影响力计算为例进行说明,关键词A、B、D、F 的综合社交影响力计算方法相同,不再赘述。

发布关键词C的用户有用户1、用户2、用户4,对于用户1来说,关 键词C只传播了一次(用户1的直接回复者用户2发布了关键词C),则SC1=U1; 对于用户2来说,关键词C只传播了一次(用户2的直接回复者用户4发布 了关键词C),则SC2=U2;对于用户3和用户4来说,关键词C没有传播(用 户3和用户4均不存在直接回复者发布关键词C),SC3=0,SC4=0,因此, 关键词C的社交影响力为:SumC=Σi=14SCi=SC1+SC2=U1+U2=3.009.

同理,SumA=Σi=14SAi=SA1=U1=1.614;SumB=Σi=14SBi=SB1=U1=1.614;

SumD=Σi=14SDi=0;SumF=Σi=14SFi=0.

步骤603:计算UGC的信息影响力。

根据公式计算该UGC的信息影响力。

INF=2log(1+U13U1+U2)+log(1+U1+U23U1+U2)=0.371

方法实施例二

方法实施例一以较少用户参与的UGC为例对本发明技术方案如何计算 社交网络UGC信息影响力进行了说明,本实施例以天涯论坛杂谈版块上 2012年的用户和帖子信息为例对本发明技术方案作进一步说明。

用户信息共包含181841名用户ID、其粉丝的ID、在该版块发布的帖子 ID以及在该版块回复帖子的ID;帖子信息共包含43609篇帖子的ID、该帖 子中每楼的序号、发布者ID及其内容。通过判断帖子是否含有论坛管理员 的精品符号,从帖子信息中筛选出了827篇帖子作为人工标注的精品帖子集, 其他帖子作为非精品帖子集。由于数据量庞大,因此从非精品帖子集中随机 抽取9173篇帖子与827篇人工标注的精品帖子混合成10000篇的帖子样本, 并利用该样本分别对S-IDPM,IDM,IDPM进行对比、分析和评估。此外, 还利用统计信息的聚类方法对帖子进行了机器标注,得到了机器标注下的精 品帖子集,并同样对S-IDPM,IDM,IDPM进行了对比和分析。

表3中给出了上述三种方法的对比实验结果,由于帖子数量很大,这里 只给出排名前5的帖子。

表3

从表3中可以观察到,IDM与S-IDPM的主要区别在帖子2894103和 2366245上。通过观察相应的语料,发现帖子2894103是一个广告征集帖, 他发布了相应的广告模版,所有用户都要按照固定的格式回复,所以按照 IDM模型,主要利用共现词来计算影响力,因此,该帖子在IDM下影响力 很高。不过,从标题中可以看出,该帖子吸引的是一群喜欢汽车的用户,从 计算得到的用户兴趣网络中也可以看出很多用户曾经共同回复过某些帖子, 因此,他们在相同的兴趣网络中,有相同的兴趣网络编号,这说明该帖子只 在一个小圈子里进行了传播。因此,在S-IDPM中它的排名不是很高,没有 进入前5名。而帖子2366245引起了广泛的关注和回复,共有1476757楼回 复,帖子中用户没有明显的大型的粉丝和兴趣网络,用户圈比较分散,说明 该帖子引起了社区各种用户群的广泛关注。因此,它在S-IDPM中帖子影响 力排名较高。

而IDPM与S-IDPM之间主要区别在帖子2510082和帖子2713599上。 通过观察相应的语料,发现帖子2713599的发帖人的用户名为“我是日系车 主”,与帖子的标题非常类似,通过观察她的用户页面也发现该用户没有任 何粉丝和关注,也没有回复过任何帖子且只发过这一篇帖子,这些充分说明 了该用户名是一个马甲名,没有与任何人有社交或者兴趣网络的关系。这篇 帖子引起共14944楼的回复,而帖子2510082虽然引起了28211楼的回复, 比帖子2713599的回复数多,但是帖子2713599的回复用户的粉丝和兴趣网 络更加分散,因此,在S-IDPM中的影响力排名更加靠前。

从以上的定性分析中可以看出,S-IDPM可以在一定程度上解决IDM和 IDPM所没有考虑到的一些问题。

接下来,定量分析三种方法在帖子影响力计算中的效果。

首先,本实施例对比了以人工标注(论坛管理员标注)的精品帖作为精 品帖标准,比较IDM,IDPM以及S-IDPM精品帖累积含有率对比图,如图7 所示。从图7中可以看出,S-IDPM精品帖累积含有率在前3000名最快达到 70%左右。说明在S-IDPM的影响力排序中,前30%中覆盖了70%的精品帖 子,而且前10%,20%均高于IDM和IDPM模型。因此,说明S-IDPM对帖 子影响力的计算结果更好,更符合人工标注结果。

接下来,将现有技术中基于聚类的意见领袖发现算法利用到本发明的帖 子影响力分析中,实现利用统计信息聚类方法发现精品帖的算法。

选用帖子的楼数F,持续时间T,回复人数P,每小时的回复楼数表示 为F/T,平均每楼的词数为W/F,以及非楼主回复数与楼主回复数之差D作 为特征值,N表示类的成员数。利用子类数量选取方法和聚类算法(均为现 有技术)得到8个类,如图8所示。

将基于聚类的意见领袖发现算法中的筛选条件调整为:类成员数较少, 类成员特征值均值较大的类中的成员作为机器标注的精品帖。因此,5号和 7号类中的成员作为接下来实验的精品帖,5号和7号类共有1001名成员, 其中与论坛管理员标注的827个精品帖只有291篇帖子是相同的,所以,这 与图7所示实验不同。接下来利用这1001篇精品帖来比较IDM,IDPM以及 S-IDPM精品帖累积含有率对比图,如图9所示:

从图9中可以看出,S-IDPM精品帖累积率曲线也是一直处于中游水平, 而且也在前2000篇时达到了精品帖累计率85%以上,说明在利用统计信息 机器标注精品帖的情况下,S-IDPM对帖子影响力的计算效果依然很好。

最后,对三种算法在人工标注和机器标注的情况下精品帖准确率进行 对比,如表4所示,S-IDPM在人工标注和机器标注两种情况下,精品帖准 确率均高于其他两种模型。

表4

  Pt0Pt1IDM 28.1% 68.1% IDPM 30.2% 67.3% S-IDPM 32.4% 68.4%

通过利用人工标注和机器标注的精品帖累计率对比实验以及精品帖 准确率对比实验,综合以上实验结果可以看出S-IDPM对帖子影响力计算的 结果更加准确,优于IDM和IDPM方法。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本 发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号