首页> 中国专利> 用于计算社会媒体中信息传播节点重要性的方法及系统

用于计算社会媒体中信息传播节点重要性的方法及系统

摘要

本发明提供一种用于计算社会媒体中信息传播节点重要性的方法及系统,所述方法包括:计算信息传播节点对其在所属的信息传播树中每个后代信息传播节点的影响力;以及根据计算得到的影响力,获得所述信息传播节点的重要性。本发明提供的方法和系统能够对不同社会媒体信息发布平台中的信息传播节点进行重要性评价,从而可以发现关键的信息传播节点,以便进一步识别关键言论和关键用户,并且对商业舆情、危机公关和舆论安全有着重要价值。

著录项

  • 公开/公告号CN104866586A

    专利类型发明专利

  • 公开/公告日2015-08-26

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201510282850.X

  • 发明设计人 张国清;齐雅婷;傅川;

    申请日2015-05-28

  • 分类号G06F17/30(20060101);G06Q50/00(20120101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王勇;李科

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-12-18 10:36:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-01

    授权

    授权

  • 2015-09-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150528

    实质审查的生效

  • 2015-08-26

    公开

    公开

说明书

技术领域

本发明涉及互联网应用领域,以及更具体地,涉及社会媒体信息传播 技术。

背景技术

目前,社会媒体信息发布平台依托互联网的飞速发展已深入人们的生 活。在这些平台中,用户数量巨大、用户可以便捷互动并且信息传播迅速。 因此,在社会媒体信息发布平台中,信息容易形成“病毒式”、“爆炸式”传 播,所以对信息的传播范围和传播速度的关注更为迫切,具体体现在对信 息传播影响的度量上。

现有的相关研究主要分为两个方面:一方面是对信息影响力的度量, 如信息的传播范围;另一方面是对信息传播的用户影响力进行度量,如影 响力用户发现。但是,对于一条信息的传播过程(简称一条信息传播)中 参与传播的节点(即信息传播节点)的重要性却少有研究。发现关键的信 息传播节点可以识别关键言论、关键用户,对商业舆情、危机公关和舆论 安全等有着重要价值。

一条信息传播涉及一个信息初始节点以及零个或一至多个信息参与 节点(即可能没有信息参与节点),这些节点统称为信息传播节点。其中, 信息初始节点指的是在信息传播过程中初始发布的信息;而信息参与节点 指的是在信息传播过程中,用户针对该信息传播过程中传播的(如初始发 布、转发、回复、分享的)信息所发布(如转发、回复、分享)的信息。例 如,微博平台中的一个信息初始节点可以为一条微博,信息参与节点为该 微博的转发微博;贴吧平台中的一个信息初始节点可以为一个帖子,信息 参与节点可以为该帖子的回复信息;新闻网站平台中的一个信息初始节点 可以为原始新闻,信息参与节点可以为该新闻的转载或转发新闻。信息传 播节点之间通过一定的关系进行信息传播,如转发、回复、分享等,这些 关系可以将一条信息传播中的所有信息传播节点连接成一个拓扑,并得到 信息传播树。其中,树的根节点为信息初始节点,中间节点和叶子节点为 信息参与节点,边表示节点间的关系。这种由信息传播形成的拓扑与一般 的拓扑存在以下区别:首先,信息传播节点之间有先后顺序,一个节点只 可能受到自己先前节点的影响;其次,从一个节点传播到另外一个节点也 需要一定的时间(即一个节点到另一节点的传播速度可能不同);再次, 信息传播节点的传播深度是有限的。针对这种拓扑,如何来度量社会媒体 中信息传播节点的重要性,是目前亟待解决的问题。

发明内容

针对上述问题,本发明提供一种用于计算社会媒体中信息传播节点重 要性的方法。其中,所述信息传播节点用于表示一条信息传播中涉及的用户 发布信息,分为该信息传播中的初始发布信息和用户针对该信息传播中传播 的信息所发布的信息,一条信息传播中的所有信息传播节点及其相互关系构 成信息传播树,所述方法包括:

步骤1)、计算信息传播节点对其在所属的信息传播树中每个后代信息传 播节点的影响力,其中,影响力用于表示一个信息传播节点吸引另一个信息 传播节点参与信息传播的能力;

步骤2)、根据计算得到的影响力,获得所述信息传播节点的重要性。

上述方法中,步骤1)包括:根据信息传播节点到其后代信息传播节点 的传播速度、距离以及其所属社会媒体信息发布平台的节点影响力随距离变 化的函数,计算所述信息传播节点对该后代信息传播节点的影响力。

上述方法中,可根据下式计算信息传播节点对其后代信息传播节点的影 响力:

其中,i表示信息传播节点,j表示i的后代信息传播节点,v(i,j)表示 信息传播节点i到后代信息传播节点j的传播速度,d(i,j)表示信息传播节 点i到后代信息传播节点j的距离,f(.)表示信息传播节点i所属社会媒体信 息发布平台的节点影响力随距离变化的函数。

上述方法中,步骤2)包括:将所述信息传播节点对其所有后代信息传 播节点的影响力求和,得到所述信息传播节点的重要性。

上述方法中,步骤1)之前还包括:更新信息传播节点所属的社会媒体 信息发布平台的节点影响力随距离变化的函数。

上述方法中,按下列步骤获得社会媒体信息发布平台的节点影响力随距 离变化的函数:

步骤i)、根据下式计算所述社会媒体信息发布平台的节点影响深度:

D=minjCDF(j)a,j=1,2...,n

其中,a表示所述社会媒体信息发布平台的信息统计比,CDF(j)表示所 述社会媒体信息发布平台的信息传播参考集合中传播深度不超过j的信息 传播占该集合所有信息传播的比例,n表示该集合中信息传播的最大传播 深度,传播深度表示一条信息传播中从信息初始节点到信息参与节点的最 大距离,其中信息初始节点是该信息传播中的初始发布信息,信息参与节 点是用户针对该信息传播中传播的信息所发布的信息;

步骤ii)、在所述社会媒体信息发布平台的信息传播参考集合中,根据 所述节点影响深度和信息传播的传播深度来选择信息传播;例如,选择传播 深度与所述节点影响深度的差值不超过预定阈值的信息传播;

步骤iii)、对于所选择的每条信息传播的信息传播树,计算每层的信息 传播节点数与该树所有信息传播节点数的比值,得到该信息传播树在每层的 比值;

步骤iv)、对于每一层,将所选择的所有信息传播的信息传播树在该层 的比值求均值;

步骤v)、根据每一层对应的均值进行拟合操作,获得所述社会媒体信息 发布平台的节点影响力随距离变化的函数。

上述方法中,步骤1)之前还包括:从社会媒体信息发布平台中采集与 信息传播相关的数据;从该信息传播的相关数据中解析出信息传播节点;以 及,对于解析出的每个信息传播节点,执行步骤1)和步骤2)。

上述方法中,从社会媒体信息发布平台中采集与信息传播相关的数据包 括:

从所述社会媒体信息发布平台中采集该信息传播的信息初始节点的相 关数据,其中,信息初始节点是该信息传播中的初始发布信息;

采集所述社会媒体信息发布平台中该信息初始节点的相关数据之后的 信息;

根据该信息初始节点的相关数据之后的信息,得到信息参与节点的相关 数据,其中,信息参与节点是用户针对该信息传播中传播的信息所发布的信 息,并且所述信息初始节点和所述信息参与节点构成该信息传播的信息传播 节点。

根据本发明的一个实施例,还提供一种用于计算社会媒体中信息传播节 点重要性的分析设备,其中,所述信息传播节点用于表示一条信息传播中涉 及的用户发布信息,分为该信息传播中的初始发布信息和用户针对该信息传 播中传播的信息所发布的信息,一条信息传播中的所有信息传播节点及其相 互关系构成信息传播树,所述分析设备包括:

用于计算信息传播节点对其在所属的信息传播树中每个后代信息传播 节点的影响力的装置,其中,影响力用于表示一个信息传播节点吸引另一个 信息传播节点参与信息传播的能力;以及

用于根据计算得到的影响力,获得所述信息传播节点的重要性的装置。

根据本发明的一个实施例,还提供一种社会媒体信息传播节点重要性计 算设备,包括:

采集设备,用于从社会媒体信息发布平台中采集与信息传播相关的数 据;以及

上文所述的分析设备,用于对所述采集设备采集的数据进行分析。

上述社会媒体信息传播节点重要性计算设备还可以包括:

数据库,用于存储所述分析设备的分析结果;

Web服务器,用于从所述数据库中读取分析结果并向用户提供服务;以 及

内网交换机,用于连接所述分析设备、采集设备、数据库和Web服务 器。

根据本发明的一个实施例,还提供一种用于计算社会媒体中信息传播节 点重要性的系统,包括:

社会媒体信息发布平台;

上文所述的社会媒体信息传播节点重要性计算设备,用于通过互联网从 所述社会媒体信息发布平台采集数据并进行分析;

公网接入路由器,用于将所述社会媒体信息传播节点重要性计算设备 接入互联网;以及

访问系统的设备,用于通过互联网访问所述社会媒体信息传播节点重要 性计算设备。

本发明提供的方法和系统能够对不同社会媒体信息发布平台中的信 息传播节点进行重要性评价,从而可以发现关键的信息传播节点,以便进 一步识别关键言论和关键用户,并且对商业舆情、危机公关和舆论安全有 着重要价值。

附图说明

以下参照附图对本发明实施例作进一步说明,其中:

图1是根据本发明一个实施例的用于计算社会媒体中信息传播节点重 要性的系统框图;

图2是根据本发明一个实施例的社会媒体信息传播节点重要性计算设 备的框图;

图3是根据本发明一个实施例的采集子设备的框图;

图4是根据本发明一个实施例的针对“显式传播”的信息采集方法的流 程图;

图5是根据本发明一个实施例的针对“隐式传播”的信息采集方法的流 程图;

图6是根据本发明一个实施例的分析子设备的框图;

图7是根据本发明一个实施例的信息传播节点重要性计算逻辑控制单 元的执行流程图;

图8是根据本发明一个实施例的Web服务器的框图;

图9示出了采用本发明提供的方法与仅考虑一层转发节点数量的方法 的结果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体 实施例仅用以解释本发明,并不用于限定本发明。

根据本发明的一个实施例,提供一种用于计算社会媒体中信息传播节 点重要性的方法。该方法结合信息传播形成的拓扑和传播速度来度量信息 传播节点的重要性,包括以下步骤:

第一步:对于要度量的信息传播节点所属的社会媒体信息发布平台, 得到节点影响力随距离变化的函数

分为如下两个子步骤:

1)、估计社会媒体信息发布平台的节点影响深度

下面以微博平台为例描述本子步骤。

本领域技术人员应理解,在一条信息传播中,从信息初始节点(如原 始微博)到信息参与节点(如转发微博)的最大距离称为传播深度。经统 计发现,在微博平台中,约有90%的信息初始节点的传播深度不超过3。 本文称这个累计概率(即90%)为信息统计比,信息统计比越大则表示涵 盖的统计信息越全面。然而,如果传播深度为某一个值的微博数量很少, 则该值为累计概率的贡献就很少,此时如果为了追求涵盖信息的全面性而 增大信息统计比的话,则会造成所估计的节点影响深度偏差较大。例如, 如果有90%的微博的传播深度不超过3,且93%的微博传播深度不超过4, 则说明传播深度为4的微博很少(3%)。这时,如果将信息统计比设为94%, 就会导致估计的节点影响深度增大,从而与实际不符。

公式(1)给出了一种根据信息统计比来估计社会媒体信息发布平台 的节点影响深度的方式:

D=minjCDF(j)a,j=1,2...,n---(1)

其中,D表示估计的节点影响深度,a表示该社会媒体信息发布平台 的信息统计比,j表示传播深度,n表示该类信息传播(其中,不同社会媒 体信息发布平台中的信息传播属于不同的类别)中最大的传播深度,CDF(j) 为累计概率分布函数,表示传播深度不超过j的信息传播占该类信息传播 的比例。优选地,a=90%。

在一个实施例中,可从社会媒体信息发布平台中选择部分信息传播作 为信息传播参考集合,在计算CDF(j)时,计算该集合内传播深度不超过j 的信息传播数与该集合内包含的信息传播总数的比(其中n为该集合中的 最大的传播深度)。进一步地,还可以对该信息传播参考集合不断进行更新。

2)、得到节点影响力随距离变化的函数f(d)

如上文所述,信息传播形成树形拓扑(信息传播树)。一般来说,树 中每一层节点的数量在一定程度上体现了信息初始节点在该层的影响力 大小,因此本发明采用每层节点数与该信息传播树的总体节点数之比来表 示信息初始节点在该层的影响力大小。

在一个实施例中,可按如下流程来得到f(d):

21)、在上述的社会媒体信息发布平台中(或者在上述信息传播参考集 合中),选择传播深度接近该平台的节点影响深度D的信息传播。例如, 选择传播深度与D的差值小于预定阈值的信息传播。

22)、统计所选的信息传播的每层节点数与该信息传播的总体节点数 之比的均值。

其中,对于所选的每条信息传播,统计其每层节点数与总体节点数之 比,得到每条信息传播在每层的一个比值;接着,将所选的所有信息传播 在相同层的比值求均值。

23)、对得到的均值进行拟合(例如通过Matlab等工具),得到该平台 中,度量节点影响力随距离变化的函数f(d),其中d表示距离。

以新浪微博为例,其中信息统计比设置为a=0.9,根据新浪微博的历 史信息传播,由公式(1)可计算出节点影响深度D=3;接着,选择传播 深度分别为2、3、4、5的微博信息传播,计算所选择的每条微博信息传 播对应的信息传播树中的每一层节点与该树节点总数之比;然后,计算得 到第1-5层的节点数与对应信息传播树节点总数之比的均值分别为0.590, 0.327,0.065,0.024,0.012;最后,对这5个均值进行拟合,即d=[1,2,3,4,5], y=[0.590,0.327,0.065,0.024,0.012],y=f(d)。其中在matlab中通过线性、二 次多项式、指数、高斯、幂律等函数进行拟合。其中高斯函数的拟合效果 最好,结果如下:

通用模型 高斯1:

f(x)=a1*exp(-((x-b1)/c1)^2)

系数(置信度为95%):

a1=   0.5953(0.4986,0.692)

b1=   0.8707(0.06009,1.681)

c1=    1.456(0.6708,2.241)

拟合优度:

SSE:0.0004881

拟合系数:0.9981

调整后的拟合系数:0.9961

RMSE:0.01562

根据以上结果,新浪微博中节点影响力随距离变化的函数为: 可见,信息传播节点的影响力随着距离的增加而 衰减。

第二步:计算信息传播节点对其后代节点(子孙节点)的影响力

本文中,信息传播节点对后代节点的影响力表示该信息传播节点吸引后 代节点参与信息传播的能力。

根据对新浪微博的数据统计发现,约有40%的转发连边在50分钟内 形成,这说明新浪微博平台中信息传播节点之间的传播速度可能会很快。 如果一个信息传播节点可以在短时间传播信息至另外一个信息传播节点, 则说明前者能够在短时间内引发后者的参与,则该信息传播节点对该信息 传播的推动作用较大。因此,计算信息传播节点在信息传播中的重要性也 应该考虑引发其他传播节点参与的速度,并且结合所属平台的节点影响力 随距离变化的函数。

在一个实施例中,信息传播节点i对其任意后代信息传播节点j的影 响力可以表示如下:

其中,为节点i传播到节点j的速度,d(i,j)为i到j的距 离,t(i,j)为i到j的信息传播时间,f(.)为该平台中节点影响力随距离变化 的函数。

第三步:计算信息传播节点的重要性

每个信息传播节点在信息传播过程中的重要性表示为它对后代信息 传播节点的影响力之和,也可称之为该信息传播节点的源点中心性,如公 式(3)所示:

根据公式(3)可见,由后代节点的数量、与信息传播节点的距离和 传播速度来度量该信息传播节点对信息传播的重要性,更符合信息传播的 性质。发明人通过对新浪微博中的某条微博的信息传播节点进行分析,发 现源点中心性能够挖掘节点更深层次的影响,而且可以有效度量节点的传 播速度。

上文以固定的步骤描述了本发明提供的用于计算社会媒体中信息传 播节点重要性的方法。然而,本领域技术人员应理解,也可以事先计算好 每个社会媒体信息发布平台的节点影响力随距离变化的函数并进行存储。 这样,无需在每次计算信息传播节点的重要性时才进行该函数的拟合。此 外,可以在计算信息传播节点的重要性之前对已有的节点影响力随距离变 化的函数进行更新,例如,周期性地更新或者以其他方式进行更新。

另外,在一个实施例中,对于指定的一条信息传播,首先需要从社会 媒体信息发布平台中采集该信息传播的相关数据(采集过程参见下文), 并且解析出信息传播节点。接着,可按上述方法对解析出的每个信息传播 节点计算重要性。

根据本发明的一个实施例,还提供一种用于计算社会媒体中信息传播 节点重要性的系统。

参考图1且概括而言,该系统包含:1)、社会媒体信息发布平台1001, 如微博、论坛、贴吧、博客等,该平台1001是信息产生和传播的环境, 也是该系统的数据来源;2)、社会媒体信息传播节点重要性计算设备2001, 该设备通过公网接入路由器3001接入互联网5001,一方面从社会媒体信 息发布平台1001采集数据并在本地进行分析,另一方面被互联网用户使 用公网地址进行访问;3)、公网接入路由器3001,将社会媒体信息传播节 点重要性计算设备2001接入互联网5001;4)、访问系统的设备4001(简 称访问设备),包括手机、平板电脑、移动笔记本、PC机等,用户可通过 这些访问设备来访问社会媒体信息传播节点重要性计算设备2001,并且可 以配置和读取分析的信息;5)、互联网5001,其是数据传输的媒介。

在该系统中,社会媒体信息传播节点重要性计算设备2001可处于一 个局域网中,图2示出了该设备的一种简易部署方式。应理解,可以在图 2的基础上进一步扩展。参见图2,设备2001包括采集子设备2100、分析 子设备2101、数据库2102、Web服务器2103和内网交换机2104。概括来 说,采集子设备2100负责采集社会媒体信息发布平台1001的数据,分析 子设备2101负责对采集到的数据进行分析,数据库2102负责存储采集后 处理得到的数据和分析结果(如信息传播节点的重要性),Web服务器2103 从数据库2102中读取分析结果并向用户提供服务,内网交换机2104连接 上述四个子设备。整个设备2001通过公网接入路由器3001接入互联网 5001。

下文中,将分别对社会媒体信息传播节点重要性计算设备2001中的 采集子设备2100、分析子设备2101和Web服务器2103进行详细描述。

采集子设备2100

采集子设备2100从不同的社会媒体信息发布平台1001中采集数据, 其结构如图3所示,包括配置文档2110、社会媒体信息发布平台访问信息 表2111、任务文档2112和采集子设备逻辑控制单元2113。

1)、配置文档2110中记录分析子设备2101的访问地址。

2)、社会媒体信息发布平台访问信息表2111包括采集子设备2100访 问不同社会媒体信息发布平台1001所需的信息(例如网址)。此外,如果 某一平台需要登录,则还需要记录登录账号信息,其结构如表1所示:

表1

社会媒体信息发布平台的访问网址 是否需要登录 该平台的登录账号列表      

3)、任务文档2112是采集子设备2100将要获取的信息传播的相关数 据(或称信息传播记录),包括信息传播的标识和信息传播所在的社会媒 体信息发布平台1001。该任务文档2112可以手工配置,其结构如表2所 示。

表2

信息传播标识 信息传播所在社会媒体信息发布平台    

4)、采集子设备逻辑控制单元2113负责读取任务文档2112中的任务 信息并执行采集。

采集的方式有两种:一种是根据URL(Uniform/Universal Resource  Locator,统一资源定位符)爬取网页并解析内容,爬取可采用如HttpClient、 curl等工具,该方式可以应用于论坛、贴吧、新闻网站等;一种针对提供 开放API(Application Program Interface,应用程序接口)的社会媒体信息 发布平台1001,如新浪微博,可以通过API请求获取微博相关数据,这样 得到的数据有确定字段并且更干净。

如上文所述,每条信息传播由一个信息初始节点、零个或一至多个信 息参与节点组成。针对微博、论坛、贴吧这样的社会媒体信息发布平台 1001,从信息初始节点可以直接找到其对应的信息参与节点,如微博的转 发列表、论坛的回复列表,称之为“显式传播”;而新闻网站类的社会媒体 信息发布平台1001,需要从获取到的网页集合中判断转载或转发关系,称 之为“隐式传播”。

对于“显式传播”,图4示出了采集子设备逻辑控制单元2113的采集工 作流程的一个示例,步骤如下:

S1001:开始。

S1002:从任务文档2112中读取一个要采集的信息传播记录,包括某 一条信息传播的信息传播标识和该信息传播所属的社会媒体信息发布平 台1001。

S1003:从该社会媒体信息发布平台1001采集该信息传播的原始内容, 即该信息传播的信息初始节点的相关数据。

S1004:判断该信息传播是否存在信息参与节点(即是否被传播开), 如果是,则执行S1100,否则执行S1005。

S1100:从该社会媒体信息发布平台1001采集该信息传播的信息参与 节点的内容。

采集的内容例如包括:用户信息、时间、具体内容、来自哪个信息传 播、父节点是谁等,其形式可以是网页或API得到的数据。

S1005:结束。

对于“隐式传播”,图5示出了采集子设备逻辑控制单元2113的采集工 作流程,步骤如下:

S2001:开始。

S2002:从任务文档2112中读取一个要采集的信息传播记录,包括某 一条信息传播的信息传播标识和信息传播所在的社会媒体信息发布平台。

S2003:采集该信息传播的信息初始节点的内容,作为原始内容。

S2004:采集相应的社会媒体信息发布平台1001中该原始内容之后的 其他信息。例如原始内容为2015年1月1日0时0分0秒的一条网易新 闻,则本步骤采集新闻网站(如腾讯新闻、新浪新闻、搜狐新闻等)中2015 年1月1日0时0分0秒之后的新闻信息。

S2100:逐一判断采集到的其他信息,如果判断完毕,则转到S2005; 否则,转到S2110;

S2110:判断该信息是否为原始内容的转载或转发信息,例如根据新 闻网页中有“信息来源”、“原标题”等字段进行判断。如果是,则转到S2111; 否则,转到S2100;

S2111:该信息为该条信息传播的信息参与节点,转到S2100;

S2005:结束。

分析子设备2101

分析子设备2101的结构如图6所示,包括配置文档2210、数据传输 单元2211、计算模型的参数信息表2212、信息初始节点存储表2213、信 息参与节点存储表2214、信息传播树传播深度存储表2215、信息传播树 每层节点数存储表2216、信息传播节点重要性计算逻辑控制单元2217。

1)、配置文档2210中记录数据库2102的访问信息、采集子设备2100 的访问信息,如表3所示:

表3

数据库的访问地址   数据库的访问端口   数据库名   采集子设备的访问地址   采集子设备的访问端口  

2)、数据传输单元2211负责分析子设备2101与外部的数据传输,读 取采集子设备2100采集到的信息。

3)、计算模型的参数信息表2212记录了与不同社会媒体信息发布平 台1001的节点影响力随距离变化的函数f(d)相关的信息,包括该函数的更 新频率和平台的信息统计比,如表4所示:

表4

社会媒体信息发布平台名称 该平台的函数更新频率 该平台的信息统计比      

4)、信息初始节点存储表2213用于记录不同信息传播的信息初始节 点相关参数。

如上文所述,一个信息传播由一个信息初始节点和零个或一至多个信 息参与节点组成。信息传播可以由所包含的信息初始节点来唯一标识,其 在一个社会媒体信息发布平台1001内传播且具有一定的传播深度。因此, 信息初始节点存储表2213中每条记录由信息初始节点标识为主键,除了 记录信息初始节点自身的发布时间、用户标识、节点内容、节点重要性, 同时还记录该条信息传播所属的社会媒体信息发布平台1001及传播深度, 如表5所示:

表5

5)、信息参与节点存储表2214用于记录不同信息传播的信息参与节 点相关参数。

首先,每个信息参与节点有自身的标识可以唯一识别当前节点,还有 节点的发布时间、用户标识、节点内容、节点重要性等信息;其次,一个 信息参与节点有唯一的父节点,即当前信息参与节点转发/评论/回复/转载 的直接对象,其是一个信息初始节点或信息参与节点,父节点可通过节点 标识唯一识别;最后,每个信息参与节点唯一属于一条信息传播,而一条 信息传播可以由一个信息初始节点唯一标识,所以可由该信息参与节点所 属的信息传播的信息初始节点来标识。存储表2214的结构如表6所示:

表6

6)、信息传播树的传播深度存储表2215记录了不同社会媒体信息发 布平台1001的信息传播数量在传播深度上的分布,除了标识字段(即平 台标识),每一项表示该平台1001(或该平台的一个信息传播参考集合) 中传播深度为某一整数的信息传播数,如表7所示:

表7

社会媒体信息发布平台 传播深度为1的信息传播数C(1) 传播深度为n的信息传播数C(n)        

7)、信息传播树的每层节点数存储表2216记录了信息传播树中的每 层节点数,每条记录由信息初始节点唯一标识,如表8所示:

表8

信息初始节点标识 所在信息传播树的第1层节点数 所在信息传播树的第n层节点数        

8)、信息传播节点重要性计算逻辑控制单元2217是分析子设备的核 心,用于执行信息处理、特征分析、节点影响力随距离变化函数的自调整、 信息传播节点重要性计算等功能,概括描述如下:

A)、信息处理:对数据传输单元2211从采集子设备2100读取到的信 息传播进行处理,包括:解析信息传播节点并判断信息传播节点之间的关 系。对于采集子设备2100中以网页方式获取的信息,可以通过jsoup等解 析网页包来获取所需字段,如帖子内容、发布用户标识、发布时间、回复 内容等;对于采集子设备2100中以API方式获取的信息,直接提取所需 字段即可。对于非信息初始节点,记录其父节点标识。解析出来信息初始 节点的字段存入表5,解析出来的信息参与节点的字段存入表6。

B)、特征分析:对信息处理得到的信息进行特征分析。根据信息处理 所得的信息初始节点和信息参与节点构建信息传播树,记录该树的传播深 度和每层节点数,以此来更新表7和表8。

C)、函数的自调整:通过维护一个系统时钟来计时,按照计算模型的 参数信息表(表4)中的更新频率定时调整该函数。其中,根据系统中的 历史数据特征得到节点影响力随距离变化的函数,为信息传播节点重要性 计算做准备。

D)、信息传播节点重要性计算:根据节点影响力随距离变化的函数和 节点间传播速度及距离,对信息传播节点的重要性进行计算。

图7示出了该信息传播节点重要性计算逻辑控制单元2217的执行流 程图的示例,步骤如下:

S3001:开始;

S3002:从采集子设备2100中获取采集到的一条信息传播的相关数据 及其所属的社会媒体信息发布平台P;

S3003:解析出信息初始节点、信息参与节点等数据;

S3100:判断解析结果中是否有信息参与节点,如果有,则转到S3101; 否则,转到S3004;

S3101:根据解析结果构建信息传播树,记录传播深度和每层的节点 数;

S3102:更新表7中平台P对应的信息传播树的传播深度分布,并且 向表8中添加该信息传播树的每层节点数信息;

S3103:获取系统当前时间;

S3110:与系统时钟进行比较,判断是否到达调整平台P对应的节点 影响力随距离变化的函数的时间,如果到达,则转到S3111;否则,转到 S3105;

S3111:从表4中读取平台P对应的信息统计比a;

S3112:从表7中读取平台P对应的信息传播数关于传播深度的分布C;

S3113:对于C,计算其信息传播数总和Sum;

S3114:对于C,按照传播深度从小到大的顺序对信息传播数进行累 加;选择累加和与Sum之比不小于信息统计比a的最小传播深度,作为P 对应的节点影响深度D;

S3115:从表5中选择传播深度接近D并且社会媒体信息发布平台为 P的记录的集合S1;

S3116:根据S1中每一项记录的信息初始节点标识,从表8中读取对 应的信息传播树的每层节点数记录,构成集合S2;

S3117:对S2中的每一项记录,计算每一层节点数与该记录的节点总 数之比;

S3118:对S3117中每项记录的计算结果针对不同的层求均值;

S3119:对S3118得到的均值进行拟合,其中变量为层数,得到节点 影响力随距离变化的函数f(d);

S3104:根据f(d)计算解析结果中每个信息传播节点对其每个后代 信息传播节点的影响力;

S3105:把解析结果中每个信息传播节点对其所有后代传播节点的影 响力累加,累加之和作为该信息传播节点的重要性,并存入表5和表6;

S3004:结束。

Web服务器2103

Web服务器2103为外界提供访问接口,其结构如图8所示。包括配 置文档2310、数据传输单元2311和Web服务逻辑控制单元2312。

配置文档2310记录了数据库访问信息,包含的信息项如表9所示。 数据传输单元2311用于与外界进行数据交互,包括接受用户访问和从数 据库读取数据;Web服务逻辑控制单元2312用于控制用户的登录和访问 请求的处理。

表9

数据库的访问地址   数据库的访问端口   数据库名  

下面以一条新浪微博的传播为例,说明本发明提供的方法和系统的有 效性,其中该信息传播中有16758个信息参与节点。

图9给出了采用本发明提供的用于计算社会媒体中信息传播节点重要 性的方法与仅考虑一层转发节点数的计算结果的对比。从图9中可见,仅 考虑一层转发节点数的方法相当于在信息传播树中只计算某一信息传播 节点的直接孩子节点的数量,而没有考虑更大距离的传播,并且也没有考 虑节点间的传播速度。图9中分别示出5个节点对,每个节点对中的两个 节点具有相同的第一层转发节点数,其中横轴表示传播时间,纵轴表示在 不同传播时间该节点引发的新的信息传播节点数量。曲线越陡峭,说明传 播速度越快。从图9可以看出,虽然信息传播节点直接引发的新的信息传 播节点的数量可能相同,但引发的更大距离的传播节点数量差异较大,而 且传播的速度也有差距。因此,与仅考虑一层转发数的方法相比,本发明 提供的方法不仅能够挖掘更大距离的信息传播,而且能够衡量出信息传播 节点引发的传播速度的大小,更有助于发现关键的信息传播节点。

应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施 例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起 见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案 也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的 范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所 作的等同变化、修改与结合,均应属于本发明保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号