首页> 中国专利> 在社交网络中基于泊松过程模型的事件流行度预测方法

在社交网络中基于泊松过程模型的事件流行度预测方法

摘要

本发明提供了一种在社交网络中基于泊松过程模型的事件流行度预测方法,步骤:第一步,选取样本事件,并获取样本事件的微博传播链;第二步,用户影响力计算并筛选影响力大的作为关键用户,而将剩下的用户标记为非关键用户;第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。本发明能在微博事件发生的初期给出比较好的流行度预测,将为合理引导事件的发展提供非常有效的帮助。

著录项

  • 公开/公告号CN104182457A

    专利类型发明专利

  • 公开/公告日2014-12-03

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201410334425.6

  • 发明设计人 陈凯;周异;何建华;周曲;杨蒙蒙;

    申请日2014-07-14

  • 分类号G06F17/30(20060101);G06Q10/04(20120101);G06Q50/00(20120101);

  • 代理机构31236 上海汉声知识产权代理有限公司;

  • 代理人郭国中

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-17 03:04:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-09-03

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190814 变更前: 变更后:

    专利申请权、专利权的转移

  • 2019-01-18

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190102 变更前: 变更后: 申请日:20140714

    专利申请权、专利权的转移

  • 2018-10-26

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20181009 变更前: 变更后: 申请日:20140714

    专利申请权、专利权的转移

  • 2017-08-01

    授权

    授权

  • 2014-12-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140714

    实质审查的生效

  • 2014-12-03

    公开

    公开

查看全部

说明书

技术领域

本发明涉及互联网技术领域内社交网络中的事件流行度预测方法,具体地说,涉及的是一种在社交网络中基于泊松过程模型的事件流行度预测方法。

背景技术

在Web2.0时代,社交网络发展如火如荼,逐渐成为网民日常生活中的重要部分。微博作为一种通过关注机制分享简短信息的广播式的新型社交网络平台,它具有操作简单、互动性强等特点。到2012年年底,新浪微博注册用户数已经超过了4亿,微博作为一种新兴媒体,它在传播信息、形成热点话题和热点事件中起到了越来越重要的作用。微博正成为社会舆论热点的主要策源地,全面参与并影响着现实世界。

微博在热点事件的发生到推重整个过程中起到非常关键的作用,如果能在事件发生的初期就对其未来的流行度有较准确的预测,将能够给相关部门或企业争取时间,对事件发展进行合理引导和及时采取相应的对策。因此为了避免热点事件由于处理不当或者处理不及时可能带来的经济损失和不良社会后果,对事件的流行度进行预测非常必要,具有重大社会意义。

经检索,目前没有与事件流行度的预测相关的公开专利。

发明内容

本发明要解决的问题是提供一种在社交网络中对事件的流行度进行预测的方法,并基于此,对事件的流行度进行预测,从而可以早的对事件的发展态势了解,给相关部门或企业争取尽可能多的时间制定对策。

本发明一个目的是提供一种社交网络中事件流行度的预测方法,具体包括:

第一步,选取样本事件,并获取样本事件的微博传播链;

第二步,用户影响力计算,并筛选影响力大的作为关键用户,并将剩下的用户标记为非关键用户;

第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;

第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;

第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。

所述第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容(UGC)的集合;选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。

优选地,所述选取样本事件是按照下面的步骤选取的:

(1)周期性的分别从各大热门话题榜各获取前10个热门事件的标题;

(2)用新闻搜索引擎搜索热门事件的标题,获取有关事件更多的文本信息和关键词;

(3)在社交网络的搜索页面中搜索每个事件的关键词,解析出和该事件有关的原创热门UGC;

(4)使用社交网络开放平台提供的API来获取每个事件中的原创UGC的转发链,包括每条UGC的创建时间、文本、作者信息;

(5)检测有规律的发布UGC,发布UGC时间间隔短,重复多次转发同一个社交网络用户的水军账户,删除它们发出的所有UGC。

优选地,所述第一步中,获取样本事件的传播链中的传播链是指参与事件传播的社交网络用户的用户产生内容(UGC)之间具有转发关系,这些UGC转发关系构成有向的具有时间性的传播关系链叫UGC传播链;获取传播链是指通过社交网络平台提供的API获取参与事件传播的用户人数大于阈值T2的UGC传播链,T2是任意正整数,T2为0表示获取事件相关的所有传播链,参与人数少的UGC传播链将被舍去。

优选地,所述第二步中,用户的影响力是指该用户在事件传播过程中吸引其他用户参与事件传播的能力,用户影响力跟他的粉丝数、粉丝质量、用户之间的交互、发布用户产生内容(UGC)的转发数,甚至和参与事件的主题有关。所述用户的影响力采用基于PageRank的方法计算;或者用户ui的影响力si采用以下方法获得:

(1)计算每个用户在样本事件数据中的发出的UGC数

(2)计算每个用户在样本事件数据中由其一级转发用户产生的UGC转发数

(3)用来代表这样一个用户集合,在这个集合中的每个用户uj发出的UGC的转发数之和都为并且uj至少转发了ui一次,那么用户ui的影响力用下面的式子计算:

>si=Σnn|Uin|+Ni(1)>

其中|U|代表用户集合U中的用户数。

更好地,所述关键用户的筛选过程如下:

(1)将用户的影响力设置为0,因为他们参与的事件太少;

(2)根据影响力排序所有的用户,选取前K个作为选择的关键用户Us,而剩下的则作为非关键用户;

阈值Tc和参数K用来控制关键用户的数目以及参与事件的数目,在某一种社交网络平台中Tc=3是一个经验值,K的经验值在104级别。

优选地,所述第三步的模型及其涉及参数如下:

(1)对关键用户的建模:将每个参与事件的关键用户的一级转发过程建模为一个泊松过程,泊松过程的参数只有到达率λ,它代表了单位时间内的用户的一级转发的增加数量,与下面的因素有关:

a)用户自身可以带来的转发数,用用户的活跃粉丝数αiFN(ui)来衡量,其中FN(ui)是用户ui的粉丝数,αi≤1;

b)事件的吸引力,用其转发数的平均增长率来衡量,其中Cj(t)表示事件mj在t时的转发数,tj为事件的起点时刻;

c)用户作息的自然规律,用一天内用户产生内容(UGC)的创建时间分布P(t)来衡量;

d)UGC的可见度,它是指UGC在用户主页上从上到下用户看到的概率依次降低,它用衰减因子来衡量,其中tij表示用户ui在事件mj中的参与时间;

最后λ用下面的式子计算:

>λ(ui,mj,t)=αiFN(ui)Cj(t)t-tjP(t)(t-tij)-βi>

根据泊松过程的计算,得到某个关键用户带来的转发数随着时间的概率分布;

(2)对于非关键用户的建模:只在样本数据中统计得到一个经验比例r,它随着三个变量的变化而变化:

a)已知信息的结束时刻tn

b)未来时间段的开始时刻tp

c)未来时间段的长度l;

根据这个经验比例,给定已知一个事件和其一定时间段的信息,计算得出未来某时间段内由非关键用户带来的转发数。

优选地,上述第四步中学习和估计第三步模型中涉及到的关键用户的参数λ、非关键用户的参数r以及一天内UGC创建时间的分布P(k)的方法;

事件的传播链是由转发关系组成的,即转发关系ui→uj代表用户uj转发了ui的一条UGC,这种转发关系有下面四种情况:

(1)用户ui和uj都是关键用户;

(2)用户ui是关键用户,用户uj不是关键用户;

(3)用户ui不是关键用户,用户uj是关键用户;

(4)用户ui和uj都不是关键用户;

其中(1)和(2)都构成关键用户带来的转发数,也即转发关键用户的UGC而产生的转发数;而(3)和(4)则构成非关键用户带来的转发数,即转发非关键用户的UGC而产生的转发数;将样本数据按照这个原则分为由关键用户带来的转发和由非关键用户带来的转发两个部分,分别用于关键用户λ和非关键用户比例r的估计;

对于关键用户λ的估计,只采用关键用户带来的转发数据并采用最大似然估计的方法进行估计和学习,通过极大化下面的似然函数来得到αi,βi的估计值:

>f(αi,βi|mj)=Πj=1MΠk=1TnP(Cj()-Cj((k-1)δ)=Nj[k]|αi,βi)>

其中Nj[k]为事件mj在第k个时间段内的由关键用户带来的转发数增量;

对于非关键用户r的估计,使用非关键用户带来的转发数据,按照权利要求8(2)中的方法来进行统计计算;

对于一天内UGC创建时间的分布P(k)的估计,使用所有的样本事件数据。在样本事件数据中统计以δ时间间隔来统计一天内UGC创建的数量并归一化成为P(k)。

优选地,上述第五步中给定一个新的事件以及它的一定时间长度的传播链信息,预测其未来某时间段内的流行度的模型,这里的流行度指以转发数为主要衡量标准的流行度;

把整个事件转发数的增长过程等间隔δ的分为许多时间段,每个时间段内认为所有用户的λ是保持不变的,将事件的起点时刻记为0;假设前Tn个时间段的事件的信息是完全已知的,这包括与事件相关的所有UGC的作者和作者的信息、创建时间、文本信息,如果是转发的UGC还包括转发信息;预测第Tp(Tp>Tn)个时间段内的事件转发数的增长量,这个增长量包括由关键用户带来的转发数和非关键用户带来的转发数两个部分:

(1)计算关键用户带来的转发数:计算每个关键用户在第Tp个时间段内的转发数随着时间的概率分布λ,其中事件的吸引力,使用所有已知时间段长度的UGC的吸引力即其他的因素使用相应时刻的值,根据泊松过程的可加性,将每个关键用户的λ加起来即可得到由关键用户带来的转发数在Tp时间段内的大泊松过程的参数λ,即

>Cj(Tpδ)-Cj((Tp-1)δ)~P(δΣiλ(ui,mj,tij+Tpδ))>

(2)计算非关键用户带来的转发数:根据非关键用户带来的转发数比例r,只用计算已知Tn个时间段中参与的非关键用户的个数即可得到第Tp个时间段内的转发数增量,即

>Cj(Tpδ)-Cj((Tp-1)δ)=r(tn,tp,l)*Ncn.>

本发明上述技术方案中:

第一步中,本发明从各大网络热门排行榜出发,结合搜索引擎以及社交网络平台搜索,互相验证得到最终选取的热门事件。

第三步中,本发明首先将用户分为关键用户和非关键用户分别建模,重点分析关键用户,以泊松模型进行建模;而对非关键用户则仅仅使用经验比例来计算其贡献,以做简化。对关键用户泊松模型到达率的计算,充分考虑了用户自身的影响、参与事件的吸引力、用户作息规律、UGC的可见度四种影响因素,并给出一个公式用于量化计算。

第五步中,对整个事件转发数的增长过程等间隔的离散化为多个时间段,进一步降低计算复杂度以及参数估计难度。

与现有技术相比,本发明具有以下有益效果:

本发明能够在社交网络中对其中的事件的流行度进行较准确的预测,并可以给出未来一段时间内预测流行度的变化曲线。根据这些预测的流行度信息,可以预报事件的发展变化情况,从而给相关部门和企业提供时间制定应对策略,将为合理引导事件的发展提供非常有效的帮助,可以避免事件由于处理不当或者处理不及时可能带来的经济损失和不良社会后果。

附图说明

图1为本发明一较佳实施例中获取样本事件的流程图;

图2为本发明一较佳实施例中筛选关键用户的流程图;

图3为本发明一较佳实施例中整个系统的框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

本实施例提供一种在微博中对事件流行度进行预测的方法,该方法分为四个部分:

第一步,选取样本事件,并获取样本事件的微博传播链;

第二步,用户影响力计算,并筛选影响力大的作为关键用户,并将剩下的用户标记为非关键用户;

第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;

第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;

第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。

第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜(比如百度风云榜http://top.baidu.com/)列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容的集合(用户产生内容是指用户在该社交网络中发布的原创或非原创的内容,比如微博中就是一条不超过140字的博文,下文用UGC表示);选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。

如图1所示,本实施例中选取样本事件的流程:

(1)周期性的分别从百度搜索风云榜(http://top.baidu.com)、搜狗热搜榜(http://top.sogou.com)、搜搜热榜(http://top.soso.com)和新浪微博热门话题榜(http://huati.weibo.com)各获取前10个热门事件的标题;

(2)在新闻搜索引擎谷歌新闻(http://news.google.com)、百度新闻(http://news.baidu.com))搜索热门事件的标题,获取有关事件更多的文本信息和关键词;

(3)在新浪微博的搜索页面(http://s.weibo.com)中搜索每个事件的关键词,解析出和该事件有关的原创热门微博;

(4)使用新浪微博开放平台提供的API来获取每个事件中的原创微博的转发链,包括每条(转发)微博的创建时间、文本、作者信息等;

(5)检测有规律的发帖,发帖间隔比较短,重复多次转发同一个微博的水军账户,删除它们发出的所有(转发)微博。

本实施案例中,获取的样本事件总量应该可以反映一段时间内的整个微博平台上的用户活动情况,进而使得选出的关键用户具有实际使用意义。

如图2所示,下面描述了一种用户影响力的计算方法和关键用户的筛选方法。

用户ui的影响力si具体计算如下:

(1)计算每个用户在样本事件数据中的发出的微博数

(2)计算每个用户在样本事件数据中由其一级转发用户产生的微博转发数

(3)用来代表这样一个用户集合,在这个集合中的每个用户uj发出的微博的转发数之和都为并且uj至少转发了ui一次。那么用户ui的影响力用下面的式子计算:

>si=Σnn|Uin|+Ni(1)>

其中|U|代表用户集合U中的用户数。

关键用户的筛选过程如下:

(1)将用户的影响力设置为0,因为他们参与的微博事件太少。

(2)根据影响力排序所有的用户。选取前K个作为选择的关键用户Us,而剩下的则作为非关键用户。

阈值Tc和参数K可以用来控制关键用户的数目以及参与事件的数目,具体可以根据实际数据集进行调节,也可以根据实验结果进行调节。Tc=3是一个经验值,在新浪微博平台中K的经验值一般在104级别。

接下来对用户带来转发微博的过程进行建模。

(1)对关键用户的建模。将每个参与事件的关键用户的一级转发过程建模为一个泊松过程。泊松过程的参数只有到达率λ,它与下面的因素有关:

a)用户自身可以带来的转发数,用用户的活跃粉丝数αiFN(ui)来衡量,其中FN(ui)是用户ui的粉丝数,αi≤1;

b)微博事件的吸引力,用其转发数的平均增长率来衡量,其中Cj(t)表示事件mj在t时的转发数,tj为事件的起点时刻。

c)用户作息的自然规律,用一天内微博的创建时间分布P(t)来衡量;

d)微博的可见度,它是指微博在用户主页上从上到下用户看到的概率依次降低,它用衰减因子来衡量,其中tij表示用户ui在事件mj中的参与时间(相应微博的创建时间)。

最后λ用下面的式子计算:

>λ(ui,mj,t)=αiFN(ui)Cj(t)t-tjP(t)(t-tij)-βi>

根据泊松过程的计算,可以得到某个关键用户带来的转发数随着时间的概率分布。

(2)对于非关键用户的建模。只在样本数据中统计得到一个经验比例r。它随着三个变量的变化而变化:

a)已知信息的结束时刻tn

b)未来时间段的开始时刻tp

c)未来时间段的长度l。

根据这个经验比例,给定已知一个微博事件和其一定时间段的信息,就可以计算得出未来某时间段内由非关键用户带来的转发数。

接下来对关键用户的参数λ、非关键用户的参数r以及一天内微博创建时间的分布P(k)进行学习和估计。

微博事件的传播链是由转发关系组成的,即转发关系ui→uj代表用户uj转发了ui的一条微博。这种转发关系有下面四种情况:

(1)用户ui和uj都是关键用户;

(2)用户ui是关键用户,用户uj不是关键用户;

(3)用户ui不是关键用户,用户uj是关键用户;

(4)用户ui和uj都不是关键用户。

其中(1)和(2)都构成关键用户带来的转发数,也即转发关键用户的微博而产生的转发数;而(3)和(4)则构成非关键用户带来的转发数,即转发非关键用户的微博而产生的转发数。将样本数据按照这个原则分为由关键用户带来的转发和由非关键用户带来的转发两个部分,分别用于关键用户λ和非关键用户比例r的估计。

对于关键用户λ的估计,只采用关键用户带来的转发数据并采用最大似然估计的方法进行估计和学习。通过极大化下面的似然函数来得到αi,βi的估计值。

>f(αi,βi|mj)=Πj=1MΠk=1TnP(Cj()-Cj((k-1)δ)=Nj[k]|αi,βi)>

其中Nj[k]为事件mj在第k个时间段内的由关键用户带来的转发数增量。

对于非关键用户r的估计,使用非关键用户带来的转发数据,按照权利要求4(2)中的方法来进行统计计算。

对于一天内微博创建时间的分布P(k)的估计,使用所有的样本事件数据。在样本事件数据中统计以δ时间间隔来统计一天内微博创建的数量并归一化成为P(k)。

接下来对一个已知一定Tn个时间段发展演化信息的事件进行流行度预测。

要预测第Tp(Tp>Tn)个时间段内的微博事件转发数的增长量。这个增长量包括由关键用户带来的转发数和非关键用户带来的转发数两个部分。

(1)计算关键用户带来的转发数。计算每个关键用户在第Tp个时间段内的λ,其中微博事件的吸引力,使用所有已知时间段长度的微博的吸引力即其他的因素使用相应时刻的值。根据泊松过程的可加性,将每个关键用户的λ加起来即可得到由关键用户带来的转发数在Tp时间段内的大泊松过程的参数λ,即

>Cj(Tpδ)-Cj((Tp-1)δ)~P(δΣiλ(ui,mj,tij+Tpδ))>

(2)计算非关键用户带来的转发数。按照上述给出的非关键用户带来的转发数比例r的计算方法,根据该比例r,只用计算已知Tn个时间段中参与的非关键用户的个数即可得到第Tp个时间段内的转发数增量,即

>Cj(Tpδ)-Cj((Tp-1)δ)=r(tn,tp,l)*Ncn.>

本发明方法还可以适用于其他社交网络,比如TWITTER,其实施跟微博实施例基本相同的,具体过程不再详细说明。

本发明上述实施例中参数是根据实验的结果进行选取的,即根据人工标注的机器人账户作为学习基准,通过测试不同参数组合达到的识别率,选取了上述识别率较优对应的一组参数,当然,根据实际的需要,对上述参数进行适当调整也是可以实现本发明的目的。

以上所述仅是本发明的优选实施方式,本发明的保护范围不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范畴。应当指出,对于本技术领域的技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也都应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号