首页> 中国专利> 一种对社交网络信息传播趋势预测的方法及系统

一种对社交网络信息传播趋势预测的方法及系统

摘要

本发明涉及一种对社交网络信息传播趋势预测的方法及系统,包括获取社交网络中的信息数据和用户数据,利用用户数据计算出用户类别分布向量;对信息数据进行归一化处理;利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出信息传播趋势的预测点,绘制信息传播趋势线;将通过K-SC算法得到的若干基本信息传播曲线与信息传播趋势线拟合,获取信息传播趋势预测线的后续趋势线;本发明能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮助;同时本发明的系统在运行时内存代价低,拥有很高的效率,拥有独立性和可移植性。

著录项

  • 公开/公告号CN104008150A

    专利类型发明专利

  • 公开/公告日2014-08-27

    原文格式PDF

  • 申请/专利权人 中国科学院信息工程研究所;

    申请/专利号CN201410213602.5

  • 发明设计人 于延宇;胡玥;李歌;李丹;

    申请日2014-05-20

  • 分类号G06F17/30;G06Q10/04;

  • 代理机构北京轻创知识产权代理有限公司;

  • 代理人杨立

  • 地址 100093 北京市海淀区闵庄路甲89号

  • 入库时间 2023-12-17 00:55:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-07

    授权

    授权

  • 2014-09-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140520

    实质审查的生效

  • 2014-08-27

    公开

    公开

说明书

技术领域

本发明涉及社交网络中的信息传播领域,尤其涉及一种对社交网络信息 传播趋势预测的方法及系统。

背景技术

目前,网络已经成为人获取信息的重要途径,尤其是随着各种社交网站 的快速崛起,更方便的信息获取和更快速的信息传播随之而来。更多的信息 利用网络来到人们面前,更多的问题也就会出现。社交网络已经形成了庞大 的线上社会群体,构建了密切的线上人际关系。然而,这种前所未有的信息 传播优势和巨大的影响力,怎样最大化的突起其优势,摒弃其缺点,让社交 网络这个线上社会充满正能量成为此方法的动力和目标。

社交网络上的信息传播不同于信件、口头、报纸等传统的信息传播,社 交网络中的信息传播具有以下几方面的突出特征,第一,具有很强的实时性, 科技的进步,信息的发出者很容易将看到的重大事件用最快的时间向外传 播,例如:2009年1月15日的美国哈尔逊河坠机时间,不到15分钟,Twitter 中已经广泛传播,而纽约日报的报道却在15小时之后。第二,拥有较强的 群体性,社交网络的信息发布变得随心所欲,不同的人出于一些目的会发布 一些具有煽动性的信息,而这些信息广泛传播将会引发群体性。第三,信息 更新周期性变小,由于信息的大量发布,信息的来源越来越广,所以信息在 传播中逐渐被新的信息所取代,周期性变小。

信息传播的趋势预测结合社交网络上信息传播的特点,会有效的解决很 多问题,本发明要解决的主要是以下两个方面的问题:

第一,信息的及时推送,现在各大社交网站以及网民对信息的及时推送 需求越来越高,能够根据信息的传播趋势来推送信息,会得到很好的实时性 效果。让信息更准,更快的推送到需求人面前。

第二,网络舆情控制,网络信息具有很强的群体性和突发性,如果能将 舆情信息提前发现和有效的控制,就会避免很多的群体性事件,将线上的社 会变得更加和谐,稳定。

能够及早的发现信息传播中的变化,尽早的对信息的传播趋势做出预测 成为了信息实时推送和社会网络舆情监测的主要部分。目前,对信息推送和 舆情传播都是采用的监测方法,设置一个阀值,当信息的某些参数大于这个 阀值时,就会定义为推送信息或者舆情信息。这些方法相对粗糙,信息的实 时特征很难得到保证。

发明内容

本发明所要解决的技术问题是提供一种可实时、有效、快速对社交网络 信息传播趋势预测的方法及系统,用于解决现有技术中存在的在社交网络信 息传播过程中,热点发现滞后,信息推送以及网络舆情监测难以实现实时性 等问题。

本发明解决上述技术问题的技术方案如下:一种对社交网络信息传播趋 势预测的方法,包括如下步骤:

步骤1:获取社交网络中的信息数据和用户数据,并将信息数据和用户 数据存入到数据库中;

步骤2:从数据库获取用户数据,统计出用户类别及用户类别在不同社 交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;

步骤3:从数据库获取信息数据,将信息传播趋势以时间间隔进行统计, 得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息 数据进行归一化处理;

步骤4:利用移动平均方法对归一化的信息数据进行平滑处理,结合 Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传 播曲线;

步骤5:将通过K-SC算法得到的若干基本信息传播曲线与步骤4中得到 的当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络 信息传播趋势线。

本发明的有益效果是:本发明充分考虑了社交网络信息的实时性,利用 当前信息的部分传播趋势,与K-SC中所得到的信息传播曲线进行拟合,K-SC 的传播曲线是对完整的信息传播曲线模式的一个类别划分,因此根据部分当 前信息传播曲线利用趋势预测,能够尽早的对信息传播能力进行估计,减少 了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮 助。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,步骤1中获取社交网络中的信息数据和用户数据时,根据不同 类型的社交网站采取不同的数据获取方式;对于以文本形式体现的社交网 络,采用网络爬虫获取所需的信息数据与用户数据,对于短文本类的社交网 络,使用平台提供的API获取所需的信息数据与用户数据。

进一步,步骤1中获取信息数据时,获取信息的基本特征数据,将噪音 数据去除,以统一形式存入数据库;获取用户数据时,获取用户对信息做出 反应的时间数据,记录其采纳信息的时间,存入数据库。

进一步,步骤2的具体实现为:

步骤2.1:从数据库中获取用户数据,根据用户数据获取用户对信息做 出反应的时间;

步骤2.2:采用Gaussian Logit Curve模型方法,将用户对信息做出 反应时间进行统计,计算得出每种社交网络用户类别分布;

步骤2.3:利用用户类别分布结合Rogers创新扩散理论,计算得出 Diffusion_Info用户类别分布向量。

进一步,步骤5的具体实现为:

步骤5.1:通过K-SC算法将社交网络上的信息传播聚类成若干种基本信 息传播曲线;

步骤5.2:将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当 前信息传播曲线进行拟合;

步骤5.3:找到与当前信息传播曲线拟合度最高的基本信息传播曲线, 即为社交网络信息传播趋势线。

本发明解决上述技术问题的另一技术方案如下:一种对社交网络信息传 播趋势预测的系统,包括数据获取模块、数据库模块、用户数据处理模块、 信息数据处理模块、当前信息传播曲线计算模块和信息传播趋势线预测模 块;

所述数据获取模块,其用于获取社交网络中的信息数据和用户数据,并 将信息数据和用户数据存入到数据库中;

所述数据库模块,其用于存放归一化的信息数据及用户数据;

所述用户数据处理模块,其用于从数据库获取用户数据,统计出用户类 别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用 户类别分布向量;

所述信息数据处理模块,其用于从数据库获取信息数据,将信息传播趋 势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将 不同的社交网络平台信息数据进行归一化处理;

所述当前信息传播曲线计算模块,其用于利用移动平均方法对归一化的 信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当 前信息传播点,绘制当前信息传播曲线;

所述信息传播趋势线预测模块,其用于将通过K-SC算法得到的若干基 本信息传播曲线与当前信息传播曲线拟合,取拟合差值最小的基本信息传播 曲线为社交网络信息传播趋势线。

本发明的有益效果是:本发明的系统在运行时内存代价低,拥有很高的 效率,拥有独立性和可移植性;本发明能够对信息传播趋势做出及早的预测, 对信息的及时推送,和网络的舆情及时控制都有很大的帮助。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述数据获取模块包括信息数据获取单元和用户数据获取单 元;

所述信息数据获取单元,其用于获取信息的基本特征数据,将噪音数据 去除,以统一形式存入数据库;

所述用户数据获取单元,其用于获取用户对信息做出反应的时间数据, 记录其采纳信息的时间,存入数据库。

进一步,所述用户数据处理模块包括数据时间间隔统计单元、社交网络 用户类别统计单元和用户类别分布向量计算单元;

所述数据时间间隔统计单元,根据用户数据获取用户对信息做出反应的 时间;

所述社交网络用户类别统计单元,其用于采用Gaussian Logit Curve模 型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户 类别分布;

用户类别分布向量计算单元,其用于利用用户类别分布结合Rogers创 新扩散理论,计算得出Diffusion_Info用户类别分布向量。

进一步,所述信息传播趋势线预测模块包括基本信息传播曲线聚类单元 和信息传播趋势预测单元;

所述基本信息传播曲线聚类单元,其用于通过K-SC算法将社交网络上 的信息传播聚类成若干种基本信息传播曲线;

所述信息传播趋势预测单元步骤,其用于将基本信息传播曲线与当前信 息传播曲线进行拟合,找到与预测值拟合度最高的基本信息传播曲线,即为 社交网络信息传播趋势预测趋势线。

附图说明

图1为本发明所述一种对社交网络信息传播趋势预测的方法流程图;

图2为本发明所述一种对社交网络信息传播趋势预测的系统框图;

图3为本发明所述数据获取模块结构框图;

图4为本发明所述用户数据处理模块结构框图;

图5为本发明所述信息传播趋势线预测模块结构框图。

附图中,各标号所代表的部件列表如下:

1、数据获取模块,2、数据库模块,3、用户数据处理模块,4、信息数 据处理模块,5、当前信息传播曲线计算模块,6、信息传播趋势线预测模块, 11、信息数据获取单元,12、用户数据获取单元,31、数据时间间隔统计 单元,32、社交网络用户类别统计单元,33和用户类别分布向量计算单元,, 61、基本信息传播曲线聚类单元,62、和信息传播趋势预测单元62。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本 发明,并非用于限定本发明的范围。

如图1所示,一种对社交网络信息传播趋势预测的方法,包括如下步骤:

步骤1:获取社交网络中的信息数据和用户数据,并将信息数据和用户 数据存入到数据库中;

步骤2:从数据库获取用户数据,统计出用户类别及用户类别在不同社 交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;

步骤3:从数据库获取信息数据,将信息传播趋势以时间间隔进行统计, 得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息 数据进行归一化处理;

步骤4:利用移动平均方法对归一化的信息数据进行平滑处理,结合 Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传 播曲线;

步骤5:将通过K-SC算法得到的若干基本信息传播曲线与步骤4中得到 的当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络 信息传播趋势线。

所述步骤2和步骤3的执行没有先后顺序限制。

其中,步骤1中获取社交网络中的信息数据和用户数据时,根据不同类 型的社交网站采取不同的数据获取方式;对于以文本形式体现的社交网络, 采用网络爬虫获取所需的信息数据与用户数据,对于短文本类的社交网络, 使用平台提供的API获取所需的信息数据与用户数据。

步骤1中获取信息数据时,获取信息的基本特征数据,将噪音数据去除, 以统一形式存入数据库;获取用户数据时,获取用户对信息做出反应的时间 数据,记录其采纳信息的时间,存入数据库。

步骤2的具体实现为:

步骤2.1:从数据库中获取用户数据,根据用户数据获取用户对信息做 出反应的时间;

步骤2.2:采用Gaussian Logit Curve模型方法,将用户对信息做出 反应时间进行统计,计算得出每种社交网络用户类别分布;

步骤2.3:利用用户类别分布结合Rogers创新扩散理论,计算得出 Diffusion_Info用户类别分布向量。

所述的Rogers的创新扩散理论是根据生活中人们对采纳新事物的时间, 把创新的采用者分为创新者、早期采用者、早期大多数、晚期大多数和落后 者。创新者是勇敢的先行者,自觉推动创新,创新交流中发挥重要作用。早 期采用者是受人尊敬的社会人士,是公众意见领袖,但行为谨慎。早期大多 数是有思想的一群人,也比较谨慎,但他们较之普通人群更愿意、更早地接 受变革。晚期大多数是持怀疑态度的一群人,只有当社会大众普遍接受了新 鲜事物的时候,才会采用。落后者是保守传统的一群人,习惯于因循守旧, 对新鲜事物吹毛求疵,只有当新的发展成为主流、成为传统时,才会被动接 受。

步骤4中移动平均法是用一组最近的实际数据值来预测未来一期或几期 内公司产品的需求量、公司产能等的一种常用方法。移动平均法适用于即期 预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移 动平均法能有效地消除预测中的随机波动,是非常有用的。

步骤5的具体实现为:

步骤5.1:通过K-SC算法将社交网络上的信息传播聚类成若干种基本信 息传播曲线;

步骤5.2:将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当 前信息传播曲线进行拟合;

步骤5.3:找到与当前信息传播曲线拟合度最高的基本信息传播曲线, 即为社交网络信息传播趋势线。

这里所提到K-SC算法是来自斯坦福大学的Jaewon Yang等人采用聚类 方法,对社交网络中的信息进行分析,从而找到了6种基本社交网络信息的 时序传播模式。

如图2所示,一种对社交网络信息传播趋势预测的系统,包括数据获取 模块1、数据库模块2、用户数据处理模块3、信息数据处理模块4、当前信 息传播曲线计算模块5和信息传播趋势线预测模块6;

所述数据获取模块1,其用于获取社交网络中的信息数据和用户数据, 并将信息数据和用户数据存入到数据库中;

所述数据库模块2,其用于存放归一化的信息数据及用户数据;

所述用户数据处理模块3,其用于从数据库获取用户数据,统计出用户 类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info 用户类别分布向量;

所述信息数据处理模块4,其用于从数据库获取信息数据,将信息传播 趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征, 将不同的社交网络平台信息数据进行归一化处理;

所述当前信息传播曲线计算模块5,其用于利用移动平均方法对归一化 的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出 当前信息传播点,绘制当前信息传播曲线;

所述信息传播趋势线预测模块6,其用于将通过K-SC算法得到的若干基 本信息传播曲线与当前信息传播曲线拟合,取拟合差值最小的基本信息传播 曲线为社交网络信息传播趋势线。

如图3所示,所述数据获取模块1包括信息数据获取单元11和用户数 据获取单元12;

所述信息数据获取单元11,其用于获取信息的基本特征数据,将噪音数 据去除,以统一形式存入数据库;

所述用户数据获取单元12,其用于获取用户对信息做出反应的时间数 据,记录其采纳信息的时间,存入数据库。

如图4所示,所述用户数据处理模块3包括数据时间间隔统计单元31、 社交网络用户类别统计单元32和用户类别分布向量计算单元33;

所述数据时间间隔统计单元31,根据用户数据获取用户对信息做出反应 的时间;

所述社交网络用户类别统计单元32,其用于采用Gaussian Logit Curve 模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用 户类别分布;

用户类别分布向量计算单元33,其用于利用用户类别分布结合Rogers 创新扩散理论,计算得出Diffusion_Info用户类别分布向量。

如图5所示,所述信息传播趋势线预测模块6包括基本信息传播曲线聚 类单元61和信息传播趋势预测单元62;

所述基本信息传播曲线聚类单元61,其用于通过K-SC算法将社交网络 上的信息传播聚类成若干种基本信息传播曲线;

所述信息传播趋势预测单元步骤62,其用于将基本信息传播曲线与当前 信息传播曲线进行拟合,找到与预测值拟合度最高的基本信息传播曲线,即 为社交网络信息传播趋势预测趋势线。

本发明以天涯论坛为例,对于上述步骤具体实施步骤描述如下:

天涯论坛是开放性的BBS平台,目前论坛所给的API接口还不是足够完 善,没有达到实际要求,其本身又是以网页html为主,所以本实施例,采 用网络爬虫的方式来获取信息数据和用户数据。

第一,获取社交网络中的信息数据和用户数据,并将信息数据和用户数 据存入到数据库中。

准备过程:在32位windows7平台下安装配置Microsoft SQL Server 2008数据库,编写网络爬虫程序TYCrawler。

1)通过在主机上设置爬取启动时间来执行爬虫程序TYCrawler。对于信 息数据,每个帖子都有自己独有的ID,所以不用对信息的URL进行去重操作。 爬取符合条件并被加入待爬取队列的URL。对于用户数据,由于一个用户可 以对一个帖子进行多次回复,所以在爬取用户数据的时候,要建立一个已爬 取的用户表,每次对要爬取的用户进行判断。

用正则表达式来选择符合爬取要求的URL,并将符合的URL加入到 Wait_URL队列,利用JSoup的对抓取的html进行解析。其中, getWait_URL(URL)函数是获取符合待爬取的URL,getInfo(Post_ID)函数功 能是爬取给定ID帖子的全部特征信息,包括标题、内容、点击量、回复量、 回复时间等。getReply_ID(Post_ID)函数功能是获取回复帖子的用户ID。最 终将信息数据存入到SQL Server2008数据库中。

TYCrawler定义如下:

2)SQL Server2008数据库的设计。信息数据和用户数据的设计字段如 下:

信息数据:ID(帖子ID),text(帖子内容),click(点击量),reply (回复量),time(发帖时间)。

用户数据:ID(用户ID),PostID(回复帖子ID),text(回复内容), floor(回复楼层),time(回复时间)。

这里,函数void TYCrawler()的定义只是起到示例和说明作用,本领 域普通技术人员应该理解,可以在现有的操作系统平台上使用已有的任何编 程语言来实现该函数的功能,即获取信息数据和用户数据。

第二,利用Gaussian Logit Curve模型求解出用户类别的分布,计算 出Diffusion_Info向量。这里Gaussian Logit Curve模型是在创新扩散理 论的基础上提出来的,创新扩散理论中把群体分为了5类,而Gaussian Logit  Curve模型求解就是这几类用户的分布。

在本实施例中,首先要根据用户数据统计出时间特征, getTime_Span(time)函数实现。利用Gaussian Logit Curve进行时间数据 处理,求解出用户类别分布。将用户类别分布结合创新扩散理论,计算出 Diffusion_Info向量值。函数getDiffusion_Info()实现这个过程。

getDiffusion_Info()主要定义如下:

getDiffusion_Info(){

数据库读取用户数据,提取时间集合T;

利用getTime_Span(time)函数统计出时间特征;

对时间进行Gaussian Logit Curve模型方法处理;

利用函数getDiffusion_Info()计算出Diffusion_Info向量;

返回Diffusion_Info;

函数结束;

}

第三,利用生成的Diffusion_Info用户类别分布向量和移动均值法对 信息数据进行计算,得出预测点值。

这里采用加权移动平均法求解信息传播的预测点,因为每一种社交网 络,由于服务的内容不同,所以用户类别的分布是有所差异的,时间上对信 息传播的影响也是不同的。加入Diffusion_Info向量可以解决这个问题。

加权移动平均法的计算公式如下:

Ft=w1At-1+w2At-2+w3At-3+…+wnAt-n式中,w1是第t-1期实际的权重;w2为第 t-2期实际的权重;wn是第t-n期实际的权重;n为预测的时期数;其中w1+ w2+…+wn=1。

x=x1f1+x2f2+...+xkfkn

第四,利用K-SC算法中几种信息传播曲线对预测值进行拟合,求解出 信息传播趋势预测曲线。具体实现函数为Trend_Pre(ID)定义如下:

本发明充分考虑了社交网络信息的实时性,利用当前信息的部分传播趋 势,与K-SC中所得到的信息传播曲线进行拟合,K-SC的传播曲线是对完整 的信息传播曲线模式的一个类别划分,因此根据部分当前信息传播曲线利用 趋势预测,能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性, 对信息及时推送和社交网络的舆情及时控制提供了帮助。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发 明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号