首页> 中国专利> 一种对社交网络信息传播趋势预测的方法及系统

一种对社交网络信息传播趋势预测的方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种对社交网络信息传播趋势预测的方法及系统，包括获取社交网络中的信息数据和用户数据，利用用户数据计算出用户类别分布向量；对信息数据进行归一化处理；利用移动平均方法对归一化的信息数据进行平滑处理，结合Diffusion-Info用户类别分布向量计算出信息传播趋势的预测点，绘制信息传播趋势线；将通过K-SC算法得到的若干基本信息传播曲线与信息传播趋势线拟合，获取信息传播趋势预测线的后续趋势线；本发明能够尽早的对信息传播能力进行估计，减少了传统方法的滞后性，对信息及时推送和社交网络的舆情及时控制提供了帮助；同时本发明的系统在运行时内存代价低，拥有很高的效率，拥有独立性和可移植性。

著录项

公开/公告号CN104008150A

专利类型发明专利
公开/公告日2014-08-27

原文格式PDF
申请/专利权人中国科学院信息工程研究所;
展开▼

申请/专利号CN201410213602.5
发明设计人于延宇;胡玥;李歌;李丹;
展开▼

申请日2014-05-20
分类号G06F17/30;G06Q10/04;
代理机构北京轻创知识产权代理有限公司;
代理人杨立
地址 100093 北京市海淀区闵庄路甲89号
入库时间 2023-12-17 00:55:30

法律信息

法律状态公告日

法律状态信息

法律状态
2017-07-07

授权

授权
2014-09-24

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140520

实质审查的生效
2014-08-27

公开

公开

说明书

技术领域

本发明涉及社交网络中的信息传播领域，尤其涉及一种对社交网络信息传播趋势预测的方法及系统。

背景技术

目前，网络已经成为人获取信息的重要途径，尤其是随着各种社交网站的快速崛起，更方便的信息获取和更快速的信息传播随之而来。更多的信息利用网络来到人们面前，更多的问题也就会出现。社交网络已经形成了庞大的线上社会群体，构建了密切的线上人际关系。然而，这种前所未有的信息传播优势和巨大的影响力，怎样最大化的突起其优势，摒弃其缺点，让社交网络这个线上社会充满正能量成为此方法的动力和目标。

社交网络上的信息传播不同于信件、口头、报纸等传统的信息传播，社交网络中的信息传播具有以下几方面的突出特征，第一，具有很强的实时性，科技的进步，信息的发出者很容易将看到的重大事件用最快的时间向外传播，例如：2009年1月15日的美国哈尔逊河坠机时间，不到15分钟，Twitter 中已经广泛传播，而纽约日报的报道却在15小时之后。第二，拥有较强的群体性，社交网络的信息发布变得随心所欲，不同的人出于一些目的会发布一些具有煽动性的信息，而这些信息广泛传播将会引发群体性。第三，信息更新周期性变小，由于信息的大量发布，信息的来源越来越广，所以信息在传播中逐渐被新的信息所取代，周期性变小。

信息传播的趋势预测结合社交网络上信息传播的特点，会有效的解决很多问题，本发明要解决的主要是以下两个方面的问题：

第一，信息的及时推送，现在各大社交网站以及网民对信息的及时推送需求越来越高，能够根据信息的传播趋势来推送信息，会得到很好的实时性效果。让信息更准，更快的推送到需求人面前。

第二，网络舆情控制，网络信息具有很强的群体性和突发性，如果能将舆情信息提前发现和有效的控制，就会避免很多的群体性事件，将线上的社会变得更加和谐，稳定。

能够及早的发现信息传播中的变化，尽早的对信息的传播趋势做出预测成为了信息实时推送和社会网络舆情监测的主要部分。目前，对信息推送和舆情传播都是采用的监测方法，设置一个阀值，当信息的某些参数大于这个阀值时，就会定义为推送信息或者舆情信息。这些方法相对粗糙，信息的实时特征很难得到保证。

发明内容

本发明所要解决的技术问题是提供一种可实时、有效、快速对社交网络信息传播趋势预测的方法及系统，用于解决现有技术中存在的在社交网络信息传播过程中，热点发现滞后，信息推送以及网络舆情监测难以实现实时性等问题。

本发明解决上述技术问题的技术方案如下：一种对社交网络信息传播趋势预测的方法，包括如下步骤：

步骤1：获取社交网络中的信息数据和用户数据，并将信息数据和用户数据存入到数据库中；

步骤2：从数据库获取用户数据，统计出用户类别及用户类别在不同社交网站的分布情况，进而计算出Diffusion_Info用户类别分布向量；

步骤3：从数据库获取信息数据，将信息传播趋势以时间间隔进行统计，得到的时序序列作为信息传播中热度趋势特征，将不同的社交网络平台信息数据进行归一化处理；

步骤4：利用移动平均方法对归一化的信息数据进行平滑处理，结合 Diffusion-Info用户类别分布向量计算出当前信息传播点，绘制当前信息传播曲线；

步骤5：将通过K-SC算法得到的若干基本信息传播曲线与步骤4中得到的当前信息传播曲线拟合，取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。

本发明的有益效果是：本发明充分考虑了社交网络信息的实时性，利用当前信息的部分传播趋势，与K-SC中所得到的信息传播曲线进行拟合，K-SC 的传播曲线是对完整的信息传播曲线模式的一个类别划分，因此根据部分当前信息传播曲线利用趋势预测，能够尽早的对信息传播能力进行估计，减少了传统方法的滞后性，对信息及时推送和社交网络的舆情及时控制提供了帮助。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤1中获取社交网络中的信息数据和用户数据时，根据不同类型的社交网站采取不同的数据获取方式；对于以文本形式体现的社交网络，采用网络爬虫获取所需的信息数据与用户数据，对于短文本类的社交网络，使用平台提供的API获取所需的信息数据与用户数据。

进一步，步骤1中获取信息数据时，获取信息的基本特征数据，将噪音数据去除，以统一形式存入数据库；获取用户数据时，获取用户对信息做出反应的时间数据，记录其采纳信息的时间，存入数据库。

进一步，步骤2的具体实现为：

步骤2.1：从数据库中获取用户数据，根据用户数据获取用户对信息做出反应的时间；

步骤2.2：采用Gaussian Logit Curve模型方法，将用户对信息做出反应时间进行统计，计算得出每种社交网络用户类别分布；

步骤2.3：利用用户类别分布结合Rogers创新扩散理论，计算得出 Diffusion_Info用户类别分布向量。

进一步，步骤5的具体实现为：

步骤5.1：通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线；

步骤5.2：将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当前信息传播曲线进行拟合；

步骤5.3：找到与当前信息传播曲线拟合度最高的基本信息传播曲线，即为社交网络信息传播趋势线。

本发明解决上述技术问题的另一技术方案如下：一种对社交网络信息传播趋势预测的系统，包括数据获取模块、数据库模块、用户数据处理模块、信息数据处理模块、当前信息传播曲线计算模块和信息传播趋势线预测模块；

所述数据获取模块，其用于获取社交网络中的信息数据和用户数据，并将信息数据和用户数据存入到数据库中；

所述数据库模块，其用于存放归一化的信息数据及用户数据；

所述用户数据处理模块，其用于从数据库获取用户数据，统计出用户类别及用户类别在不同社交网站的分布情况，进而计算出Diffusion_Info用户类别分布向量；

所述信息数据处理模块，其用于从数据库获取信息数据，将信息传播趋势以时间间隔进行统计，得到的时序序列作为信息传播中热度趋势特征，将不同的社交网络平台信息数据进行归一化处理；

所述当前信息传播曲线计算模块，其用于利用移动平均方法对归一化的信息数据进行平滑处理，结合Diffusion-Info用户类别分布向量计算出当前信息传播点，绘制当前信息传播曲线；

所述信息传播趋势线预测模块，其用于将通过K-SC算法得到的若干基本信息传播曲线与当前信息传播曲线拟合，取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。

本发明的有益效果是：本发明的系统在运行时内存代价低，拥有很高的效率，拥有独立性和可移植性；本发明能够对信息传播趋势做出及早的预测，对信息的及时推送，和网络的舆情及时控制都有很大的帮助。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述数据获取模块包括信息数据获取单元和用户数据获取单元；

所述信息数据获取单元，其用于获取信息的基本特征数据，将噪音数据去除，以统一形式存入数据库；

所述用户数据获取单元，其用于获取用户对信息做出反应的时间数据，记录其采纳信息的时间，存入数据库。

进一步，所述用户数据处理模块包括数据时间间隔统计单元、社交网络用户类别统计单元和用户类别分布向量计算单元；

所述数据时间间隔统计单元，根据用户数据获取用户对信息做出反应的时间；

所述社交网络用户类别统计单元，其用于采用Gaussian Logit Curve模型方法，将用户对信息做出反应时间进行统计，计算得出每种社交网络用户类别分布；

用户类别分布向量计算单元，其用于利用用户类别分布结合Rogers创新扩散理论，计算得出Diffusion_Info用户类别分布向量。

进一步，所述信息传播趋势线预测模块包括基本信息传播曲线聚类单元和信息传播趋势预测单元；

所述基本信息传播曲线聚类单元，其用于通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线；

所述信息传播趋势预测单元步骤，其用于将基本信息传播曲线与当前信息传播曲线进行拟合，找到与预测值拟合度最高的基本信息传播曲线，即为社交网络信息传播趋势预测趋势线。

附图说明

图1为本发明所述一种对社交网络信息传播趋势预测的方法流程图；

图2为本发明所述一种对社交网络信息传播趋势预测的系统框图；

图3为本发明所述数据获取模块结构框图；

图4为本发明所述用户数据处理模块结构框图；

图5为本发明所述信息传播趋势线预测模块结构框图。

附图中，各标号所代表的部件列表如下：

1、数据获取模块，2、数据库模块，3、用户数据处理模块，4、信息数据处理模块,5、当前信息传播曲线计算模块，6、信息传播趋势线预测模块， 11、信息数据获取单元，12、用户数据获取单元，31、数据时间间隔统计单元，32、社交网络用户类别统计单元，33和用户类别分布向量计算单元，, 61、基本信息传播曲线聚类单元，62、和信息传播趋势预测单元62。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种对社交网络信息传播趋势预测的方法，包括如下步骤：

步骤1：获取社交网络中的信息数据和用户数据，并将信息数据和用户数据存入到数据库中；

步骤2：从数据库获取用户数据，统计出用户类别及用户类别在不同社交网站的分布情况，进而计算出Diffusion_Info用户类别分布向量；

步骤4：利用移动平均方法对归一化的信息数据进行平滑处理，结合 Diffusion-Info用户类别分布向量计算出当前信息传播点，绘制当前信息传播曲线；

所述步骤2和步骤3的执行没有先后顺序限制。

其中，步骤1中获取社交网络中的信息数据和用户数据时，根据不同类型的社交网站采取不同的数据获取方式；对于以文本形式体现的社交网络，采用网络爬虫获取所需的信息数据与用户数据，对于短文本类的社交网络，使用平台提供的API获取所需的信息数据与用户数据。

步骤1中获取信息数据时，获取信息的基本特征数据，将噪音数据去除，以统一形式存入数据库；获取用户数据时，获取用户对信息做出反应的时间数据，记录其采纳信息的时间，存入数据库。

步骤2的具体实现为：

步骤2.1：从数据库中获取用户数据，根据用户数据获取用户对信息做出反应的时间；

步骤2.2：采用Gaussian Logit Curve模型方法，将用户对信息做出反应时间进行统计，计算得出每种社交网络用户类别分布；

步骤2.3：利用用户类别分布结合Rogers创新扩散理论，计算得出 Diffusion_Info用户类别分布向量。

所述的Rogers的创新扩散理论是根据生活中人们对采纳新事物的时间，把创新的采用者分为创新者、早期采用者、早期大多数、晚期大多数和落后者。创新者是勇敢的先行者，自觉推动创新，创新交流中发挥重要作用。早期采用者是受人尊敬的社会人士，是公众意见领袖，但行为谨慎。早期大多数是有思想的一群人，也比较谨慎，但他们较之普通人群更愿意、更早地接受变革。晚期大多数是持怀疑态度的一群人，只有当社会大众普遍接受了新鲜事物的时候，才会采用。落后者是保守传统的一群人，习惯于因循守旧，对新鲜事物吹毛求疵，只有当新的发展成为主流、成为传统时，才会被动接受。

步骤4中移动平均法是用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降，且不存在季节性因素时，移动平均法能有效地消除预测中的随机波动，是非常有用的。

步骤5的具体实现为：

步骤5.1：通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线；

步骤5.2：将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当前信息传播曲线进行拟合；

步骤5.3：找到与当前信息传播曲线拟合度最高的基本信息传播曲线，即为社交网络信息传播趋势线。

这里所提到K-SC算法是来自斯坦福大学的Jaewon Yang等人采用聚类方法，对社交网络中的信息进行分析，从而找到了6种基本社交网络信息的时序传播模式。

如图2所示，一种对社交网络信息传播趋势预测的系统，包括数据获取模块1、数据库模块2、用户数据处理模块3、信息数据处理模块4、当前信息传播曲线计算模块5和信息传播趋势线预测模块6；

所述数据获取模块1，其用于获取社交网络中的信息数据和用户数据，并将信息数据和用户数据存入到数据库中；

所述数据库模块2，其用于存放归一化的信息数据及用户数据；

所述用户数据处理模块3，其用于从数据库获取用户数据，统计出用户类别及用户类别在不同社交网站的分布情况，进而计算出Diffusion_Info 用户类别分布向量；

所述信息数据处理模块4，其用于从数据库获取信息数据，将信息传播趋势以时间间隔进行统计，得到的时序序列作为信息传播中热度趋势特征，将不同的社交网络平台信息数据进行归一化处理；

所述当前信息传播曲线计算模块5，其用于利用移动平均方法对归一化的信息数据进行平滑处理，结合Diffusion-Info用户类别分布向量计算出当前信息传播点，绘制当前信息传播曲线；

所述信息传播趋势线预测模块6，其用于将通过K-SC算法得到的若干基本信息传播曲线与当前信息传播曲线拟合，取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。

如图3所示，所述数据获取模块1包括信息数据获取单元11和用户数据获取单元12；

所述信息数据获取单元11，其用于获取信息的基本特征数据，将噪音数据去除，以统一形式存入数据库；

所述用户数据获取单元12，其用于获取用户对信息做出反应的时间数据，记录其采纳信息的时间，存入数据库。

如图4所示，所述用户数据处理模块3包括数据时间间隔统计单元31、社交网络用户类别统计单元32和用户类别分布向量计算单元33；

所述数据时间间隔统计单元31，根据用户数据获取用户对信息做出反应的时间；

所述社交网络用户类别统计单元32，其用于采用Gaussian Logit Curve 模型方法，将用户对信息做出反应时间进行统计，计算得出每种社交网络用户类别分布；

用户类别分布向量计算单元33，其用于利用用户类别分布结合Rogers 创新扩散理论，计算得出Diffusion_Info用户类别分布向量。

如图5所示，所述信息传播趋势线预测模块6包括基本信息传播曲线聚类单元61和信息传播趋势预测单元62；

所述基本信息传播曲线聚类单元61，其用于通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线；

所述信息传播趋势预测单元步骤62，其用于将基本信息传播曲线与当前信息传播曲线进行拟合，找到与预测值拟合度最高的基本信息传播曲线，即为社交网络信息传播趋势预测趋势线。

本发明以天涯论坛为例，对于上述步骤具体实施步骤描述如下：

天涯论坛是开放性的BBS平台，目前论坛所给的API接口还不是足够完善，没有达到实际要求，其本身又是以网页html为主，所以本实施例，采用网络爬虫的方式来获取信息数据和用户数据。

第一，获取社交网络中的信息数据和用户数据，并将信息数据和用户数据存入到数据库中。

准备过程：在32位windows7平台下安装配置Microsoft SQL Server 2008数据库，编写网络爬虫程序TYCrawler。

1)通过在主机上设置爬取启动时间来执行爬虫程序TYCrawler。对于信息数据，每个帖子都有自己独有的ID，所以不用对信息的URL进行去重操作。爬取符合条件并被加入待爬取队列的URL。对于用户数据，由于一个用户可以对一个帖子进行多次回复，所以在爬取用户数据的时候，要建立一个已爬取的用户表，每次对要爬取的用户进行判断。

用正则表达式来选择符合爬取要求的URL，并将符合的URL加入到 Wait_URL队列，利用JSoup的对抓取的html进行解析。其中， getWait_URL(URL)函数是获取符合待爬取的URL，getInfo(Post_ID)函数功能是爬取给定ID帖子的全部特征信息，包括标题、内容、点击量、回复量、回复时间等。getReply_ID(Post_ID)函数功能是获取回复帖子的用户ID。最终将信息数据存入到SQL Server2008数据库中。

TYCrawler定义如下：

2)SQL Server2008数据库的设计。信息数据和用户数据的设计字段如下：

信息数据：ID(帖子ID)，text(帖子内容)，click(点击量)，reply (回复量)，time(发帖时间)。

用户数据：ID(用户ID)，PostID(回复帖子ID)，text(回复内容)， floor(回复楼层)，time(回复时间)。

这里，函数void TYCrawler()的定义只是起到示例和说明作用，本领域普通技术人员应该理解，可以在现有的操作系统平台上使用已有的任何编程语言来实现该函数的功能，即获取信息数据和用户数据。

第二，利用Gaussian Logit Curve模型求解出用户类别的分布，计算出Diffusion_Info向量。这里Gaussian Logit Curve模型是在创新扩散理论的基础上提出来的，创新扩散理论中把群体分为了5类，而Gaussian Logit Curve模型求解就是这几类用户的分布。

在本实施例中，首先要根据用户数据统计出时间特征， getTime_Span(time)函数实现。利用Gaussian Logit Curve进行时间数据处理，求解出用户类别分布。将用户类别分布结合创新扩散理论，计算出 Diffusion_Info向量值。函数getDiffusion_Info()实现这个过程。

getDiffusion_Info()主要定义如下：

getDiffusion_Info(){

数据库读取用户数据，提取时间集合T；

利用getTime_Span(time)函数统计出时间特征；

对时间进行Gaussian Logit Curve模型方法处理；

利用函数getDiffusion_Info()计算出Diffusion_Info向量；

返回Diffusion_Info；

函数结束；

}

第三，利用生成的Diffusion_Info用户类别分布向量和移动均值法对信息数据进行计算，得出预测点值。

这里采用加权移动平均法求解信息传播的预测点，因为每一种社交网络，由于服务的内容不同，所以用户类别的分布是有所差异的，时间上对信息传播的影响也是不同的。加入Diffusion_Info向量可以解决这个问题。

加权移动平均法的计算公式如下：

F_t＝w₁A_t-1+w₂A_t-2+w₃A_t-3+…+w_nA_t-n式中，w₁是第t-1期实际的权重；w₂为第 t-2期实际的权重；w_n是第t-n期实际的权重；n为预测的时期数；其中w₁+ w₂+…+w_n＝1。

$\overline{x} = \frac{x_{1} f_{1} + x_{2} f_{2} + . . . + x_{k} f_{k}}{n}$

第四，利用K-SC算法中几种信息传播曲线对预测值进行拟合，求解出信息传播趋势预测曲线。具体实现函数为Trend_Pre(ID)定义如下：

本发明充分考虑了社交网络信息的实时性，利用当前信息的部分传播趋势，与K-SC中所得到的信息传播曲线进行拟合，K-SC的传播曲线是对完整的信息传播曲线模式的一个类别划分，因此根据部分当前信息传播曲线利用趋势预测，能够尽早的对信息传播能力进行估计，减少了传统方法的滞后性，对信息及时推送和社交网络的舆情及时控制提供了帮助。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种对社交网络信息传播趋势预测的方法及系统 [P] . 中国专利： CN104008150B . 2017.07.07
2. 一种社交网络信息传播范围预测方法及系统 [P] . 中国专利： CN111967645A . 2020-11-20
3. Purchasing trend forecasting device, purchasing trend forecasting system, purchasing trend forecasting program, and purchasing trend forecasting method [P] . JP2021189983A . 2021-12-13

机译：采购趋势预测设备，采购趋势预测系统，采购趋势预测计划和采购趋势预测方法
4. METHOD AND DEVICE FOR PREDICTING INFORMATION PROPAGATION IN SOCIAL NETWORK [P] . 美国专利： US2017185908A1 . 2017-06-29

机译：预测社交网络中信息传播的方法和装置
5. METHOD AND DEVICE FOR PREDICTING INFORMATION PROPAGATION IN SOCIAL NETWORK [P] . 欧洲知识产权局专利： EP3159809A1 . 2017-04-26

机译：预测社交网络中信息传播的方法和装置