首页> 中国专利> 基于大数据的新闻话语权评估及预测方法

基于大数据的新闻话语权评估及预测方法

摘要

本发明公开了基于大数据的新闻话语权评估及预测方法。本发明主要实现对新闻的话语权的评估以及新闻话语权的预测,在大数据环境下,对于及时发现舆情导向,从而正确、及时的制定舆情应对方案具有积极作用。

著录项

  • 公开/公告号CN113128207A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 安徽博约信息科技股份有限公司;

    申请/专利号CN202110506791.5

  • 发明设计人 郑中华;胡淦;王文仲;

    申请日2021-05-10

  • 分类号G06F40/216(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构34169 合肥市道尔知识产权代理有限公司;

  • 代理人司贺华

  • 地址 230000 安徽省合肥市高新区创新大道2800号创新产业园二期G3栋A区5-6层

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及一种基于大数据的新闻话语权评估及预测方法,该方法主要实现对新闻的话语权的评估以及新闻话语权的预测,在大数据环境下,对于及时发现舆情导向,从而正确、及时的制定舆情应对方案具有积极作用。

背景技术

传统的新闻话语权主要是综合用户的活跃度(用户的活跃度包括用户所发新闻和用户转发的新闻)和用户所发新闻质量(用户所发的新闻质量包括用户新闻被转发和被评论的次数)作为综合指标得到话语权权重,并结合网络扑结构计算用户在社交网络中的话语权;或从感知度、参与度和社会关注度三个维度进行测度。感知度可分为点击量和阅读时长;参与度为转发量和评论量;社会关注度为社交媒体的提及量、其他媒体的转载量以及后续报道量。最后利用极大似然估计法进行结构方程模型的估计与拟合,利用R软件提供的拟合度指标来分析模型的整体适配度,确定权重,最终根据权重求解话语权。但是这些方法中,基于该新闻的简单的转发或评论来进行话语权的评估,难以区分那些恶意转发的行为的干扰,另外,这些方法都没有考虑到新闻的转载及评论与作者本身的粉丝以及关注度成正比,这种情况下传统的那些计算规则更倾向于那些大V账号,难以及时发掘那些普通账号的爆炸性兴起。

用户话语权的预测方法,有人通过对用户话语权进行分析,建立了关于用户话语权的度量指标,把每篇博文基本属性作为衡量该微博的话语权的主要特征,再通过计算用户所发微博话语权的总和来得到该用户的话语权,然后针对四种特征集群分开使用xgboost进行训练,得到一个具有较好拟合效果的预测模型;还有人对信息的话语权做对数处理,早期话语权和晚期话语权会呈现出很强的线性关联性,利用这种强关联性,建立了线性回归模型;还有人使用机器学习算法,对于用户特征、转发行为、流行度等影响因素作为机器学习模型的输入,然后利用线性回归、分类回归树、高斯过程回归、支持向量回归和神经网络回归等方法进行预测;这些方法中,仅仅选用静态指标,没有考虑到时间的相关性,效果较差。

发明内容

本发明要解决的技术问题是提供一种基于大数据的新闻话语权评估及预测方法。

为了解决上述技术问题,本发明采用的技术方案是,基于大数据的新闻话语权评估及预测方法,包括如下步骤:

一、话语权的评估:

(1)N阶转载网络的创建:考虑到数据量的扩散性,一般N取3;新闻A的一阶转载网络G

(2)话语权计算:

计算情感指数:情感指数与话语权呈正相关,则对新闻A的n阶转载网络G={G

计算转载指数:对于新闻A的n阶转载网络G={C

其中|A

计算点赞指数:与转载指数求解类似,首先构建N阶点赞网络,其结构与转载网络一致,其中,新闻A的一阶点赞网络R

则最终的话语权Speech=Com_index+rep_index+fav_index;

二、话语权的预测:

(3)选定训练集与测试集,对训练集D={D

(4)求解训练集D的话语权特征量X={X

(5)根据步骤(2)所述的话语权计算方法求解训练集D的话语权Y={Y

(6)将X和Y归一化输入到seq2last模型进行学习得到话语权预测模型;其中seq2last模型由LSTM神经网络、平均池化层、回归层组成,将各时刻的LSTM输出输入至平均池化层,最终在全连接层后连接回归层实现预测,回归层中采用了如下式的改进的sigmoid函数:

上式中添加了一个限制参数α,通过调整不同α值下的激活函数,并利用测试集确定最优预测模型;

(7)对需要预测的数据a,按照步骤(4)求解得到话语权特征量X

本发明的有益效果是:

1、传统的方法中对于新闻话语权的评估大多是基于转发量(或阅读量)来进行评估的,但是对于那些恶意转发或刷评的情况不能够很好的识别并排除,故本发明提出一种基于高阶转载关系网络的话语权评估方法,基于高阶依赖关系排除那些恶意转发的情况。

2、由于新闻的转载及评论与作者本身的粉丝以及关注度成正比,这种情况下传统的那些计算规则更倾向于那些大V账号,难以及时发掘那些普通账号的爆炸性兴起,故本发明引入一个作者追随指数概念,基于该指数的特征“归一化”能有效解决该问题,同时引入情感指数,提高评估可信度。

3、以实际经验来看,某段时间的话语权与其之前的时间内的话语权是相关的,传统的话语权预测方法大多没有考虑到时间因素,本发明考虑到时间的关联性,基于时间相关性来进行预测。

4、同时本发明基于一种改进的seq2last模型来实现话语权的预测,最终的LSTM层结果不再是直接取最后一个时刻的值作为最终结果,而是添加了一个最大池化层取各个时刻的平均值最为最终的结果,同时回归层的激活函数使用了改进的sigmoid函数,发现预测效果更优。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例的转载网络形。

图2是本发明实施例的的seq2last模型模型。

具体实施方式

一、对一篇新闻A的话语权的评估主要包括以下步骤:

(1)首先创建N阶转载网络:考虑到数据量的扩散性,一般N取3。以3阶转载网络为例,新闻A的一阶转载网络G

(2)话语权计算:

计算情感指数:研究发现评论情感指数与话语权呈正相关,则对新闻A的3阶转载网络G={G

计算转载指数:对于新闻A的3阶转载网络G={G

其中|A

计算点赞指数:与转载指数求解类似,首先构建N阶点赞网络,其结构与转载网络一致,其中,新闻A的一阶点赞网络R

则最终的话语权Speech=Com_index+rep_index+fav_index;

二、根据变量特征来完成话语权的预测,主要是构建一个预测模型,具体步骤如下:

(1)选定训练集与测试集,对训练集D={D

(2)求解数据集D的话语权特征量X={X

(3)根据话语权计算方法求解训练集D的话语权Y={Y

(4)将X和Y归一化输入到seq2last模型进行学习得到话语权预测模型,seq2last模型结构如附图2所示;

(5)通过模型参数优化,如回归层激活函数

(6)对需要预测的数据a,按照步骤(2)求解得到话语权特征量X

本实施例具有以下技术特点:

1、本实施例提出一种基于高阶转载关系网络的话语权评估方法,基于高阶依赖关系排除那些恶意转发的情况。

2、由于新闻的转载及评论与作者本身的粉丝以及关注度成正比,这种情况下传统的那些计算规则更倾向于那些大V账号,难以及时发掘那些普通账号的爆炸性兴起,故本实施例引入一个作者追随指数概念,基于该指数的特征“归一化”能有效解决该问题,同时引入情感指数,进行评估。

3、本实施例考虑到时间的关联性,基于时间相关性来进行预测。

4、本实施例基于一种改进的seq2last模型来实现话语权的预测,最终的LSTM层结果不再是直接取最后一个时刻的值作为最终结果,而是添加了一个最大池化层取各个时刻的平均值最为最终的结果,同时回归层的激活函数使用了改进的sigmoid函数。

以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号