公开/公告号CN112989161A
专利类型发明专利
公开/公告日2021-06-18
原文格式PDF
申请/专利权人 平安科技(深圳)有限公司;
申请/专利号CN202110260483.9
申请日2021-03-10
分类号G06F16/951(20190101);G06F16/2458(20190101);G06F16/34(20190101);G06F16/35(20190101);
代理机构44414 深圳中一联合知识产权代理有限公司;
代理人李红艳
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 11:29:13
技术领域
本申请属于大数据技术领域,尤其涉及一种新闻舆情监控方法、装置、电子设备及可读存储介质。
背景技术
随着互联网的飞速发展,网络媒体已成为新闻舆情的主要载体之一。网络中的新闻舆情能够反映人们对热点事件的关注程度,也能够反映出热点事件的影响范围和影响程度。因此,对网络新闻舆情的监控十分必要。
传统技术中,对于某一主体的新闻舆情,主要通过人工搜索和统计该主体相关的新闻报道,基于搜索和统计的结果进行舆情监控。
然而,人工逐条搜索和统计新闻报道需要花费较长的时间,不仅费时费力,而且得到的新闻舆情信息存在滞后性。
发明内容
本申请提供一种新闻舆情监控方法、装置、电子设备及可读存储介质,可以解决传统技术中新闻舆情监控滞后的问题。
第一方面,本申请实施例提供了一种新闻舆情监控方法,包括:
实时获取目标主体的第一新闻数据以及所述目标主体所在的目标群体的第二新闻数据;
根据所述第一新闻数据,确定当前周期内所述目标主体的新闻传播量;
根据所述第二新闻数据,确定所述当前周期内所述目标群体的总新闻传播量,所述总新闻传播量用于表征所述目标群体内的各个主体的新闻传播量的总和;
根据所述新闻传播量和所述总新闻传播量确定当前周期所述目标主体的新闻热度比;
根据当前周期的新闻热度比,监控所述目标主体的新闻舆情。
在其中一个实施方式中,所述根据当前周期的新闻热度比,监控所述目标主体的新闻舆情,包括:
获取上一周期的新闻热度比;
根据所述上一周期的新闻热度比和所述当前周期的新闻热度比,确定当前周期的新闻热度变化率;
根据所述当前周期的新闻热度变化率,监控所述目标主体的新闻舆情。
在其中一个实施方式中,所述根据所述当前周期的新闻热度变化率,监控所述目标主体的新闻舆情,包括:
获取上一周期的新闻热度变化率;
计算所述当前周期的新闻热度变化率与所述上一周期的新闻热度变化率之差,得到当前周期的变化率差值;
根据所述当前周期的变化率差值,监控所述目标主体的新闻舆情。
在其中一个实施方式中,所述根据所述当前周期的变化率差值,监控所述目标主体的新闻舆情,包括:
若所述当前周期的变化率差值大于预设阈值,则确定所述目标主体的新闻舆情异常。
在其中一个实施方式中,所述第一新闻数据包括新闻信息和所述新闻信息对应的新闻发表时间,所述新闻信息包括新闻报道、报道转发和报道评论;所述根据所述第一新闻数据,确定当前周期内所述目标主体的新闻传播量,包括:
根据所述新闻发表时间,确定在当前时刻之前的预设时长内所述新闻报道的次数、所述报道转发的次数和所述报道评论的次数;
根据所述新闻报道的次数、所述报道转发的次数和所述报道评论的次数确定所述新闻传播量。
在其中一个实施方式中,所述第一新闻数据包括新闻标题,所述方法还包括:
若所述目标主体的新闻舆情异常,则对当前周期内的所述新闻标题进行聚类,得到多个聚类结果;
对每个所述聚类结果中的新闻标题分别进行摘要提取,得到每个所述聚类结果的文本摘要。
在其中一个实施方式中,所述实时获取目标主体的第一新闻数据,包括:
获取所述目标主体的关键词;
根据所述关键词,利用分布式爬虫技术获取所述第一新闻数据。
第二方面,本申请实施例提供了一种新闻舆情监控装置,包括:
数据获取模块,用于实时获取目标主体的第一新闻数据以及所述目标主体所在的目标群体的第二新闻数据;
传播量确定模块,用于根据所述第一新闻数据,确定当前周期内所述目标主体的新闻传播量;
总传播量确定模块,用于根据所述第二新闻数据,确定所述当前周期内所述目标群体的总新闻传播量,所述总新闻传播量用于表征所述目标群体内的各个主体的新闻传播量的总和;
热度比确定模块,用于根据所述新闻传播量和所述总新闻传播量确定当前周期所述目标主体的新闻热度比;
监控模块,用于根据当前周期的新闻热度比,监控所述目标主体的新闻舆情。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的新闻舆情监控方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的新闻舆情监控方法。
本申请提供的新闻舆情监控方法、装置、电子设备及可读存储介质,通过第一新闻数据确定目标主体的新闻传播量,通过第二新闻数据确定目标群体的总新闻传播量,并通过新闻传播量和总新闻传播量确定当前周期新闻热度比,从而根据新闻热度比监控目标主体的新闻舆情。本实施例提供的新闻舆情监控方法、装置、电子设备及可读存储介质,能够实现对新闻舆情的自动监控和实时监控,避免人工搜索和统计,提高了新闻舆情数据的统计效率,从而提高新闻舆情监控的实时性和准确性,解决了传统技术中舆情监控费时费力及监控滞后的问题。同时,新闻热度比能充分反映目标主体的新闻传播量占目标群体总新闻传播量的比例情况,根据新闻热度比能够更加准确的监控目标主体的新闻舆情。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的电子设备的结构示意图;
图2是本申请一实施例提供的新闻舆情监控方法的流程示意图;
图3是本申请另一实施例提供的新闻舆情监控方法的流程示意图;
图4是本申请又一实施例提供的新闻舆情监控方法的流程示意图;
图5是本申请一实施例提供的新闻舆情监控装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
可以理解,本申请所使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供的新闻舆情监控方法用于监控目标主体的网络新闻舆情,确定目标主体的新闻舆情是否出现异常。其中,目标主体包括但不限于公司、个人、产品或产品品牌等。以目标主体为公司为例,对公司的新闻舆情监控结果可以但不限于用于金融投资。公司基本面是投资者进行个股研究分析的重要方面,而公司的新闻舆情是引起个股股价波动的重要原因。没有特殊事件发生时,公司的新闻舆情是平稳的、稀疏的,甚至是没有的。一旦公司出现特殊事件,其新闻热度激增,新闻舆情异常。因此,对于投资者而言,需要具备及时获取公司新闻舆情的能力,从而根据新闻舆情监控公司的变化,避免因信息滞后而导致投资损失。本申请实施例旨在提供一种新闻舆情监控方法,以实现对新闻舆情的自动监控,解决传统技术中新闻舆情监控滞后的问题。
本申请实施例提供的新闻舆情监控方法,可以应用于电子设备。示例性的,图1为本申请一实施例提供的电子设备的结构示意图。如图1所示,电子设备1可以包括:处理器10、存储器11以及存储在存储器11中并可在处理器10上运行的计算机程序12,处理器10执行计算机程序12时可以实现本申请实施例提供的新闻舆情监控方法。其中,本申请实施例对处理器10、存储器11的数量和类型不做限定。
其中,本申请实施例对电子设备1的类型不做限定。例如,可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
下面将结合附图,对本申请中的技术方案进行详细描述。需要说明,在不冲突的情况下,本申请中不同的技术特征之间可以相互结合。
图2示出了本申请提供的新闻舆情监控方法的示意性流程图。如图2所示,本实施例提供的新闻舆情监控方法,可以包括:
S201、实时获取目标主体的第一新闻数据以及目标主体所在的目标群体的第二新闻数据。
第一新闻数据是指与目标主体相关的新闻数据。第一新闻数据可以包括目标主体相关的新闻信息和新闻发表时间等。其中,新闻信息可以包括新闻网站、微博或微信等直接发布的新闻报道,也可以包括对已发布新闻报道的转发(下文称报道转发)、评论(下文称报道评论)或点赞等。可以理解,每条新闻报道、每条报道转发、每条报道评论和每条点赞都分别对应一个新闻发表时间。
可选的,可以通过目标主体相关的关键词搜索获取第一新闻数据。以第一目标主体为某上市公司为例,可以通过获取该公司的关键词,根据关键词利用分布式爬虫在各新闻网站、微博、微信等网络渠道进行爬取,获取关键词相关的新闻数据,得到第一新闻数据。示例性的,关键词可以包括该公司的公司名称、该公司的产品品牌、该公司的高管姓名等。可选的,分布式爬虫可以选用Acrap框架。
目标群体可以根据目标主体的性质以及新闻舆情监控结果的具体应用情况确定。例如,目标主体为某上市公司,且新闻舆情监控结果用于金融投资时,可以将所有上市公司作为目标群体,或者,可以将上市公司中的预设数量的公司作为目标群体。第二新闻数据可以包括目标群体内所有主体的新闻信息和新闻发表时间。第二新闻数据的获取可以通过相关的数据统计网站、数据统计软件等获取,也可以通过分布式爬虫获取得到。
S202、根据第一新闻数据,确定当前周期内目标主体的新闻传播量。
新闻传播量用于表征当前时间周期内,对于新闻信息的散播数量。可以理解,新闻传播量的统计周期可以根据实际需要设定,可以以周为周期,可以以天为周期,也可以以小时为周期。可选的,对于新闻传播量的统计,可以以滑动时间窗的方式进行统计。以滑动时间窗的方式进行统计时,新闻传播量的统计周期时长即为滑动时间窗的窗宽。
根据第一新闻数据确定当前周期内目标主体相关的新闻信息的传播量,得到新闻传播量。具体的,可以根据目标主体相关的新闻报道的次数、报道转发的次数、报道评论的次数和点赞的次数等中的一个或多个确定新闻传播量。
S203、根据第二新闻数据,确定当前周期内目标群体的总新闻传播量,总新闻传播量用于表征目标群体内的各个主体的新闻传播量的总和。
总新闻传播量的统计周期与目标主体的新闻传播量的统计周期相同。总新闻传播量统计时选用的数据种类与目标主体的新闻传播量统计时选用的数据种类相同。例如,若目标主体的新闻传播量通过报道转发的次数确定,则总新闻传播量通过计算目标群体内所有主体的报道转发次数的总和得到;若目标主体的新闻传播量通过报道转发的次数和报道评论的次数确定,则总新闻传播量通过计算目标群体内所有主体的报道转发次数、报道评论次数的总和得到。
S204、根据新闻传播量和总新闻传播量确定当前周期目标主体的新闻热度比。
新闻热度比用于表征当前周期内目标主体的新闻传播量占目标群体总新闻传播量的比例。可选的,新闻热度比可以通过直接计算新闻传播量与总新闻传播量的比值得到,也可以在新闻传播量与总新闻传播量的比值的基础上进一步进行其他计算得到。
S205、根据当前周期的新闻热度比,监控目标主体的新闻舆情。
根据计算得到的新闻热度比,实时监控目标主体的新闻舆情是否存在异常。可选的,当新闻热度比的值超过预设热度比阈值,则确定新闻舆情出现异常。
可以理解,每个周期重复上述步骤S201至S205,可以实现对目标主体新闻舆情的实时动态监控。
本实施例中,通过第一新闻数据确定目标主体的新闻传播量,通过第二新闻数据确定目标群体的总新闻传播量,并通过新闻传播量和总新闻传播量确定当前周期新闻热度比,从而根据新闻热度比监控目标主体的新闻舆情。本实施例提供的方法能够实现对新闻舆情的自动监控和实时监控,避免人工搜索和统计,提高了新闻舆情数据的统计效率,从而提高新闻舆情监控的实时性和准确性,解决了传统技术中舆情监控费时费力及监控滞后的问题。同时,新闻热度比能充分反映目标主体的新闻传播量占目标群体总新闻传播量的比例情况,根据新闻热度比能够更加准确的监控目标主体的新闻舆情。
在一个实施例中,根据第一新闻数据确定当前周期内目标主体的新闻传播量可以通过以下方式实现,即步骤S202包括:
根据新闻发表时间,确定在当前时刻之前的预设时长内目标主体相关的新闻报道的次数、报道转发的次数和报道评论的次数;根据新闻报道的次数、报道转发的次数和报道评论的次数确定新闻传播量。
具体的,假设当前时刻为T,周期为t,统计新闻发表时间处于T-t至T时刻之间的新闻报道的次数、报道转发的次数和报道评论的次数。其中,新闻报道可以包括新闻网站的报道、微博的报道、微信的报道等。报道转发的次数可和报道评论的次数可以包括通过微博或微信中报道的转发次数和评论次数,也可以包括对新闻网站中报道的转发和评论次数。
对报道次数、报道转发次数和报道评论次数进行求和,得到新闻传播量。其中,求和可以为直接求和,也可以为加权求和。可选的,可以对每种网络渠道获取到的报道次数、报道转发次数和报道评论次数分别进行求和,并将各网络渠道得到的求和结果再求和得到新闻传播量。
示例性的,可以通过公式r
其中,h
对新闻报道的次数能够体现媒体对新闻事件的关注度,报道转发的次数和报道评论的次数能够体现出大众对新闻事件的关注度。本实施例中,根据对新闻报道的次数、报道转发的次数和报道评论的次数确定新闻传播量,综合考虑了媒体和大众对于新闻事件的关注度,得到的新闻传播量更加准确,从而使得新闻舆情的监控更加准确。
以下结合实施例对根据当前周期的新闻热度比监控新闻舆情的具体方法进行进一步说明。
图3为另一个实施例提供的新闻舆情监控方法的示意性流程图。如图3所示,步骤S205,根据当前周期的新闻热度比,监控目标主体的新闻舆情,可以包括:
S301、获取上一周期的新闻热度比。
上一周期的新闻热度比的具体计算方式同当前周期的新闻热度比的计算方式,参见上述实施例,在此不再赘述。
S302、根据上一周期的新闻热度比和当前周期的新闻热度比,确定当前周期的新闻热度变化率。
当前周期的新闻热度变化率用于表征当前周期的新闻热度比相较于上一周期的新闻热度比的变化比例。作为示例而非限定,当前周期的新闻热度变化率可以通过公式
S303、根据当前周期的新闻热度变化率,监控目标主体的新闻舆情。
可选的,可以根据当前周期的新闻热度变化率c
可选的,也可以进一步获取上一周期的新闻热度变化率c
可选的,可以直接根据当前周期的变化率差值Δc
可选的,也可以进一步获取上一周期的变化率差值Δc
图4示出了本申请又一个实施例提供的新闻舆情监控方法的示意性流程图。如图4所示,在上述实施例的基础上,所述新闻舆情监控方法还可以包括:
S401、若目标主体的新闻舆情异常,则对当前周期内的新闻标题进行聚类,得到多个聚类结果。
可选的,第一新闻数据中可以包括新闻标题,新闻标题为文本形式。新闻标题能够反映新闻事件的内容,对新闻标题进行聚类,相当于对新闻事件进行分类。可选的,可以通过x-means算法进行聚类。相较于传统的k-means算法,x-means算法不需要指定聚类的数量,只需要给定聚簇数量的大致范围,根据聚类的质量指标迭代选择最优的聚簇数,算法简单,计算效率高。
对当前周期内的所有新闻标题进行聚类,得到多个聚类结果,每个聚类结果为一个新闻事件相关的多个新闻标题的集合。
S402、对每个聚类结果中的新闻标题分别进行摘要提取,得到每个聚类结果的文本摘要。
对于每个聚类结果,对聚类内的新闻标题进行摘要提取,得到该聚类结果对应的文本摘要,对文本摘要进行输出。
本实施例中,在目标主体的新闻舆情异常时,对当前周期内的新闻标题进行聚类,得到多个聚类结果,并对每个聚类结果中新闻标题分别进行摘要提取,得到每个聚类结果的文本摘要,使得用户能够更好的了解具体的新闻舆情状况,便于进一步的新闻舆情分析,实用性强。
可选的,可以基于文本排序(Text Rank)算法进行摘要提取。具体的,可以通过以下步骤实现:
1)将新闻标题进行分句,得到多个句子;
2)将每个句子作为一个节点,建候选关键句图;
可选的,可以采用共现关系(co-occurrence)构造两个节点之间的边;
可选的,可以通过公式(2)循环计算任意两个句子之间的相似度,通过设置相似度阈值,去除相似度较低的两个句子对应的节点之间的边连接,从而构建最终的关键句图;
其中,S
4)迭代计算关键句图中每个节点的Text Rank值;
5)将关键句图中的节点按照Text Rank值进行倒序排序,得到节点排序表;
6)获取节点排序表中的前k个节点对应的句子,组合得到文本摘要;其中,k为正整数;可选的,k可以为3或4。
本实施例中,通过文本排序算法进行摘要提取,可以直接从新闻标题中提取摘要,不需要事先对多篇文档进行学习训练,能够简洁有效的提取文本摘要。
图5示出了本申请实施例提供的新闻舆情监控装置的结构框图。如图5所示,本实施例提供的新闻舆情监控装置,可以包括:
数据获取模块501,用于实时获取目标主体的第一新闻数据以及所述目标主体所在的目标群体的第二新闻数据;
传播量确定模块502,用于根据所述第一新闻数据,确定当前周期内所述目标主体的新闻传播量;
总传播量确定模块503,用于根据所述第二新闻数据,确定所述当前周期内所述目标群体的总新闻传播量,所述总新闻传播量用于表征所述目标群体内的各个主体的新闻传播量的总和;
热度比确定模块504,用于根据所述新闻传播量和所述总新闻传播量确定当前周期所述目标主体的新闻热度比;
监控模块505,用于根据当前周期的新闻热度比,监控所述目标主体的新闻舆情。
在一个实施例中,监控模块505具体用于获取上一周期的新闻热度比;根据所述上一周期的新闻热度比和所述当前周期的新闻热度比,确定当前周期的新闻热度变化率;根据所述当前周期的新闻热度变化率,监控所述目标主体的新闻舆情。
在一个实施例中,监控模块505具体用于获取上一周期的新闻热度变化率;计算所述当前周期的新闻热度变化率与所述上一周期的新闻热度变化率之差,得到当前周期的变化率差值;若所述当前周期的变化率差值大于预设阈值,则确定所述目标主体的新闻舆情异常。
在一个实施例中,监控模块505具体用于获取上一周期的新闻热度变化率;计算所述当前周期的新闻热度变化率与所述上一周期的新闻热度变化率之差,得到当前周期的变化率差值;获取上一周期的变化率差值;根据所述当前周期的变化率差值,监控所述目标主体的新闻舆情。
在一个实施例中,监控模块505具体用于若所述当前周期的变化率差值大于所述上一周期的热度变化率差值,则确定所述目标主体的新闻舆情异常。
在一个实施例中,所述第一新闻数据包括新闻信息和与所述新闻信息对应的新闻发表时间,所述新闻信息包括新闻报道、报道转发和报道评论;传播量确定模块502具体用于根据所述新闻发表时间,确定在当前时刻之前的预设时长内所述新闻报道的次数、所述报道转发的次数和所述报道评论的次数;根据所述新闻报道的次数、所述报道转发的次数和所述报道评论的次数确定所述新闻传播量。
在一个实施例中,新闻舆情监控装置还包括摘要提取模块506,用于若所述目标主体的新闻舆情异常,则对当前周期内的所述新闻标题进行聚类,得到多个聚类结果;对每个所述聚类结果中的新闻标题分别进行摘要提取,得到每个所述聚类结果的文本摘要。
在一个实施例中,数据获取模块501具体用于获取所述目标主体的关键词;根据所述关键词,利用分布式爬虫技术获取所述第一新闻数据。
本实施例提供的新闻舆情监控装置,用于执行本申请方法实施例提供的新闻舆情监控方法,技术原理和技术效果相似,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种电子设备,例如图1所示,该电子设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述任意方法实施例中的步骤。
本领域技术人员可以理解,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
机译: 操作行为监控方法和装置,电子设备和存储介质
机译: 对象监控方法,装置,电子设备和计算机可读存储介质
机译: 生产线监控方法和装置,以及电子设备和可读存储介质