首页> 中国专利> 基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质

基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质

摘要

本发明提供了基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质,方法包括:获取与新冠肺炎疫情相关的微博舆情信息和疫情数据;对微博舆情信息进行预处理,获取微博舆情数据;通过语言模型对微博舆情数据进行情感分析,获取情感分析结果;根据微博舆情信息和疫情数据对情感分析结果进行处理,获取新冠肺炎疫情的相关性分析。本发明构建了一套集数据爬取、清洗、存储、分析、可视化于一体的情感分析模型,整合疫情数据和微博舆情数据,在数据集上对模型超参数进行调整,提高了模型准确率,最后分阶段对大陆疫情发展状况进行了总结与分析,获取了新冠肺炎疫情爆发情况与舆情情绪变化的相关性,对疫情期间的舆情监测获取具有重要意义。

著录项

  • 公开/公告号CN112883286A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利号CN202011445578.X

  • 申请日2020-12-11

  • 分类号G06F16/9536(20190101);G06F16/951(20190101);G06F40/126(20200101);G06F40/151(20200101);G06F40/216(20200101);G06F40/284(20200101);G06F40/289(20200101);G06Q50/00(20120101);G16H50/80(20180101);

  • 代理机构44486 深圳智趣知识产权代理事务所(普通合伙);

  • 代理人王策

  • 地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及舆情分析领域,具体而言,涉及基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质。

背景技术

新型冠状病毒肺炎作为一种急性呼吸道传染病,自爆发以来,一直受到国内外社会的广泛关注,也是社会舆论的焦点。新冠肺炎疫情已具有大流行特征,疫情的传播程度和严重性令人深感担忧。因此对国内疫情的整体情况以及相关的舆情发展态势进行分析有助于帮助人们更好地对当前疫情发展阶段以及对应的舆论响应有一个清晰直观的认知,并在此基础上做出决策。

现有针对疫情舆情分析的研究主要集中在以下几个方面:主题挖掘、情感分析、舆情传播机制以及应对措施。

针对主题挖掘方面,杨秀璋参考文献基于主题挖掘和情感分析的“新冠肺炎疫情”舆情分析研究中通过Python抓取2020年1月20日至3月 22日期间共计1389篇人民网的疫情新闻,利用数据预处理、特征词提取、词云可视化展现与“新冠肺炎疫情”相关的热点主题,再采用共词分析、 LDA模型、知识图谱和基于SnowNLP的情感分析算法挖掘舆情演化趋势。

韩珂珂在参考文献“大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例”中通过采集了2020年1月18日到2020年1月28日期间关于新冠肺炎的33万余条新浪微博数据,基于Louvain和Kmeans的空间聚类、改进的BTM主题词提取等算法,将用户关注热点信息和情感特征作为地域标签,构建了反映情感特征、地域关联与热点关注在内的舆情评价方法,实现了基于位置的信息融合,能够分析不同区域的舆情特点与关注主题差异。

王卷乐在参考文献“疫情防控中的中国公众舆情时空演变特征”中以新浪微博为数据源,基于潜在狄利克雷分配主题模型和随机森林算法构建了主题抽取和分析模型,识别微博文本中的13个舆情话题,并从数量、空间、时间、内容等方面分析了2020年1月9日至3月10日在

曹树金在参考文献“突发公共卫生事件微博舆情主题挖掘与演化分析”中结合生命周期理论、TF-IDF特征词-权值模型以及潜在狄利克雷模型方法,将时间维度融入微博文本分析,进行包括时间序列的主题挖掘工作,挖掘隐含的主题信息和舆情演化规律,并提出相应的舆情管控策略。

针对情感分析方面,张琛在“基于用户情感变化的新冠疫情舆情演变分析”中以2020年1月23日至4月8日期间“人民日报”每日疫情通报的微博评论为信息基底,首先使用中文自然语言处理工具SnowNLP对语料进行情感倾向性抽取,完成正负向的情感分析,然后基于Single-Pass聚类算法实现文本语料的聚类分析,探索疫情热点话题,最后利用Louvain 社团发现算法实现舆情被关注度的信息挖掘。

针对舆情传播机制方面,赵雪芹在“大突发公共卫生事件的网络舆情传播机制研究及反思——以新冠肺炎疫情为例”中通过爬取新浪微博中的新冠肺炎微博舆情数据,探究重大突发公共卫生事件中网络舆情传播主体、传播内容和传播周期规律,其研究发现,在重大突发公共卫生事件中舆情传播主体路径表现为“官方媒体引爆—知名人物加速扩散—线下网民分区传播”;传播内容呈现关联性且转变迅速;舆情传播具有周期性且易二次爆发。

针对应对措施方面,李刚在“COVID-19舆情应对与领导决策双驱动下应急治理机制研究”中利用阻滞增长模型舆情发展进行预判分析和模糊评价模型对领导风格进行评价,采用一般回归分析,加入疫情和疫情传播失误等中介变量,对网络舆情、领导风格双重作用下疾控部门应急治理对舆情解决进行评价,借助曝光度较高的省市样本进行网络舆情、领导风格双重作用下疾控部门应急治理研究,并为类似疾控部门提供合理建议。

现有相关技术中普遍存在以下不足:

(1)针对疫情情感分析方向的研究,目前尚没有一套完整的涵盖数据采集、预处理、情感分析、评价分析的方法;

(2)现有针对疫情情感分析的技术方案未对情感分析模型针对疫情相关微博舆情数据集进行超参数调整,准确率不佳;

(3)现有针对疫情情感分析的技术方案未对针对疫情的情感分析结果形成后续的结果评价分析,未考量疫情变化情况与舆情发展之间的联系。

因此需要一种能对疫情相关的病例信息及微博舆情信息进行采集、梳理、整合与分析的方法,对疫情情感分析进行研究。

发明内容

基于现有技术存在的问题,本发明提供了一种基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质。具体技术方案如下所示:

一种基于BERT的新冠肺炎疫情微博情感分析方法,包括以下步骤: S1、获取与新冠肺炎疫情相关的微博舆情信息和疫情数据;S2、对所述微博舆情信息进行预处理,获取微博舆情数据S3、通过语言模型对所述微博舆情数据进行情感分析,获取情感分析结果;S4、根据所述微博舆情信息和所述疫情数据对所述情感分析结果进行处理,获取新冠肺炎疫情的相关性分析。

其中,所述相关性分析包括疫情发展分析以及疫情情感分析;所述疫情情感分析包括疫情爆发情况与舆情情绪变化的相关性分析。

特别地,将所述舆情情绪变化拆解为:总评论数、积极评论数量、中性评论数量、消极评论数量,将所述疫情爆发情况拆解为:总新增病例数量、新增输入型病例数量、新增本地型病例数量;根据所述舆情情绪变化和所述疫情爆发情况拆解的指标进行相关性检验。

特别地,所述相关性检验具体包括:依次对所述指标进行正态分布检验、计算相关系数、显著性检验。

具体地,所述S1具体包括:通过Python编写爬虫程序对互联网中的内容进行抓取,从中提取与新冠肺炎疫情有关的微博舆情信息和疫情数据;并将所述微博舆情信息和所述疫情数据存储到数据库中。

具体地,所述疫情数据为区域内确诊、疑似、治愈、死亡病例数量统计,以及区域内输入病例统计;所述微博舆情信息为在微博上与新冠肺炎疫情相关的微博内容;所述微博舆情信息包括评论信息,所述评论信息为网民在微博上针对新冠肺炎疫情发布的相关评论信息。

更具体地,所述评论信息带有情绪标签,根据所述情绪标签将所述评论信息分为:积极评论信息:带有积极情感倾向的评论数据;消极评论信息:带有消极情感倾向的评论数据;中性评论信息:不带情感倾向的评论数据;异常评论信息:情绪标签异常的评论数据。

具体地,所述S2具体包括:S21、对所述微博舆情信息进行数据感知和清洗,获取第一信息;S22、对所述第一信息进行文本数据格式转换,获取第二信息;S23、对所述第二信息进行分词处理,获取第三信息;S24、对所述第三信息进行去停用词处理,获取第四信息;S25、对所述第四信息进行特征转换处理,获取所述微博舆情数据。

更具体地,在所述S21,具体包括:对所述积极评论信息、消极评论信息和中性评论信息进行数据感知和清洗;对所述异常评论信息,重新判断情绪标签;和/或在所述S22中,具体包括:将所述第一信息的编码转换为UTF-8编码,获得所述第二信息;和/或在所述S23中,具体包括:基于中文分词库,通过隐马尔可夫模型对所述第二信息进行分词处理,获取所述第三信息;和/或在所述S24中,具体包括:基于停用词表,顺序扫描所述第三信息的词语,若词语在所述停用词表,则去掉该词语,若词语不在所述停用词表,则保留词语;和/或在所述S25中,具体包括:通过对所述第四信息进行词嵌入处理、片段嵌入处理和位置嵌入处理,使所述第四信息从文本数据转换为向量数据,获取微博舆情数据。

具体地,所述S3具体包括:S31、将所述微博舆情数据划分为训练集、验证集和测试集;S32、根据所述验证集和所述测试集获取语言模型;S33、根据所述语言模型对所述训练集进行情感分析,获取情感分析结果;其中,所述S32具体包括:加载语言模型;利用所述验证集对所述语言模型进行训练,获取训练后的语言模型;利用所述测试集对所述训练后的语言模型进行测试;获取测试通过的语言模型。

特别地,所述语言模型包括BERT模型;所述BERT模型的输入为由词嵌入、片段嵌入和位置嵌入构成的综合表示向量。

更特别地,所述BERT模型的损失函数为softmax交叉熵,其计算公式如下:

其中,L为损失函数,S

更特别地,所述BERT模型文字方向设置为bidi,隐藏层的dropout概率设置为0.1,编码器隐藏层神经元数为3072,池化层大小为128,注意力机制头部数为12,层数为3。

一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述所述的一种基于BERT的新冠肺炎疫情微博情感分析方法。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于BERT的新冠肺炎疫情微博情感分析方法。

本发明具有如下有益效果:本发明提出了基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质,解决了现有技术的弊端。通过构造一套集成爬取、清洗、存储、分析、可视化的方法,可实现了数据的自动更新、整理、分析、可视化。通过对新冠肺炎疫情相关结构化与非结构化数据进行采集,并使用参数调整后的BERT模型进行情感分析并产出直观的分析结果;使用人工标注的疫情微博情感训练集对BERT模型进行了训练和参数调整,提高了模型针对于疫情数据的准确度;针对舆情情感分析结果,本发明设计的方法中涵盖了对其与疫情病例数之间的关系讨论,并涵盖了分时期绘制的词云图,更有力地对疫情舆情发展与疫情爆发之间的状况进行了阐释。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法流程示意图;

图2是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法以微博为例的流程示意图;

图3是本发明实施例提出的带标签的疫情微博评论数据标签分布柱状图;

图4是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法预处理示意图;

图5是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法的BERT模型结构图;

图6是本发明实施例提出的模型输入表示图;

图7是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法模型训练流程图;

图8是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法模型测试流程图;

图9是本发明实施例提出的本地疫情爆发期的情感分析结果分布图;

图10是本发明实施例提出的输入病例爆发期的情感分析结果分布图;

图11是本发明实施例提出的小规模再爆发期的情感分析结果分布图;

图12是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析系统结构图;

图13是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析系统处理单元结构图;

图14是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法分析单元图;

图15是本发明实施例提出的一种基于BERT的新冠肺炎疫情微博情感分析方法应用到计算机的示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供了一种基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质。疫情舆情方法集成数据爬取、清洗、存储、分析、可视化,使用本方法的疫情舆情分析系统可涵盖数据的自动更新、整理、分析、可视化。本发明以新冠肺炎疫情为例,通过采集疫情相关数据、舆情分析建模、情感分析评价分析,最后分阶段对疫情发展状况进行了总结与分析,获取疫情与舆情的相关性分析。

实施例1

针对现有技术的不足,本实施例提供了一种基于BERT的新冠肺炎疫情微博情感分析方法。如说明书附图1所示,具体方案如下所示:

S1、获取与新冠肺炎疫情相关的微博舆情信息和疫情数据;

S2、对微博舆情信息进行预处理,获取微博舆情数据;

S3、通过语言模型对微博舆情数据进行情感分析,获取情感分析结果;

S4、根据微博舆情信息和疫情数据对情感分析结果进行处理,获取疫情相关性分析。

具体地,S1、获取与新冠肺炎疫情相关的微博舆情信息和疫情数据。本实施例采用Python爬虫的方式进行数据采集。使用Scrapy爬虫的框架。Scrapy是使用Python语言编写的开源爬虫框架,可对互联网中的网页内容进行抓取,并从中提取出结构化数据。为了更好的管理数据,将不同平台爬取的数据存储在数据库中,并对数据进行清洗和筛选,整理成后续舆情建模以及可视化分析所可以直接调用的数据,存储在不同的数据库表中。此外,使用Python进行爬虫并整理成Pandas Dataframe形式,随后同样使用Python将数据写入MongoDB数据库。可在数据爬取后,自动完成存储。已存储的数据可以随时调用。具体如说明书附图2所示。

疫情数据包括全国确诊、疑似、治愈、死亡病例数量统计:分省、市对全国范围进行确诊、疑似、死亡、治愈病例统计。数据采集平台为丁香园,数据一日一更新,每日早上九点左右对前一日信息进行提取。疫情数据还包括全国输入病例统计:分输入地(省)、输入病例来源地(国家)对全国输入病例进行统计。数据采集平台为各地卫健委,数据一日一更新,考虑到原网站更新速度于每日下午五点左右对前一日信息进行提取。微博舆情信息为社交网站上与疫情相关的社交内容,本实施例以微博为例,获取疫情相关微博:从网站获取与疫情相关的微博,数据分日爬取,于新一日零点对前一日微博进行爬取。采集的数据总结如表1所示:

表1疫情数据和微博舆情信息说明

具体地,S2、对S1获取的微博舆情信息进行预处理,获取微博舆情数据。特别地,本实施例主要针对微博舆情信息中的评论信息进行处理,即与疫情有关的疫情微博评论数据。疫情微博评论数据指的是从微博爬取的与疫情相关的网民评论数据。为了后续更好的分析,通过采集DataFountain疫情微博公开数据集的数据,该数据集带有正负情绪标签。数据及其标签示例如下表:

表2 COVID-19微博评论数据及其标签示例

此外,还有一些情绪标签异常的异常数据。本实施例主要处理三类数据,分别是带有积极情感倾向的疫情微博评论数据、带有消极情感倾向的疫情微博评论数据和不带情感倾向/中性的疫情微博评论数据。以下将分步骤对数据预处理进行阐释。

S21、对评论信息进行数据感知和清洗,获取第一信息。首先对带标签的约10万条疫情微博评论数据进行数据感知和清洗。针对带有标签的文本数据的标签,画出其标签分布柱状图,如说明书附图3所示。从标签分布柱状图中可以看出,标签中存在着异常数据,如标签标记为“10”、“-2”等。对于这些带有异常标签的数据,本文采用人工处理的方法,判断这些评论的情感倾向(积极、消极、中性),对其重新赋予标签(1、-1、0)。

S22、对第一信息进行文本数据格式转换,获取第二信息。对经过S21 处理后的疫情微博评论数据进行文本数据格式转换。原疫情微博评论数据采用GB2312编码。但是在利用Python进行中文文本数据处理的时候,会存在因为中文编码而出现中文乱码的问题。因此需进行数据格式转换,将原来用GB2312编码的疫情微博评论数据转换为UTF-8编码,得到第二信息。

S23、对第二信息进行分词处理,获取第三信息。为了将整句的疫情微博评论数据切分为以词为单位,本文需要对第二信息做分词处理。本文采用的是jieba中文分词库。本文对于每条待进行分词的疫情微博评论文本数据采用速度较快的全模式的分词方法,把句子中所有的可以成词的词语都扫描出来。在分词的时候使用HMM((Hidden Markov Model,隐马尔科夫模型)模型,构建细粒度的分词,获取第三信息。

S24、对第三信息进行去停用词处理,获取第四信息。对分好词的疫情微博评论数据去停用词。为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些无用信息词语,如语气词、标点符号、助词等等。本文采用哈尔滨工业大学停用词表,顺序扫描第三信息的分词结果,若词语在停用词表中,则去掉该词,若不在,则保留,最终获取第四信息。

S25、对第四信息进行特征转换处理,获取微博舆情数据。本文选择已有的疫情微博评论数据作为语料,采用word2vec模型进行词嵌入。word2vec 词向量模型将单词从原先所属的空间映射到新的低维空间,使得语义上相似的单词在该空间内距离相近,由于语义相近的词语在向量空间上的分布比较接近,可以通过计算词向量间的空间距离来表示词语间的语义相似度,因此word2vec词向量具有很好的语义特性。此外,本实施例还对第四信息进行位置嵌入和片段嵌入,词嵌入、片段嵌入和位置嵌入构建成综合表示向量,综合表示向量为语言模型的输入。将第四信息从文本数据转换为向量数据,获取微博舆情数据。完整的预处理示例如说明书附图4所示。

具体地,S3、通过语言模型对微博舆情数据进行情感分析,获取情感分析结果。本实施例选用的语言模型为BERT模型,建立基于BERT的疫情微博评论数据情感分析模型,通过考虑所有层中的双侧上下文信息来得到深度的双向表示,该表示连接上一层输出层后,仅需精调训练就可以在很多自然语言处理任务中取得良好的效果。BERT包括预训练和精调两个步骤,在预训练中,模型基于无标签数据,在不同的预训练任务上进行训练。在精调中,模型首先基于预训练得到的参数初始化,然后使用来自下游具体任务的标签数据对所有参数进行精调。每个下游任务都拥有独立的精调模型,即便其使用相同的预训练参数初始化。BERT模型的特征在于对于不同的任务,其模型结构统一,预训练架构与最终的下游架构仅存在细微差别。BERT的模型结构是一个多层双向转换器。本文使用的BERT模型结构示意图如说明书附图5所示。从说明书附图5中可以看出,其结构是一个多层双向转换器,转换器编码器的特点是关注了双侧的上下文,而转换器解码器则仅使用了左侧的上下文(通过遮掩的方法)。本文中使用的转换器堆叠层数为12层,隐藏向量维数为768维,总参数量为110M。

BERT模型的输入表示需要能够在一个序列中明确地表示单个句子,对于一个给定的标记,它的输入由它对应的词嵌入,片段嵌入和位置嵌入来表示,如说明书附图6所示。说明书附图6中,“好难过,又发烧了,是感染了吗”这个句子中,其中“好难过”、“又发烧了”,“是感染了吗”为句子中的片段,分别记为A、B和C。该句子的第一个标志位为一个特殊的分析符[CLS],该标志位的最终隐藏状态用来聚合序列,执行分析任务。在句子中的片段,通过两种方式进行区分:第一种是两个句子间插入一个特殊标志[SEP],第二种是对于每个划分片段的位置,添加一个可以学习的嵌入向量来表示其属于句子A、B还是C。对于模型来说,其输入是由疫情微博评论数据的词嵌入、片段嵌入和位置嵌入三部分相加得到的综合向量表示。

基于BERT模型进行疫情微博评论数据舆情分析的训练流程图如说明书附图7所示,训练的过程可以看出该流程分为两个步骤:预训练和精调。首先对疫情微博评论数据进行训练集、验证集和测试集划分,本文首先人工标记了约十万条微博评论数据。再将经人工标注后的带标签的疫情微博评论数据中的90%的数据划分为训练集,5%的数据划为验证集,5%的数据划为测试集。与前文的词嵌入作为模型的输入不同,该模型的输入是一条评论的综合表示,即词嵌入、片段嵌入和位置嵌入相加作为模型的输入。预训练遵循语言模型预训练的一般过程,即加载预训练模型,输入测试数据经过特征转换后得到的特征。接着是精调部分,利用验证集进行模型的参数调整。然后选取验证集上评分最高的模型参数,作为最后的模型输出并保存,即得到基于BERT的疫情微博评论舆情分析模型。接着需要对训练得到的模型进行测试,测试流程图如说明书附图8所示。前文提到,将 5%的数据作为测试集,对基于BERT的疫情微博评论舆情分析模型进行测试。首先对测试集数据进行数据格式转换,将原来的GB2312编码格式转变为UTF-8编码。然后进行文本分词和特征转换,将疫情微博评论文本数据转换成以词嵌入、片段嵌入和位置嵌入的综合特征表示并输入到训练好的基于BERT的疫情微博评论舆情分析模型,得到测试数据的标签。

本文采用的预训练模型是BERT-Base,Chinese,它可以支持中文简体和繁体。其使用的转换器堆叠层数为12层,隐藏向量维数为768维,总参数量为110M。模型的输入为COVID-19微博评论文本数据的综合表示向量,其由文本数据的词嵌入、片段嵌入和位置嵌入构成,模型的输出为COVID-19微博评论的情感倾向。模型的损失函数为softmax交叉熵,其计算公式如下:

其中,L为损失,S

经过测试,该基于BERT的疫情微博舆情分析模型的准确率达72.16%,实验模型中的具体参数设置如下表所示,文字方向设置为bidi表示双向,注意力机智的dropout概率设置为0.1,编码器隐藏层神经元数为3072,池化层大小为128,主意力机制头部数为12,层数为3,具体如下:

表3模型参数设置

隐藏层激活函数gelu(高斯误差线性单元)公式如下:

gelu(x)=xP(X≤x)=xΦ(x)

其中,Φ(x)是正态分布的概率函数,实验中采用正态分布来表示,x为隐藏层输出,X服从正态分布。

针对获取的情感分析结果,获取新冠肺炎疫情的相关性分析。相关性分析包括疫情发展分析以及疫情情感分析;疫情情感分析包括疫情爆发情况与舆情情绪变化的相关性分析。对其进行相关性分析及词云图绘制,验证不同时期疫情爆发程度,也即是不同时期疫情病例新增总数与网络舆情情绪之间的关系,并分时期根据词频绘制词云图后观察网络舆情的关注点及讨论重点。

疫情发展三阶段分析结果:结合大陆疫情实际发展状况,为了更好地对疫情发展状况进行讨论,分阶段对分析结果进行讨论并调用Python Wordcloud模块绘制词云图。大陆疫情发展状况初期未本地病例为主,但本地病例在三月中下旬基本得到控制;三月中上旬随着回国人数的剧烈增加,输入型病例剧增;六月开始在XX市、YY市、ZZ省发生了小规模再爆发的情况。因此具体划分的三个阶段为:本地疫情爆发期(2019年12月-2020 年8月)、输入病例爆发期(2020年3月-8月)、小规模再爆发期(2020 年6月-8月)。

本地疫情爆发期的情感分析结果分布图如说明书附图9所示。本地疫情爆发期初期微博评论数较少,而后较短时间内达到极大值,反映出事态初期关注度较低,随着事件曝光热度骤然上升的情况。火神山、逆行、监工、封、施工、建设者、加油等词汇的出现,体现了我国对于疫情迅速采取的应对措施和积极的应对态度。

输入疫情爆发期的情感分析结果分布图如说明书附图10所示。输入病例爆发期微博评论总体上维持在一个相对较高水平的稳定状态,仅在4月4 日(全国范围内哀悼)有较大幅度增长。出现了如A国、B国、C国等多个国家的名称,与这一时期国内疫情基本得到控制,而海外疫情病例数量剧烈增长有关。

小规模再爆发期的情感分析结果分布如说明书附图11所示。小规模再爆发期微博评论数呈现波动态势。诸如XX市等涉及区域的关键词,一定程度体现了小规模爆发区域受关注度较高。

相关性检验:在讨论疫情爆发情况与舆情情绪变化的相关性时,先需要对这两部分内容进行拆解。根据采集的数据,将疫情爆发情况拆解为:总新增病例数量、新增输入型病例数量、新增本地型病例数量;将舆情情绪变化拆解为:总评论数、积极评论数量、中性评论数量、消极评论数量,并以以上指标来讨论其两两之间的相关性。

接下来将针对以上几个指标进行相关性检验,总共可分为以下三个步骤:正态分布检验、计算相关系数、显著性检验。

在选择相关系数类别时,需使用K-S检验确定两变量是否都服从正态分布,或者近似正态分布。如服从,则可使用Pearson系数。

Kolmogorov-Smirnov(K-S检验)是比较一个频率分布f(x)与理论分布 g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。

D=max|f(x)-g(x)|

当实际观测值D>D(n,a)则拒绝H0,否则则接受H0假设。

Pearson相关系数是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:

其中cov(X,Y)表示X和Y之间的协方差,σ

最后即可进行相关性检验的部分,因为相关系数有随机性,所以需检定不犯错误的概率。相关性和显著性检验是两个不同的概念,但是显著性检验在这里就能说明相关性的产生是不是偶然因素导致的。原假设H0为假设变量之间的相关性为零。如果P<0.05,则说明原假设这个假设不成立,出现这个情况的概率较低,反之,在95%的置信度下可以认为变量之间是存在相关性的,即相关性显著。如P>0.05,那么拒绝原假设,则说明变量间的相关性不显著。

利用2020年1月25日至2020年8月29日期间,即32周内新增确诊人数、输入性确诊人数、本地确诊人数、讨论总数、积极情感评论数、消极情感评论数、中性情感评论数对应数据得出的相关系数矩阵如下表4:

表4病例数量与微博数量相关系数矩阵

结合上述矩阵,可以较为明显的看到讨论数量与确诊人数以及本地确诊病例数有一定的相关性,相较而言,输入性确诊病例人数与讨论数量相关性较低,且呈负相关趋势,下面就各变量做相关性检验。

首先分别对7个变量进行正态性检验,通过检验结果可以确定涉及7 个变量均通过正态性检验,均可以对其进行相关性分析(显著性水平取0.05)。相关性检验结果如下表5:

表5病例数量与微博数量相关性检验结果表

观察相关性检验结果,可以得出结论:讨论总数与新增确诊人数、本地确诊人数存在线性相关关系,而与输入性确诊人数不存在线性相关关系,同样地,积极情绪与中性情绪也同样与新增确诊人数、本地确诊人数存在线性相关关系,而与输入性确诊人数不存在线性相关关系;消极情绪与三者均不存在线性相关关系。

对于积极情绪,民众易在危难时刻受到鼓舞,积极情绪易于调动;中性情绪,疫情确诊人数的上升必然会引起官方关注,大量公告通知的发布使得该类情绪数随之大幅增长;对消极情绪而言,广大网民不因疫情情况的恶化而产生消极情感,实则从某种成都反映了当下心理健康建设的阶段性成功,即民众承受负面事件的能力较高。

本实施例提出一种基于BERT的新冠肺炎疫情微博情感分析方法,通过构造一套集成爬取、清洗、存储、分析、可视化的方法,可实现了数据的自动更新、整理、分析、可视化。通过对现有公开疫情相关结构化与非结构化数据进行采集,并使用参数调整后的BERT模型进行情感分析并产出直观的分析结果;使用人工标注的疫情微博情感训练集对BERT模型进行了训练和参数调整,提高了模型针对于疫情数据的准确度。针对舆情情感分析结果,本实施例提出的方法中涵盖了对其与疫情病例数之间的关系讨论,并涵盖了分时期绘制的词云图,更有力地对疫情舆情发展与疫情爆发之间的状况进行了阐释。

实施例2

本实施例针对实施例1提出的方法,提出了一种基于BERT的新冠肺炎疫情微博情感分析系统。具体方案如下:

一种基于BERT的新冠肺炎疫情微博情感分析系统,如说明书附图12所示,包括采集单元、处理单元和分析单元。采集单元:用于获取与舆情相关的微博舆情信息和疫情数据;处理单元:用于对微博舆情信息进行预处理,获取微博舆情数据;情感分析单元:用于通过语言模型对微博舆情数据进行情感分析,获取情感分析结果;结果分析单元:用于根据微博舆情信息和疫情数据对情感分析结果进行处理,获取新冠肺炎疫情相关性分析。

其中,处理单元如说明书附图13所示,具体包括:感知和清洗单元:用于对评论信息进行数据感知和清洗,获取第一信息;格式转换单元:对第一信息进行文本数据格式转换,获取第二信息;分词处理单元:用于对第二信息进行分词处理,获取第三信息;停用词处理单元:用于对第三信息进行去停用词处理,获取第四信息;特征转换单元:用于对第四信息进行特征转换处理,获取微博舆情数据。

其中,情感分析单元如说明书附图14所示,包括:数据划分单元:用于将微博舆情数据划分为训练集、验证集和测试集;模型获取单元:用于根据验证集和测试集获取语言模型;情感分析结果获取单元:用于根据语言模型对训练集进行情感分析,获取情感分析结果。

其中,结果分析单元包括:疫情发展分析单元:用于根据微博舆情信息和疫情数据对情感分析结果进行处理,获取疫情发展分析;疫情情感分析单元:用于根据微博舆情信息和疫情数据对情感分析结果进行处理,获取疫情情感分析,疫情情感分析包括疫情爆发情况与舆情情绪变化的相关性分析。

本实施例在实施例1的基础上,将实施例1提出的一种基于BERT的新冠肺炎疫情微博情感分析方法系统化,形成一种基于BERT的新冠肺炎疫情微博情感分析系统,系统涵盖数据的自动更新、整理、分析以及可视化。系统能够对现有公开疫情相关结构化与非结构化数据进行采集,并使用参数调整后的BERT模型进行情感分析并产出直观的分析结果。通过系统对疫情期间的微博舆情信息和疫情数据进行分析,对疫情变化与舆情发展之间的联系进行解析,分析涵盖对舆情情感变化趋势与疫情爆发严重程度/病例数的讨论。

实施例3

图15为本发明实施例3提供的一种计算机设备的结构示意图。图15显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图15所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备计算机12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。系统存储器28可以包括易失性存储器形式的计算机系统可读介质。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备通信。

处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例1所提供的一种基于BERT 的新冠肺炎疫情微博情感分析方法,该方法包括:

S1、获取与新冠肺炎疫情相关的微博舆情信息和疫情数据;S2、对微博舆情信息进行预处理,获取微博舆情数据;S3、通过语言模型对微博舆情数据进行情感分析,获取情感分析结果;S4、根据微博舆情信息和疫情数据对情感分析结果进行处理,获取新冠肺炎疫情相关性分析。其中S2具体包括:S21、对微博舆情信息进行数据感知和清洗,获取第一信息;S22、对第一信息进行文本数据格式转换,获取第二信息;S23、对第二信息进行分词处理,获取第三信息;S24、对第三信息进行去停用词处理,获取第四信息;S25、对第四信息进行特征转换处理,获取微博舆情数据。其中S3 具体包括:S31、将微博舆情数据划分为训练集、验证集和测试集;S32、根据验证集和测试集获取语言模型;S33、根据语言模型对训练集进行情感分析,获取情感分析结果。

本实施例将一种基于BERT的新冠肺炎疫情微博情感分析方法应用到具体的计算机设备中,将该方法存储到存储器中,当执行器执行该存储器时,会运行该方法进行舆情分析,使用快捷方便,适用范围广。

当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的基于BERT的新冠肺炎疫情微博情感分析方法的技术方案。

实施例4

本实施例4提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种基于BERT 的新冠肺炎疫情微博情感分析方法步骤,该方法包括:

S1、获取与新冠肺炎疫情相关的微博舆情信息和疫情数据;S2、对微博舆情信息进行预处理,获取微博舆情数据;S3、通过语言模型对微博舆情数据进行情感分析,获取情感分析结果;S4、根据微博舆情信息和疫情数据对情感分析结果进行处理,获取新冠肺炎疫情的相关性分析。其中S2具体包括:S21、对微博舆情信息进行数据感知和清洗,获取第一信息; S22、对第一信息进行文本数据格式转换,获取第二信息;S23、对第二信息进行分词处理,获取第三信息;S24、对第三信息进行去停用词处理,获取第四信息;S25、对第四信息进行特征转换处理,获取微博舆情数据。其中S3具体包括:S31、将微博舆情数据划分为训练集、验证集和测试集; S32、根据验证集和测试集获取语言模型;S33、根据语言模型对训练集进行情感分析,获取情感分析结果。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本实施例将一种基于BERT的新冠肺炎疫情微博情感分析方法应用到一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明提供的一种基于BERT的新冠肺炎疫情微博情感分析方法步骤,简便快捷,易于存储,不易丢失。

综上,本发明提出了一种基于BERT的新冠肺炎疫情微博情感分析方法、设备、介质。通过构造一套集成爬取、清洗、存储、分析、可视化的方法,可实现了数据的自动更新、整理、分析、可视化。通过对现有新冠肺炎疫情相关结构化与非结构化数据进行采集,并使用参数调整后的BERT 模型进行情感分析并产出直观的分析结果;使用人工标注的疫情微博情感训练集对BERT模型进行了训练和参数调整,提高了模型针对于疫情数据的准确度;针对舆情情感分析结果,本发明设计的方法中涵盖了对其与疫情病例数之间的关系讨论,并涵盖了分时期绘制的词云图,更有力地对疫情舆情发展与疫情爆发之间的状况进行了阐释。

本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号