首页> 中国专利> 基于多模型融合的新闻情感分析方法

基于多模型融合的新闻情感分析方法

摘要

本发明公开了一种基于多模型融合的新闻情感分析方法,包括:爬取官方新闻网站相关英文新闻,得到原始新闻语料库;对爬取到的英文新闻文本进行预处理;根据预处理后的新闻语料库中的英文新闻文本信息,建立实体知识库,并利用实体知识库对英文新闻文本进行情感倾向标注,并将标注为情感句的英文新闻文本分为三级进行标注;利用三级标注后的英文新闻文本对情感分析模型进行训练,使其具备将预处理后的英文新闻文本进行三级分类的功能;将标注为情感句的英文新闻句输入训练好的情感分析模型,获得分类结果。本发明在保持几乎相同准确率的同时更节约网络训练时间、提高了效率。

著录项

  • 公开/公告号CN112507723A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 南京理工大学;

    申请/专利号CN202011400913.4

  • 申请日2020-12-03

  • 分类号G06F40/30(20200101);G06F40/295(20200101);G06F16/951(20190101);G06N3/04(20060101);

  • 代理机构32203 南京理工大学专利中心;

  • 代理人岑丹

  • 地址 210094 江苏省南京市玄武区孝陵卫200号

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明属于计算机人工智能领域,具体为一种基于多模型融合的新闻情感分析方法。

背景技术

情感分类又称情感倾向性分析,是指对给定的文本,识别其中主观性文本的倾向是肯定还是否定的,或者说是正面还是负面的,是情感分析领域研究最多的。通常网络文本存在大量的主观性文本和客观性文本。客观性文本是对事物的客观性描述,不带有感情色彩和情感倾向,主观性文本则是作者对各种事物的看法或想法,带有作者的喜好厌恶等情感倾向。情感分类的对象是带有情感倾向的主观性文本,因此情感分类首先要进行文本的主客观分类。文本的主客观分类主要以情感词识别为主,利用不同的文本特征表示方法和分类器进行识别分类,对网络文本事先进行主客观分类,能够提高情感分类的速度和准确度。纵观目前主观性文本情感倾向性分析的研究工作,主要研究思路分为基于语义的情感词典方法和基于机器学习的方法。

基于情感词典的方法需要人工标注并构建情感词典,分析结果与词典质量正相关,有很大局限性;传统机器学习方法需要人工筛选情感特征,工作量巨大;而目前深度学习方法的情感分析研究,大多致力于分类准确率的提高,往往忽略了网络的训练速率。

发明内容

本发明的目的在于提供了一种基于多模型融合的新闻情感分析方法。

实现本发明目的的技术方案为:一种基于多模型融合的新闻情感分析方法,包括以下步骤:

步骤1:面向事件利用爬虫技术,爬取官方新闻网站相关英文新闻,得到原始新闻语料库;

步骤2:对爬取到的英文新闻文本进行预处理;

步骤3:根据预处理后的新闻语料库中的英文新闻文本信息,建立面向国家、人物、组织、事件的实体知识库,并利用建立的实体知识库对预处理后的英文新闻文本进行情感倾向标注,并将标注为情感句的英文新闻文本分为三级进行标注;

步骤4:利用三级标注后的英文新闻文本对情感分析模型进行训练,使其具备将预处理后的英文新闻文本进行三级分类的功能;

步骤5:对爬取的英文新闻文本按步骤2、步骤3进行预处理和情感倾向标注,将标注为情感句的英文新闻句输入训练好的情感分析模型,获得分类结果。

优选地,对爬取到的英文新闻文本进行预处理包括对爬取到的新闻语料进行分句、去停用词、标准化。

优选地,所述实体知识库中存储人物、组织的英文正式名称、别称、国家名称、热点事件。

优选地,利用建立的实体知识库对预处理后的英文新闻文本进行情感倾向标注的原则为:

当一句新闻中出现了n个知识库实体时标注为情感句,n为可调整的参数。

优选地,所述情感分析模型(CNN-BiGRU)包括词嵌入层、Dropout层、卷积神经网络、池化层、双向门控循环单元、输出层,所述词嵌入层用于将输入的一句话转换为向量;所述Dropout层设置在词嵌入层后;所述卷积神经网络用于对Dropout层输出的词向量进行卷积操作,获得词与词之间的局部特征;所述池化层用于对卷积后的特征进行池化操作;所述双向门控循环单元包括一个前向的GRU单元和一个后向的GRU单元,所述输出层用于将特征向量进行全连接后输入到分类器中得到分类结果。

优选地,所述卷积神经网络卷积操作得到的局部特征为:

c

其中,b表示偏置量,f(·)表示非线性卷积核函数,x

优选地,GRU单元体用于计算文本特征向量,具体计算公式为:

z

r

其中,x

优选地,采用Concatenate方式对卷积神经网络输出的句子特征f

优选地,分类器的输出为:

其中,

本发明与现有技术相比,其显著优点为:①本发明利用CNN对文本的静态局部特征进行初步提取,再通过双向门控循环单元(GRU)对文本的序列特征及上下文语意信息进行进一步提取,后接两层单向GRU,全程无需任何手动提取特征;②本发明采用的门控循环单元(GRU)相比于长短时记忆网络(LSTM)少了一个门控单元,只有重置门、更新门,参数更少,网络训练速率也更快,在保持几乎相同准确率的同时更节约网络训练时间、提高了效率。

附图说明

图1本发明流程图。

图2情感分析模型训练流程图。

图3CNN-BiGRU结构图。

图4情感分析模型测试流程图。

具体实施方式:

一种基于多模型融合的新闻情感分析方法,根据面向人物、组织的情感语料库构建情感分析模型,能够对爬取的英文新闻进行情感句识别、情感的三级判断,如图1所示,包括以下步骤:

步骤1:面向事件利用爬虫技术,爬取环球网等官方新闻网站爬取相关英文新闻,得到原始新闻语料库。

在某些实施例中,对新闻文本进行处理的首要步骤就是获取新闻文本数据,主要的方法有两种:直接使用现有的他人己经整理完整的语料库,或者通过爬虫等工具从网络中获取自己所需要的语料数据。本发明针对的是特定领域新闻情感,当需要某些指定主题下的语料时,第二种方法更适合。

步骤2:对爬取到的大段英文新闻文本进行预处理,包括对爬取到的新闻语料进行分句、去停用词,标准化等。首先以.!?…为切分标志为对英文新闻文本做断句处理。其次,英文文本中存在着一些无效词语,比如“a”,“for”的一些短词、标点符号等等,在进行文本分析时,这些内容往往是没有什么意义的,将他们看作是停用词,建立停用词表完成停用词的去除有利于更高效的进行文本分析。另外,有时词不是正确格式。比如“I looooveeeyou”应该是“I love you”。采用简单规则和正则表达式使其标准化。

步骤3:根据预处理后的新闻语料库中的信息,建立面向国家、人物、组织、事件的实体知识库,从而利用建立的实体知识库实现对切分成句的新闻的自动情感倾向标注,在此基础上再对自动标注为是情感句的新闻语料做人工标注,具体步骤为:

步骤3.1:根据预处理后的新闻语料库中的信息,建立面向国家、组织、人物、事件的实体知识库,所述实体知识库中存储人物、组织的英文正式名称、别称、国家名称、热点事件等相关实体;

步骤3.2:基于实体知识库完成对一句新闻的自动标注。自动标注规则是:当一句新闻中出现了n个知识库实体时标注为情感句,否则该句新闻不是情感句,n为可调整的参数。传统的语料库构建及标注方法通常基于人工标注,时间成本和人力成本都比较高。通过这种方式可以相对容易获得大量情感句和非情感句语料。

步骤3.3:在步骤3.2的基础上再对情感句语料进行标注,分为三级(1-负面,2-中立,3-正面)。此方法结合了自动标注和人工标注,通过机器完成对切分成句的新闻是否为情感句的标注,并在其基础上通过人工方式进行情感三级标注,大大降低了语料库情感标注的人工成本。

步骤4:利用三级标注后的英文新闻文本对情感分析模型进行训练,使其具备将预处理后的英文新闻文本进行三级分类的功能;

在某些实施例中,采用多模型融合的方法,将卷积神经网络(CNN)与双向门控循环单元(GRU)相结合构成深度学习模型(CNN-BiGRU),通过卷积神经网络(CNN)与双向门控循环单元(GRU)获取文本的特征信息,最后使用Softmax分类器进行情感分类。

根据上述步骤3.3得到情感句三级分类的数据集,将数据集按照二八原则分为训练集和测试集,利用训练集训练情感分析模型,模型训练的流程如图2所示。

所述情感分析模型(CNN-BiGRU)包括词嵌入层、Dropout层、卷积神经网络、池化层、双向门控循环单元、输出层。

所述词嵌入层用于将输入的一句话转换为向量,在某些实施例中,选择最常用的word2vec算法,将每一个英文词汇映射为一个m维实数向量。输入一句话最后得到的是一个表示句子的实数矩阵,每一行代表一个词向量(默认dim=m),行数(默认dim=n)表示一句话中的英文词汇数量。因此,输入文本经过词嵌入层后得到n*m维向量;

所述Dropout层设置在词嵌入层后,以减轻训练过程中的过拟合,在某些实施例中,所述Dropout层大小为0.3。

卷积神经网络通过在dropout层随机得到的句子的词向量表示S

c

其中,b表示偏置量,f(·)表示非线性卷积核函数,x

C=[c

池化层是对卷积后的特征进行池化操作来提取其中更显著的特征,本发明选择最大池化(MaxPooling)进行特征挑选,产生最终的文本向量特征为f

双向门控循环单元是在基本GRU结构上采用的双向结构,对于输入的每一个低维词向量,都将其传入一个前向的GRU单元和一个后向的GRU单元中,然后将前后GRU单元输出的文本特征向量h

z

r

其中x

通过上一时刻的输出h

得到门控信号后,首先使用重置门控来得到“重置”之后的数据r

最后z

将每个句子输入情感分析模型,分别经过卷积神经网络与双向门控循环单元,经过卷积神经网络输出的句子特征为f

输出层是将拼接的特征向量进行全连接后输入到一个分类器,由于本发明研究的是情感的三分类,因此选择softmax函数作为输出分类器,将输出的结果映射到(0,1)的值,表示为:

其中,

情感分析模型测试。在情感分析算法模型测试阶段,将步骤4中按照二八原则得到的测试集通过已训练好的模型得出分类结果,并进行准确率与性能分析。模型测试的流程如图4所示。

步骤5:对爬取的英文新闻文本按步骤2、步骤3进行预处理和情感倾向标注,将标注为情感句的英文新闻句输入训练好的情感分析模型,获得分类结果。

本发明基于多模型融合的深度学习模型分析英文新闻的情感级别(正向、负向、中立)。针对特定领域舆情分析、细粒度情感分析的挑战,设计了基于实体知识库对切分成句的新闻的自动情感倾向标注,并在其基础上通过人工方式进行情感三级标注,大大降低了语料库情感标注的人工成本。

本发明在卷积神经网络的基础上结合双向门控循环单元神经网络设计了CNN-BiGRU的情感分类模型。卷积神经网络具有自动提取、学习句子中的抽象特征的性质,这样克服了人工提取特征的麻烦。基于长短时记忆网络演化而来的门控循环单元(GRU)独有的处理序列问题所具备的记忆、选择特性,在处理词语序列化问题中的良好性能。

实施例1

本实施案例假设从环球新闻网爬一则新闻:“Lam saidthat she fullysupported Yeung′s statement andpraised his actions in dealing with thetextbooks.Global Times 57%ofrespondents in the US disapprove ofthe way Trumphandles relations with China,a recent Gallup survey,carried outbetween July30to Aug 12,showed.”。对爬取到的英文新闻进行预处理包括对爬取到的新闻语料进行分句、数据清洗、去噪、去停用词,去除与主题无关的词汇等,处理后的结果是:

1)Lam support Yeung statementpraise action deal textbooks

2)Global Times 57%respondents US disapprove Trump handle relationsChina Gallup survey carry July 30Aug 12show

预处理好的新闻句先通过实体知识库进行自动标注,得到这两句新闻都是带有情感倾向的句子。接着,采用训练好的情感分析模型进行情感三级分类,判断这两句新闻的情感倾向,是正向,负向,还是中立。以上为例,可以得到情感句Lam support Yeungstatementpraise action deal textbooks的极性为正向;情感句Global Times 57%respondents US disapprove Trump handle relations China Gallup survey carryJuly 30Aug 12show的极性是负向。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号