首页> 中国专利> 情感态度分类方法及装置

情感态度分类方法及装置

摘要

本文公开发明了一种情感态度分类方法及装置,针对现有技术中情感分析主要集中于单模态文本数据,忽略多模态数据融合问题,通过结合屏蔽多模态注意力方式,提出跨模态融合ERNIE的情感分析模型(CM‑ERNIE)。通过文本和音频模态的交互作用微调预训练ERNIE模型,屏蔽多模态注意力为CM‑ERNIE的核心单元,通过结合文本和音频模态的信息来动态调整单词权重。实验表明,该模型在CMU‑MOSEI和CMU‑MOSI多模态数据集上分别提高了1.6百分点和3.0百分点,并且比单模态情感分析模型准确度高。

著录项

  • 公开/公告号CN114840667A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 成都信息工程大学;

    申请/专利号CN202210424320.4

  • 发明设计人 安俊秀;陶全桧;靳宇倡;

    申请日2022-04-21

  • 分类号G06F16/35(2019.01);G06F40/205(2020.01);G06F40/289(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京元本知识产权代理事务所(普通合伙) 11308;

  • 代理人曹广生

  • 地址 610225 四川省成都市西南航空港经济开发区学府路一段24号

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2022104243204 申请日:20220421

    实质审查的生效

说明书

技术领域

本发明涉及一种文本分类方法以及文本分类装置,具体的说,涉及一种情感态度分类方法及装置。

背景技术

相对于常规文本分类数据集,某些领域的数据集严重不足。例如,新冠领域的数据集数量就严重不足,数据噪声多,且没有结合预训练语言模型,新冠文本数据因为数据量少并且语义特殊的特点使得难以对其准确进行分类。

发明内容

本发明的目的在于克服背景技术所提出的技术问题,提出了一种情感态度分类方法、装置。本发明在特定领域的多模态数据集上,尤其是针对数据集数量严重不足的情况,准确度得到有效地提升。

本发明的具体技术方案如下:

根据本发明的第一技术方案,提供了一种情感态度文本分类方法,所述方法包括:提取文本和/或音频的词语特征,送入预训练语言模型,并动态调整所述词语特征的权重;基于预设的分类标签,选取概率最大的分类标签作为对应词语特征的目标标签。

根据本发明的第二技术方案,提供了一种情感态度分类装置,所述装置包括处理器,所述处理器被配置为:提取文本和/或音频的词语特征,送入预训练语言模型,并动态调整所述词语特征的权重;基于预设的分类标签,选取概率最大的分类标签作为对应词语特征的目标标签。

根据本发明实施例的情感态度分类方法、装置,对文本进行信息抽取进而微调预训练模型的方法,引入外部知识的方式融合到模型中,在少样本的情况下提取关键词嵌入ERNIE模型中,使模型做文本表征及文本分类时更加关注关键词,通过对数据集进行多轮实验表明模型取得了较好的效果。实验结果表明,该方法能够提高ERNIE性能,在引入外部知识的情况下,效果尤为显著。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例的一种情感态度分类方法的流程图。

图2(a)为Bert和CM-ERNIE在ChnSentCorp数据集上的加权F1值图。

图2(b)为Bert和CM-ERNIE为Nlpcc2014-SC数据集上的加权F1值。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

图1表示出了根据本发明实施例的一种情感态度分类方法的流程图。该方法始于步骤S100,提取文本和/或音频的词语特征,送入预训练语言模型,并动态调整所述词语特征的权重。

在一些实施例中,所述文本通过如下方式进行预处理文本获取:获取文本,并去除所述文本中的无用信息,所述无用信息包括空格、多余的字符、表情符号、网址、重复数据、对文本情感分析无关的停用词中的一种以及停用词组合。经过预处理后的文本能够获取具有更加准确的情感语境的文本。对音频数据通过卷积神经网络以及BIGRU和自注意力机制进行特征提取。

在一些实施例中,通过如下方法获得所述词语特征:

对所述文本进行分词,获得若干单词;

对音频数据用CNN,BIGRU挖掘单模态音频数据特征;

对文本和音频模态的交互作用微调预训练语言模型;

结合文本和音频模态的信息来动态调整单词权重,进而微调预训练语言模型。

在步骤S200中,基于预设的分类标签,选取概率最大的分类标签作为对应词语特征的目标标签。

在一些实施例中,预训练语言模型通过如下方法对词语特征进行训练并动态调整所述词语特征的权重:

(1)模态输入表征

预训练语言模型的输入包括两部分:字块令牌(word-piece tokens)的文本序列和字级(word-level)对齐音频特征。首先,文本序列将经过ERNIE模型,并使用最后一个Encoder层的输出作为文本特征,其定义为X

其中,X

将CNN处理后的音频数据输入到BiGRU中,提取与文本对应的音频特征:

其中,

由于单词级对齐音频特征

其中,

因为X

其中,

(2)屏蔽多模态注意力

在得到

首先,评估每个词在不同模态下的权重。

其中,Relu为激活函数,通过加入非线性因素,提高模型的表达能力。

其中,

为了通过文本和音频模态之间的交互来调整每个单词的权重,对文本注意力矩阵α

其中,w

其中,w

W

得到多模态注意力矩阵后,将W

X

其中,X

在一些实施例中,利用如下训练模型来计算各个分类标签在所述词语特征中的概率值:

P(I)=soft max(Wh

其中,P(I)是概率值,I是指文中的多模态数据,包括文本和音频,w,b

选取概率值最大的分类标签作为对应词语特征的目标标签。

在一些实施例中,通讨如下损失函数对所述训练模型讲行训练,直到loss值收敛:

其中,N是样本数量,y

本发明实例还提供一种情感态度分类装置,所述装置包括处理器,所述处理器被配置为:提取文本和/或音频的词语特征,送入预训练语言模型,并动态调整所述词语特征的权重;基于预设的分类标签,选取概率最大的分类标签作为对应词语特征的目标标签。

需要注意的是本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实例中,所述处理器被进一步配置为:获取文本,并去除所述文本中的无用信息,所述无用信息包括空格、多余的字符、表情符号、网址、重复数据、对文本情感分析无关的停用词中的一种及停用词组合。

在一些实例中,所述处理器被进一步配置为:利用如下训练模型来计算各个分类标签在所述词语特征中的概率值:

P(I)=softmax(Wh

其中,P(I)是概率值,I是指文中的多模态数据,包括文本和音频,w,b

选取概率值最大的分类标签作为对应词语特征的目标标签。

在一些实例中,所述处理器被进一步配置为:通过如下损失函数对所述训练模型进行训练,直到loss值收敛:

其中,N是样本数量,y

下面本发明实例将结合具体实验来说明本发明的技术效果。

利用本发明实例提供的方法对多模态情感分析数据集进行分类。本发明实例使用从互联网上收集的外部数据集和另外两个官方团队提供的公共数据集验证模型的准确性。数据分布情况如表1所示。

表1.数据集统计

本发明实例在预训练模型ERNIE微调情况下进行改进,主要是动态调整单词的权重来对多模态数据进行分类,称为CM-ERNIE。这里关键信息可以包含2种方式:(1)引入外部知识库。(2)从文本中进行信息抽取。本发明实施例可以采用从文本中进行信息抽取来形成关键信息从而引导文本进行分类。抽取的方式为先进行分词,然后采用Textrank进行单词打分最终选取top5作为关键信息结果。模型采用adam优化器进行迭代优化。模型处理流程如下:

给定长度为n的文本S,记为w

[CLS]KI

H=Ernie(KI

取[SEP]字符的表征(h

P(I)=softmax(Wh

w,b

采用交叉熵作为损失函数,然后最小化loss:

其中,N是样本数量,y

通过采用不同模型进行对比,其中对比模型采用相同的参数,训练和验证的批次都为16,最大句子长度为200,学习率:5e-05,最大训练轮数为10轮。CM-ERNIE通过引入外部知识的方式,最大句子长度设置为230,其他参数与上面模型参数一致。

在分类任务中,本文采用准确率P、召回率R和F1值作为评估指标,具体定义如下:

准确率即Precision,简记为P,它是对预测结果而言。对于单一样本的标签预测只有两种结果,正类或者负类,表示预测正确或者预测错误。样本标签预测为正只有两种可能,一种就是把正类预测为正类,另一种是把负类预测为正类,准确率定义为预测为正的样本中有多少是真正的正样本。

召回率即Recall,简记为R,它是对原来样本而言的。对于数据集中的正类样本,预测结果有两种可能,一种是原来的正类预测为正类,另一种是把原来的正类预测为负类,召回率表示样本中的正类有多少被预测准确。

F1是用来评价文本分类效果的一种综合指标,计算方式为召回率和准确率的平均值,具体公式如下:

FastText是2016年Facebook提出的一个词向量及文本分类的工具,使用句子中所有单词作为输出和使用类别标签进行预测,其模型的输入不仅仅针对每个单词,并且加入了词序信息,其目的是学习文本标签的分类,FastText因为训练速度非常快从而比较受工业界关注。

TextCnn是Yoon Kim在2014年提出TextCnn,借助于CNN通过窗口滑动使得句子中的词能够和周边词一起进行特征学习,通过对窗口大小控制,改变词的感受视野,这样就可以使得词获取到不同范围的词进行特征学习。利用CNN参数共享的性质,能够使得网络快速收敛,是文本分类的经典方案。

BERT是2018年提出的基于Transformer的自编码预训练语言模型,通过mask策略来构建语言模型的学习任务,这样可以使文本学习到更好到表征。BERT的提出带来了自然语言处理相关领域的一个巨大飞跃,刷新了各项自然语言任务的榜单。BERT分为语言模型的学习和下游任务的微调2个阶段的学习,基于语言模型场景适应以及微调被大力推广。

ERNIE(Enhanced representation through knowledge integration)是百度在2019年4月的时候,基于BERT模型做的进一步优化,在中文的NLP任务上得到了state-of-the-art的结果。它主要的改进是在mask的机制上做改进,它的mask不是基本的word piece的mask,而是在预训练阶段增加了外部的知识,由三种level的mask组成,分别是basic-level masking(word piece)+phrase level masking(WWM style)+entity levelmasking。在这个基础上,借助百度在中文社区的强大能力,中文的ERNIE还用了各种异质(Heterogeneous)的数据集。

表2和表3报告了所有模型的评价结果。本发明在CM-ERNIE中进行信息抽取,调整词语权重与其他模型进行对比,在数据集上对它们进行训练。其中为了重点对比ERNIE与BERT在不同数据集上的性能,在公开数据集Nlpcc2014-Sc上未统计TextCnn和FastText的评分。在这些模型方法中,CM-ERNIE的F1评分最高。

表2:CM-ERNIE模型在单模态文本数据集上评估结果

表2具体显示了两个数据集的文本分类性能(%),TextCnn、FastText、Ernie_Fintune、Ernie+KI和Bert_Fintune的每个性能值分别是使用不同随机种子的16次运行的平均值。表2中,每一列的最佳平均性能用粗体表示。

从表2中可以发现CM-ERNIE是文本进行情感分类的最佳模型。

结果表明,CM-ERNIE模型是文本情感分类的最佳模型,并且实验中发现BERT的实验评分次之。因此,我们将CM-ERNIE的性能与BERT进行对比,并再一次在多模态公开数据集上进行训练,以评估其有效性。

在多模态公开数据集中,各模型的实验参数以及评分如表3所示,得分最高为CM-ERNIE。其中模型参数都一致:训练和验证批次为16,最大句子长度为200,学习率为5e-5,训练轮数为10轮。

表3:CM-ERNIE模型在CMU-MOSI数据集上评估结果

以前的工作运用相关深度学习模型实现数据集的平均性能,但是忽略了大数据时代下,文本量大并且意义千变万化,所以应考虑关键信息的方式在预训练模型下进行,这样不仅提高训练速度,模型的性能也能得到提升。并且,从表2中发现,ERNIE引入外部知识的情况下,分数高于其他的模型,说明ERNIE结合文本与音频,动态调整权重方式可以进一步提高模型的性能并且从表3中发现,多模态公开数据集上结果类似,CM-ERNIE的评分最高。

图2为了充分说明CM-ERNIE模型的性能,分别统计了比较了Bert和CM-ERNIE模型在两个不同数据集10轮结果的加权F1值。结果如图2(a)和图2(b)所示。图2(a)中,横坐标代表不同轮数,纵坐标代表Bert和CM-ERNIE在ChnSentCorp数据集上的加权F1值。图2(b)中,横坐标代表不同轮数,纵坐标代表Bert和CM-ERNIE为Nlpcc2014-SC数据集上的加权F1值。

以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号