首页> 中国专利> 事件的情感分类方法、装置、电子设备及存储介质

事件的情感分类方法、装置、电子设备及存储介质

摘要

本发明提供的事件的情感分类方法、装置、电子设备及存储介质,通过获取待检测事件中的多模态数据;基于预训练模型获取各模态数据对应的数据特征;将各模态数据对应的数据特征进行特征融合,获得目标数据特征;将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息;即本发明实施例通过对待检测事件中的多模态数据进行分析,确定事件的情感类别,提高了情感分类的准确性。

著录项

  • 公开/公告号CN112598067A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利号CN202011566802.0

  • 发明设计人 孙雅琳;桑海岩;李苗苗;

    申请日2020-12-25

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N20/10(20190101);

  • 代理机构11205 北京同立钧成知识产权代理有限公司;

  • 代理人张娜;刘芳

  • 地址 100033 北京市西城区金融大街21号

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明涉及互联网技术,尤其涉及一种事件的情感分类方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展,相关的社交媒体软件,例如微信公众号等,每天都会发布大量的信息,识别所发布信息的情感类别,成为重要的研究课题之一。

现有技术中,通常是获取所发布信息中的文本内容,然后基于传统的机器学习分类模型或深度神经网络模型来判断文本内容的情感类别。

但是,上述方法中,识别出的情感类别准确性不高。

发明内容

针对上述问题,本发明提供了一种事件的情感分类方法、装置、电子设备及存储介质。

第一方面,本发明提供了一种事件的情感分类方法,包括:获取待检测事件中的多模态数据;基于预训练模型获取各模态数据对应的数据特征;将各模态数据对应的数据特征进行特征融合,获得目标数据特征;将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息。

在其他可选的实施方式中,所述多模态数据包括以下至少两种:文本、图像、音频。

在其他可选的实施方式中,所述基于预训练模型获取各模态数据对应的数据特征,包括:基于文本预训练模型获取文本数据的文本特征;基于图像预训练模型获取图像数据的图像特征;基于音频特征提取模型获取音频数据的音频特征。

在其他可选的实施方式中,所述将各模态数据对应的数据特征进行特征融合,获得目标数据特征,包括:将所述文本特征输入到基于自注意力机制的文本编码器中,输出第一级文本特征;将所述图像特征输入到基于自注意力机制的图像编码器中,输出第一级图像特征;将所述音频特征输入到基于自注意力机制的音频编码器中,输出第一级音频特征;将所述第一级文本特征、第一级图像特征以及第一级音频特征输入到基于交叉注意力机制的交叉模态编码器中,输出第二级文本特征、第二级图像特征以及第二级音频特征;将所述第二级文本特征、第二级图像特征以及第二级音频特征进行拼接,获得所述目标数据特征。

在其他可选的实施方式中,所述基于预训练模型获取各模态数据对应的数据特征之前,还包括:通过带有情感类别标记的训练数据对预训练模型进行微调;所述基于预训练模型获取各模态数据对应的数据特征,包括:基于微调后的预训练模型获取各模态数据对应的数据特征。

在其他可选的实施方式中,所述输出待检测事件的情感类别信息之后,还包括:根据所述情感类别信息生成情感类别标签,并将所述情感类别标签标记在所述待检测事件的展示页面上;其中,所述情感类别标签用于用户确定是否读取所述待检测事件。

第二方面,本发明提供一种事件的情感分类装置,包括:第一获取模块,用于获取待检测事件中的多模态数据;第二获取模块,用于基于预训练模型获取各模态数据对应的数据特征;特征融合模块,用于将各模态数据对应的数据特征进行特征融合,获得目标数据特征;情感分类模块,用于将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息。

第三方面,本发明提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面,本发明提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现第一方面任一项所述的方法。

第五方面,本发明提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现第一方面任一项所述的方法。

本发明提供的事件的情感分类方法、装置、电子设备及存储介质,通过获取待检测事件中的多模态数据;基于预训练模型获取各模态数据对应的数据特征;将各模态数据对应的数据特征进行特征融合,获得目标数据特征;将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息;即本发明实施例通过对待检测事件中的多模态数据进行分析,确定事件的情感类别,提高了情感分类的准确性。

附图说明

图1为本发明所基于的一种应用场景示意图;

图2为本发明提供的一种事件的情感分类方法的流程示意图;

图3为本发明所提供的一种编码器示意图;

图4为本发明提供的另一种事件的情感分类方法的流程示意图;

图5为本发明提供的一种微信公众号文章的情感分类方法的示意图;

图6为本发明提供的一种跨模态的编码器的过程图;

图7为本发明提供的一种控制设备的硬件结构示意图;

图8为本发明提供的一种控制系统的结构示意图。

具体实施方式

为使本发明示例的目的、技术方案和优点更加清楚,下面将结合本发明示例中的附图,对本发明示例中的技术方案进行清楚、完整地描述。

随着互联网技术的发展,相关的社交媒体软件,例如微信公众号等,每天都会发布大量的信息,识别所发布信息的情感类别,成为重要的研究课题之一。

现有技术中,通常是获取所发布信息中的文本内容,然后基于传统的机器学习分类模型来判断文本内容的情感类别。

但是,现在的社交媒体上所发布的信息不仅仅包括文本内容,还包括图像、音频、视频等其他模态的内容信息,如果仅针对文本内容进行分析,识别出的情感类别准确性不高。

另外,传统的机器学习分类模型,比如随机森林、极端梯度提升(eXtremeGradient Boosting,简称XGBoost)、支持向量机(support vector machines,简称SVM)等等,或者采用深度神经网络,例如卷积神经网络(Convolutional Neural Network,简称CNN)、循环神经网络(Recurrent Neural Network,简称RNN)、长短期记忆网络(LongShort-Term Memory,简称LSTM)等分类模型的准确率不高。

针对上述问题,本发明的技术构思在于,对待检测事件中的多模态数据进行分析,并利用预训练模型进行分析,提高了情感分类的准确性。

图1为本发明所基于的一种应用场景示意图,如图1所示,本发明所基于的一种应用场景包括终端设备1和服务器2,通过终端设备1上展示了某微信公众号发布的一篇文章,该文章中包括了文本、图像、音频等多种信息,终端设备1将获取的文章中的文本、图像、音频等多模态数据发送给服务器2,以使服务器2执行下述各实施方式中所述的方法,以实现对该篇文章进行情感分类。

第一方面,本发明示例提供了一种事件的情感分类方法,图2为本发明提供的一种事件的情感分类方法的流程示意图。

如图2所示,该事件的情感分类方法包括:

步骤101、获取待检测事件中的多模态数据。

作为可选的实施例,所述多模态数据包括以下至少两种:文本、图像、音频。

具体来说,待检测事件可以为社交媒体平台所发布的信息,例如微信公众号发布的文章。终端设备可以通过爬虫技术对社交媒体发布的信息进行爬取,获得对应的文本、图片、音频、视频等数据,并将这多种模态数据发送给服务器中进行非结构化存储,其中,视频包括多帧的图像,即视频可以按照图像进行后续处理。

步骤102、基于预训练模型获取各模态数据对应的数据特征。

作为可选的实施例,步骤102包括:基于文本预训练模型获取文本数据的文本特征;基于图像预训练模型获取图像数据的图像特征;基于音频特征提取模型获取音频数据的音频特征。

具体来说,文本预训练模型可以为基于变换器的双向编码器(BidirectionalEncoder Representations from Transformers,简称Bert)、模型横向更宽的网络,可称之为XLNet等,在本步骤中,可将文章中的文本数据输入到文本预训练模型中,提取出文本特征,该文本特征一般为64维或128维的词向量。

图像预训练模型可以为残差神经网络(英文Residual neural network,简称ResNet)、VGG网络,可称之为VGGNet等,在本步骤中,可将文章中的图像输入到图像预训练模型中,提取出图像特征,该图像特征一般为64维或128维。

音频特征提取模型可以为梅尔频率倒谱系数(Mel-frequency cepstralcoefficients,简称MFCC)、频谱率(FilterBank,简称FBANK)等,在本步骤中,可将文章中的音频输入到音频特征提取模型中,提取出音频特征,一般来说经过FBANK模型提取出的音频特征为40维。

需要说明的是,基于预训练模型获取的数据特征,相比与传统的机器学习分类模型和神经网络模型,准确率更高。

步骤103、将各模态数据对应的数据特征进行特征融合,获得目标数据特征。

具体来说,将上述获取的各模态数据对应的数据特征,例如文本特征、图像特征以及音频特征进行特征融合,获得目标数据特征。

作为可选的实施例,步骤103包括:将所述文本特征输入到基于自注意力机制的文本编码器中,输出第一级文本特征;将所述图像特征输入到基于自注意力机制的图像编码器中,输出第一级图像特征;将所述音频特征输入到基于自注意力机制的音频编码器中,输出第一级音频特征;将所述第一级文本特征、第一级图像特征以及第一级音频特征输入到基于交叉注意力机制的交叉模态编码器中,输出第二级文本特征、第二级图像特征以及第二级音频特征;将所述第二级文本特征、第二级图像特征以及第二级音频特征进行拼接,获得所述目标数据特征。

图3为本发明所提供的一种编码器示意图;如图3所示,首先应用三个transformer编码器,即文本编码器、图像编码器以及音频编码器,它们中的每一个都只专注于一个单一的模态(即或视觉或者语音)。在单模态编码器中,每层都包含一个自注意(“Self”)子层和一个前馈(“FF”)子层。在本步骤中,可将文本特征输入到文本编码器中,通过自注意子层可以为文本特征中的不同词向量赋予不同的权重,从而获得第一级图像特征;同理,将图像特征输入到图像编码器中,通过自注意子层可以为图像特征中的特征数据量赋予不同的权重,从而获得第一级图像特征;将音频特征输入到音频编码器中,通过自注意子层可以为音频特征中的特征数据量赋予不同的权重,从而获得第一级音频特征。

然后将第一级文本特征、第一级图像特征以及第一级音频特征输入到基于交叉注意力机制的交叉模态编码器中,其中,交叉模态编码器中的每个交叉模态层均由六个自注意子层,三个双向交叉注意子层和六个前馈子层组成。在该交叉模态编码器的实现过程中,将这些交叉模态层叠加(即,使用第k层的输出作为第(k+1)层的输入)。在第k层内部,首先应用了双向交叉注意子层(“交叉”),该子层包含六个单向交叉注意子层:一个从文本到图像,从文本到语音,从图像到语音,从图像到文本,从语音到文本,从语音到图像。即获得文本在图像、音频的影响下的文本特征(第二级文本特征)、图像在文本、音频的影响下的图像特征(第二级图像特征)以及音频在文本、图像的影响下的音频特征(第二级音频特征)。

最后,基于连接concat函数,对上述输出的第二级文本特征、第二级图像特征以及第二级音频特征进行拼接。假设第二级文本特征、第二级图像特征以及第二级音频特征对应的维数分别为p、q以及w,则拼接后的目标数据特征的维数为p+q+w。

步骤104、将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息。

具体来说,将目标数据特征输入到分类器softmax中,输出该待检测事件的情感类别。可选的,所述情感类别信息包括以下至少一种:积极、中性、消极。

可选的,步骤104之前,还包括:将所述目标数据特征输入到卷积神经网络模型CNN中,学习目标数据特征,并将学习的目标数据特征输入到softmax中,输出情感类别。

作为可选的实施例,步骤104之后,还包括:根据所述情感类别信息生成情感类别标签,并将所述情感类别标签标记在所述待检测事件的展示页面上;其中,所述情感类别标签用于用户确定是否读取所述待检测事件。

举例来说,在确定微信公众号所发布的某篇文章的情感类别信息后,生成对应的情感类别标签,并将该情感类别标签标记在文章的展示页面上,用户可以根据情感类别标签,确定是否要读取该文章,假设该篇文章的情感类别标签为消极,则用户可以选择不读取该篇文章,可见,本实施例便于用户根据自己的需求快速筛选出自己感兴趣的文章,相比于现有技术中用户需要读取整篇文章后,才发现是自己不感兴趣的文章,本实施例节约了用户时间。

本发明实施例提供的事件的情感分类方法,通过获取待检测事件中的多模态数据;基于预训练模型获取各模态数据对应的数据特征;将各模态数据对应的数据特征进行特征融合,获得目标数据特征;将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息;即本发明实施例通过对待检测事件中的多模态数据进行分析,确定事件的情感类别,提高了情感分类的准确性。

结合前述的各实现方式,图4为本发明提供的另一种事件的情感分类方法的流程示意图,如图4所示,该事件的情感分类方法包括:

步骤201、通过带有情感类别标记的训练数据对预训练模型进行微调。

步骤202、获取待检测事件中的多模态数据。

步骤203、基于微调后的预训练模型获取各模态数据对应的数据特征。

步骤204、将各模态数据对应的数据特征进行特征融合,获得目标数据特征。

步骤205、将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息。

本实施方式中的步骤202、步骤204以及步骤205分别与前述实施方式中的步骤101、步骤103以及步骤104的实现方式类似,在此不进行赘述。

与前述实施方式不同的是,为了进一步提高情感分类的准确性,在本实施方式中,通过带有情感类别标记的训练数据对预训练模型进行微调,基于微调后的预训练模型获取各模态数据对应的数据特征。

具体来说,在用预训练模型对各模态数据提取特征之前,可以对预训练模型进行微调,使其更符合当前的应用场景,例如以对微信公众号发布的文章进行情感分类的场景为例,可以通过爬虫技术获取用于微调训练的文章,并采用人工标注的方法对文章进行标注,标注为0/1/2三种类别,其中0代表中性,1代表积极,2代表消极,比如,洗发水广告、描述客观性事实的新闻等可以标注为0,搞笑类文章、鸡汤式文章可以标注为1,维权类文章,捐助救助类文章可以标注为2。然后,利用人工标注好的文章对预训练模型进行微调,最后利用微调后的预训练模型进行特征提取。

图5为本发明提供的一种微信公众号文章的情感分类方法的示意图,图6为本发明提供的一种跨模态的编码器的过程图;下面结合图5、图6对本发明进行进一步的说明。

参考图5,微信公众号文章的情感分类过程主要分为预训练阶段和微调fine-tune阶段,在预训练阶段,首先爬取微信公众号文章,提取出文章内容、图片和音频信息;然后将文章内容输入到文本预训练模型(bert、XLNet等),将图片输入到图像预训练模型(Resnet、VGG、Imagenet等),将音频输入到音频特征模型(MFCC、FBANK以及语谱图特征)中;然后将提取出的各特征进行跨模态(cross-Modilaty)的编码器(transformer)进行特征融合;然后将特征融合后的特征输入到分类模型(CNN、RNN等)继续学习该特征;最后输入到softmax,输出情感类别。

参考图6,将提取出的各特征进行跨模态(cross-Modilaty)的编码器(transformer)进行特征融合的具体过程如下:文本特征(feature)、图像feature以及音频feature输入到各自对应的基于自注意力(self-Attention)编码器中;然后输入到基于交叉注意力机制的交叉编码器中,实现三部分的特征两两交叉;输出对应的文本feature、图像feature以及音频feature,然后基于Concat进行特征拼接,获得目标数据特征。

在前述实施方式的基础上,通过带有情感类别标记的训练数据对预训练模型进行微调,基于微调后的预训练模型获取各模态数据对应的数据特征,从而使得预训练模型更符合当前的应用场景,进一步提高情感分类的准确性。

第二方面,本发明示例提供了一种事件的情感分类装置,图7为本发明提供的一种事件的情感分类装置的结构示意图,如图7所示,该事件的情感分类装置包括:

第一获取模块10,用于获取待检测事件中的多模态数据;第二获取模块20,用于基于预训练模型获取各模态数据对应的数据特征;特征融合模块30,用于将各模态数据对应的数据特征进行特征融合,获得目标数据特征;情感分类模块40,用于将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息。

在其他可选的实施方式中,所述多模态数据包括以下至少两种:文本、图像、音频。

在其他可选的实施方式中,所述第二获取模块20,具体用于:基于文本预训练模型获取文本数据的文本特征;基于图像预训练模型获取图像数据的图像特征;基于音频特征提取模型获取音频数据的音频特征。

在其他可选的实施方式中,所述特征融合模块30,具体用于:将所述文本特征输入到基于自注意力机制的文本编码器中,输出第一级文本特征;将所述图像特征输入到基于自注意力机制的图像编码器中,输出第一级图像特征;将所述音频特征输入到基于自注意力机制的音频编码器中,输出第一级音频特征;将所述第一级文本特征、第一级图像特征以及第一级音频特征输入到基于交叉注意力机制的交叉模态编码器中,输出第二级文本特征、第二级图像特征以及第二级音频特征;将所述第二级文本特征、第二级图像特征以及第二级音频特征进行拼接,获得所述目标数据特征。

在其他可选的实施方式中,所述装置还包括模型微调模块50,所述模型微调模块50,用于:通过带有情感类别标记的训练数据对预训练模型进行微调;则所述第二获取模块20,具体用于:基于微调后的预训练模型获取各模态数据对应的数据特征。

在其他可选的实施方式中,所述输情感分类模块40还用于:根据所述情感类别信息生成情感类别标签,并将所述情感类别标签标记在所述待检测事件的展示页面上;其中,所述情感类别标签用于用户确定是否读取所述待检测事件。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的事件的情感分类装置的具体工作过程以及相应的有益效果,可以参考前述方法示例中的对应过程,在此不再赘述。

本发明提供的事件的情感分类装置,通过第一获取模块,用于获取待检测事件中的多模态数据;第二获取模块,用于基于预训练模型获取各模态数据对应的数据特征;特征融合模块,用于将各模态数据对应的数据特征进行特征融合,获得目标数据特征;情感分类模块,用于将所述目标数据特征输入到分类器中,输出待检测事件的情感类别信息;即本发明实施例通过对待检测事件中的多模态数据进行分析,确定事件的情感类别,提高了情感分类的准确性。

第三方面,本发明示例提供了一种电子设备,图8为本发明提供的一种电子设备的硬件结构示意图,如图8所示,包括:

至少一个处理器801和存储器802。

在具体实现过程中,至少一个处理器801执行所述存储器802存储的计算机执行指令,使得至少一个处理器801执行如上的事件的情感分类方法,其中,处理器801、存储器802通过总线803连接。

处理器801的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

在上述的图8所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

第四方面,本发明还提供了一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上事件的情感分类方法。

上述的可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。

本发明还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现第一方面任一项所述的方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号