首页> 中国专利> 一种基于“单词-短语”注意力机制的情感分类方法和系统

一种基于“单词-短语”注意力机制的情感分类方法和系统

摘要

本发明提供一种基于“单词‑短语”注意力机制的情感分类系统和方法,所述方法在TCN的基础上,提出的基于单词注意力机制的浅层特征提取模型和基于短语注意力机制的深层提取模型,能够有效挖掘单词、短语和整体评论所蕴含的辅助信息以及不同贡献程度,以更低的计算资源实现了更精准的情感分类性能。实验表明本文所提的SC‑WPAtt方法性能优于传统方法。

著录项

  • 公开/公告号CN113869065A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 梧州学院;

    申请/专利号CN202111202671.2

  • 申请日2021-10-15

  • 分类号G06F40/30(20200101);G06F40/289(20200101);G06F16/35(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人卢泽明

  • 地址 543000 广西壮族自治区梧州市富民三路82号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明涉及情感分类技术领域,具体涉及一种基于“单词-短语”注意力机制的情感分类方法和系统。

背景技术

COVID-19疫情严重威胁了各个国家的生命安全和社会发展。世界各国为了防止疫情的蔓延,采取了严格的社交距离控制措施。由于政府等公共部门投入大量资源应对疫情的防控以及疫情发展过于迅猛,导致信息传播出现延迟;同时,被隔离的人群大量使用互联网等平台进行交流和信息获取,产生了大量的虚假信息,这些都引发了民众由于获取疫情信息不及时或者不全面,从而容易造成恐慌情绪。因此,在疫情防控大量挤压其他公共资源的背景下,如何利用有限的资源引导社会舆论显得尤为重要。即如何自动从互联网大量的交流文本中有效识别用户的情感,可以为政府等相关部门健康引导舆论提供了基础。

传统的情感分类方法主要以基于语义的情感词典方法为主,该方法首先通过现有的电子词典构造出相应的情感词典,然后将句子进行分词并判断组成句子的词的情感倾向,以及计算整句的加权情感倾向来判断整句所带的情感。其研究主要有两个主流方向:一个是基于词典的方法(Lexicon-based approaches),此类方法将标注了情感极性和情感强度的情感词作为词典,且常通过强调和否定等词语规则完成对句子的情感极性的聚合;二是基于语料库的方法(Corpus-basedmethods),其主要根据标注了情感极性的句子构建情感分类器,此类方法标注数据的方式包括人工标注,也包括根据微博等表情符号来自动标注。

基于语义的情感词典方法直接使用情感词进行分类,非常直观,结构简单、计算量小、计算速度快和可解释,然而,情感词典难以覆盖所有情感,难以处理网络上大量的口语情感表达,以及难以识别社交软件如微信、Twitter中大量使用缩写、缩写和连词的用户情绪,此外,人工标注的方式难以处理大规模评论数据,使得维护情感词极为困难;以及根据标签符号完成自动标注的方式也难以得到高准确率的情感词汇。

近年来研究者们设计的神经网络模型,可以从目标和上下文中自动学习有用的低维表示,可以有效解决上述基于语义的情感词典方法该方法存在的问题。例如Bahdanau等利用递归神经网络构建语言模型,在低维空间表达单词向量,能够更好地度量单词与单词之间的相关性;Grave等人提出了使用循环卷积神经网络进行文本分类,它使用双向循环结构对文本进行建模;Tai等人在长短期记忆网络(LSTM,Long Short-Term Memory)的基础上引入树状结构来提高句子的语义表达。然而,这些神经网络模型在处理情感分类任务方面仍处于起步阶段,而且,这些模型不能区分每个单词对整个句子的不同贡献。受机器翻译引入注意力机制的启发,研究者们在情感分类领域引入注意力机制对与目标语义关系更密切的上下文词给予更多的注意。已经有一些研究使用注意力生成特定于目标的句子表征或根据目标词转换句子表示。然而,这些研究依赖于复杂的循环神经网络(RNNs)作为序列编码器来计算文本的隐藏语义,很难并行化,并需要大量的内存和计算。CNN(卷积神经网络,Convolutional Neural Networks)可以提取更高精度的特征,但是无法处理序贯数据;虽然LSTM可以在一定程度上缓解消失梯度问题,从而保持较长的距离信息,但这通常需要大量的训练数据。此外,现有注意力机制虽然考虑了不同单词的影响,但是较少考虑短语(不同组合的单词)和整体评论的影响。

针对以上问题,本发明在TCN的基础上,提出了一种基于“单词-短语”注意力机制的情感分析方法和系统,一方面引入TCN以更低的计算资源对序贯数据进行更高精度的提取,另一方面,提出的“单词-短语”注意力机制同时考虑了单词、短语和整体句子的不同影响。

发明内容

为解决上述问题,本发明所采用的技术方案如下:

在情感分类过程中,已知用户的评论文本C包含了多个短语,每一个短语里面包括了多个单词。假设s

由于不仅评论文本中的单词以及短语蕴含了丰富的辅助信息,而且不同组合方式的词组所蕴含的意义也不相同;另一方面,考虑到CNN具有很高的特征提取精度单缺乏序贯特征分析能力,而LSTM能够提取序贯特征但特征提取精度不如CNN,本发明提出一种基于“单词-短语”注意力机制的情感分类方法和系统,具体如下:

一种基于“单词-短语”注意力机制的情感分类系统,其包括文本数据预处理模型、基于单词注意力机制的浅层特征提取模型、基于短语注意力机制的深层特征提取模型和情感分类预测器;

所述文本数据预处理模型用于实现对文本数据的预处理,将每一个单词映射为词向量;

所述基于单词注意力机制的浅层特征提取模型包括构建Bi-GRU网络结构及构建单词注意力机制,提取单词不同的贡献程度,所述Bi-GRU网络结构用于得到文本的前向隐藏状态以及后向隐藏状态,使用串联的方式计算得到当前时刻总的状态,从而提取到细粒度的辅助信息以及尽可能多的核心词汇;

所述基于短语注意力机制的深层特征提取模型,用于从深层次挖掘核心词汇形成的短语级词向量蕴含的辅助信息,以及获取短语之间的序贯特征,即所述评论文本对应的表达特征;

所述情感分类预测器用于根据所述评论文本对应的表达特征预测其对应的情感分类。

作为优选,所述文本数据预处理模型采用Word2vec模型,具体用于:将每一个单词w映射为词向量e,其中,将第m个句子的第n个单词w

作为优选,所述基于单词注意力机制的浅层特征提取模型用于是构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度;所述构建Bi-GRU具体包括:GRU由更新门z和重置门r组成,更新门z表示以前的状态信息

z

r

其中,

经过公式(5)和公式(6)运算之后得到前向隐藏状态

所述构建单词注意力机制、提取单词不同的贡献程度具体包括:

u

其中,u

作为优选,所述基于短语注意力机制的深层特征提取模型采用时间卷积网络,具体用法为:已知

其中,l

公式(10)为一层时间卷积层,而时间卷积网络是由多个时间卷积层叠加构造而成的,使用残差的方式对层间进行连接,如下所示:

F

其中,

最后为了进一步挖掘评论C中不同短语

作为优选,所述情感分类预测器具体用于:使用softmax函数作为预测器,先使用线性模型对F

F′

其中,w′和b′为可学习的参数。紧接着,使用softmax函数对F′

Y′

其中,w″和b″为可学习的参数。

作为优选,所述基于“单词-短语”注意力机制的情感分类系统还包括定义损失函数以及迭代训练优化模块,具体包括:采用交叉熵作为损失函数,该函数可有效优化分类问题,所述交叉熵函数如下所示:

其中,Y

一种基于“单词-短语”注意力机制的情感分类方法,其包括以下步骤:

S1、对文本数据进行预处理,将每一个单词映射为词向量;

S2、构建Bi-GRU网络结构及构建单词注意力机制,提取单词不同的贡献程度,所述Bi-GRU网络结构用于得到文本的前向隐藏状态以及后向隐藏状态,使用串联的方式计算得到当前时刻总的状态,从而提取到细粒度的辅助信息以及尽可能多的核心词汇;

S3、从深层次挖掘核心词汇形成的短语级词向量蕴含的辅助信息,以及获取短语之间的序贯特征,即所述评论文本对应的表达特征;

S4、根据所述评论文本对应的表达特征预测其对应的情感分类。

作为优选,所述S1采用Word2vec模型,将每一个单词w映射为词向量e,其中,将第m个句子的第n个单词w

作为优选,所述S2包括构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度;所述构建Bi-GRU具体包括:GRU由更新门z和重置门r组成,更新门z表示以前的状态信息

z

r

其中,

经过公式(5)和公式(6)运算之后得到前向隐藏状态

所述构建单词注意力机制、提取单词不同的贡献程度具体包括:

u

其中,u

作为优选,所述S3采用时间卷积网络,具体为:已知

其中,l

公式(10)为一层时间卷积层,而时间卷积网络是由多个时间卷积层叠加构造而成的,使用残差的方式对层间进行连接,如下所示:

F

其中,

最后为了进一步挖掘评论C中不同短语

作为优选,所述S4使用softmax函数作为预测器,先使用线性模型对F

F′

其中,w′和b′为可学习的参数。紧接着,使用softmax函数对F′

Y′

其中,w″和b″为可学习的参数。

作为优选,所述基于“单词-短语”注意力机制的情感分类方法还包括定义损失函数以及迭代训练优化,具体包括:采用交叉熵作为损失函数,该函数可有效优化分类问题,所述交叉熵函数如下所示:

其中,Y

相比现有技术,本发明的有益效果在于:

本发明提供的基于TCN构建的基础神经网络,能够以更简单的网络结构和更低的资源占用率,实现更高精度的序列数据的读取,以便从非结构化文本数据中挖掘更多辅助信息;针对已有注意力机制虽容易忽略短语和整体评论的影响,本发明提出了“单词-短语”注意力机制,该机制从不同的角度挖掘了单词、短语(组合单词)和整体句子蕴含的辅助信息以及对情感分类的贡献度;本发明在Yelp平台的AG’s News数据集中构建了评测实验,实验结果显示,本发明提出的基于“单词-短语”注意力机制的情感分类方法准确度较高,且训练时间更低,具有更优的情感分类性能。

附图说明:

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1为本发明情感分类系统的结构示意图;

图2为本发明之方法的准确率评测实验结果示意图,图中,横轴epochs被定义为向前和向后传播中所有批次的单次训练迭代,纵轴accuracy代表精确度;

图3为本发明之方法的训练时长评测实验,图中,横轴epochs被定义为向前和向后传播中所有批次的单次训练迭代,纵轴time(s)为时间,单位为秒。

具体实施方式

实施例一:

本实施例提供一种基于“单词-短语”注意力机制的情感分类系统,如图1所示,其包括文本数据预处理模型、基于单词注意力机制的浅层特征提取模型、基于短语注意力机制的深层特征提取模型和情感分类预测器;

所述文本数据预处理模型用于实现对文本数据的预处理,将每一个单词映射为词向量;

所述基于单词注意力机制的浅层特征提取模型包括构建Bi-GRU网络结构及构建单词注意力机制,提取单词不同的贡献程度,所述Bi-GRU网络结构用于得到文本的前向隐藏状态以及后向隐藏状态,使用串联的方式计算得到当前时刻总的状态,从而提取到细粒度的辅助信息以及尽可能多的核心词汇;

所述基于短语注意力机制的深层特征提取模型,用于从深层次挖掘核心词汇形成的短语级词向量蕴含的辅助信息,以及获取短语之间的序贯特征,即所述评论文本对应的表达特征;

所述情感分类预测器用于根据所述评论文本对应的表达特征预测其对应的情感分类。

具体的,所述文本数据预处理模型采用Word2vec模型,具体用于:将每一个单词w映射为词向量e,其中,将第m个句子的第n个单词w

具体的,所述基于单词注意力机制的浅层特征提取模型用于是构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度;所述构建Bi-GRU具体包括:GRU(gatedrecurrentunit,门控循环单元)由更新门z和重置门r组成,更新门z表示以前的状态信息

z

r

其中,

经过公式(5)和公式(6)运算之后得到前向隐藏状态

所述构建单词注意力机制、提取单词不同的贡献程度具体包括:

u

其中,u

浅层特征提取模型提取了细粒度的辅助信息,所获取的特征也尽可能包括了更多的核心词汇。这些核心词汇形成的短语级词向量蕴含了丰富的辅助信息,不同组合

本实施例中,所述基于短语注意力机制的深层特征提取模型采用时间卷积网络,具体用法为:已知

其中,l

公式(10)为一层时间卷积层,而时间卷积网络是由多个时间卷积层叠加构造而成的,使用残差的方式对层间进行连接,如下所示:

F

其中,

最后为了进一步挖掘评论C中不同短语

经过上述浅层特征提取模型以及深层特征提取模型运算之后,得到的是蕴含丰富辅助信息的隐藏特征,也是评论文本C对应的表达特征Fm。最后一步是根据Fm预测其对应的情感分类。本发明使用softmax函数作为预测器,该函数可以将Fm数值映射到分类当中,且可以计算每一个分类所占的比例,且所有比例之和为1。

所述情感分类预测器具体用于:使用softmax函数作为预测器,先使用线性模型对F

F′

其中,w′和b′为可学习的参数。紧接着,使用softmax函数对F′

Y′

其中,w″和b″为可学习的参数。

作为优选,所述基于“单词-短语”注意力机制的情感分类系统还包括定义损失函数以及迭代训练优化模块,具体包括:采用交叉熵作为损失函数,该函数可有效优化分类问题,所述交叉熵函数如下所示:

其中,Y

实施例二:

本实施例提供一种基于实施例一所述的情感分类系统的方法,其包括:

S1、对文本数据进行预处理,将每一个单词映射为词向量;

S2、构建Bi-GRU网络结构及构建单词注意力机制,提取单词不同的贡献程度,所述Bi-GRU网络结构用于得到文本的前向隐藏状态以及后向隐藏状态,使用串联的方式计算得到当前时刻总的状态,从而提取到细粒度的辅助信息以及尽可能多的核心词汇;

S3、从深层次挖掘核心词汇形成的短语级词向量蕴含的辅助信息,以及获取短语之间的序贯特征,即所述评论文本对应的表达特征;

S4、根据所述评论文本对应的表达特征预测其对应的情感分类。

具体的,所述S1采用Word2vec模型,将每一个单词w映射为词向量e,其中,将第m个句子的第n个单词w

具体的,所述S2包括构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度;所述构建Bi-GRU具体包括:GRU由更新门z和重置门r组成,更新门z表示以前的状态信息

z

r

其中,

经过公式(5)和公式(6)运算之后得到前向隐藏状态

所述构建单词注意力机制、提取单词不同的贡献程度具体包括:

u

其中,u

具体的,所述S3采用时间卷积网络,具体为:已知

其中,l

公式(10)为一层时间卷积层,而时间卷积网络是由多个时间卷积层叠加构造而成的,使用残差的方式对层间进行连接,如下所示:

F

其中,

最后为了进一步挖掘评论C中不同短语

具体的,所述S4使用softmax函数作为预测器,先使用线性模型对F

F′

其中,w′和b′为可学习的参数。紧接着,使用softmax函数对F′

Y′

其中,w″和b″为可学习的参数。

另外,所述基于“单词-短语”注意力机制的情感分类方法还包括定义损失函数以及迭代训练优化,具体包括:采用交叉熵作为损失函数,该函数可有效优化分类问题,所述交叉熵函数如下所示:

其中,Y

为了验证本实施例所述的基于“单词-短语”注意力机制的情感分类方法(简称“SC-WPAtt方法”)的有效性,本发明在AG’s News数据集以及谷歌公布的50维的word2vec向量集合1上构建了系列评测实验。AG’s News数据集从2000多个新闻网站收集了超过100万篇新闻文章,并且映射到了4个分类当中,符合基于文本的情感分类的要求。实验环境细节为:操作系统使用CentOS 7.5,硬件环境使用NVIDIA’s K80计算卡,软件平台为PyTorch0.4.0。此外,模型核心参数设置为:批次数量为128、学习率为0.001、SGD的动量因子为0.9。

本发明使用HN-Att(层次注意网络,Hierarchical-Attention-Network)作为对比方法,该方法是一种基于深度学习的情感分析方法,优势在于提出一种层次注意力机制,在构建文档表示时能够区别地关注更多和不那么重要的内容,以便从文档中挖掘更多辅助信息完成分档分类。此外,本发明使用正确率作为评价分类算法的评价指标,其运算公式为:Accuracy=(TP+TN)/(TP+FP+TN+FN)。其中TP表示将正样本预测为正类别的数量,TN表示将负样本预测为负类别的数量,FP表示将负样本错误地预测为正类别的数量,FN表示将正样本预测为负类别的数量。

本发明从正确率和训练时长2个角度,对SC-WPAtt方法和HN-Att方法进行评测。每个实验在分别对迭代次数为20,25,30,35的情况进行了评测。如图2所示,本发明所提出的SC-WPAtt方法准确率高于HN-Att方法,说明本发明所提出的基于单词注意力机制的浅层特征提取模型和基于短语注意力机制的深层提取模型是有效的。说明它们考虑了单词、短语(组合单词)和整体评论所蕴含的辅助信息以及不同贡献程度,能够有效提升特征提取精度。如图3所示,本发明所提出的SC-WPAtt方法所用的训练时间低于HN-Att方法,说明引入TCN不仅能保持对序列特征提取的精度,还能简化网络结构占用更少的计算资源。

为了快速有效识别民众的情绪,为政府部门在COVID-19疫情期间有效引导舆论提供有效参考。本发明首先引入基于TCN构建了基础神经网络,在保持CNN较高特征提取精度的情况下,以更低的计算资源实现了对序列数据的处理。其次,提出基于单词注意力机制的浅层特征提取模型从单词级别提取细粒度的特征,最后提出基于短语注意力机制的深层特征提取模型,从粗粒度读取了短语以及整体评论的特征。实验表明,本发明所提的SC-WPAtt方法无论在正确率或者训练时长上都优于HN-Att方法。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号