法律状态公告日
法律状态信息
法律状态
2020-05-19
授权
授权
2018-08-28
实质审查的生效 IPC(主分类):G06F17/30 申请日:20180130
实质审查的生效
2018-08-03
公开
公开
技术领域
本发明涉及评论文本情感分类,尤其涉及一种基于层次双向LSTM(BidirectionalLong Short-Term Memory,Bi-LSTM)和注意力机制的评论文本情感模型训练与情感分类方法、装置及设备,属于自然语言处理技术领域。
背景技术
文本情感分类的核心问题是如何有效地表示文本的情感语义。随着互联网技术的快速发展,网络上产生大量用户针对热点事件、产品等有价值的评论文本信息,比如,微博,电商平台,餐饮平台等等。这些评论信息包含人们丰富的情感色彩和情感倾向。情感分析的目的就是自动地从文本中提取和分类用户针对产品或事件的主观情感信息,帮助商家或者政府部门完成数据分析和舆情监控等任务。因此,情感分析也成为自然语言处理领域的重要课题之一。情感分析分为情感信息的抽取、情感信息的分类以及情感信息的检索与归纳。这里解决的主要是文本级别的情感分类问题。文本级别的情感分类任务主要是为了自动分类出用户产生的情感文本中针对某一产品或事件表达的情感倾向(积极或消极)或者情感强度(如电影或者餐厅评论文本中的1-5星评价)。目前的大多数方法将情感分类看作文本分类问题的一种。通过机器学习的方法,将情感倾向或者情感评分当作有监督的数据,训练分类器对文本情感进行分类成为一种主流的方法。机器学习中的特征表示是影响分类器效果的重要因素,因此,文本情感语义的特征表示成为文本情感分类问题中的关键且耗时的一步。
传统的特征表示方法包括One-hot、N-Gram以及领域专家通过文本或者额外的情感词典设计的一些有效特征。然而,特征工程是一个劳动密集型的任务,且需要较多的领域知识。因此,特征的自动学习渐渐成为人们研究的重点。基于神经网络的深度学习方法就是自动学习特征的一种方法。并且随着深度学习在计算机视觉,语音识别和自然语言处理等领域的成功应用,越来越多的基于深度学习的文本情感分类模型产生,这些模型普遍地利用词嵌入(Word Embedding,WE)的方法进行特征表示,这种低维度词向量表示方法不仅能很好地解决传统语言模型中词表示中存在的维度过大的问题,而且,能很好的保留词的语义信息,使得语义相似的词距离更近。另外,在词嵌入的基础上,通过卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recursive Neural Network,RNN)和循环神经网络(Recurrent Neural Network,RNN)等神经网络模型,能很好地表示句子或者文本级别的语义信息,由于深度学习具有良好的特征自动抽取能力,从而在本文情感分类问题中得到了广泛的应用。
然而,目前大多数基于神经网络的文本情感分类模型只考虑了文本内容相关的情感语义,忽略了与文本相关的评论主体信息以及文本内容所描述的评论客体信息。同时,有研究表明,评论主体的喜好与评论客体的特点对于评论主体的评分有着重要的影响。实现文本的上下文语义稳健感知与语义表达,同时融合注意力机制将评论主体和评论客体信息与文本语义信息结合,使得文本中语义信息更加丰富,是本发明的主要研究方向。
发明内容
发明目的:针对现有技术的不足,本发明目的在于提供一种基于层次Bi-LSTM和注意力机制的评论文本情感分类模型训练和基于该模型进行情感分类的方法,以及装置和设备,通过利用双向的LSTM来建模句子级和文档级语义特征,引入正向LSTM单元捕获上文特征信息,反向LSTM单元捕获下文特征信息,并且将评论主体和评论客体信息与文本语义信息结合,捕获丰富的语义特征信息,提高文本情感分类的鲁棒性和正确率。
技术方案:为实现上述发明目的,本发明采用以下技术方案:
一种评论文本情感分类模型训练方法,包括如下步骤:
(1)获取包括评论文本、与所述评论文本关联的主体和客体信息的训练集文本;
(2)将训练集的评论文本中单词转变成词向量表示,输入到第一层Bi-LSTM网络中,再结合前后向隐藏层输出向量乘以单词级评论文本关联的主体和客体信息注意力机制训练出的权重,提取句子级特征表示;
(3)将句子级特征表示输入到第二层Bi-LSTM网络中,结合前后向隐藏层输出向量乘以句子级评论文本关联的主体和客体信息注意力机制训练出的权重,提取评论文本的文档级特征表示;
(4)采用双曲正切非线性映射函数将即得的文档级语义特征映射至情感类别空间,采用softmax分类,对模型中的参数进行训练,得到最优文本情感分类模型。
作为优选,步骤(2)中,基于单词级注意力机制提取得到的第i个句子的句子级语义特征
作为优选,步骤(3)中,基于句子级注意力机制提取得到的文档级特征
作为优选,步骤(4)中包括:
(4.1)采用双曲正切tanh非线性映射函数将即得的文档级语义特征d映射到情感类别数目为C的情感类别空间,
(4.2)利用softmax分类器决策判决得到文本情感类别,使用交叉熵损失函数作为模型训练的优化目标,通过反向传播BP算法计算损失函数梯度同时不断更新模型中相关参数得到最优模型。
作为优选,利用softmax分类器决策判决得到文本情感类别的计算公式为:
其中,
作为优选,所述交叉熵损失函数的计算公式为:
其中,训练集
本发明另一方面提供的一种使用上述评论文本情感分类模型训练方法得到的文本情感分类模型进行文本情感分类的方法,包括如下步骤:
获取包括评论文本、与所述评论文本关联的主体和客体信息的测试集文本;
将测试集文本输入至所述的最优文本情感分类模型中进行预测得到情感类别。
本发明另一方面提供的一种评论文本情感分类模型训练装置,包括:
获取模块,用于获取包括评论文本、与所述评论文本关联的主体和客体信息的训练集文本;
句子级特征提取模块,用于将训练集文本的评论文本中单词转变成词向量表示,输入到第一层Bi-LSTM网络中,再结合前后向隐状态输出矢量乘以单词级评论文本关联的主体和客体信息注意力机制训练出的权重,提取句子级特征表示;
文档级特征提取模块,用于将句子级特征表示输入到第二层Bi-LSTM网络中,结合前后向隐状态输出矢量乘以句子级评论文本关联的主体和客体信息注意力机制训练出的权重,提取评论文本的文档级特征表示;
以及,训练模块,用于采用双曲正切非线性映射函数将即得的文档级语义特征映射至情感类别空间,采用softmax分类,对模型中的参数进行训练,得到最优文本情感分类模型。
本发明另一方面提供的一种使用上述评论文本情感分类模型训练方法得到的文本情感分类模型进行文本情感分类的装置,包括:
获取模块,用于获取包括评论文本、与所述评论文本关联的主体和客体信息的测试集文本;
以及,分类预测模块,用于将测试集文本输入至所述的最优文本情感分类模型进行预测得到情感类别。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的评论文本情感分类模型训练方法或者实现所述的文本情感分类方法。
有益效果:与现有技术相比,本发明具有以下技术效果:
本发明基于层次Bi-LSTM和注意力机制的文档级文本情感分类方法,利用双向的LSTM来建模句子级和文本级别的语义特征。正向LSTM捕获上文的语义特征信息,反向LSTM捕获下文的语义特征信息,同时融入评论文本主体客体相关信息加强文本语义表达,其效果不仅可以实现文本的上下文语义稳健感知与语义表达,还可以显著改善文本情感分类的鲁棒性,同时还可以有效提高文本情感分类的正确率。
附图说明
图1是本发明实施例中评论文本情感分类模型训练方法的流程图。
图2是本发明实施例中提出的层次Bi-LSTM模型示意图。
图3是本发明实施例中评论文本情感分类模型训练及情感分类方法原理示意图。
图4是本发明实施例中评论文本情感分类方法流程图。
图5是本发明实施例中评论文本情感分类模型训练装置结构图。
图6是本发明实施例中评论文本情感分类装置结构图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明实施例公开的一种评论文本情感分类模型训练方法,主要包括如下步骤:
(1)获取训练集文本,其中训练集中的每个样本文本包括评论文本本身,和与该评论文本关联的评论主体(即评论者或相关组织)和评论客体(评论产品、新闻等对象)。评论文本及相关主体和客体的信息可以从互联网上获取。
(2)将训练集的评论文本中单词转变成词向量表示,输入到第一层Bi-LSTM网络中,再结合前后向隐藏层输出向量乘以单词级评论文本关联的主体和客体信息注意力机制训练出的权重,提取句子级特征表示。
(3)将句子级特征表示输入到第二层Bi-LSTM网络中,结合前后向隐藏层输出向量乘以句子级评论文本关联的主体和客体信息注意力机制训练出的权重,提取评论文本的文档级特征表示。
步骤(2)中,采用词嵌入技术(Word Embedding,WE)将评论文本中各相应单词转换成特征向量表示,并输入到Bi-LSTM网络中以提取单词级特征表达。词嵌入技术将文本中的单词映射到相对于词汇量的大小而言较低维空间上的实数向量。在单词级别的语义特征表示中,所有的词均采用一个词嵌入矩阵Lw∈Rn×|V|表示,其中n表示单词的维度,|V|是所有单词的数量。Lw中的词向量
所构建的第一层次Bi-LSTM模型中,双向LSTM(Bi-LSTM)网络在隐藏层同时引入正向LSTM单元和反向LSTM单元;正向LSTM单元捕获上文特征信息,而反向LSTM单元捕获下文特征信息;与单向LSTM相比,能够捕获更多鲁棒的特征信息。根据得到文本的单词级特征表示,输入Bi-LSTM网络输出提取文本的句子级特征表示;采用类似策略级联输入第二个Bi-LSTM网络由文本的句子级特征表示输出提取得到文本的文档级特征表示以实现基于两层Bi-LSTM网络感知文本文档级特征的层次Bi-LSTM模型构建。
将文本的单词级特征表示输入第一层Bi-LSTM网络中,假设一个句子yi中有T个词,第j个词为
结合
步骤(3)中将即得的句子级特征表示输入第二层Bi-LSTM网络中,同理,假设一个文本b中有M个句子,每个句子为yi,i∈[0,M],将文本b看作一个序列,文本中的句子为文本序列的组成部分。分别提取该Bi-LSTM网络中的前向LSTM和后向LSTM模型输出,并视为相应文本的文档级特征表示:
结合
为了得到更精确的评论文本情感语义表示,将与评论主体和客体有关的描述性文本信息采用注意力机制训练出单词级及句子级隐状态输出的权重,在得到评论文本的语义级特征表示时,选择与评论主体和客体相关度较高的单词或者句子,从而得到更精准的文本情感语义表示。
在步骤(2)中采用单词级注意力机制(word attention)进一步强化与情感因素有关联的句子级特征表示,结合评论主体和客体偏好信息赋予语义更相关的单词更大的权重。假设采用向量
其中
其中,e是计算词
其中,WH、WU和WP分别表示隐藏层输出
步骤(3)中采用句子级注意力机制(sentence attention)进一步强化与情感因素有关联的文档级特征表示,结合评论主体和客体偏好信息赋予语义更相关的句子更大的权重。在文档级特征表示中,假设d是基于句子级注意力机制提取得到的文档级特征表示,那么:
其中,βi表示文档中第i个句子yi的重要程度,计算方法与
综上,文本特征提取的步骤是:首先将文本中相关单词采用词嵌入技术(如word2vector工具)转换成实数向量表示,作为第一层Bi-LSTM网络输入,并提取该Bi-LSTM网络的前后向隐藏层的输出向量
(4)采用双曲正切非线性映射函数将即得的文档级语义特征映射至情感类别空间,采用softmax分类,对模型中的参数进行训练,得到最优文本情感分类模型。
步骤(3)得到整体文本的文档级特征表示d,可以将其直接作为文本分类器的特征输入。首先,采用双曲正切tanh非线性映射函数将即得的文档级语义特征d映射到映射到情感类别数目为C的情感类别空间,计算公式:
其中,Wc是文档特征d的参数矩阵,bc是偏差向量,
其中,
其中,训练数据集
根据以上步骤构建好分类模型,将数据集中的训练集文本输入至构建好的模型中,采用自适应学习率调整(AdaDelta)方法优化模型参数并在验证集上调节模型参数得到最优模型参数,从而得到最优文本情感分类模型。模型训练和分类的详细原理图如图3所示
如图4所示,本发明实施例公开的一种评论文本情感分类模型训练装置,包括:获取模块,用于获取包括评论文本、与所述评论文本关联的主体和客体信息的训练集文本;句子级特征提取模块,用于将训练集文本的评论文本中单词转变成词向量表示,输入到第一层Bi-LSTM网络中,再结合前后向隐状态输出矢量乘以单词级评论文本关联的主体和客体信息注意力机制训练出的权重,提取句子级特征表示;文档级特征提取模块,用于将句子级特征表示输入到第二层Bi-LSTM网络中,结合前后向隐状态输出矢量乘以句子级评论文本关联的主体和客体信息注意力机制训练出的权重,提取评论文本的文档级特征表示;以及,训练模块,用于采用双曲正切非线性映射函数将即得的文档级语义特征映射至情感类别空间,采用softmax分类,对模型中的参数进行训练,得到最优文本情感分类模型。
如图5所示,本发明实施例公开的一种评论文本情感分类装置,包括:获取模块,用于获取包括评论文本、与所述评论文本关联的主体和客体信息的测试集文本;以及,分类预测模块,用于将测试集文本输入至所述的最优文本情感分类模型进行预测得到情感类别。
上述评论文本情感分类模型训练装置实施例可以用于执行上述评论文本情感分类模型训练方法实施例,评论文本情感分类装置实施例可以用于执行上述评论文本情感分类方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,上述描述的评论文本情感分类及模型训练的具体工作过程及有关说明,可以参考前述相应方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于与方法实施例相同的技术构思,本发明实施例还提供了一种计算机设备,该计算机设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。其中,计算机程序被加载至处理器时实现上述评论文本情感分类方法实施例或评论文本情感分类模型训练方法实施例中的各步骤。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
机译: 文本情感分类方法,存储介质和计算机
机译: 遗传算法的有理词提取方法和装置,以及有说理的词的情感分类方法和装置
机译: 文本分类模型训练方法,文本分类方法和装置,以及电子设备