首页> 中国专利> 一种融合颜文字的多类别情感提取方法

一种融合颜文字的多类别情感提取方法

摘要

本发明提供一种融合颜文字的多类别情感提取方法,包括对文本集进行预处理,还包括以下步骤:将预处理完成的文本集放入Word2Vec中的Skip‑Gram模型进行训练,将词的上下文关系嵌入到低维空间,得到所有词语对应的词向量;构建颜文字情感词典;计算文档中颜文字情感概率;计算文本情感概率;计算文档综合情感概率。本发明通过计算相似度提取颜文字的多种情感概率并生成颜文字情感词典,通过计算文档颜文字情感概率,在文本的基础上融合了颜文字情感信息,以帮助提高用户情感提取的全面性和准确性,进而提高决策的准确率,同时利用神经网络和循环神经网络的高效性和强大的特征学习能力为情感提取提供可靠的依据,降低了人工构建情感词典和规则的依赖。

著录项

  • 公开/公告号CN113191135A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 北京联合大学;

    申请/专利号CN202110412378.2

  • 发明设计人 骆曦;刘晓晓;

    申请日2021-04-16

  • 分类号G06F40/242(20200101);G06F40/284(20200101);G06F40/44(20200101);G06N3/04(20060101);G06N3/08(20060101);G06K9/62(20060101);

  • 代理机构11367 北京驰纳智财知识产权代理事务所(普通合伙);

  • 代理人蒋路帆

  • 地址 100101 北京市朝阳区北四环东路97号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及自然语言处理技术与情感分析的技术领域,特别是一种融合颜文字的多类别情感提取方法。

背景技术

随着信息技术和网络技术的发展,社交媒体已成为现代人们相互交流和信息传递的主要平台,如论坛、微博、在线评论等,每天都涌现大量的富含主观情感的信息。通过分析用户发表的信息,能够识别其中隐含的情感信息,并且能够发现用户情感的演化规律,进行有价值的信息预测,这在互联网信息挖掘中具有重要价值。情感分析是指利用自然语言处理、文本分析和计算语言学等方法分析人们的观点、情感、评价、态度和情绪等信息,其主要目的是基于挖掘结果进行有价值的信息预测,并将预测结果以更直观的方式展示出来。近年来,情感分析技术在市场营销、舆论监控、政策分析、公共关系管理方面都有广泛的应用,具有较高的经济和社会价值。

现有情感分析技术的手段主要有两种:

(1)基于情感词典的方法:情感词对于文本情感倾向的表达起着重要作用,基于词典的方法主要是运用情感词的相关信息进行情感倾向判别。通过制定情感词典、利用句子语法和词语出现位置等规则,对文本进行拆句、分析及匹配词典,对情感词进行加权,最后使用情感值作为文本的情感倾向判断的依据。情感词典的准确率高,但存在召回率比较低的情况;规则和词典的构建和完善需要大量人力,其质量决定了情感分析质量,对于不同的领域,构建情感词典的难度不同,精准构建的成本较高;此外,该方法未考虑词语上下文对情感变化的影响。

(2)基于机器学习的方法:将其作为有监督分类问题,用已标注的文本训练模型,然后使用训练好的模型预测未标注文本的情感极性,目前较为成熟。卷积神经网络(CNN)利用多个卷积核进行卷积计算,可以从不同角度较好的提取文本的局部特征,但不能解决长文本的上下文依赖。长短期记忆网络(LSTM)是循环神经网络的一种,使用了三门设计方法,能够利用文本序列的能力捕捉到用户不断变化的情绪,但识别局部特征的能力较弱。

颜文字是一种基于字符的表情符号,利用计算机字符码表中特定字符的显示外观,编排其组合次序,形成描绘人物表情动作的图案。在社交媒体中,有越来越多的人频繁使用颜文字来表达和抒发丰富的内心情感,它丰富了网络交流的想象空间,深受年轻用户的喜爱,目前已发展成为影响世界的网络文化符号。颜文字的使用会带来语义和语境情感上的变化,因此传统的单纯基于文本的情感分析已经无法满足需要,需要结合颜文字为用户情感决策提供更多、更准确的信息,进而提高决策的准确率。

申请号为201910976409.X的发明专利申请公开了一种基于模型融合的多类别情感分类方法,首先利用Bert模型在数据预处理方面的突破性进展对训练文本集进行预处理,与类别标签数据结合,获取文本的特征向量,将非结构化的文本数据转化成结构化的训练集合,再转化为Liblinear模型的标准输入数据,进行分类模型的构建。该方法的缺点是需要较大的数据集用于调整和预训练,没有考虑文本中颜文字的影响,且在捕捉句子顺序信息方面的能力较差,无法获取更加复杂的语义特征。

发明内容

为了解决上述的技术问题,本发明提出的融合颜文字的多类别情感提取方法,通过计算相似度提取颜文字的多种情感概率并生成颜文字情感词典,通过计算文档颜文字情感概率,在文本的基础上融合了颜文字情感信息,以帮助提高用户情感提取的全面性和准确性,进而提高决策的准确率,同时利用神经网络和循环神经网络的高效性和强大的特征学习能力为情感提取提供可靠的依据,降低了人工构建情感词典和规则的依赖。

本发明的目的是提供一种融合颜文字的多类别情感提取方法,包括对文本集进行预处理,还包括以下步骤:

步骤1:将预处理完成的文本集放入Word2Vec中的Skip-Gram模型进行训练,将词的上下文关系嵌入到低维空间,得到所有词语对应的词向量;

步骤2:构建颜文字情感词典;

步骤3:计算文档中颜文字情感概率;

步骤4:计算文本情感概率;

步骤5:计算文档综合情感概率。

优选的是,所述预处理步骤包括以下子步骤:

步骤01:从文本集中使用正则表达式提取颜文字,生成颜文字词典;

步骤02将颜文字词典添加到中文分词工具等的自定义词典中,对文本集中的所有文本进行分词处理,去停用词。

在上述任一方案中优选的是,所述步骤2包括以下子步骤:

步骤21:根据Plutchik情感轮盘将情感分为四组对立情感,从训练完成的Skip-Gram模型中分别获取八个情感词语和颜文字词典中每个颜文字所对应的词向量;

步骤22:分别计算每个颜文字向量与八个情感词语向量之间的相似度即余弦距离s

其中,X=(x

步骤23:将所述余弦距离sim

其中,sim

步骤24:计算所有颜文字的情感概率并生成颜文字情感词典。

在上述任一方案中优选的是,所述情感包括八种:快乐

在上述任一方案中优选的是,所述步骤3包括对于某一文档所有颜文字集合{w

其中,S

在上述任一方案中优选的是,所述步骤4包括以下子步骤:

步骤41:进行词向量表示;

步骤42:输入双向LSTM网络;

步骤43:输入文本卷积神经网络;

步骤44:使用最大池化进行下采样处理,得到序列特征z={z

步骤45:输入softmax层。

在上述任一方案中优选的是,所述步骤41包括使用Skip-Gram输出的词向量表示文本,得到文本的词向量序列t=[t

在上述任一方案中优选的是,所述步骤42包括将所述词向量序列t=[t

在上述任一方案中优选的是,所述步骤43包括利用文本卷积模型对矩阵t

c

其中,f是非线性激活函数如双曲正切,b∈R是偏置项。卷积核w对t

在上述任一方案中优选的是,所述步骤45包括输入z,输出T*1的向量P={P

在上述任一方案中优选的是,所述文档综合情感概率G={G

G

其中,α为颜文字情感概率权重系数,取值范围为0<α<1。

在上述任一方案中优选的是,所述步骤5包括将概率值最大的一类作为该文档的最终情感分类。

本发明提出了一种融合颜文字的多类别情感提取方法,能够有效地对社交媒体中用户发表的大量信息进行情感挖掘和提取,并基于结果进行有价值的信息预测和决策,可以应用于政治、经济、服务、医疗等多个领域,具有较高的经济和社会价值。

Word2Vec是Google公司开发用于训练词向量的工具,包括CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)两种训练模型。

Skip-Gram模型是根据目标单词的上下文来训练词向量。

附图说明

图1为按照本发明的融合颜文字的多类别情感提取方法的一优选实施例的流程图。

图2为按照本发明的融合颜文字的多类别情感提取方法的颜文字情感词典构建方法的一实施例的流程图。

图3为按照本发明的融合颜文字的多类别情感提取方法的文本情感概率计算方法的一实施例的流程图。

图4为按照本发明的融合颜文字的多类别情感提取方法的的另一优选实施例的流程图。

图5为按照本发明的融合颜文字的多类别情感提取方法的文本情感概率计算的一实施例的流程图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所述,执行步骤100,对文本集进行预处理。在本步骤中,执行步骤101,从文本集中使用正则表达式提取颜文字,生成颜文字词典;执行步骤102,将颜文字词典添加到中文分词工具等的自定义词典中,对文本集中的所有文本进行分词处理,去停用词。

执行步骤110,将预处理完成的文本集放入Word2Vec中的Skip-Gram模型进行训练,将词的上下文关系嵌入到低维空间,得到所有词语对应的词向量。

执行步骤120,构建颜文字情感词典。如图2所示,执行步骤121,根据Plutchik情感轮盘将情感分为四组对立情感,从训练完成的Skip-Gram模型中分别获取八个情感词语和颜文字词典中每个颜文字所对应的词向量;

执行步骤122,分别计算每个颜文字向量与八个情感词语向量之间的相似度即余弦距离s

其中,X=(x

执行步骤123,将所述余弦距离sim

其中,sim

执行步骤124,计算所有颜文字的情感概率并生成颜文字情感词典。所述情感包括八种:快乐

执行步骤130,计算文档中颜文字情感概率。对于某一文档所有颜文字集合{w

其中,S

执行步骤140,计算文本情感概率。如图3所示,执行步骤141,进行词向量表示,使用Skip-Gram输出的词向量表示文本,得到文本的词向量序列t=[t

执行步骤142,输入双向LSTM网络,将所述词向量序列t=[t

执行步骤143,输入文本卷积神经网络,利用文本卷积模型对矩阵t

c

其中,f是非线性激活函数如双曲正切,b∈R是偏置项。卷积核w对t

执行步骤144,使用最大池化进行下采样处理,得到序列特征z={z

执行步骤145,输入softmax层,输入z,输出T*1的向量P={P

执行步骤150,计算文档综合情感概率,将概率值最大的一类作为该文档的最终情感分类。文档综合情感概率G={G

G

其中,α为颜文字情感概率权重系数,取值范围为0<α<1。

实施例二

现有技术手段的主要缺点在于:

(1)情感词典:规则和词典的构建和完善需要大量人力,对于不同的领域,构建情感词典的难度不同,精准构建的成本较高,未考虑词语上下文对情感变化的影响。

(2)机器学习:卷积神经网络可以从不同角度较好的提取文本的局部特征,但不能解决长文本的上下文依赖。长短期记忆网络能够有效地对邻近位置信息进行整合,解决了长期依赖导致的梯度消失和梯度爆炸等问题,但识别局部特征的能力较差。

(3)未考虑颜文字:目前情感分析大多基于单纯的文本信息,但随着颜文字的发展,越来越多的用户频繁使用颜文字来表达和抒发内心情感。因此,传统的基于文本的情感分析已经无法满足需要,颜文字可以为用户情感决策提供更多、更准确的信息,进而提高决策的准确率。

针对上述问题,本发明提出了一种融合颜文字的多类别情感提取方法。相比于单纯的文本数据,颜文字更有益于情感表达,因此协同文本使用可以帮助提高情感提取的全面性和准确性。首先生成颜文字情感词典,通过正则表达式提取语料集中的颜文字并使用词向量进行表示,计算每个颜文字与各类情感词汇的相似度,进行归一化处理后作为该颜文字的各类情感概率值。在提取文档情感信息时分为颜文字和文本两部分处理:颜文字部分通过查询颜文字情感词典,计算文档颜文字情感概率;文本部分基于Skip-gram词向量模型将词语转化成融入上下文信息的低维向量,通过双向长短期记忆网络进一步提取上下文特征信息,然后使用不同高度的卷积核对文本矩阵进行卷积操作以提取文本局部特征,经过池化、全连接、Softmax函数计算文本情感概率;最终文档情感信息由颜文字和文本两部分结果进行加权处理计算得出。

如图2所示,具体步骤详细描述如下:

步骤1预处理

从文本集中使用正则表达式提取颜文字,生成颜文字词典;将颜文字词典添加到中文分词工具如Jieba、NLPIR等的自定义词典中,对文本集中的所有文本进行分词处理,去停用词。

步骤2词嵌入

将预处理完成的文本集放入Word2Vec中的Skip-Gram模型进行训练,将词的上下文关系嵌入到低维空间,得到所有词语对应的词向量。其中,模型参数中窗口大小可取10,隐藏层的神经元个数即得到的词向量维数D可取300。

步骤3构建颜文字情感词典

3.1根据Plutchik情感轮盘将情感分为四组对立共以下八种:快乐

3.2分别计算每个颜文字向量与八个情感词语向量之间的相似度即余弦距离s

其中,X=(x1,x2,x3,…xD),Y=(y1,y2,y3,…yD),均包含D维特征。

3.3将上述得到的余弦距离sim

其中,sim

步骤4计算文档颜文字情感概率

对于某一文档所有颜文字集合{w

其中,S

步骤5计算文本情感概率

图2为文本情感概率计算流程图。

5.1词向量表示:使用步骤1.2中Skip-Gram输出的词向量表示文本,得到文本的词向量序列t=[t

5.2输入双向LSTM网络:将词向量序列t=[t

5.3输入文本卷积神经网络:利用文本卷积模型对矩阵t

c

其中f是非线性激活函数如双曲正切,b∈R是偏置项。卷积核w对t

5.4池化:使用最大池化进行下采样处理,得到序列特征z={z

5.5输入softmax层:输入z,输出T*1的向量P={P

步骤6计算文档综合情感概率

文档综合情感概率值G={G

G

其中α为颜文字情感概率权重系数,取值范围为0<α<1,最后将概率值最大的一类作为该文档的最终情感分类。如果要求输出正向、负向、中性等情感极性,可将快乐、信任、预期三类概率相加作为正向情感概率,悲伤、厌恶、愤怒、恐怖四类情感相加作为负向情感概率,惊奇直接作为中性情感概率,最后将正向、负向、中性概率值最大的一类作为最终情感极性。

本申请在文本的基础上融合颜文字提取多种情感:在社交媒体中,颜文字使用频繁、更有助于情感的表达,往往会带来语义和语境情感上的变化,因此传统的单纯基于文本的情感分析无法满足需要。本发明通过计算相似度提取颜文字的多种情感概率并生成颜文字情感词典,通过计算文档颜文字情感概率,在文本的基础上融合了颜文字情感信息,以帮助提高用户情感提取的全面性和准确性,进而提高决策的准确率。

本申请综合多种模型提取文本特征:先利用Skip-gram模型获取嵌入词向量,然后通过双向LSTM进一步提取上下文特征信息,最后使用不同高度的卷积核进行卷积操作以提取文本局部特征,使最终提取到的特征空间维度较低,且既包含整体上下文信息,又能够关注到文本局部信息。本发明提供的方法综合了多种模型的优点,利用神经网络和循环神经网络的高效性和强大的特征学习能力为情感提取提供可靠的依据,降低了人工构建情感词典和规则的依赖。

为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号