首页> 中国专利> 一种情感词典建立与情感计算方法

一种情感词典建立与情感计算方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种情感词典建立与情感计算方法，采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词，结合同义词词林及互联网中文文本语料（未标记）进行情感同义词扩充，并在情感计算方法上使用核函数方法，解决了情感计算过程中的训练时间久、准确率低的问题。

著录项

公开/公告号CN104090864A

专利类型发明专利
公开/公告日2014-10-08

原文格式PDF
申请/专利权人合肥工业大学;
展开▼

申请/专利号CN201410254058.9
发明设计人全昌勤;任福继;刘宁;
展开▼

申请日2014-06-09
分类号G06F17/27;
代理机构安徽合肥华信知识产权代理有限公司;
代理人余成俊
地址 230009 安徽省合肥市屯溪路193号
入库时间 2023-12-17 01:49:17

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-06

授权

授权
2014-10-29

实质审查的生效 IPC(主分类):G06F17/27 申请日:20140609

实质审查的生效
2014-10-08

公开

公开

说明书

技术领域

本发明涉及情感计算及文本情感分析方法领域，具体是一种情感词典建立与情感计算方法。

背景技术

在文本情感计算领域，常常使用情感词作为文本特征词，情感词数量及质量的好坏严重影响文本情感特征的表示质量好坏。一般的文本情感特征词多采用文本段的形容词、副词及少量名词作为特征词；常规情感计算方法多采用SVM (Support Vector Machine)、朴素贝叶斯方法。

传统的情感词典受限情感词的数量、无情感类别标记及无情感强度值标注，在数量及质量上均大大影响了文本情感特征的表示；分类算法也面临着训练时间久、准确率低的困扰。

发明内容

本发明的目的是提供一种情感词典建立与情感计算方法，以解决现有技术存在的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种情感词典建立与情感计算方法，其特征在于：包括以下步骤：

(1)、获取情感词信息：

解析中文情感语料库Ren-CECps，从中文情感语料库Ren-CECps中提取情感词信息；

所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成，所有文本均进行了词性标注，并以XML格式保存；

所述情感词信息包括：情感词汇本体，记为n>0；情感词所属情感类别，记为情感词所属情感类别共有八种类别，1≤j≤8；对应情感类别下的情感强度值，记为E_intensity，0.0≤E_intensity≤1.0；

所述情感类别共八种，包括：高兴joy，记为憎恨hate，记为喜爱love，记为悲伤sorrow，记为焦虑anxiety，记为生气anger，记为惊讶surprise，记为期望expect，记为

解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示：

$E_{{word}_{n}}, E_{{class}_{j}} | E_{intensity} - - - (1)$

将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式逐条保存在本地的TXT文本里，此文本即为初始情感词典，记为L_initial；

(2)、情感词去重及情感类别、情感强度值归一化：

由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的情感类别或情感强度值，因此需要归一化情感词信息，对某一个情感词的归一化规则如下：

(a)、对于标注为不同的情感类别的情感词，所有标注的情感类别均作为该情感词的情感类别；

(b)、对于相同情感类别下标注的情感强度不同的情况，采用公式(2)进行情感强度值归一化；

$\overline{E_{intensity}} = \frac{Σ_{i = 1}^{m} N_{i} {(E_{intensity})}_{i}}{N} - - - (2)$

其中，表示情感词的最终情感强度值；N表示情感词在情感类别下出现的总次数；(E_intensity)_i表示人工标注的情感强度值；N_i表示在该情感强度值下词出现的总次数；

(3)、根据同义词词林扩充初始情感词典L_initial；所述同义词词林为哈工大信息检索研究中心推出的开放语料，同义词词林词典的“类别-词”编码格式为：类别编码＝词1、词2、词x……；过程如下：

(3.1)、依次遍历同义词词林中各行情感词汇本体词x，存储为HashMap_1< 类别，词x>；遍历初始情感词典L_initial，存储为HashMap_2<类别，>；

(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的情感词汇本体词x，若＝词x，则与词x同一类别编码的词的情感信息均为情感词汇本体所对应的情感词信息，此时，将HashMap_2中当前匹配的词与添加上情感信息的词x及其同一类别词逐行存储到本地文本中，记为 L_advance；随后使用HashMap_2中下一个词进行上述过程，直到HashMap_2中的最后一个词；

(3.3)、对步骤(3.1)中的情感词词典L_advance去重，对于同一情感词不同情感类别的情况，取所有情感类别的交集，此过程后的情感词典记为 L_advance′；

(4)、使用互联网中文文本语料扩充情感词典L_advance′，过程如下：

(4.1)、采用共现频率方法扩充情感词，共现频率方法计算工具使用 word2vec；

(4.2)、依次取情感词典L_advance′中的情感词计算共现词，计算的候选词中取前3个为扩充情感词；

(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频率计算的词保持一致时，依次进行下一个情感词共现候选词计算，直至最后一个情感词为止；

(4.4)、采用步骤(3)中(3.3)中的方法，对扩展情感词的候选词进行去重、归一化处理，得到的情感词典即为最终的可用情感词典，记为L_ultimate；

(5)、建立文本及词典情感矩阵，过程如下：

(5.1)、解析中文情感语料库Ren-CECps，按照文档情感类别建立 Term-Document矩阵，简称T-D矩阵；所述T-D矩阵其列表示情感词典L_ultimate中各情感词，其行表示当前情感类别下的某个文档，T-D矩阵中的元素表示情感词典中的情感词在对应的文档中的tf·idf值；情感类高兴joy的T-D矩阵记为 D_joy，情感类憎恨hate的T-D矩阵记为D_hate，情感类喜爱love的T-D矩阵记为D_love，情感类悲伤sorrow的T-D矩阵记为D_sorrow，情感类焦虑anxiety的 T-D矩阵记为D_anxiety，情感类生气anger的T-D矩阵记为D_anger，情感类惊讶 surprise的T-D矩阵记为D_surprise，情感类期望expect的T-D矩阵记为D_expect；以上八个情感类T-D矩阵统一记为D；

(5.2)、解析步骤(4)中建立的情感词典L_ultimate，建立词典情感矩阵；其中词典情感矩阵的行为八维，依次表示八种情感——高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望；矩阵的列表示情感词典L_ultimate中的各情感词；矩阵中的元素表示情感词对应的情感类别下的情感强度值，其中0表示无该对应类别情感；建立好的词典情感矩阵记为P；

(6)、情感类别计算，过程如下：

(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵，记为d，其为一维列向量；

(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档集的相似性：

$K < D, d > = {(D^{'} P)}^{'} (d^{'} P) = Σ_{j = 1}^{m} {(d_{j} P)}^{'} (dP) - - - (3)$

sim(D,d)＝(K<D,d>+c)ⁿ (4)

其中，K<D,d>表示核函数，m表示情感矩阵D中文档的个数，d_j表示第 j个文档；sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望八种情感文档集的相似性，c取2，n为0.25；

(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列，以数组的形式保存，如公式(5)：

{sim1,sim2,L,sim8} (5)

式(5)中sim1至sim8所对应的情感类别记为e₁，e₂，……，e₈；

未知文本的情感类别由公式(6)得出：

$Emotion (sentence) = (\begin{matrix} e_{1}, & ifsim 1 - sim 2 > α \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}}, \\ andsim 2 - sim 3 > β \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}, e_{3}}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 > γ \\ ifsim 1 - sim 2 \leq α \\ {null}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 \leq γ \end{matrix}) - - - (6)$

其中，Emotion(sentence)表示未知文本的情感类别，其表示单情感、多情感或无情感；α取0.05，β取0.03，γ取0.01。

本发明采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词，这些情感词由于是人工判读并标记的带有情感的词，其本身就拥有很大的数量，加之严格和科学的标注程序，保证了情感词的质量。同时，本发明结合同义词词林及互联网中文文本语料(未标记)进行情感同义词扩充，使得情感词的数量进一步增加，很好的解决了常规情感词典面临的情感词数量与质量的瓶颈。情感计算方法上，本发明使用核函数方法，解决了情感计算过程中的训练时间久、准确率低的问题。

具体实施方式

一种情感词典建立与情感计算方法，包括以下步骤：