法律状态公告日
法律状态信息
法律状态
2018-02-06
授权
授权
2014-10-29
实质审查的生效 IPC(主分类):G06F17/27 申请日:20140609
实质审查的生效
2014-10-08
公开
公开
技术领域
本发明涉及情感计算及文本情感分析方法领域,具体是一种情感词典建立与 情感计算方法。
背景技术
在文本情感计算领域,常常使用情感词作为文本特征词,情感词数量及质量 的好坏严重影响文本情感特征的表示质量好坏。一般的文本情感特征词多采用文 本段的形容词、副词及少量名词作为特征词;常规情感计算方法多采用SVM (Support Vector Machine)、朴素贝叶斯方法。
传统的情感词典受限情感词的数量、无情感类别标记及无情感强度值标注, 在数量及质量上均大大影响了文本情感特征的表示;分类算法也面临着训练时间 久、准确率低的困扰。
发明内容
本发明的目的是提供一种情感词典建立与情感计算方法,以解决现有技术存 在的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种情感词典建立与情感计算方法,其特征在于:包括以下步骤:
(1)、获取情感词信息:
解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感 词信息;
所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组 成,所有文本均进行了词性标注,并以XML格式保存;
所述情感词信息包括:情感词汇本体,记为n>0;情感词所属情感 类别,记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别 下的情感强度值,记为Eintensity,0.0≤Eintensity≤1.0;
所述情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜爱love,记为悲伤sorrow,记为焦虑anxiety,记为生 气anger,记为惊讶surprise,记为期望expect,记为
解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:
将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式 逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial;
(2)、情感词去重及情感类别、情感强度值归一化:
由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的 情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化 规则如下:
(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该 情感词的情感类别;
(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进 行情感强度值归一化;
其中,表示情感词的最终情感强度值;N表示情感词在 情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示 在该情感强度值下词出现的总次数;
(3)、根据同义词词林扩充初始情感词典Linitial;所述同义词词林为哈工大 信息检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为: 类别编码=词1、词2、词x……;过程如下:
(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1< 类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;
(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的 情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为 情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词 与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为 Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的 最后一个词;
(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不 同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为 Ladvance′;
(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:
(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用 word2vec;
(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中 取前3个为扩充情感词;
(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频 率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个 情感词为止;
(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去 重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate;
(5)、建立文本及词典情感矩阵,过程如下:
(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立 Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中 各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词 典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为 Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记 为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的 T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶 surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect; 以上八个情感类T-D矩阵统一记为D;
(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵; 其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、 焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵 中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别 情感;建立好的词典情感矩阵记为P;
(6)、情感类别计算,过程如下:
(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记 为d,其为一维列向量;
(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档 集的相似性:
sim(D,d)=(K<D,d>+c)n (4)
其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第 j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲 伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;
(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式 保存,如公式(5):
{sim1,sim2,L,sim8} (5)
式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8;
未知文本的情感类别由公式(6)得出:
其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感 或无情感;α取0.05,β取0.03,γ取0.01。
本发明采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词, 这些情感词由于是人工判读并标记的带有情感的词,其本身就拥有很大的数量, 加之严格和科学的标注程序,保证了情感词的质量。同时,本发明结合同义词词 林及互联网中文文本语料(未标记)进行情感同义词扩充,使得情感词的数量进 一步增加,很好的解决了常规情感词典面临的情感词数量与质量的瓶颈。情感计 算方法上,本发明使用核函数方法,解决了情感计算过程中的训练时间久、准确 率低的问题。
具体实施方式
一种情感词典建立与情感计算方法,包括以下步骤:
(1)、获取情感词信息:
解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感 词信息;
中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所 有文本均进行了词性标注,并以XML格式保存;
情感词信息包括:情感词汇本体,记为n>0;情感词所属情感类别, 记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别下的情 感强度值,记为Eintensity,0.0≤Eintensity≤1.0;
情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜 爱love,记为悲伤sorrow,记为焦虑anxiety,记为生气 anger,记为惊讶surprise,记为期望expect,记为
解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:
将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式 逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial;
(2)、情感词去重及情感类别、情感强度值归一化:
由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的 情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化 规则如下:
(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该 情感词的情感类别;
(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进 行情感强度值归一化;
其中,表示情感词的最终情感强度值;N表示情感词在 情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示 在该情感强度值下词出现的总次数;
(3)、根据同义词词林扩充初始情感词典Linitial;同义词词林为哈工大信息 检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为:类 别编码=词1、词2、词x……;过程如下:
(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1< 类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;
(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的 情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为 情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词 与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为 Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的 最后一个词;
(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不 同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为 Ladvance′;
(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:
(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用 word2vec;
(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中 取前3个为扩充情感词;
(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频 率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个 情感词为止;
(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去 重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate;
(5)、建立文本及词典情感矩阵,过程如下:
(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立 Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中 各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词 典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为 Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记 为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的 T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶 surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect; 以上八个情感类T-D矩阵统一记为D;
(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵; 其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、 焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵 中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别 情感;建立好的词典情感矩阵记为P;
(6)、情感类别计算,过程如下:
(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记 为d,其为一维列向量;
(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档 集的相似性:
sim(D,d)=(K<D,d>+c)n (4)
其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第 j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲 伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;
(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式 保存,如公式(5):
{sim1,sim2,L,sim8} (5)
式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8;
未知文本的情感类别由公式(6)得出:
其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感或无 情感;α取0.05,β取0.03,γ取0.01。
机译: 建立情感词典的装置及其操作方法
机译: 建立情感词典的方法和系统
机译: 利用情感词典建立房屋市场趋势分析系统及方法