首页> 中国专利> 一种情感词典建立与情感计算方法

一种情感词典建立与情感计算方法

摘要

本发明公开了一种情感词典建立与情感计算方法,采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词,结合同义词词林及互联网中文文本语料(未标记)进行情感同义词扩充,并在情感计算方法上使用核函数方法,解决了情感计算过程中的训练时间久、准确率低的问题。

著录项

  • 公开/公告号CN104090864A

    专利类型发明专利

  • 公开/公告日2014-10-08

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN201410254058.9

  • 发明设计人 全昌勤;任福继;刘宁;

    申请日2014-06-09

  • 分类号G06F17/27;

  • 代理机构安徽合肥华信知识产权代理有限公司;

  • 代理人余成俊

  • 地址 230009 安徽省合肥市屯溪路193号

  • 入库时间 2023-12-17 01:49:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-06

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20140609

    实质审查的生效

  • 2014-10-08

    公开

    公开

说明书

技术领域

本发明涉及情感计算及文本情感分析方法领域,具体是一种情感词典建立与 情感计算方法。

背景技术

在文本情感计算领域,常常使用情感词作为文本特征词,情感词数量及质量 的好坏严重影响文本情感特征的表示质量好坏。一般的文本情感特征词多采用文 本段的形容词、副词及少量名词作为特征词;常规情感计算方法多采用SVM (Support Vector Machine)、朴素贝叶斯方法。

传统的情感词典受限情感词的数量、无情感类别标记及无情感强度值标注, 在数量及质量上均大大影响了文本情感特征的表示;分类算法也面临着训练时间 久、准确率低的困扰。

发明内容

本发明的目的是提供一种情感词典建立与情感计算方法,以解决现有技术存 在的问题。

为了达到上述目的,本发明所采用的技术方案为:

一种情感词典建立与情感计算方法,其特征在于:包括以下步骤:

(1)、获取情感词信息:

解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感 词信息;

所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组 成,所有文本均进行了词性标注,并以XML格式保存;

所述情感词信息包括:情感词汇本体,记为n>0;情感词所属情感 类别,记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别 下的情感强度值,记为Eintensity,0.0≤Eintensity≤1.0;

所述情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜爱love,记为悲伤sorrow,记为焦虑anxiety,记为生 气anger,记为惊讶surprise,记为期望expect,记为

解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:

Ewordn,Eclassj|Eintensity---(1)

将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式 逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial

(2)、情感词去重及情感类别、情感强度值归一化:

由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的 情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化 规则如下:

(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该 情感词的情感类别;

(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进 行情感强度值归一化;

Eintensity=Σi=1mNi(Eintensity)iN---(2)

其中,表示情感词的最终情感强度值;N表示情感词在 情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示 在该情感强度值下词出现的总次数;

(3)、根据同义词词林扩充初始情感词典Linitial;所述同义词词林为哈工大 信息检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为: 类别编码=词1、词2、词x……;过程如下:

(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1< 类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;

(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的 情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为 情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词 与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为 Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的 最后一个词;

(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不 同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为 Ladvance′;

(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:

(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用 word2vec;

(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中 取前3个为扩充情感词;

(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频 率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个 情感词为止;

(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去 重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate

(5)、建立文本及词典情感矩阵,过程如下:

(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立 Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中 各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词 典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为 Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记 为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的 T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶 surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect; 以上八个情感类T-D矩阵统一记为D;

(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵; 其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、 焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵 中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别 情感;建立好的词典情感矩阵记为P;

(6)、情感类别计算,过程如下:

(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记 为d,其为一维列向量;

(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档 集的相似性:

K<D,d>=(DP)(dP)=Σj=1m(djP)(dP)---(3)

sim(D,d)=(K<D,d>+c)n       (4)

其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第 j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲 伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;

(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式 保存,如公式(5):

{sim1,sim2,L,sim8}            (5)

式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8

未知文本的情感类别由公式(6)得出:

Emotion(sentence)=e1,ifsim1-sim2>αifsim1-sim2α{e1,e2},andsim2-sim3>βifsim1-sim2α{e1,e2,e3},andsim2-sim3βandsim3-sim4>γifsim1-sim2α{null},andsim2-sim3βandsim3-sim4γ---(6)

其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感 或无情感;α取0.05,β取0.03,γ取0.01。

本发明采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词, 这些情感词由于是人工判读并标记的带有情感的词,其本身就拥有很大的数量, 加之严格和科学的标注程序,保证了情感词的质量。同时,本发明结合同义词词 林及互联网中文文本语料(未标记)进行情感同义词扩充,使得情感词的数量进 一步增加,很好的解决了常规情感词典面临的情感词数量与质量的瓶颈。情感计 算方法上,本发明使用核函数方法,解决了情感计算过程中的训练时间久、准确 率低的问题。

具体实施方式

一种情感词典建立与情感计算方法,包括以下步骤:

(1)、获取情感词信息:

解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感 词信息;

中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所 有文本均进行了词性标注,并以XML格式保存;

情感词信息包括:情感词汇本体,记为n>0;情感词所属情感类别, 记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别下的情 感强度值,记为Eintensity,0.0≤Eintensity≤1.0;

情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜 爱love,记为悲伤sorrow,记为焦虑anxiety,记为生气 anger,记为惊讶surprise,记为期望expect,记为

解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:

Ewordn,Eclassj|Eintensity---(1)

将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式 逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial

(2)、情感词去重及情感类别、情感强度值归一化:

由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的 情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化 规则如下:

(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该 情感词的情感类别;

(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进 行情感强度值归一化;

Eintensity=Σi=1mNi(Eintensity)iN---(2)

其中,表示情感词的最终情感强度值;N表示情感词在 情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示 在该情感强度值下词出现的总次数;

(3)、根据同义词词林扩充初始情感词典Linitial;同义词词林为哈工大信息 检索研究中心推出的开放语料,同义词词林词典的“类别-词”编码格式为:类 别编码=词1、词2、词x……;过程如下:

(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1< 类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;

(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的 情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为 情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词 与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为 Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的 最后一个词;

(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不 同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为 Ladvance′;

(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:

(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用 word2vec;

(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中 取前3个为扩充情感词;

(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频 率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个 情感词为止;

(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去 重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate

(5)、建立文本及词典情感矩阵,过程如下:

(5.1)、解析中文情感语料库Ren-CECps,按照文档情感类别建立 Term-Document矩阵,简称T-D矩阵;所述T-D矩阵其列表示情感词典Lultimate中 各情感词,其行表示当前情感类别下的某个文档,T-D矩阵中的元素表示情感词 典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T-D矩阵记为 Djoy,情感类憎恨hate的T-D矩阵记为Dhate,情感类喜爱love的T-D矩阵记 为Dlove,情感类悲伤sorrow的T-D矩阵记为Dsorrow,情感类焦虑anxiety的 T-D矩阵记为Danxiety,情感类生气anger的T-D矩阵记为Danger,情感类惊讶 surprise的T-D矩阵记为Dsurprise,情感类期望expect的T-D矩阵记为Dexpect; 以上八个情感类T-D矩阵统一记为D;

(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵; 其中词典情感矩阵的行为八维,依次表示八种情感——高兴、憎恨、喜爱、悲伤、 焦虑、生气、惊讶、期望;矩阵的列表示情感词典Lultimate中的各情感词;矩阵 中的元素表示情感词对应的情感类别下的情感强度值,其中0表示无该对应类别 情感;建立好的词典情感矩阵记为P;

(6)、情感类别计算,过程如下:

(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵,记 为d,其为一维列向量;

(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档 集的相似性:

K<D,d>=(DP)(dP)=Σj=1m(djP)(dP)---(3)

sim(D,d)=(K<D,d>+c)n        (4)

其中,K<D,d>表示核函数,m表示情感矩阵D中文档的个数,dj表示第 j个文档;sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲 伤、焦虑、生气、惊讶、期望八种情感文档集的相似性,c取2,n为0.25;

(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列,以数组的形式 保存,如公式(5):

{sim1,sim2,L,sim8}               (5)

式(5)中sim1至sim8所对应的情感类别记为e1,e2,……,e8

未知文本的情感类别由公式(6)得出:

Emotion(sentence)=e1,ifsim1-sim2>αifsim1-sim2α{e1,e2},andsim2-sim3>βifsim1-sim2α{e1,e2,e3},andsim2-sim3βandsim3-sim4>γifsim1-sim2α{null},andsim2-sim3βandsim3-sim4γ---(6)

其中,Emotion(sentence)表示未知文本的情感类别,其表示单情感、多情感或无 情感;α取0.05,β取0.03,γ取0.01。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号