法律状态公告日
法律状态信息
法律状态
2017-01-04
授权
授权
2014-07-02
实质审查的生效 IPC(主分类):G06F17/27 申请日:20131118
实质审查的生效
2014-06-04
公开
公开
技术领域
本发明属于计算机自然语言处理领域,涉及应用于汉语文本情感分析中的一种针对词语级别的汉语情感词极性强度量化方法。
背景技术
随着互联网技术的不断进步,特别是Web2.0技术的逐渐普及,网络表现出了强大的数据处理能力,网络社会也变得纷繁复杂。在百度贴吧、天涯论坛等各大网站上都可以看到大量网民对新闻、产品、服务等的各种评论信息和意见,在此背景下兴起了基于网络文本的情感倾向性分析研究,对信息检索、电子商务、网络舆情预警等领域有着重要意义。
目前,对文本情感分析的研究对象主要分为词语级别、句子级别、篇章级别三种,而基于词语级别的文本情感分析主要依赖于模糊情感词的极性强度度量值。已有的情感词极性强度量化方法主要有Ku等人在AAAI’2006人工智能顶级国际会议上发表论文阐述的利用汉字的情感统计来计算词的情感极性强度度量值。
上述情感词极性强度量化方法主要包括基础情感词的极性强度量化和复合情感词的极性强度量化两个环节,主要包括以下几个步骤:首先计算情感词典中每个字的情感倾向值;然后计算每个基础情感词的极性强度度量值;之后计算每个复合情感词的极性强度度量值。
现有的情感词极性强度量化方法主要存在以下几个方面的不足:一是在进行文本情感分析时,主要依赖于情感词典规模,这样仅仅基于统计得到每个字的情感倾向值,准确率较低;二是针对复合情感词的极性强度量化方法设计简单,虽易于实现,但准确率较低,影响了文本情感分析效果。
发明内容
本发明的目的是为了克服现有技术存在的缺陷,为有效解决当前在汉语文本情感分析过程中,针对词语级别的汉语情感词进行极性强度量化时准确率低的问题,提出一种有效的极性强度量化方法。
本发明方法所采用的技术方案如下:
一种针对词语级别的汉语情感词极性强度量化方法,包括以下步骤:
步骤一、获取情感词典中每个字的情感倾向值。首先,统计每个字在情感词典中作为褒义词、贬义词的权重。
然后,根据每个字的褒义词、贬义词的权重,获得情感词典中每个字的情感倾向值,具体过程如下:
定义一个Random(ηs(μ,δ))函数,其中,ηs(μ,δ)是高斯密度函数,Random(ηs(μ,δ))表示在此高斯分布函数上随机选取一个值。鉴于字的情感倾向值度量满足高斯分布,每个字的情感倾向值计算公式如下:
>
其中,Sci为每个字的情感倾向值;若Sci值为正数,ci为褒义字,若Sci值为负数,则ci为贬义字;Sci值越接近0,ci越趋近于中性字。ηs((Pci-Nci),δ)是一个高斯密度函数,(Pci-Nci)和δ是对应的均值和误差。Random(ηs((Pci-Nci),δ))是之前定义的随机函数,表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值。
步骤二、根据步骤一得到的字的情感倾向值,获取所测基础情感词的极性强度度量值。
步骤三、根据步骤二得到的所测基础情感词的极性强度度量值,获取复合情感词的极性强度度量值。
首先,定义词语A和词语B的语义相似度Sim(A,B),利用HowNet计算出两个词语A和B之间的语义相似度。
当复合情感词为程度副词∪基础情感词时(如w=非常漂亮),先用Sim(A,B)函数计算出程度副词(“非常”)的情感极性强度度量值Sx2,再计算出基础情感词(“漂亮”)的情感极性强度度量值
>
其中,Δμ为位移指数,取0.5,下同。
当复合情感词为频度副词∪基础情感词时(如w=偶尔马虎),经过Sim(A,B)函数先计算出频度副词(“偶尔”)的情感极性强度度量值Sx2,再计算出基础情感词(“马虎”)的情感极性强度度量值
当复合情感词为基础情感词∪基础情感词时(如w=简单大方),先计算出前一个基础情感词(“简单”)的情感极性强度度量值
>
当复合情感词为重叠情感词时(如w=“快快乐乐”),则对重叠情感词进行抽取到基础情感词(“快乐”),其极性强度度量值为
>
当复合情感词为否定词∪基础情感词时(如w=不完善),先计算出基础情感词(“完善”)的情感极性强度度量值
>
当复合情感词为否定词∪程度/频度副词∪基础情感词时(如w=不太认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强度度量值,分别为Sx2、
>
当复合情感词为程度/频度副词∪否定词∪基础情感词时(如w=太不认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强 度度量值,分别为Sx2、
>
至此,就完成对词语级别的汉语情感词极性强度量化。
有益效果
本发明对比现有技术,通过采用高斯分布函数修正统计得出的字的情感倾向值误差,大幅提高了基础情感词极性强度度量的准确率。在此基础上对复合情感词详细分类,分别设计经Sigmoid函数倒推得出的计算公式,大幅提高了复合情感词的极性强度度量准确率。另外,引入Sim(A,B)函数,利用HowNet对副词自动分类,减轻了手工标注的工作量,提高了工作效率。
具体实施方式
下面结合实施例对本发明的具体实施方式做进一步详细说明。
一种针对词语级别的汉语情感词极性强度量化方法,包括以下步骤:
步骤一、获取情感词典中每个字的情感倾向值。
首先,统计每个字在情感词典中作为褒义词、贬义词的权重。可采用如下公式:
>
>
其中,Pci为字ci作为褒义词的权重,Nci为字ci作为贬义词的权重;fpci为字ci出现在褒义词表中的频率,fnci为字ci出现在贬义词表中的频率;n为褒义词表 中出现的所有字的个数,m为贬义词表中出现的所有字的个数;另外,为了平衡情感词典中褒义词与贬义词之间的个数差异,上述两个公式还对每个字在褒贬词表中出现的频率进行了归一化处理。
然后,根据每个字的褒义词、贬义词的权重,获得情感词典中每个字的情感倾向值。具体过程如下:
定义一个Random(ηs(μ,δ))函数,其中,ηs(μ,δ)是高斯密度函数,Random(ηs(μ,δ))表示在此高斯分布函数上随机选取一个值。鉴于字的情感倾向值度量满足高斯分布,每个字的情感倾向值计算公式如下:
>
其中,Sci为每个字的情感倾向值;若Sci值为正数,ci为褒义字,若Sci值为负数,则ci为贬义字;Sci值越接近0,ci越趋近于中性字。ηs((Pci-Nci),δ)是一个高斯密度函数,(Pci-Nci)和δ是对应的均值和误差。Random(ηs((Pci-Nci),δ))是之前定义的随机函数,表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值。
步骤二、根据步骤一得到的字的情感倾向值,获取所测基础情感词的极性强度度量值。
为计算每个基础情感词的极性强度度量值,采用词中字平均值方法,公式如下:
>
其中,Sw为所测词w的情感极性强度度量值。p为词w中字的个数。Sc1、Sc2、···、Scp为词w中每个字经步骤一得出的情感倾向值。
步骤三、根据步骤二得到的所测基础情感词的极性强度度量值,获取复合情感词的极性强度度量值。
首先,定义词语A和词语B的语义相似度Sim(A,B),利用HowNet计算出两个词语A和B之间的语义相似度。
当复合情感词为程度副词∪基础情感词时(如w=非常漂亮),先用Sim(A,B)函 数计算出程度副词(“非常”)的情感极性强度度量值Sx2,再计算出基础情感词(“漂亮”)的情感极性强度度量值
>
其中,Δμ为位移指数,取0.5,下同。
当复合情感词为频度副词∪基础情感词时(如w=偶尔马虎),经过Sim(A,B)函数先计算出频度副词(“偶尔”)的情感极性强度度量值Sx2,再计算出基础情感词(“马虎”)的情感极性强度度量值
当复合情感词为基础情感词∪基础情感词时(如w=简单大方),先计算出前一个基础情感词(“简单”)的情感极性强度度量值
>
当复合情感词为重叠情感词时(如w=“快快乐乐”),则对重叠情感词进行抽取到基础情感词(“快乐”),其极性强度度量值为
>
当复合情感词为否定词∪基础情感词时(如w=不完善),先计算出基础情感词(“完善”)的情感极性强度度量值
当复合情感词为否定词∪程度/频度副词∪基础情感词时(如w=不太认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强度度量值,分别为Sx2、
>
当复合情感词为程度/频度副词∪否定词∪基础情感词时(如w=太不认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强 度度量值,分别为Sx2、
>
至此,就完成对词语级别的汉语情感词极性强度量化。
实施例
假定要计算情感词“漂亮”的极性强度度量值。首先统计每个字在情感词典中作为褒义词和贬义词的权重,经过计算,P漂=0.760,N漂=0.412。
因现有方法在计算每个字的情感倾向值时完全利用统计值Pci、Nci计算,没有考虑到误差修正。鉴于字的情感倾向值度量满足高斯分布,经过计算,得出S 漂,S亮的值,程序按照公式随机取值,其值不可见。
为计算每个基础情感词的极性强度度量值,采用词中字平均值方法,经过计算,S漂亮=0.675。
基础情感词“漂亮”的极性强度度量值计算完毕,然后计算复合情感词“相当漂亮”、“偶尔马虎”的极性强度度量值。
复合情感词“相当漂亮”属于程度副词∪基础情感词形式,这里基准程度副词为(稍微,比较,恰好,很,非常),值为(0.1,0.3,0.5,0.7,0.9)。经过Sim(A,B)函数,先计算出“相当”与基准词“非常”语义相似度最大,故“相当”的情感极性强度度量值与“非常”相同,Sx2=0.9,上述步骤已计算出“漂亮”的情感极性强度度量值
复合情感词“偶尔马虎”属于频度副词∪基础情感词形式,这里基准频度副词为(几乎从不,偶尔,有时,经常,总是),值为(0.1,0.3,0.5,0.7,0.9)。经过Sim(A,B)函数,先计算出“偶尔”与基准词“偶尔”语义相似度最大,故“偶尔”的情感极性强度度量值Sx2=0.3,仿照“漂亮”的情感极性强度度量计算步骤,得出“马虎”的情感极性强度度量值
复合情感词“简单大方”属于基础情感词∪基础情感词形式,先计算出“简单”的情感极性强度度量值,
复合情感词“快快乐乐”属于重叠情感词形式,先抽取出基础情感词“快 乐”,计算其极性强度度量值
复合情感词“不完善”属于否定词∪基础情感词形式,先计算出基础词“完善”的情感极性强度度量值计算得出“不完善”的极性强度度量值为-0.606。
复合情感词“不太认真”属于否定词∪程度/频度副词∪基础情感词形式,先计算出“太”和“认真”的情感极性强度度量值,分别为Sx2=0.9,Sx1=0.353,计算得出“不太认真”的极性强度度量值为0.218。
复合情感词“太不认真”属于程度/频度副词∪否定词∪基础情感词形式,先计算出“太”和“认真”的情感极性强度度量值,分别为Sx2=0.9,Sx1=0.353,计算得出“太不认真”的极性强度度量值为-0.475。
机译: 一种软件应用程序,通过分析关键词和相关描述符来测量评论中的情感水平,将总分应用于每个评论,并为每个关键词单独分配分数。
机译: 分析情感词极性的方法和装置
机译: 一种分析情感词的缺陷严重度预测系统及方法