首页> 中国专利> 一种融合显性和隐性特征的中文微博情感分析方法

一种融合显性和隐性特征的中文微博情感分析方法

摘要

一种融合显性和隐性特征的中文微博情感分析方法,包括以下步骤:1)微博显性特征处理,1.1)表情符号处理;1.2)情感词处理;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。本发明提供一种灵活性较高、可靠性较好的融合显性和隐性特征的中文微博情感分析方法。

著录项

  • 公开/公告号CN104516947A

    专利类型发明专利

  • 公开/公告日2015-04-15

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN201410723617.6

  • 发明设计人 陈铁明;缪茹一;

    申请日2014-12-03

  • 分类号G06F17/30(20060101);

  • 代理机构33241 杭州斯可睿专利事务所有限公司;

  • 代理人王利强

  • 地址 310014 浙江省杭州市下城区朝晖六区潮王路18号浙江工业大学

  • 入库时间 2023-12-17 03:57:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-28

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 专利号:ZL2014107236176 变更事项:专利权人 变更前:杭州芸品绿信息科技有限公司 变更后:杭州零零柒科技有限公司 变更事项:地址 变更前:320000 浙江省杭州市西湖区西溪新天地商业中心(公元里)11幢5层501室 变更后:310000 浙江省杭州市西湖区西溪新天地商业中心(公元里)11幢5层501室

    专利权人的姓名或者名称、地址的变更

  • 2019-01-01

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20181212 变更前: 变更后: 申请日:20141203

    专利申请权、专利权的转移

  • 2017-08-22

    授权

    授权

  • 2015-05-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141203

    实质审查的生效

  • 2015-04-15

    公开

    公开

说明书

技术领域

本发明涉及互联网舆情内容分析技术领域,尤其是一种文微博情感分析方法。

背景技术

情感分析(Sentiment analysis)是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,目的是从用户发布的带有主观感情色彩的文本信息中提取用户观点,并判断其情感极性。

由于人类情感复杂,情感类别划分没有统一标准。常见方法例如把情感划分任务分为两种:主、客观信息的二元分类,对主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类。对于多元分类,也有研究提出了四类情感:angry愤怒,disgusting厌恶,happy高兴,sad悲伤,或者七类情感:anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶等。

对于情感监测方法,国外方法有提出距离监督学习方法对Twitter中的消息进行情感分类,即给定一个检索词,消息自动被分为正面或负面信息,抽取Twitter中含有表情图标的消息作为训练集,最后利用朴素贝叶斯、最大熵以及支持向量机等算法进行分类;若内针对中文微博则有提出基于层次结构的多策略方法对新浪微博数据展开情感监测研究,并在特征提取时采用了主题相关特征,实验结果显示,使用主题相关的特征后所获得的最高准确率由66.467%提升到67.283%,但该方法分析过程较为繁琐。

微博具有原创性、不可预见性等特点,单条微博字数在140以内,融合了网络用语和表情符号等显性特征以及微博语义情感等隐性特征, 这给微博情感分析带了新的挑战。微博中广泛存在谐音词、简写词等,如“稀饭”代表“喜欢”、“杯具”代表“悲剧”等,且这些词汇随时间不断变化,并不断有新词出现,有必要建立特定的网络用语词典;微博表情符号通常可直接表达情感,但表情符号五花八门,需要建立特定的表情符号情感分类;此外,一条微博中可能包含多个不同情感,情感分析一般以博主的主要情感为准。现有技术中无法分析中文微博情感。

发明内容

为了克服现有技术中无法分析中文微博情感的不足,本发明提供一种灵活性较高、可靠性较好的融合显性和隐性特征的中文微博情感分析方法。

本发明解决其技术问题所采用的技术方案是:

一种融合显性和隐性特征的中文微博情感分析方法,所述中文微博情感分析方法包括以下步骤:

1)微博显性特征处理,具体包括以下过程:

1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;

1.2)情感词处理:首先建立一个基于情感词典的情感词表,将微博中的情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;

再建立一个基于网络词汇的情感词表,将微博中的网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;

2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。

再进一步,所述步骤2)包括以下过程:

2.1)采用频繁集挖掘算法Apriori来计算挖掘频繁词集

利用频繁项集划分构造初始情感簇,将包含频繁趋势词集微博划分为一个簇,得到基于频繁项集初始情感簇,同时,将描述初始情感簇的频繁项集作为对应情感簇临时标识,通过抽取各个初始情感簇的频繁项集来代表这个初始情感簇情感语义;

2.2)微博语义隶属度初始簇重叠消减 

将每条微博归属到一个情感簇,计算簇间重叠部分对初始情感簇的情感语义隶属度,最后按最大语义隶属度原则进行簇分配;再删除那些初始簇分离后大小为0的空簇,重叠消减后的初始簇称为候选情感簇;

2.3)基于语义相似度的凝聚式情感聚类:对候选情感簇进行凝聚式层次聚类,合并情感簇。

再进一步,所述步骤2.1)中,

定义1:对数据库E中某个项集X,若项集X在数据库E中出现的次数大于预设比例,则称X是数据库E的频繁项集,这个预设比例称作最小支持度;

若将文本看成一条事务,文本词汇对应事务中的项目,则可将文本d表示为:d=<t1,t2,...,tn>,其中n表示文本d包含的特征词汇数量;

定义2:对文本集D的某个词集W,若W在D中的支持度s(W)≥min_s,则称势集W是文本集D的频繁词集,min_s为全局最小支持度;

扫描文本集D,利用词频趋势度统计候选项集出现的次数,收集满足最小支持度min_s设定的项集,记为频繁项集;利用产生的频繁k-项集构造强关联规则,利用频繁k-项集构造候选(k+1)-项集,反复迭代直至候选(k+1)-项集为空。

更进一步,所述步骤2.2)中,

定义3:若微博docj被分配到初始情感簇Ci中,则称微博docj支持簇Ci

定义4:记Di和Dj是支持簇Ci和Cj微博集合,并且Di∩Dj≠0,则称簇Ci和簇Cj存在簇间重叠;

定义5:微博情感语义隶属度,本发明将微博docj对簇Ci的情感语义隶属度函数定义如下:Score(Cidocj)=Σl=1nmaxk=1,2,...,m{sim(fik,tjl)}n;其中,簇频繁1-项集{fi1,fi2,...,fim}表示初始簇Ci的情感特征项,{tj1,tj2,...,tjn}表示初始簇Ci中微博文本docj的特征项;sim(fik,tjl)为簇特征项fjk和文本特征项tjl在《知网》中定义的语义相似度,n为微博文本docj特征项数目,m为簇特征项数目。

又进一步,所述步骤2.3)中,

定义6:簇特征向量,针对候选情感簇CTi,挖掘出CTi的簇频繁1-项集,即构成该簇的簇特征向量,记为

定义7:簇相似度矩阵,记两个不同候选情感簇CTi和CTj的簇特征向量分别为:和其中n和m分表表示特征词汇数量,则CTi和CTj的特征项构成的簇语义相似度矩阵按表1的方式定义; 

表1

定义8:情感簇语义相似度,选取相似度矩阵中语义相似度最大k组特征项对进行候选情感间相似度计算,记为{sim(titj)1,sim(titj)2,...,sim(titj)k},候选情感簇的语义相似度定义为:

sim(CTi,CTj)=Σl=1ksim(titj)lk

基于语义相似度的凝聚式情感聚类过程如下:

Step 1:抽取各个候选情感簇的特征向量,计算候选情感簇的语义相似度;

Step 2:构建候选情感簇的语义相似度矩阵,由簇相似度的定义可知

sim(CTi,CTj)=sim(CTj,CTi),即该相似度矩阵为一个对称矩阵;

Step 3:从相似度矩阵中选择最大的簇间相似度,记为

max{sim(CTi,CTj)},

若max{sim(CTi,CTj)}≤λ,执行Step 6;否则,执行Step 4;

Step 4:若max{sim(CTi,CTj)}>λ,CTi和CTj之间的相似性较大,故将CTi和CTj两个簇合并,形成一个新的簇CTi′,删除原CTi,并重新计算簇特征向量,更新语义相似度矩阵;

Step 5:若簇间语义相似度矩阵的行数或列数小于等于预设的最小簇数目μ,执行Step 6;否则,聚类尚未结束,重新回到Step 3;

Step 6:凝聚式层次聚类结束,得到情感聚类簇CT′。

所述步骤1.2)中,收集否定词集,解析情感词汇前是否带有否定词,若有则将否定词与情感词一并写入情感特征表。

本发明的技术构思为:本发明将以表情符号为基础,结合大连理工大学信息检索研究室标注的中文本体资源以及《知网》HowNet提供的情感分析词汇集(均为公开资源库),构建表情符号库、情感词语词典以及网络用语词典;从中提取显性情感特征,并融合隐性语义特征,采用基于同类情感微博文本相似度较大、不同情感微博文本相似度较小的聚类思想进行情感分析。聚类无需训练过程和预先对文档手工标注类别,直接基于频繁项集和语义聚类算法,具有较好的灵活性和自动化处理能力。

本发明的有益效果主要表现在:灵活性较高、可靠性较好。

附图说明

图1是包含不同表情符号数目的抽样微博数量比例图。

图2是结合频繁项集和语义聚类的微博情感分类方法的流程图。

图3是“马航”事件情感变化趋势的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1~图3,一种融合显性和隐性特征的中文微博情感分析方 法,微博表情符号是一种直观显性的情感特征,而内容语义则是隐性的,且对情感判定具有决定性作用,因此本发明提出将两种特征因素融合的微博情感分析方法。首先构建情感分析词典、网络用语词典以及表情符号库,定义微博频繁特征词集,根据频繁特征词集,利用最大频繁项集获得微博初始情感簇;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;根据簇语义相似度矩阵,给出凝聚式情感聚类方法。

本发明的中文微博情感分析方法包括如下三个步骤:

1)、微博显性特征处理

1.1)表情符号处理 

英文微博上的表情符号通常是用户自己输入,如“:)”;新浪微博平台提供的表情符号是用中括号包含的文本表达,如表情对应的文本为“[呵呵]”。表情符号在微博中使用广泛,如随机抽取5000条新浪微博,包含表情符号的微博数为1071,比例为21.24%。单条微博中可能包含多个表情符号,图1给出了包含不同表情符号数目的微博量抽样统计,结果表明:新浪微博用户使用1个表情符号的比例约为62%,使用2-5个表情符号的比例约为30%,说明微博用户更乐于使用单表情符号。

本发明采用新浪微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别。将出现频率排在前150表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,如表2所示。通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表。实验表明对表情符号统一化处理有利于产生更好聚类效果,从而实现更精准的情感分析。

表2情感类别和每个类别的典型表情符号

1.2)情感词处理 

情感词最能体现微博的文本情感,故情感词典和网络词汇词典的构建是微博情感倾向性判定的基础工作。

中文情感词汇分类:情感词汇复杂,词性较多,包括形容词、名词、副词等,仅考虑词性选择情感词并不科学,如名词(“垃圾”、“棒槌”)都带有负面情感,而大多数名词并不带情感色彩,选用会降低分类性能。本发明采用大连理工大学信息检索研究室提供的中文本体资源,包含27467个中文情感词。如表3所示,先建立一个情感词典的情感词表,将这些情感词放入词表中。通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表。

表3本发明选用的中文本体资源情感分类表

此外,还收集了“不”、“没有”、“不可能”、“很难”等微博中的否定词集,解析情感词汇前是否带有否定词,若有则将否定词与情感词一并写入情感特征表。

网络词汇词典构建:微博情感往往具有原创性,随着网络发展不断有新词出现,包括谐音词、简写词、网络语言等,所以本发明构建网络词汇词典用于微博情感的情感倾向性判定。通过社交网络搜集、整理,共采用141个网络用词,分别进行情感标注以及作统一化处理,即先建立一个网络词汇的情感词表,将这些网络词汇放入词表中。许多网络用词在没有上下文的语境下,情感倾向性是有歧义的,文本只保留情感明显的网络用词,部分网络用词及其情感倾向性标注如表4所示。同样,基于网络词汇词典也可通过查表方式可直接判定部分微博内容的情感类别。

表4部分网络用词及其倾向性的情感标注实例

2)、微博隐性特征处理

FIHC(Frequent Itemset-based Hierarchical Clustering,基于频繁项集的层次聚类算法)是目前业界应用较广泛的一种文本聚类算法。该算法以聚类簇为中心,并且直接用频繁项集来衡量簇之间聚合程度,并且认为:隶属于相同关系文档之间共享较多频繁项集,隶属于不同关系共享较少频繁项集,使用频繁项集的概念来对文本进行划分。

微博内容词性和语义都可视为微博的隐性情感特征。本发明采用FIHC算法“先建簇后消重再凝聚”的思想,提出一种结合频繁项集和语义聚类的新方法,聚类主要过程如图2所示。

情感分类的主要流程为:首先,基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,这导致初始情感簇间产生重叠文本;为了更精准消除初始情感簇间文本重叠,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。

2.1)获取频繁项集方法

定义1:对数据库E中某个项集X,若项集X在数据库E中出现 的次数大于预设比例,则称X是数据库E的频繁项集,这个预设比例称作最小支持度。

若将文本看成一条事务,文本词汇对应事务中的项目,则可将文本d表示为:d=<t1,t2,...,tn>

定义2:对文本集D的某个词集W,若W在D中的支持度s(W)≥min_s,则称势集W是文本集D的频繁词集,min_s为全局最小支持度。

本发明采用频繁集挖掘算法Apriori来计算挖掘频繁词集。

算法:Apriori算法

输入:微博数据,最小簇支持度min_s

输出:微博数据中的频繁项集

方法:

第一步,扫描文本集D,利用词频趋势度统计候选项集出现的次数,收集满足最小支持度min_s设定的项集,记为频繁项集;

第二步,利用产生的频繁k-项集构造强关联规则,利用频繁k-项集构造候选(k+1)-项集,反复迭代直至候选(k+1)-项集为空。 

频繁项集描述微博中情感信息。本发明利用频繁项集划分构造初始情感簇,将包含频繁趋势词集微博划分为一个簇,得到基于频繁项集初始情感簇,同时,将描述初始情感簇的频繁项集作为对应情感簇临时标识,通过抽取各个初始情感簇的频繁项集来代表这个初始情感簇情感语义。

2.2)微博语义隶属度初始簇重叠消减:微博文字表达具有简洁性、随意性,同一情感微博具有不同表述,一条微博中可能包含多个不同情感,导致初始情感簇之间存在大量文本重叠,情感分析应以博主主要情感为准,需要将每条微博归属到一个情感簇。

从语义层面出发,本发明引入《知网》语义库扩展语义信息,计算簇间重叠部分对初始情感簇的情感语义隶属度,最后按最大语义隶属度原则进行簇分配。

定义3:若微博docj被分配到初始情感簇Ci中,则称微博docj支持簇Ci

定义4:记Di和Dj是支持簇Ci和Cj微博集合,并且Di∩Dj≠0,则称簇Ci和簇Cj存在簇间重叠。

定义5:微博情感语义隶属度,本发明将微博docj对簇Ci的情感语义隶属度函数定义如下:Score(Cidocj)=Σl=1nmaxk=1,2,...,m{sim(fik,tjl)}n.

其中,簇频繁1-项集{fi1,fi2,...,fim}表示初始簇Ci的情感特征项,{tj1,tj2,...,tjn}表示初始簇Ci中微博文本docj的特征项;sim(fik,tjl)为簇特征项fjk和文本特征项tjl在《知网》中定义的语义相似度,n为微博文本docj特征项数目,m为簇特征项数目。

算法:微博语义隶属度初始簇重叠消减算法

输入:带有重叠的初始簇C1,C2,...,Cn

输出:重叠消减后的初始簇C′1,C′2,...,C′n

方法:

docj执行初始簇重叠消减后,再删除那些初始簇分离后大小为0的空簇,最终即得到最终候选情感簇。

2.3)基于语义相似度的凝聚式情感聚类

通过初始情感簇间重叠消减可得到微博聚类情感检测的候选情感簇,但这些情感簇都可归属于某一个大情感,因此有必要再对候选情感簇进行凝聚式层次聚类,合并情感簇。

定义6:簇特征向量。针对候选情感簇CTi,挖掘出CTi的簇频繁1-项集,即构成该簇的簇特征向量,记为

定义7:簇相似度矩阵。记两个不同候选情感簇CTi和CTj的簇特征向量分别为:和则CTi和CTj的特征项构成的簇语义相似度矩阵按表5的方式定义。 

表5簇语义相似度矩阵定义表

定义8:情感簇语义相似度。为避免过多非关键特征词对簇间语义相似度的噪音,仅选取相似度矩阵中语义相似度最大k组特征项对进行候选情感间相似度计算,记为{sim(titj)1,sim(titj)2,...,sim(titj)k},候选情感簇的语义相似度定义为:

sim(CTi,CTj)=Σl=1ksim(titj)lk

算法:候选情感簇层次聚类

输入:候选情感簇CT{CT1,CT2..CTi},

λ(两个簇合并最小阀值),μ(最小簇数目)

输出:情感簇CT′

Step 1:抽取各个候选情感簇的特征向量,计算候选情感簇的语义相似度。

Step 2:构建候选情感簇的语义相似度矩阵,由簇相似度的定义可知

sim(CTi,CTj)=sim(CTj,CTi),即该相似度矩阵为一个对称矩阵。

Step 3:从相似度矩阵中选择最大的簇间相似度,记为

max{sim(CTi,CTj)},

若max{sim(CTi,CTj)}≤λ,执行Step 6;否则,执行Step 4。

Step 4:若max{sim(CTi,CTj)}>λ,CTi和CTj之间的相似性较大,故将CTi和CTj两个簇合并,形成一个新的簇CTi′,删除原CTi,并重新计算簇特征向量,更新语义相似度矩阵。

Step 5:若簇间语义相似度矩阵的行数或列数小于等于预设的最小簇数目μ,执行Step 6;否则,聚类尚未结束,重新回到Step 3。

Step 6:凝聚式层次聚类结束,得到情感聚类簇CT′。

本实施例中,将微博表情符号集和情感词汇集等进行统一化特征 处理,这样选择获得的情感词集不但可有效降低文本特征维度,更能够保留原始微博集中的显性情感信息。

采用最大频繁项集聚类获得显性情感初始簇,通过《知网》语义库扩展短文本隐含的语义信息后再计算微博语义相似度,提出一种基于语义隶属度划分的初始簇重叠消减方法。

通过定义初始簇间的语义相似度,给出一种面向微博情感的凝聚式层次聚类方法,利用聚类参数可调整获得最佳的微博情感分类,基于情感分类结果最终实现精准的情感分析。

本发明公开的微博情感分析方法所涉及的所有算法和实施步骤,理论依据充分、实施步骤详细、分析结果精准,可广泛应用于社交网络的舆情监测等。

实例:为了证实本发明所提的方法对微博针对某个事件情感分析的检测效果,本发明从新浪微博广场上通过关键字搜索,获取2014年3月8日至2014年5月12日之间关于“马航事件”的44524条微博数据,“马航”事件情感变化如下图3所示。

结合图3“马航”事件情感变化趋势与“马航”事件实际发展状况,下面就几个关键时间点进行分析:

3月8日,马航官网发布第一份声明:确认北京时间8日2点40分MH370航班与塔台失去联系。微博情感为“悲伤”、“惊讶”、“恐惧”,表现民众对受难乘客的担心、对该航空安全的震惊和恐惧心理,“高兴”和“喜好”情感处于较低水平。

3月9日,马来交通部长确认2位持假护照者票号相连。因失联飞机已经40多个小时没有消息,民众“悲伤”情感明显上升,且出现持假护照事件,“恐惧”、“厌恶”情感同时上升。

3月10日,马来西亚官方承认失联航班有被劫机可能。民众“悲伤”情感持续,因存在“劫机”情况,疑似恐怖袭击事件,民众“恐惧”情感继续上升。

3月12日,马来西亚方面被质疑是否刻意隐瞒信息或拖延搜救进程。故“愤怒”情感大幅度升高,且占当天微博量的58%。

3月24日,马总理召开新闻发布会,失联多日的马航MH370客机坠入南印度洋,机上无人幸存。“悲伤”情感达到最高,民众对该噩耗深表痛心。

随着时间的推移,整个马航事件进入后期的反省、处理阶段,民众关注点开始逐渐转移。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号