首页> 中国专利> 一种基于情感分析在线检测微博热点事件的方法

一种基于情感分析在线检测微博热点事件的方法

摘要

本发明公开一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-15

    授权

    授权

  • 2014-09-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130906

    实质审查的生效

  • 2014-01-08

    公开

    公开

说明书

技术领域

本发明属于移动互联网技术领域,具体涉及一种基于情感分析在线检测 微博热点事件的方法。

背景技术

互联网正逐步演变为无处不在的计算平台和信息传播平台,在线社交网 站、微博、博客、论坛、维基等社交网络应用的出现和迅猛发展,使得人类 使用互联网的方式产生了深刻变革—由简单信息搜索和网页浏览转向网上社 会关系的构建与维护以及基于社会关系的信息创造、交流和共享。

当前,社交网络应用正处在蓬勃发展期,Facebook上线8年来,已拥有超 过10亿的用户,是第三大“人口国”,Twitter用户数也已超过5亿。根据各自 官方网站的报告,截止2012年12月,新浪微博用户数已达到5亿,腾讯微博用 户数已达到5.4亿。市场研究公司eMarketer于2012年3月发布的《世界社交网 络使用:市场规模与增长预期报告》显示:2012年全球人口中的五分之一将 使用社交网络,到2014年将达到四分之一,从用户增长规模等数据来看,中 国的在线社交网站及微博的用户培养已进入成熟阶段。

研究在线微博领域数据流中热点事件,对于舆情监控与监管具有十分重 要的意义,然而,因微博数据量大、产生速度快及数据噪声多,因而从海量 数据中迅速在线检测出热点事件及突发事件难度较大:当前主要通过对信息 流进行新话题的自动识别和已知话题的持续跟踪来发现微博数控流中讨论的 热点事件,基于突发特征进行事件检测是挖掘数据流中热点事件的有效方法 之一,其主要思想是首先抽取文档特征词,分析特征词随时间变化轨迹检测 出突发特征词,然后将具有相同突发轨迹的特征词进行聚合,形成突发事件, 所谓突发是指一段时间内包含一个词汇的文档数量明显高于其他时间段的情 况,早在2002年Kleinberg教授提出了经典的Bursty挖掘算法,通过二元状态 机模型对信息流进行建模,将特征词分为正常和突发两种状态。He在2007年 基于TFIDF与Bursty相结合的特征建模方法,通过增加特征词的突发权重建立 新的突发特征模型,取得了良好的效果。

然而,已有的方法多是对长文本的研究,应用于微博这类仅有140字的短 文本有很大不足:首先,微博数据量大,检测突发特征需要花费大量时间, 不适合在线处理;其次,微博中用户表达方式的多样化使得信息流中存在大 量噪声,突发特征可能由不易被检测网络新词构成,增加了识别突发特征的 难度。

发明内容

针对已有事件检测方法在海量在线微博文本数据流中效率低的问题, 本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分 析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和 情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题, 使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据 量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事 件。

本发明提供了一种基于情感分析在线检测微博热点事件的方法,其包 括以下步骤:

步骤S01:突发情感检测:通过情感抽取将时间窗口内的在线微博文本 分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类 及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突 发情感文本;

具体地,步骤S01包括以下分步骤:

步骤S011:情感抽取:采用具有层次结构的多元化情感模型对时间窗 口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文 本两类,且将情感文本根据情感模型按照不同的情感进行归类;

步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对 情感进行主成分分析,抽取时间窗口内的主流情感;

步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感 进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改 进的Kleinberg算法主要包括以下步骤:首先采用公式计算出 各主流情感文本占总文本的比例,其中,表示时间窗口T内含有情感ej的微博文本数目,表示时间窗口T内所以含有情感的微博文本数目; 然后采用Kleinberg算法检测出该比例的突发情况,即为相应情感和情感文 本的突发情况;

步骤S02:基于情感信息的事件抽取:对突发情感文本进行命名实体识 别,将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感 文本,将含有命名实体的情感文本进行聚类以形成聚类事件,并将不同情 感生成的聚类事件进行合并构建热点事件;

具体地,步骤S02包括以下分步骤:

步骤S021:命名实体识别:对其突发期内的情感文本集进行命名实体 识别,将突发期内的情感文本按照时间、地点及特殊名词进行命名,分成 含有命名实体的情感文本和不含有命名实体的情感文本,且将含有命名实 体的情感文本作为聚类文本集;

步骤S022:近邻传播聚类:对聚类文本集采用近邻传播聚类算法进行 聚类,采用文本相似性时,对命名实体和一般词采用不同的权重进行度量, 以使每种主流情感都形成聚类事件;

步骤S023:事件合并:将各主流情感的聚类结果采用突发时间和事件 相似性相结合的双限定方式进行话题合并形成热点事件;

步骤S03:构建分离器进行离线回收:将步骤S02中的热点事件作为训 练集合构造Bayes分类器,采用所述Bayes分类器对步骤S01中的非情感 文本及步骤S02中的不含命名实体的情感文本进行分类,满足一定相似度 阈值条件的文本加入热点事件中,以增强事件概要抽取的完备性。

本发明提供的一种基于情感分析在线检测微博热点事件的方法具有以 下有益效果:

本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情 感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情 感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点 话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精 简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博 热点事件。

附图说明

图1为本发明提供的基于情感分析在线检测微博热点事件的方法的流 程简图;

图2为本发明提供的基于情感分析在线检测微博热点事件的应用时检 测的情感实时在线状态示意图。

具体实施方式

下面结合具体实施方式来进一步说明本发明的技术方案:

针对已有事件检测方法在海量在线微博数据流中效率低的问题,本发 明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对 在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感 文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使 得只有少部分有效的信息量比较大的文本参与事件挖掘,在精简数据量的 同时过滤掉了大量数据噪声,从而能在线实时检测出微博热点事件。

在介绍本发明提供的一种基于情感分析在线检测微博热点事件的方法 之前,首先进行形式化定义,如下:

D=(d1t1,d2t2,d3t3...)表示微博文档集合,对ti表示论文发表时 间,从而时间窗口T内的所有文档可表示为令E=<e1,e2...em>表 示情感序列,对ej表示一种情感,从而:

定义1:博文情感Ed:博文所表达的情感序列,对每篇文档d,定义 其中,为1如果文档d包含情感e,

从而,博文情感是一个二元向量

定义2:情感文本:时间T内包含情感ej的文档集合,即对

dDejTdDT

定义3:突发情感特征:对于特征度量函数f及时间窗口T,称情感ej在t时刻处于突发状态,如果,

f(ej)t1NΣif(ej)ti

定义突发事件窗口集合称为突发期其中,表示情感ej的 第k个突发期,相应地,称为突发期内的相关文档。

针对已有事件检测方法在海量在线微博文本数据流中效率低的问题, 本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分 析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和 情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题, 使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据 量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事 件。

请参阅图1,本发明提供了一种基于情感分析在线检测微博热点事件的 方法,其包括以下步骤:

步骤S01:突发情感检测:通过情感抽取将时间窗口内的在线微博文本 分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类 及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突 发情感文本;

具体地,步骤S01具体包括以下分步骤:

步骤S011:情感抽取:采用具有层次结构的多元化情感模型对时间窗 口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文 本两类,且将情感文本根据情感模型按照不同的情感进行归类;

步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对 情感进行主成分分析,抽取时间窗口内的主流情感;

步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感 进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改 进的Kleinberg算法主要包括以下步骤:首先采用公式计算出 各主流情感文本占总文本的比例,其中,表示时间窗口T内含有情感ej的微博文本数目,表示时间窗口T内所以含有情感的微博文本数目; 然后采用Kleinberg算法检测出该比例的突发情况,即为相应情感和情感文 本的突发情况;

步骤S02:基于情感信息的事件抽取:对突发情感文本进行命名实体识 别,将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感 文本,将含有命名实体的情感文本进行聚类以形成聚类事件,并将不同情 感生成的聚类事件进行合并构建热点事件;

具体地,步骤S02包括以下分步骤:

步骤S021:命名实体识别:对其突发期内的情感文本集进行命名实体 识别,将突发期内的情感文本按照时间、地点及特殊名词进行命名,分成 含有命名实体的情感文本和不含有命名实体的情感文本,且将含有命名实 体的情感文本作为聚类文本集;

步骤S022:近邻传播聚类:对聚类文本集采用近邻传播聚类算法进行 聚类,采用文本相似性时,对命名实体和一般词采用不同的权重进行度量, 以使每种主流情感都形成聚类事件;

步骤S023:事件合并:将各主流情感的聚类结果采用突发时间和事件 相似性相结合的双限定方式进行话题合并形成热点事件;

步骤S03:构建分离器进行离线回收:将步骤S02中的热点事件作为训 练集合构造Bayes分类器,采用所述Bayes分类器对步骤S01中的非情感 文本及步骤S02中的不含命名实体的情感文本进行分类,满足一定相似度 阈值条件的文本加入热点事件中,以增强事件概要抽取的完备性。

本发明提供的一种基于情感分析在线检测微博热点事件的方法具有以 下有益效果:

本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情 感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情 感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点 话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精 简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博 热点事件。

本发明提供的一种基于情感分析在线检测微博热点事件的方法的具体 实施过程如下:

1、突发情感检测:

突发情感检测基于已有情感模型进行情感抽取并对主流情感进行突发检 测,挖掘情感的突发期并对文档按照情感进行归类,对于情感模型,我们采 用已有研究工作的层次化多元情感模型,其结合临床心理学抽取情感词并基 于知网距离和检索距离相结合构建层次模型,共包含287个微博数据流中常 用的情感词及情感符号,并依靠机器学习方法自动归为37个类别。

基于上述模型,我们对时间窗口T内的所有微博文本DT进行情感抽取, 对任意情感ej,抽取包含此情感的文档集合构成情感文本具体算法如下:

算法:情感抽取

输入:时间窗口T,情感向量E,文档数据流DT

输出:按照情感分类的情感文本集合。

Method:

(1)对构建博文情感博文情感Ed

(2)设定标记flag=true,对Ed元素进行逐项研判,

若则将文档d加入情感ej的情感文本集合Flag=false;

若判定结束flag=true,则表明此微博文本为非情感博文,加入集合

(3)重复步骤(1)和(2)直到所有微博文本分类结束,从而,DT被分为情 感文本集合和情感文本集合

非情感文本集合表示不含任何情感的博文集合,我们在此将其保留以 备回收构建事件概要,而不是将其丢弃,情感文本集合按照不同情感被分 成37个类别,实际上,在给定时间窗口T内,主流情感往往只有其中少数几 个,为此,我们根据情感文本集合的数量及发表时间,对情感进行主成分 分析,抽取时间窗口内的主流情感到达降维的目的及对应的主流情感文本集 合对于主流情感文本我们采用改进的Kleinberg突发检测方法进行情 感特征检测,Kleinberg采用二元状态模型对信息流进行建模,普通状态为q0, 突发状态为q1,采用文档到达的时间间隔衡量状态,当处于普通状态q0时,文 档间时间间隔长,对应于密度函数处于突发状态时q1,文档间 时间间隔短,对应于密度函数而实际上,网民发表微 博文本有一定的时间规律,白天微博文本发表数量明显高于夜晚,为此,本 文基于统计的方法计算语料库中微博发帖规律进行统计,首先采用公式 计算出主流情感文本占总文本的比例,其中,表示时间窗 口T内含有情感ej的微博文本数目,表示时间窗口T内所以含有情感 的微博文本数目;然后采用Kleinberg算法检测出该比例的突发情况,即为相 应情感和情感文本的突发情况。

经过上述过程,对于给定主流情感ej,其对应的情感文本集合根据突 发期被划分为几个不相交子集

2、情感文本的事件抽取

基于情感文本的事件抽取通过近邻传播聚类算法检测突发事件,主要包 括命名实体识别,近邻传播聚类和事件合并三个部分。

对于给定主流情感ej及其对应的突发期情感文本集合我们采用命名 实体识别对主流情感文本进行抽取,特别的,我们抽取能表征事件发生的主 要元素,包括时间、地点、特殊名称等信息的含有命名实体的主流情感文本, 将其放入聚类文本集合对于不含命名实体的主流情感文本,将其放入文 本集合

对于聚类文本集合采用近邻传播聚类方法检测突发事件,Affinity  Propagation(AP)聚类是2007年在Science杂志上提出的一种新的聚类算法, 它根据N个数据点之间的相似度进行聚类,这些相似度组成N×N的相似度 矩阵S(其中N为有N个数据点),近邻传播算法不需要事先指定聚类数目, 相反它将所有的数据点都作为潜在的聚类中心称之为exemplar,以S矩阵的 对角线上的数值s(k,k)作为k点能否成为聚类中心的评判标准,这意味着 该值越大,这个点成为聚类中心的可能性也就越大,这个值又称作参考度p (preference),AP算法中传递两种类型的消息(responsibility和availability), r(i,k)表示从点i发送到候选聚类中心k的数值消息,反映k点是否适合作为 i点的聚类中心,a(i,k)则从候选聚类中心k发送到i的数值消息,反映i点是 否选择k作为其聚类中心,r(i,k)与a(i,k)越强,则k点作为聚类中心的可能 性就越大,并且i点隶属于以k点为聚类中心的聚类的可能性也越大,其R 矩阵和A矩阵的计算公式如下:

R(i,k)=S(i,k)-max{A(i,j)+S(i,j)}(j{1,2,......,N,j≠k})

A(i,k)=min{0,R(k,k)+(j{1,2,......,N,j≠i且j≠k})

R(k,k)=P(k)-max{A(k,j)+S(k,j)}(j{1,2,......,N,j≠k})

在此,我们采用余弦相似度衡量两个文本间的相似度,特别地,我们认 为命名实体作为表征突发事件的主要标志,赋予更高的权重,从而设定平滑 系数β,文本的最终相似度定义为

Sim(d1,d2)=β*SimNE(d1,d2)+(1-β)*Sim0(d1,d2)

其中simNE表示文档间命名实体的相似度,simo表示除去命名实体之后其 他一般词间的相似度。

经过上述算法,对每个情感ej我们得到其在时间窗口T内的聚类事件集 合由于针对同一突发事件公共往往具有多元化情感,从而不同聚类事件 集合中存在重复的问题,为此,我们采用突发期和事件相似性相结合的双限 定方式进行事件合并,对于情感ei,ej及其对应的聚类事件集合我 们认为两个事件为同一突发事件,当且仅当

其中θ1,θ2为给定阔值,合并后的热点事件集合记为GT

3、离线回收

实际上非情感文本集合及不含有命名实体的文档集合中仍然具有 很多事件相关文档,尤其是含有很多客观信息的非情感文本集合为了对 事件进行更详尽的描述,我们设计离线回收机制对候选文本进行分类。

基于已有的热点事件集合GT,我们将其作为训练样本集构建Bayes分类 器,给定阈值θ3,如果文档d属于事件gT,当且仅当:

P(d|gT)>θ3

从而完成文档的回收工作,以增强事件概要抽取的完备性,并且此步骤 可采用离线方式进行,而不需要实时进行计算,从而提高了系统效率。

本发明提供的一种基于情感分析在线检测微博热点事件的方法的具体 应用实施如下:

利用上述基于情感分析在线检测微博热点事件的方法,我们设计系统验 证算法的有效性,实验采用新浪微博数据,通过API获得从2012年7月25 日至8月15日有关伦敦奥运会的3923641条微博数据进行实验。

情感的实时在线状态如图2所示,在此时间窗口设定为1小时,从中可 以看出,喜悦这类情绪突发期比较多而愤怒则比较少。实际上,伴随着中国 队员获得每个奖牌,新浪微博都有情感突发现象,而我们的算法也检测到了 所有的事件。

在步骤(1)突发情感检测的情感抽取中,大约有62%的文本被划入非情 感文本,从而使得只有少部分有价值的文本进行后面的处理。虽然我们的情 感模型有37个类别,但通过主成分分析,处于单独时间窗口中的主流情感平 均在6个左右。由于我们只需要对主流的情感进行突发检测及聚类分析,从 而有效提高了系统效率。

上面对本发明进行了示例性的描述,显然本发明的实现并不受上述方式 的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经 改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护 范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号