首页> 中国专利> 一种基于句子间情绪转移概率的句子级情绪分类方法

一种基于句子间情绪转移概率的句子级情绪分类方法

摘要

本申请公开了一种基于句子间情绪转移概率的句子级情绪分类方法,该方法包括利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;利用预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。本申请公开的方法中,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。

著录项

  • 公开/公告号CN104809232A

    专利类型发明专利

  • 公开/公告日2015-07-29

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201510236584.7

  • 发明设计人 李寿山;汪蓉;周国栋;

    申请日2015-05-11

  • 分类号

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人罗满

  • 地址 215123 江苏省苏州市工业园区仁爱路199号

  • 入库时间 2023-12-18 10:16:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-01

    授权

    授权

  • 2015-08-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150511

    实质审查的生效

  • 2015-07-29

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理及机器学习技术领域,特别涉及一种基于句子 间情绪转移概率的句子级情绪分类方法。

背景技术

随着互联网的高速发展,人们越来越倾向于在社交网站上发表自己的情 感,从微博、微信上的一句短句,到长篇的博客,这些大量的文本信息中蕴 含着作者大量的情绪信息。

目前按照情绪标签对文本信息进行分类的研究开始逐渐增多,但普遍都 是对文本信息自身的情绪特征进行分析。由于人类对语言文字的组织运用是 带有主观性和多样性的,使得不少文本信息自身的表面情绪特征往往与作者 真实的情绪是不一致的。所以,如果仅仅是对文本信息自身的情绪特征进行 分析,便有可能造成错误的分类结果。

综上所述可以看出,在按照情绪标签对文本信息进行分类时,如何改善 文本信息的情绪分类效果是目前亟待解决的问题。

发明内容

有鉴于此,本发明的目的在于提供一种基于句子间情绪转移概率的句子 级情绪分类方法,在按照情绪标签对文本信息进行分类时,改善了文本信息 的情绪分类效果。其具体方案如下:

一种基于句子间情绪转移概率的句子级情绪分类方法,

利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注 情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;

利用预先基于所述已标注情绪标签的句子级文本集计算得到的句子间情 绪转移概率,对所述预标注情绪标签的句子级文本进行优化分类,得到优化 分类结果。

优选的,所述已标注情绪标签的句子级文本集包括N组已标注情绪标签的 句子级文本,其中,N为正整数,每组所述已标注情绪标签的句子级文本均包 括两个已标注情绪标签的文本句子。

优选的,所述N组已标注情绪标签的句子级文本为不小于1000组的已标注 情绪标签的句子级文本。

优选的,用于对所述已标注情绪标签的文本句子进行标注的情绪标签包 括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的 文本句子只被标注上一种情绪标签。

优选的,所述M种情绪标签为8种情绪标签,所述8种情绪标签为高兴、讨 厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。

优选的,基于所述已标注情绪标签的句子级文本集计算所述句子间情绪 转移概率的过程包括:

记录每组所述已标注情绪标签的句子级文本中的两个文本句子的情绪对 应关系;

按照所述情绪对应关系的种类对所述N组已标注情绪标签的句子级文本 进行分类,得到多类句子级文本类;每一类所述句子级文本类包括一组或多 组所述已标注情绪标签的句子级文本;

计算每类所述句子级文本类中含有的句子级文本的数量占所述句子级文 本集中含有的句子级文本的总量的比例,得到每类所述句子级文本类的所述 句子间情绪转移概率。

优选的,基于所述已标注情绪标签的句子级文本集建立所述分类器的过 程为:

在所述已标注情绪标签的句子级文本集上执行机器学习分类算法,得到 所述分类器。

优选的,所述机器学习分类算法为最大熵分类算法。

本发明中,在利用分类器对待标注情绪标签的句子级文本进行预分类后, 也即,在对待标注情绪标签的句子级文本自身的情绪特征进行分析后,还利 用预先计算的句子间情绪转移概率对预标注情绪标签的句子级文本进行优化 分类,从而得到最终的优化分类结果,可见,最终的优化分类结果是在既考 虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子 间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息 的情绪分类效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种基于句子间情绪转移概率的句子级情绪 分类方法流程图;

图2为本发明实施例公开的一种句子间情绪转移概率的计算方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种基于句子间情绪转移概率的句子级情绪分类方 法,参见图1所示,上述方法包括:

步骤S101:利用预先基于已标注情绪标签的句子级文本集建立的分类器, 对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级 文本。

本实施例中,已标注情绪标签的句子级文本集包括N组已标注情绪标签的 句子级文本,其中,N为正整数,每组已标注情绪标签的句子级文本均包括两 个已标注情绪标签的文本句子。优选的,上述N组已标注情绪标签的句子级文 本为不小于1000组的已标注情绪标签的句子级文本。上述已标注情绪标签的 句子级文本可以是从相关已有的文本数据库中获取,也可以通过自行标注的 方式获得。

另外,用于对已标注情绪标签的文本句子进行标注的情绪标签包括M种情 绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子 只被标注上一种情绪标签。优选的,M种情绪标签为8种情绪标签,8种情绪标 签为高兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。

本实施例中,基于已标注情绪标签的句子级文本集建立分类器的过程为: 在已标注情绪标签的句子级文本集上执行机器学习分类算法,得到分类器。 优选的机器学习分类算法为最大熵分类算法。最大熵分类算法适合融合各种 不一样的情绪特征,而无需考虑情绪特征之间的影响。由于最大熵分类算法 是一种现有技术,在此不再对其进行赘述。

在步骤S101中,利用分类器对待标注情绪标签的句子级文本进行预分类, 例如,待标注情绪标签的句子级文本包括呈上下句关系的文本句子A和文本句 子B。文本句子A经过分类器的预分类处理后,被标上“渴望”的概率为100%, 文本句子B经过分类器的预分类处理后,被标上“喜欢”的概率为55%,而被 标上“讨厌”的概率为45%。那么,经过预分类后得到的预标注情绪标签的句 子级文本包括被标上“渴望”的概率为100%的文本句子A以及被标上“喜欢” 的概率为55%和被标上“讨厌”的概率为45%的文本句子B。此时文本句子B 的情绪标签还未最终确定,需要经过后续的优化分类处理才能最终确定。

步骤S102:利用预先基于已标注情绪标签的句子级文本集计算得到的句 子间情绪转移概率,对预标注情绪标签的句子级文本进行优化分类,得到优 化分类结果。

同样以上述步骤S101中提到的例子为例,如果预先基于已标注情绪标签 的句子级文本集计算得到的句子间情绪转移概率中,文本句子间的情绪标签 从“渴望”转移到“喜欢”的概率为40%,而从“渴望”转移到“讨厌”的概 率为60%,那么,利用上述句子间情绪转移概率,对文本句子A和文本句子B 进行优化分类,通过比较文本句子B最终被标上“喜欢”的概率和最终被标上 “讨厌”的概率之间的大小来判断出文本句子B最终会被标上哪个情绪标签。 其中,文本句子B最终被标上“喜欢”的概率的计算方法是利用文本句子间的 情绪标签从“渴望”转移到“喜欢”的概率乘以文本句子B经过分类器的预分 类处理后被标上“喜欢”的概率,也即40%乘以55%;文本句子B最终被标上 “讨厌”的概率的计算方法是利用文本句子间的情绪标签从“渴望”转移到 “讨厌”的概率乘以文本句子B经过分类器的预分类处理后被标上“讨厌”的 概率,也即60%*45%;由上可知,上述例子中文本句子B最终被标上“讨厌” 的概率大于最终被标上“喜欢”的概率,所以文本句子B最终会被标上“讨厌” 的情绪标签。

参见图2所示,基于已标注情绪标签的句子级文本集计算句子间情绪转移 概率的过程包括:

步骤S201:记录每组已标注情绪标签的句子级文本中的两个文本句子的 情绪对应关系。

例如,当某组已标注情绪标签的句子级文本中的前后两个文本句子的情 绪标签分别为“渴望”和“喜欢”,那么,该组已标注情绪标签的句子级文 本中的两个文本句子的情绪对应关系为“渴望-喜欢”。其中,“渴望-喜欢” 是一种情绪对应关系,而“渴望-讨厌”则是另一种情绪对应关系,为了简便 起见,在此就不对所有的情绪对应关系进行一一列举了。

步骤S202:按照情绪对应关系的种类对N组已标注情绪标签的句子级文本 进行分类,得到多类句子级文本类;每一类句子级文本类包括一组或多组已 标注情绪标签的句子级文本。

例如,将上述N组已标注情绪标签的句子级文本中情绪对应关系为“渴望 -喜欢”的句子级文本分成一类,将“渴望-讨厌”的句子级文本分成另一类, 以此类推。

步骤S203:计算每类句子级文本类中含有的句子级文本的数量占句子级 文本集中含有的句子级文本的总量的比例,得到每类句子级文本类的句子间 情绪转移概率。

例如,计算上述N组已标注情绪标签的句子级文本中情绪对应关系为“渴 望-喜欢”的句子级文本的数量占句子级文本集中含有的句子级文本的总量的 比例,从而得到句子情绪从“渴望”到“喜欢”的句子间情绪转移概率。

本发明实施例中,在利用分类器对待标注情绪标签的句子级文本进行预 分类后,也即,在对待标注情绪标签的句子级文本自身的情绪特征进行分析 后,还利用预先计算的句子间情绪转移概率对预标注情绪标签的句子级文本 进行优化分类,从而得到最终的优化分类结果,可见,最终的优化分类结果 是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后 两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了 文本信息的情绪分类效果。

最后,需要说明的是,在本文中,术语“包括”、“包含”或者其任何 其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、 物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或 者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限 制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要 素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种基于句子间情绪转移概率的句子级情绪分类 方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进 行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想; 同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及 应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明 的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号