首页> 中国专利> 标签嵌入在微博文本情绪多标签分类中的应用研究

标签嵌入在微博文本情绪多标签分类中的应用研究

摘要

本发明提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法,通过将多标签看作特殊单标签,直接利用标签嵌入算法,来解决多标签分类问题。本发明首先根据原始多标签间的欧式距离及代价信息,利用多维定标方法将各个多标签嵌入到嵌入空间中,然后将微博文本进行特征提取及表示,再训练情绪多标签编码器,学习多标签嵌入的函数,并训练从文本特征空间映射到嵌入空间的分析器,最后利用分析器及编/解码映射关系来预测文本情绪。

著录项

  • 公开/公告号CN110046356A

    专利类型发明专利

  • 公开/公告日2019-07-23

    原文格式PDF

  • 申请/专利权人 中森云链(成都)科技有限责任公司;

    申请/专利号CN201910345877.7

  • 发明设计人 不公告发明人;

    申请日2019-04-26

  • 分类号

  • 代理机构

  • 代理人

  • 地址 610041 四川省成都市高新区盛和一路88号康普雷斯A座1510室

  • 入库时间 2024-02-19 12:04:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-21

    授权

    授权

  • 2019-08-16

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20190426

    实质审查的生效

  • 2019-07-23

    公开

    公开

说明书

技术领域

本发明属于自然语言处理领域,涉及一种将标签嵌入应用于多标签分类的方法。

背景技术

随着人们对社交平台的普遍使用,微博作为一个重要的社交平台,已经成为人们表达观点和宣泄情绪的重要方式之一。海量的微博文本中蕴含着许多潜在的有价值信息,这些信息可以反映出用户对某事物的态度和喜好,因此微博文本情绪可以作为向用户推荐商品、文章及相关服务的重要参考方式。

近几年来,现有工作提出了多种解决文本情绪分析的方法。但是许多方法的实际效果并不理想。比如,某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,使得提取出的文本特征不够准确。因此,传统的多标签分类可能对最终分析结果不够准确。

已有的文本情绪分析方面的研究已经提出了不同的解决方法,但很多方法的实际效果并不理想,例如:①基于词典的方法未能深入考虑到文本上下文信息,使得提取出的文本特征不够准确;②某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,所以将情绪分类问题看作单标签分类问题可能使最终分析结果不够准确;③某些研究即使将情绪分析问题看做多标签分类问题,但其中部分研究将情绪多标签看作多个单标签的组合,然后对每个标签分别训练分类器,最后将每个分类器结果作为最终预测结果,该种策略是一类较主流的方法,但实际分类效果往往依赖于一系列人为设定的阈值,使人为因素对分析效果造成较大影响。

为了解决现有工作的不足,我们提出一种结合多标签嵌入的多标签分类模型。我们贡献在于如下两个方面:第一,我们的模型在嵌入过程中同时考虑欧式距离和海明损失信息,提高了标签嵌入效果;第二,我们的模型可以解决新标签缺失问题,并且为嵌入标签向量解码构建相应的映射关系,这种映射关系能够对预测出的嵌入向量进行解码,最终输出预测的情绪多标签,提高了对新标签的嵌入有效性和标签映射关系对嵌入标签解码的有效性。

发明内容

该发明是在微博文本情绪上采用标签嵌入算法而开发的多标签分类系统,通过同时考虑欧式距离和海明损失信息,提高标签嵌入效果,从而提高多标签分类的性能。

本发明的技术方案是:一种采用标签嵌入的多标签分类方法,其特征在于,包括以下步骤:

步骤1:收集微博文本数据,并进行预处理。

步骤2:将每个情绪多标签看作一种特殊单标签,如果多标签中某一单标签值不同则该多标签便被视作不同的标签。然后根据原始标签间的欧氏距离及代价信息嵌入到较低维的嵌入空间。

通过欧式距离函数,得到计算真实标签yi与预测标签之间的距离,其分解模型如下:

其中,y={y1,y2,...,yk}为标签集合,y是8维的情绪标签,dij表示标签yi与yj的距离,yim表示标签yi中第m个向量值,同理

通过海明损失函数,计算标签代价矩阵,其分解模型如下:

计算标签嵌入信息diff,其分解模型如下:

diff=D+δ(C) (3)

使用多维定标方法进行嵌入。

步骤3:通过文本表示方法对微博文本进行特征提取。

步骤4:训练情绪多标签编码器,其损失函数如下:

步骤5:训练文本分析器和编码/解码器。

步骤6:利用分析器和编码/解码器来预测文本情绪。

所述步骤2多维定标流程如下:

构造矩阵

构造矩阵B=(bij),其中

求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi

计算贡献率a1,m和a2,m,其中:

定义表示矩阵B中对应于特征值λ12,...,λm的正交变换向量,使得的行向量则为所求解。

所述步骤3文本特征提取,首先,对文本语句进行分词处理,将语句转化为一系列词的序列。然后,剔除所有分词中无实际意义的词及符号。再加载词向量训练工具,并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。

所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,该种嵌入层思想是首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。

所述步骤本发明的有益效果为,已知微博文本信息,提出了一种基于标签嵌入的多标签分类模型,解决了新标签缺失的多标签分类问题。

附图说明

图1为本发明的流程示意图。

图2为标签信息处理过程图。

图3为情绪多标签文本分类器结构图。

图4为情绪多标签编码器神经网络结构图。

具体实施方式

下面结合附图,详细描述本发明的技术方案:

如图1所示,本发明的主要流程为:

步骤1:收集微博文本数据,并采用word2vec与jieba等工具对微博文本进行预处理。

步骤2:采用多维定标方法,将预处理后的标签嵌入到低维嵌入空间,在进行标签嵌入过程中考虑使用原始标签间的欧式距离及海明损失信息:

通过海明损失函数,计算标签代价矩阵,其分解模型如下:

通过使用欧式距离公式,已知8维情绪标签集合y={y1,y2,...,yk},求出真实标签yi与预测标签yj之间的距离,其分解模型如下:

其中,dij表示标签yi与yj之间的距离,表示标签中第m个向量值,同理yim

计算标签嵌入信息diff,其分解模型如下:

diff=D+δ(C) (3)

使用多维定标方法将各个多标签嵌入到嵌入空间中。

步骤3:采用结合词典和词向量的嵌入层文本表示方法对微博文本进行特征提取。

步骤4:训练情绪多标签编码器,得到多标签的嵌入信息。如图2所示,其损失函数如下:

步骤5:利用提取出的文本向量训练文本分析器。

步骤6:在实验验证集上选出编码器/解码器和分析器模型后,使用测试集中的数据对模型进行预测。

所述步骤2多维定标流程如下:

构造矩阵

构造矩阵B=(bij),其中

求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi

计算贡献率a1,m和a2,m,其中:

定义表示矩阵B中对应于特征值λ12,...,λm的正交变换向量,使得则的行向量则为所求解。

所述步骤3文本特征提取,首先,对文本语句进行分词处理,将语句转化为一系列词的序列。然后,剔除所有分词中无实际意义的词及符号。再加载词向量训练工具,并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。

所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号