首页> 中国专利> 基于多维度和多层次联合建模的网络社会媒体情感分类方法

基于多维度和多层次联合建模的网络社会媒体情感分类方法

摘要

本发明公开了基于多维度和多层次联合建模的网络社会媒体情感分类方法,采用深度学习框架和先验知识约束的注意力机制,通过对网络社会媒体文本从语言符号、表情符号和标点符号三个维度进行多维度情感建模,并从词语、句子、文档三个层次进行多层次情感建模,解决了网络社会媒体情感分类面临的“信息缺失和动态多变”两大问题,提高了网络社会媒体情感分类的精准度。

著录项

  • 公开/公告号CN112163607A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 平顶山学院;

    申请/专利号CN202010982893.X

  • 申请日2020-09-17

  • 分类号G06K9/62(20060101);G06F16/951(20190101);G06F40/289(20200101);G06F40/211(20200101);G06F40/253(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构61239 西安研创天下知识产权代理事务所(普通合伙);

  • 代理人杨凤娟

  • 地址 467000 河南省平顶山市新城区未来路南段平顶山学院

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明涉及网络社会媒体情感分类领域,具体涉及一种基于多维度和多层次联合建模的网络社会媒体情感分类方法。

背景技术

伴随着Web2.0的发展,网络社会媒体已成为网络用户首选交流平台。据We AreSocial和Hootsuite合作发布的最新《2020年全球数字报告》(Digital 2020GlobalOverview Report)显示,社会媒体已成为世界各地人们日常生活中不可或缺的一部分。到2020年初,超过45亿人使用互联网,而社会媒体用户已突破38亿大关。全球近60%的人口已经上网,最新趋势表明,到2020年中,全球总人口的一半以上将使用社会媒体。

由于网络社会媒体的交互性和人的社会性,网民更愿意在社会媒体中对其感兴趣的事物发表观点和表达情感,从而导致社会媒体中蕴含了丰富的情感信息。例如,Facebook、Twitter和新浪微博的用户经常发布大量包含表情符号的短文本信息来分享自己对于身边事物以及一些热门的政治、经济、娱乐、体育等方面的情感观点。因而,蕴含丰富情感的社会媒体信息已成为国家和企业了解网民情感和观点的绝佳资源。为有效挖掘社会媒体中的情感信息,社会媒体情感分类应运而生。

网络社会媒体情感分类有广泛的应用价值,可用于商品口碑分析、舆情分析、用户建模、个性化推荐、事件趋势预测、危机应对、灾难评估等方面。例如,在国家安全和社会稳定领域,政府通过社会媒体情感分类技术,分析大量网民对舆情事件和热点话题的情感观点,实时感知舆情热点,为政府部门采取有针对性的舆情引导和危机公关提供科学的决策依据,最终实现及时化解社会矛盾、维护社会稳定的目标。

与传统媒体相比,网络媒体具有很多独有的特点。这些特点给现有网络社会媒体情感分类方法带来了巨大的挑战。

首先,网络社会媒体具有图文并茂的特点。由于Web2.0技术和移动互联网技术的发展,网络用户在表达自己内心的情感时,不仅大量使用网络短文本,也往往会同时发布图片、颜体字、表情符号、重复标点符号(如!!!)来增强情感表达的效果,往往一条消息中既包含文本,也包含表情符号和表达情感的标点符号。蕴含情感信息的表情符号和标点符号一方面给网络社会媒体情感分类提供了新的信息来源,另一方面也对网络社会媒体情感分类方法提出了新的要求。现有研究主要基于网络文本的语言符号信息进行情感分类,很少考虑网络文本中蕴含强烈情感观点的表情符号和重复标点符号对文本情感分类的影响。

其次,网络社会媒体具有非规范语言的特点。网络社会媒体语言的非规范性使网络社会媒体面临“信息缺失”和“动态多变”两大挑战。“信息缺失”是指由于网络文本长度短,造成上下文语境信息缺失;而“动态多变”主要表现为用户可以使用各种各样的文本语言形式来表达情感观点。例如,在“新浪微博”中,用户可以综合运用网络新词(如给力、坑爹)、谐音词(如杯具、有菜花)、字母缩写词(如NB)等多种非规范的文本语言形式来表达情感观点。现有研究主要通过引入不同正则项来修正情感分类模型,从而解决信息缺失的挑战,提高网络社会媒体情感分类的精准度。然而,很多研究成果表明:这种通过情感分类模型的修改来弥补信息缺失的研究思路,虽然情感分类精准度有所提高,但无法从根本上突破“情感分类精准度”这一难题。另外,现有网络社会媒体情感分类模型,还无法很好解决网络社会媒体文本面临的“动态多变”挑战。

为此,如何对网络社会媒体中蕴含情感信息的表情符号、标点符号和语言符号进行统一建模,解决网络社会媒体具有非规范语言特点带来的“信息缺失”和“动态多变”两大挑战问题,从而提高网络社会媒体的精准度,得到理想的情感分类结果是目前亟待解决的问题。

发明内容

针对上述存在的问题,本发明旨在提供一种基于多维度和多层次联合建模的网络社会媒体情感分类方法,其基于网络社会媒体图文并茂的特点,采用深度学习框架和先验知识约束的注意力机制,研究网络社会媒体多维度和多层次联合情感建模,用以解决网络社会媒体情感分类面临的“信息缺失和动态多变”两大问题,最终提升网络社会媒体情感分类的精准度。

为了实现上述目的,本发明所采用的技术方案如下:

基于多维度和多层次联合建模的网络社会媒体情感分类方法,其特征在于,包括以下步骤:

步骤1:通过网络爬虫、网络社会媒体API和公共网络社会媒体文本数据集,构建多个网络社会媒体文本数据集;

步骤2:针对网络社会媒体文本数据集中的每篇文本,通过标点符号,将文本划分成多个句子;

步骤3:在将表情符号和标点符号作为未登录词处理后,对每个句子进行分词;

步骤4:分别从词语、句子、文档三个层次对文本内容进行多层次情感建模,同时在词语层次对文本从语言符号、表情符号和标点符号三个维度进行多维度情感建模;

步骤5:将多维度和多层次联合建模结果,输入多层感知机网络,得到最终的情感分类结果。

进一步地,步骤4中的具体操作步骤包括:

S41:在词语层次对网络社会媒体文本中的语言符号、表情符号和标点符号进行向量化,得到多维度情感建模后的词向量;

S42:在句子层次对网络社会媒体文本中的每个句子进行向量化,得到每个句子的句向量;

S43:在文档层次把得到的每个句子的句向量输入到具有注意力机制的BiLSTM网络,输出文档向量。

进一步地,步骤S41中的具体操作步骤包括:

S411:把包含表情符号和标点符号的网络社会媒体文本全部输入预训练语言模型;

S412:用预训练语言模型对网络社会媒体文本进行词语级建模,把表情符号和标点符号当作情感词进行处理,得到语言符号词向量、表情符号词向量和标点符号词向量。

进一步地,步骤S42中的具体操作步骤包括:

S421:把情感词的先验知识引入注意力网络,得到基于情感词典约束的词语层注意力机制,其计算公式为:

其中,N是文本数量,w是情感分类模型,x

S422:将得到的所述语言符号词向量、表情符号词向量以及标点符号词向量共同输入基于情感词典约束且具有注意力机制的BiLSTM网络;

S423:利用注意力计算公式对语言符号词向量、表情符号词向量以及标点符号词向量进行联合计算,得出语言符号句向量;

S424:将表情符号词向量直接作为表情符号句向量输出,将标点符号词向量直接作为标点符号句向量输出;

S425:将得到的语言符号句向量、表情符号句向量以及标点符号句向量进行拼接,最终得到句子的句向量。

进一步地,步骤S43中的具体操作步骤包括:

S431:基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;

S432:将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:

其中,N是文本数量,w是情感分类模型,x

S433:将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示。

本发明的有益效果是:

本发明中的方法通过从语言符号、表情符号和标点符号三个维度,从词语、句子、文档三个层次进行多维度和多层次联合建模,并基于深度学习框架,引入先验知识约束的注意力机制,构建基于先验知识约束、具有注意力机制的BiLSTM网络,从而提高网络社会媒体情感分类的精准度。在真实中文和英文典型社会媒体数据集上的实验结果表明,通过引入多维度模型,平均可以提高2.66%的网络社会媒体情感分类精度;通过引入多层次模型,平均可以提高1.52%的网络社会媒体情感分类精度;通过多维度和多层次的联合建模,结合先验知识约束的注意力机制,平均可以提高4.33%的网络社会媒体情感分类的精度。

本发明阐述的方法已经应用到“面向热点事件的网络舆情系统”中,通过在COVID19疫情期间的连续运行,网络舆情系统能够对网民的情感倾向进行精准预测,通过采用线下预训练模型,线上定时更新模型参数的部署方式,该系统能够准实时的对网络舆情系统进行精准分析(舆情分析间隔为10秒)。

附图说明

图1为网络社会媒体文本多维度和多层次情感建模过程示意图;

图2为实施例中在4个数据集上,不同方法的分类性能结果。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。

参考附图1可以看出,本发明提出的建模方法从词语、句子、文档三个层次对网络社会媒体文本进行情感分类,并分别在这三个层次针对语言符号、情感符号和标点符号三个维度进行建模,其中红色圆圈代表表情符号的向量表示,蓝色圆圈代表语言符号的向量表示,绿色圆圈代表标点符号的向量表示。

基于多维度和多层次联合建模的网络社会媒体情感分类方法,包括以下步骤:

步骤1:通过网络爬虫、网络社会媒体API和公共网络社会媒体文本数据集,构建多个网络社会媒体文本数据集;

步骤2:针对网络社会媒体文本数据集中的每篇文本,通过标点符号,将文本划分成多个句子;

步骤3:在将表情符号和标点符号作为未登录词处理后,利用现有分词工具,对每个句子进行分词;

步骤4:分别从词语、句子、文档三个层次对文本内容进行多层次情感建模,同时在词语层次对文本从语言符号、表情符号和标点符号三个维度进行多维度情感建模;

步骤5:将多维度和多层次联合建模结果,输入多层感知机网络,得到最终的情感分类结果。

进一步地,步骤4中的具体操作步骤包括:

S41:在词语层次对网络社会媒体文本中的语言符号、表情符号和标点符号进行向量化,得到多维度情感建模后的词向量;

S42:在句子层次对网络社会媒体文本中的每个句子进行向量化,得到每个句子的句向量;

S43:在文档层次把得到的每个句子的句向量输入到具有注意力机制的BiLSTM网络,输出文档向量。

进一步地,步骤41中的具体操作步骤包括:

S511:由于表情符号和标点符号蕴含情感信息,把包含表情符号和标点符号的网络社会媒体文本全部输入预训练语言模型(BERT);

S512:用预训练语言模型(BERT)对网络社会媒体文本进行词语级建模时,把表情符号和标点符号当作情感词进行处理,得到语言符号词向量、表情符号词向量和标点符号词向量;且语言符号词向量、表情符号词向量和标点符号词向量共同构成网络社会媒体文本多维度情感模型。

进一步地,步骤42中的具体操作步骤包括:

S421:把情感词的先验知识引入注意力网络,考虑到情感相似情感词的注意力系数应尽量接近,提出基于情感词典约束的词语层注意力机制,计算公式为:;

其中,N是文本数量,w是情感分类模型,x

S422:将得到的所述语言符号词向量、表情符号词向量以及标点符号词向量共同输入基于情感词典约束、具有注意力机制的BiLSTM网络;

S423:利用注意力计算公式对语言符号词向量、表情符号词向量以及标点符号词向量进行联合计算,得出语言符号句向量;

S424:将表情符号词向量直接作为表情符号句向量输出,将标点符号词向量直接作为标点符号句向量输出;

S425:将得到的语言符号句向量、表情符号句向量以及标点符号句向量进行拼接,最终得到句子的句向量。

进一步地,步骤S43中的具体操作步骤包括:

S431:基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;

S432:将句子间的三类关系作为先验知识,引入注意力网络,考虑到具有转折关系的句子,其情感极性应尽量相反,具有递进关系的句子,其情感极性应尽量一致,具有总结关系的句子,总结句更能代表整个文档的情感倾向,得到基于句法关系约束的句子层注意力机制,计算公式为:;

其中,N是文本数量,w是情感分类模型,x

S433:将每个句子的句向量输入到基于句法关系约束的、具有注意力机制的BiLSTM网络,最终得到文档的向量表示。

实施例:

1、实验方法

(1)实验用到的网络社会媒体文本数据集

为验证基于多维度和多层次联合建模的网络社会媒体情感分类方法在不同社会媒体文本数据集上的性能,本申请以网上现有新浪微博数据集为基础,合并整理了两个中文新浪微博数据集,以网上现有Twitter数据集为基础,合并整理了两个英文Twitter数据集。这四个网络社会媒体文本数据集的分布见表1。

表1四个网络社会媒体数据集的统计信息

(2)评价指标和实验设计

因为本申请用于网络社会媒体的情感分类,因此,我们选择分类精度(AC)作为评价指标,AC的详细定义见公式(3)。

这里,R

表2四个参数R

由于我们的方法主要由2部分组成:多维度情感模型(MDSM)和多层次情感模型(MLSM)。为全面细致地评估本申请中方法的性能,对提出的方法进行了分解实验:

首先,对多维度情感模型进行评估,目的是研究多维度情感模型对网络社会媒体情感分类性能的影响;其次,对多层次情感模型进行评估,目的是研究多层次情感模型对网络社会媒体情感分类性能的影响;最后,对基于多维度和多层次联合建模进行整体性能评估,目的是研究基于多维度和多层次联合建模对网络社会媒体情感分类性能的影响。

2、基于多维度和多层次联合建模的情感模型的性能评估

现有网络社会媒体情感分类方法,主要通过对语言符号的情感信息进行挖掘来实现网络社会媒体情感分类。主流的基于语言符号的网络社会媒体情感分类方法主要包括:基于CNN的深度学习方法、基于BiLSTM的深度学习方法、基于BERT预训练的深度学习方法、基于BERT+CNN的方法和基于BERT+BiLSTM方法。各种方法的具体描述如下:

CNN:先用word2vector进行词向量初始化,然后用CNN提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

BiLSTM:先用word2vector进行词向量初始化,然后用BiLSTM提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

BERT:先用BERT进行词向量初始化,然后用训练数据进行fine-turning,最后通过全连接网络实现网络社会媒体情感分类的方法。

BERT+CNN:先用BERT进行词向量初始化,然后用CNN提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

BERT+BiLSTM:先用BERT进行词向量初始化,然后用BiLSTM提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

为验证基于多维度和多层次联合建模的情感模型的性能,我们分别对多维度情感模型(MDSM)、多层次情感模型(MLSM)、基于多维度和多层次联合建模的情感模型(MDSM+MLSM)进行实验,三种方法具体描述如下:

MDSM:先用BERT进行词向量初始化,同时考虑语言符号、情感符号和标点符号三个维度信息,对网络社会媒体文本进行情感信息抽取和融合,然后用BiLSTM提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

MLSM:先用BERT进行词向量初始化,同时从词、短语和句子三个层次,对网络社会媒体文本进行情感信息抽取和融合,然后用基于注意力机制的BiLSTM提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

MDSM+MLSM:先用BERT进行词向量初始化,同时考虑语言符号、情感符号和标点符号三个维度信息,从词、短语和句子三个层次,对网络社会媒体文本进行情感信息抽取和融合,然后用基于注意力机制的BiLSTM提取网络社会媒体的情感特征,最后通过全连接网络实现网络社会媒体情感分类的方法。

在四个不同的数据集上,我们比较了八种不同方法的分类性能。实验结果见表3和图2。

表3在四个数据集上八种不同方法性能比较

从表3和图2可以看到,在四个不同的数据集上,MDSM+MLSM、MDSM、MLSM和BERT+BiLSTM的分类精度分别为0.89125、0.877、0.86725和0.85425,很明显可以看出,MDSM+MLSM、MDSM和MLSM的分类精度均高于BERT+BiLSTM。即在网络社会媒体情感分类时,MDSM+MLSM、MDSM和MLSM比BERT+BiLSTM的分类精度分别提升了约4.33%((0.89125-0.85425)/0.85425)、2.66%((0.877-0.85425)/0.85425)和1.52%((0.86725-0.85425)/0.85425)。此实验结果证明:在网络社会媒体情感分类时,基于多维度和多层次联合建模的情感模型、多维度情感模型和多层次情感模型均比仅考虑语言符号的网络社会媒体情感分类方法更有效。

从表3和图2还可以看出,在四个不同的数据集上,MDSM+MLSM、MDSM和MLSM的分类精度分别为0.89125、0.877和0.86725,可以看出,MDSM+MLSM的分类精度均高于MDSM和MLSM。即在网络社会媒体情感分类时,MDSM+MLSM比MDSM和MLSM分别提升了约1.62%和2.77%的分类精度。此实验结果证明:在网络社会媒体情感分类时,基于多维度和多层次联合建模的情感模型比多维度模型或多层次模型更有效。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号