首页> 中国专利> 基于风格表示与多任务学习的文本多风格迁移方法

基于风格表示与多任务学习的文本多风格迁移方法

摘要

本发明提出了基于风格表示与多任务学习的文本多风格迁移方法,包括以下步骤:(1)构建多语料文本图网络,(2)使用图网络技术与图嵌入算法获取图节点表示,(3)使用标签嵌入技术获取文本风格表示,(4)使用Transformer构建编码器获取融合文本风格信息的句子表示,(5)使用Transformer构建解码器对目标文本进行风格迁移,(6)使用多任务学习方法中的参数硬共享方法,构建文本多风格迁移模型。本发明使用图神经网络与标签嵌入技术获取了效果更优的文本风格表示;基于Transformer与风格表示相结合构建文本风格迁移模型,获得了更优的文本风格迁移效果;使用多任务技术构建文本多风格迁移模型,降低了不同风格之间的影响,获得了更优的文本多风格迁移效果。

著录项

  • 公开/公告号CN114969342A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202210623478.4

  • 发明设计人 林鸿飞;王晨光;杨亮;

    申请日2022-06-02

  • 分类号G06F16/35(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构大连星河彩舟专利代理事务所(普通合伙) 21263;大连星河彩舟专利代理事务所(普通合伙) 21263;

  • 代理人陈玲玉;杨阳

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2022106234784 申请日:20220602

    实质审查的生效

说明书

技术领域

本发明属于文本处理技术领域,涉及一种基于深度学习的文本多风格迁移方法,更确切的说,本发明提出一种基于风格表示与多任务学习的文本多风格迁移方法。

背景技术

文本风格迁移的任务目标,是在保持文本主题不变的前提下,改变文本的表达风格。目前的文本风格迁移研究,主要集中于情感风格、场景风格与性别化风格等。风格迁移任务起源于图像处理领域,该领域中常用的解决方法包括强化学习方法以及基于伪对齐数据生成的方法,而在文本多风格迁移研究中,常使用模型串联方法与可控文本生成的方法。

强化学习范式认为,文本的内容与风格是可以分割的,因此强化学习文本风格迁移模型主要分为两部分,第一部分为风格判别模块,第二部分为内容重构模块。其中,强化学习方法通过风格分类判别器,判别迁移文本在对立风格中的表达程度,并进而得到其风格得分。而内容重构模块,使用文本生成模型重构源文本,用以保证迁移文本与源文本的主题是一致的,并在模型更新过程融合风格得分,进而完成迁移文本的生成。然而文本的风格与内容往往难以分割,因此导致强化学习方法表现效果不佳。

使用强化学习的一个重要原因,是因为文本风格迁移任务缺少平行语料,为了缓解这一问题,基于伪对齐数据生成的方法也得到了研究者的重视。有研究者提出了基于删除与检索的方法,利用机器学习算法TFIDF,根据词语的共现情况,对文本进行建模。获取两种风格文本中的风格关键词,并根据语义相似性进行替换或者删除,进而生成伪平行语料。也有研究者通过回译方法获取伪对齐数据,并在迁移生成端使用Seq2Seq结构生成对立风格文本。然而基于伪对齐数据的风格迁移方法,十分依赖于伪对齐数据的质量,在数据集质量较差的情况下,基于伪对齐数据的方法表现并不稳定。

基于现有的单风格文本风格迁移,可以通过模型串联的方式,对不同的文本风格迁移目标分别进行训练,并在应用时,串联使用。然而串联方法需要多次训练,耗费训练资源。同时,由于不同风格迁移模型分别训练,导致各个风格相互独立且没有联系,进而会导致整体多风格迁移效果下降,因此有研究者使用可控文本生成方法,利用LSTM作为基模型,结合输入文本与风格标签信息构建DAE架构,并利用回译方法,通过对文本生成的属性进行控制,进而完成文本多风格迁移。也有研究者使用强化学习范式解决多风格迁移问题,利用了多个风格判别器,对生成文本在不同风格维度上进行打分,将风格损失与生成模型损失相结合完成文本多风格迁移。然而,强化学习范式认为文本内容与风格是分隔开的,但实际上二者往往难以分而置之。并且,现有的文本多风格迁移方法没有很好地解决不同风格相互影响的问题,导致了多风格迁移质量的下降。

综上所述,如何解决风格迁移中,风格与内容难以分离的问题;如何在文本多风格迁移研究中,降低不同风格之间的影响,是当前风格迁移相关研究的重要问题。

发明内容

为克服现有技术中存在的不足,本发明提供了一种基于风格表示与多任务学习的文本多风格迁移方法。该方法首先构建多语料文本图网络,将文本信息与风格信息置于同一空间下进行表示;并使用图网络技术与图嵌入算法Node2Vec获取图节点表示,进一步使用标签嵌入技术获取词表示与文本风格表示;进一步使用Transformer构建编码器获取融合文本风格信息的句子表示,并同样使用Transformer构建解码器对目标文本进行风格迁移;最终使用多任务学习方法中的参数硬共享方法,构建文本多风格迁移模型,在加强不同任务底层联系的基础上,降低不同任务之间的耦合,构建针对多个风格的文本风格迁移模型。

为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:基于风格表示与多任务学习的文本多风格迁移方法,包括以下步骤:

构建多语料的文本图网络,加强风格信息与文本信息的关联性;

通过图网络技术与标签嵌入方法,利用Node2Vec获取图节点表示,并提取文本表示与风格表示;

利用Transformer构建生成端模型,并融合风格表示构建文本风格迁移模型;

利用多任务学习方法中的参数硬共享,将不同文本风格迁移目标视作不同任务,共享不同风格的文本风格迁移模型的底层参数,并利用多任务降低不同任务间的耦合关系,构建文本多风格迁移模型。

进一步的,从多个维度构建文本图网络,加强文本信息与文本信息、文本信息与风格信息之间的联系。所述步骤1,构建多语料的文本图网络,具体包括步骤如下:

步骤1.1,构建局部文本图,如公式(1)~(5)所示:

Data={S,L} (1)

S={Sentence

L={label

Sentence={word

G

其中,Data为使用的风格数据集,包含S与L两部分,其中S为数据集的句子集合,句子个数为n,L为数据集的风格标签集合,风格标签label的个数为m,在文本风格迁移任务中,m常取2。Sentence为数据集中的句子,由多个单词构成,单词个数为p,其中word代表单词;局部文本图构建方法如公式(5)所示,利用滑动窗口在数据集中的所有句子上滑动,其中left为滑动窗口的左边界,right为滑动窗口的右边界,将窗口内的单词表示为图节点,并两两相连,在数据集的所有句子上完成滑动与连接的操作后,即得到局部文本图G

步骤1.2,构建全局文本图,如公式(6)所示:

G

其中,word

步骤1.3,构建多语料文本图,如公式(7)所示:

G

其中,Data

进一步的,所述步骤2,使用图网络技术与标签嵌入方法获取风格表示的方法具体为:

步骤2.1,使用权利要求1构建的多语料文本图作为风格表示方法的输入,其结构如公式(8)、(9)所示:

G

N={N

其中E代表图多语料文本图的边集合,N代表多语料文本图的节点集合,其中N由两部分组成,分别为单词节点集合N

步骤2.2,使用Node2Vec深度游走算法,对步骤2.1中多语料文本图结构中的节点集合N进行采样,获取节点采样集合K,其采样方法如公式(10)、(11)所示:

N={node

K={(node

(11)

其中,t为采样次数,d为单次采样的最大深度,Neighbour(node

步骤2.3,使用SkipGram算法,基于步骤2.2所获取的节点采样集合进行训练,获取图节点表示,并将静态表示分离,分别获取词表示与风格表示,其获取方式由公式(12)~(14)描述:

SkipGram={Emb

K={(node

其中,SkipGram为训练模型,Emb

进一步的,将风格表示与Transformer相结合构建风格迁移模型的方法具体为:

将步骤2.3得到的风格表示与Transformer相结合构建风格迁移模型,其构建方式由公式(15)~(20)描述:

Model={Emb

Emb

Emb

Context=Encoder(Sentence

P

Y

其中,Model为模型,并由表示矩阵Emb

进一步的,基于多任务学习的文本多风格迁移方法具体为:

构建多个针对不同风格的文本风格迁移模型通过参数硬共享,加强不同任务的底层联系同时,降低不同风格迁移任务的耦合程度,其构建方式由公式(21)~(23)描述:

Model

Model

(22)

Model

(23)

其中,Model

进一步的,文本多风格迁移模型的训练方法具体为:

步骤5.1,模型通过预热训练,使得不同任务模型达到可用的状态,其训练方法由公式(24)、(25)描述:

其中,对于不同任务的模型Model

步骤5.2,模型通过联合训练,将不同任务模型相联系,实现文本多风格迁移目标,其训练方法由公式(26)描述;

Sentence

(26)

其中,输入文本Sentence

一种装置,包括处理器以及存储器,述处理器执行所述存储器中的代码以实现上述的方法。

一种计算机存储介质,存储有计算机程序,所述计算机程序被硬件执行以实现上述的方法。

本发明有益效果是:使用图神经网络与标签嵌入技术获取了效果更优的文本风格表示;基于Transformer与风格表示相结合构建文本风格迁移模型,获得了更优的文本风格迁移效果;使用多任务技术构建文本多风格迁移模型,降低了不同风格之间的影响,获得了更优的文本多风格迁移效果。

附图说明

图1是本发明方法步骤流程图。

图2是本发明提出的文本风格迁移模型框架图。

具体实施方式

下面结合附图对本发明技术方案作进一步说明。

实施例1:

本实施例所使用的Data风格数据集为英文文本风格迁移的标准数据集Yelp与Gender,二者皆为非平行数据集,其中Yelp数据为情感积极性风格数据集,包含积极风格样本26万条与消极风格样本18万条,Gender数据集为性别化风格数据集,包含13万条男性化风格样本与13万条女性化风格样本。由于数据量较大,本文在进行实验时,对数据集进行了采样,数据集信息如下表1表2所示。

表1

表2

本实施例方法所采用的评价指标是基于多元语言模型平均的BLEU值,多元语言模型下的困惑度(PPL)以及风格迁移分数ACC。在文实施例风格迁移中,通过两种方法评价迁移文本的质量。首先利用风格判别器在测试集上的准确率指标(Accuracy),评价其风格迁移程度,并利用BLEU指标衡量其内容保存度,其计算公式如式(27)所示,在多风格迁移研究中,本实施例利用Self-BLEU衡量其内容保存度,其计算方法与BLEU相同。同时,本实施例利用基于无监督的(PPL)困惑度指标,用以衡量生成文本的流畅度,其计算公式如式(28)所示。

将本发明提出的模型结果的指标与CA-series、DRG-series、ASE-Series、MA与OTM五个模型进行了比较。其中,CA-series是2017年提出的利用交叉对齐方法构建文本风格迁移模型,并将多个风格模型串联构建多风格迁移模型。DRG-series是2018年提出的使用风格关键词删除与重建的方法构建文本风格迁移模型,并将多个风格模型串联构建多风格迁移模型。ASE-Series是2020年提出的通过分类模型获取风格嵌入并构建风格迁移模型,并将多个风格模型串联构建多风格迁移模型。MA是2018年提出的通过LSTM作为基模型,结合输入文本与风格标签信息构建DAE架构,并利用回译方法,通过对文本生成的属性进行控制,进而完成文本多风格迁移。OTM是2021年提出的通过利用多个风格的判别器,并结合强化学习方法构建文本多风格迁移模型。

表3

从表3的实验结果可以看出,本实施例提出的模型在文本多风格迁移中,总体上取得了更优的效果。在Yelp数据集的风格ACC上,比原有模型提高了2%,在Gender数据集上风格ACC与现有模型基本持平,而在多数据平均风格ACC上取得了最优结果,表明模型在风格迁移能力上优于现有模型。在SBLEU指标上,获得了最优的内容保存得分,比现有模型提升了10%,表明了模型对源文本主题的保留程度优于现有模型

表4

本实施例进一步验证单个风格迁移模型的效果,其结果如表4所示,本实施例的模型在不同数据集上的风格化指标上明显优于现有模型,在Yelp数据集上提升了5%,而在Gender数据集上提升了4%。并且基于数据集中的平行测试集,比较不同模型生成文本的内容保存度,由表中可知,在Yelp数据集的BLEU指标上接近于ASE模型,而在Gender数据集上获得了最优的内容保存度,提升了17%。总而言之,本实施例提出的模型,在内容保存度以及风格得分上,总体优于现有模型,在文本流畅度得分上,也达到了不错的效果。

表5

更进一步,本实施例对比了多风格迁移模型与单风格模型在相同数据集下的表现,并统计其风格指标降低比例,用以衡量不同风格之间的影响,对于模型最终结果的负面作用。其结果如表5所示,本章提出的模型指标下降比例最小,因此与其他多风格迁移模型相比,使用文本方法能够降低多个风格之间的相互作用。

表6

本实施例进一步构建消融实验,用以验证参数硬共享模型的效果,通过构建带有独立嵌入矩阵的多风格迁移模型与原模型进行对比,其结果如表6所示。由表中结果可知,使用独立参数的模型,缺少了文本信息与不同风格信息之间的联系,在多风格迁移上,其指标普遍逊色于参数硬共享模型。

表7

进一步的,本实施例对两阶段的训练方法进行了实验验证,原模型先通过预热训练,对两个风格迁移模型进行预热,之后再进行联合训练,而对比模型只进行预热训练或是联合训练,其结果如表7所示。单独使用预热训练或联合训练的效果,都不如两段式训练方法。单独使用预热训练,两个风格迁移模型没有进行融合。在预测阶段,更加类似于串联模型,虽有一定迁移效果但效果明显逊色于两段式训练方法。而单独使用联合训练,由于多任务端的不同风格迁移模型参数为随机初始化,导致了训练前期模型状态不稳定,因此模型需要更多训练时间,以获得稳定的迁移效果,可见单独使用联合训练方法逊色于两段式训练方法。本实施例进一步提供了文本多风格迁移的示例,其结果如表8所示。

表8

综上所述,本发明方法具有以下优点:使用图神经网络与标签嵌入技术获取了效果更优的风格表示;基于Transformer与风格表示相结合构建文本风格迁移模型,获得了更优的迁移效果;使用多任务技术构建文本多风格迁移模型,降低了不同风格之间的影响,获得了更优的文本多风格迁移效果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号