首页> 中国专利> 一种文本风格迁移模型训练及文本风格迁移方法及装置

一种文本风格迁移模型训练及文本风格迁移方法及装置

摘要

本发明实施例提供了一种文本风格迁移模型训练及文本风格迁移方法及装置,涉及文本风格迁移技术领域。上述训练方法包括:获取各个第一语料对和各个第二语料对;其中,第一语料对包括初始风格文本与第一文本,第二语料对包括目标风格文本与第二文本,初始风格文本和目标风格文本属于目标语言,第一文本和第二文本属于指定语言,指定语言与目标语言不同;利用第一语料对和第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系;利用对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。与现有技术相比,应用本发明实施例提供的方案,可以提高所训练得到的文本风格迁移模型的文本迁移结果的准确率。

著录项

  • 公开/公告号CN114818728A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 北京金山数字娱乐科技有限公司;

    申请/专利号CN202210455802.6

  • 发明设计人 黄继豪;李长亮;

    申请日2022-04-24

  • 分类号G06F40/30;G06F40/58;G06N3/04;G06N3/08;

  • 代理机构北京柏杉松知识产权代理事务所(普通合伙);

  • 代理人孙翠贤;高莺然

  • 地址 100085 北京市海淀区西二旗中路33号院5号楼11层002号

  • 入库时间 2023-06-19 16:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及文本风格迁移技术领域,特别是涉及一种文本风格迁移模型训练及文本风格迁移方法及装置。

背景技术

随着文本风格迁移模型的不断发展,在很多情况下,用户希望借助文本风格迁移模型将属于一种文本风格的原始文本转换为属于另一种风格的文本,例如,将口语化的中文文本转换为书面化的文言文等。

相关技术中,通常直接利用训练得到的文本风格迁移模型,将待迁移文本的文本风格进行转换。

然而,由于训练所使用的文本风格迁移语料较少,即训练样本数量较少,样本的多样性较差,导致训练得到的文本风格迁移模型的文本迁移效果不佳,例如,输出结果的准确性较差等,而逐一建立文本风格迁移语料,又会使得文本风格迁移模型的训练效率较低。

基于此,如何在保证文本风格迁移模型的训练效率较高的基础上,提高所训练得到的文本风格迁移模型的文本迁移效果,成为当前亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种文本风格迁移模型训练及文本风格迁移方法及装置,以在保证文本风格迁移模型的训练效率较高的基础上,提高所训练得到的文本风格迁移模型的文本迁移效果。具体技术方案如下:

第一方面,本发明实施例提供了一种文本风格迁移模型训练方法,所述方法包括:

获取各个第一语料对和各个第二语料对;其中,每个第一语料对包括:初始风格文本与对应的第一文本,每个第二语料对包括:目标风格文本与对应的第二文本,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,所述指定语言与所述目标语言不同;

利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系;

利用所述对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

可选的,一种具体实现方式中,所述利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系的步骤,包括:

利用各个第一语料对训练用于将所述指定语言翻译至所述目标语音的目标翻译模型;

利用所述目标翻译模型对各个第二语料对中的第二文本进行翻译,得到各个第二文本对应的属于初始风格的第三文本;

针对每个第二预料对,建立对应于该第二语料对中的第二文本的目标风格文本与第三文本的对应关系。

可选的,一种具体实现方式中,所述利用所述对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型的步骤,包括:

将每个第三文本作为输入,并将每个第三文本对应的目标风格文本作为输出,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

可选的,一种具体实现方式中,所述各个初始风格文本中不包括所述各个目标风格文本。

可选的,一种具体实现方式中,所述初始文本风格迁移模型为:Transformer模型,或者,篇章级Transformer模型。

第二方面,本发明实施例提供了一种文本风格迁移方法,所述方法包括:

获取待迁移文本;

将所述待迁移文本输入预设的目标文本风格迁移模型中;其中,所述目标文本风格迁移模型是基于上述第一方面提供的任一方法训练得到的;

获取所述目标文本风格迁移模型的输出结果,作为所述待迁移文本进行文本风格迁移后的目标文本。

第三方面,本发明实施例提供了一种文本风格迁移模型训练装置,所述装置包括:

语料对获取模块,用于获取各个第一语料对和各个第二语料对;其中,每个第一语料对包括:初始风格文本与对应的第一文本,每个第二语料对包括:目标风格文本与对应的第二文本,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,所述指定语言与所述目标语言不同;

对应关系确定模块,用于利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系;

模型训练模块,用于利用所述对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

可选的,一种具体实现方式中,所述对应关系确定模块具体用于:

利用各个第一语料对训练用于将所述指定语言翻译至所述目标语音的目标翻译模型;

利用所述目标翻译模型对各个第二语料对中的第二文本进行翻译,得到各个第二文本对应的属于初始风格的第三文本;

针对每个第二预料对,建立对应于该第二语料对中的第二文本的目标风格文本与第三文本的对应关系。

可选的,一种具体实现方式中,所述模型训练模块具体用于:

将每个第三文本作为输入,并将每个第三文本对应的目标风格文本作为输出,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

可选的,一种具体实现方式中,所述各个初始风格文本中不包括所述各个目标风格文本。

可选的,一种具体实现方式中,所述初始文本风格迁移模型为:Transformer模型,或者,篇章级Transformer模型。

第四方面,本发明实施例提供了一种文本风格迁移装置,所述装置包括:

文本获取模块,用于获取待迁移文本;

文本输出模块,用于将所述待迁移文本输入预设的目标文本风格迁移模型中;其中,所述目标文本风格迁移模型是基于上述第一方面提供的任一方法训练得到的;

结果获取模块,用于获取所述目标文本风格迁移模型的输出结果,作为所述待迁移文本进行文本风格迁移后的目标文本。

第五方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面提供的任一文本风格迁移模型训练方法的步骤,和/或,上述第二方面提供的任一文本风格迁移方法的步骤。

第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面提供的任一文本风格迁移模型训练方法的步骤,和/或,上述第二方面提供的任一文本风格迁移方法的步骤。

第七方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面提供的任一文本风格迁移模型训练方法的步骤,和/或,上述第二方面提供的任一文本风格迁移方法的步骤。

本发明实施例有益效果:

以上可见,应用本发明实施例提供的方案,在文本风格迁移模型训练的过程中,首先获取各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,其中,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,而上述指定语言与上述目标语言不同。然后,利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,最后,利用上述对应关系,对初始文本风格迁移模型进行训练,从而,得到训练完成的目标文本风格迁移模型。

基于此,应用本发明实施例提供的方案,可以利用各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,从而,每组相对应的目标风格文本和第三文本,便可以作为一个用于训练风格迁移模型的语料对。这样,在进行文本风格迁移模型训练时,无需逐一建立各个用于模型训练的语料对,提高了用于模型训练的语料对的建立效率,进而,可以在保证文本风格迁移模型的训练效率较高的基础上,提高所训练得到的文本风格迁移模型的文本迁移结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种文本风格迁移模型训练方法的流程示意图;

图2为篇章级Transformer模型的模型结构示意图;

图3为本发明实施例提供一种文本风格迁移模型训练方法具体实施例的图示;

图4为本发明实施例提供的一种文本风格迁移方法的流程示意图;

图5为本发明实施例提供的一种文本风格迁移模型训练装置的结构示意图;

图6为本发明实施例提供的一种文本风格迁移装置的结构示意图;

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。

相关技术中,由于训练所使用的成对的文本风格迁移语料较少,将导致所训练得到的文本风格迁移模型的文本迁移效果较差,例如,准确性较差等,而逐一建立成对的文本风格迁移语料较少,又会使得文本风格迁移模型的训练效率较低。基于此,如何在保证文本风格迁移模型的训练效率较高的基础上,提高所训练得到的文本风格迁移模型的文本迁移效果,成为当前亟待解决的问题。

为了解决上述技术问题,本发明实施例提供了一种文本风格迁移模型训练方法。

其中,该方法适用于需要进行文本风格迁移的各类应用场景,例如,将口语化的中文文本转换为文言文,又例如,将口语化的英文文本转换为书面用语等。并且该方法可以应用于笔记本电脑、平板电脑、手机等各类电子设备中,以下简称第一电子设备。基于此,本发明实施例不对该方法的应用场景和执行主体进行限定。

本发明实施例提供的一种文本风格迁移模型训练方法,可以包括如下步骤:

获取各个第一语料对和各个第二语料对;其中,每个第一语料对包括:初始风格文本与对应的第一文本,每个第二语料对包括:目标风格文本与对应的第二文本,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,所述指定语言与所述目标语言不同;

利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系;

利用所述对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

以上可见,应用本发明实施例提供的方案,在文本风格迁移模型训练的过程中,首先获取各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,其中,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,而上述指定语言与上述目标语言不同。然后,利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,最后,利用上述对应关系,对初始文本风格迁移模型进行训练,从而,得到训练完成的目标文本风格迁移模型。

基于此,应用本发明实施例提供的方案,可以利用各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,从而,每组相对应的目标风格文本和第三文本,便可以作为一个用于训练风格迁移模型的语料对。这样,在进行文本风格迁移模型训练时,无需逐一建立各个用于模型训练的语料对,提高了用于模型训练的语料对的建立效率,进而,可以在保证文本风格迁移模型的训练效率较高的基础上,提高所训练得到的文本风格迁移模型的文本迁移结果的准确率。

下面,结合附图,对本发明实施例提供的一种文本风格迁移模型训练方法进行具体说明。

图1为本发明实施例提供的一种文本风格迁移模型训练方法,如图1所示,该方法包括如下步骤S101-S103。

S101:获取各个第一语料对和各个第二语料对;

其中,每个第一语料对包括:初始风格文本与对应的第一文本,每个第二语料对包括:目标风格文本与对应的第二文本,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,指定语言与目标语言不同。

在进行文本风格迁移模型训练时,可以首先确定待迁移的文本所属的文本风格,以及所希望得到的文本所属的文本风格,其中,待迁移的文本所属的文本风格可以称为初始风格,而所希望得到的文本所属的文本风格则可以称为目标风格。进而,可以随之确定待迁移文本所属的语言类型,作为目标语言。

在一些实施例中,初始风格对应的文本与目标风格对应的文本的所属语言类型相同,即待迁移文本在文本风格变化前、后,其所属的语言类型不变,均可为目标语言。

为了行文清晰,可以将属于上述初始风格且属于上述目标语言的文本称为初始风格文本,而将属于上述目标风格且属于上述目标语言的文本称为目标风格文本。

其中,在很多情况下,在目标语言中,使用日常用语和专业用语表达同一对象或同一含义时,所采用的文本是不同的,例如,对于汽车的轮胎内廓支撑轮胎的圆桶形的、中心装在轴上的金属部件,在日常用语中通常被叫做钢圈,而在汽车专业中的专业用语为:轮毂。

基于此,在很多领域中,用户希望将利用日常用语构成的文本,转换为该领域中的专业用语构成的文本。因此,可以将日常用语构成的文本作为初始风格文本,而将该领域中的专业用语构成的文本作为目标风格文本。

此外,可以确定与上述目标语言类型不同的另一语言,作为指定语言。

这样,便可以获取各个第一语料对以及各个第二语料对。每个第一语料对包括:初始风格文本与对应的第一文本,其中,每个第一语料对包括的初始风格文本和第一文本所表征的含义相同;每个第二语料对包括:目标风格文本与对应的第二文本,其中,每个第二语料对包括的目标风格文本和第二文本所表征的含义相同。

例如,目标语言为中文,初始风格为口语,目标风格为书面语,指定语言为英文。则每个第一语料对包括:属于中文口语的初始风格文本,以及与该初始风格文本所表征的中文含义相同的英文文本(该英文文本即为第一文本),示例性的:爸爸和father;则每个第二语料对包括:属于中文书面语的目标风格文本,以及与该目标风格文本所表征的中文含义相同的英文文本(该英文文本即为第二文本),示例性的:父亲和father。

又例如,目标语言为中文,初始风格为口语,目标风格为书面语,指定语言为英文。则每个第一语料对包括:属于中文口语的初始风格文本,以及与该初始风格文本所表征的中文含义相同的英文文本(该英文文本即为第一文本),示例性的:爸爸和dad;则每个第二语料对包括:属于中文书面语的目标风格文本,以及与该目标风格文本所表征的中文含义相同的英文文本(该英文文本即为第二文本),示例性的:父亲和father。

以上可见,上述第一文本和上述第二文本可以相同,也可以不同,对此本发明实施例不做具体限定。

需要说明的是,在本发明实施例中,可以通过多种方式获取上述各个第一语料对和各个第二语料对,对此,本发明实施例不做具体限定。

例如,从关于目标语言和指定语言的翻译词典中,获取上述各个第一语料对和各个第二语料对,示例性的,中英文词典等;又例如,在报纸、网页等公开发表的内容中,提取上述各个第一语料对和各个第二语料对。

可选的,一种具体实现方式中,上述各个第一语料对中的各个初始文本风格中,不包括上述各个第二语料对中的各个目标文本风格。

S102:利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系。

在获取到上述各个第一语料对和各个第二语料对后,便可以利用第一语料对中的初始风格文本与第一文本的对应关系以及第二语料对中的目标风格文本与第二文本的对应关系,建立各个目标风格文本与属于初始风格的第三文本的对应关系。

可选的,一种具体实现方式中,上述步骤S102,可以包括如下步骤11-13:

步骤11:利用各个第一语料对训练用于将指定语言翻译至目标语言的目标翻译模型;

步骤12:利用目标翻译模型对各个第二语料对中的第二文本进行翻译,得到各个第二文本对应的属于初始风格的第三文本;

步骤13:针对每个第二预料对,建立对应于该第二语料对中的第二文本的目标风格文本与第三文本的对应关系。

在本具体实现方式中,在获取到上述各个第一语料对和各个第二语料对后,可以首先利用上述各个第一语料对训练目标翻译模型,该目标翻译模型用于将上述指定语言翻译至上述目标语言。

例如,上述目标语言为中文,上述指定语言为英文,则所训练得到的目标翻译模型即为:用于将英文翻译至中文的模型。

在训练得到上述目标翻译模型的过程中,用于进行模型训练的第一电子设备可以预先构建初始翻译模型,然后将上述各个第一语料对输入到该初始翻译模型中进行训练,进而,得到目标翻译模型。在训练过程中,初始翻译模型可以学习各个第一语料对的语义特征及语言转换,经过对大量第一语料对的学习,初始翻译模型逐步建立关于初始风格文本和第一文本的对应关系,其中包含指定语言到目标语言的转换,从而,得到目标翻译模型。

其中,上述初始翻译模型可以为各类能够实现不同语言之间的文本翻译的模型,例如,带注意力机制(attention mechanism)的Seq2Seq(Sequence to sequence)翻译模型、域适应翻译模型、基于Transformer的翻译模型等。

以基于Transformer的翻译模型为例,该模型可以包括:编码器和解码器。在利用该模型进行训练时,可以将各个第一语料对输入到该模型中进行训练,进而,得到目标翻译模型。在训练过程中,该模型可以包括可以学习各个第一语料对的语义特征,经过对大量第一语料对的学习,该模型可以逐步建立关于初始风格文本和第一文本的对应关系,从而,得到目标翻译模型。

其中,在初始翻译模型满足第一预设条件时,便可以停止训练,得到目标翻译模型。可选的,上述第一预设条件可以是各个第一语料对的迭代次数达到第一预设次数。可选的,上述第一预设条件可以是各个第一语料对中的初始风格文本对应的第一文本的真值与预测值的误差小于第一预设误差。

这样,在得到上述目标翻译模型后,由于各个第二语料对中所包括的第二文本的语言类型属于指定语言,从而,便可以利用上述目标翻译模型对各个第二语料对中的第二文本进行翻译,其中,针对每个第二文本,所得到的翻译结果为:与该第二文本所表征的含义相同且属于目标语言的初始风格的文本。

也就是说,针对每个第二文本,可以得到该第二文本对应的属于初始风格的第三文本,且第三文本的语言类型属于目标语言。

这样,由于对应于同一第二文本的目标风格文本与属于初始风格的第三文本所表征的含义相同,且该目标风格文本和该第三文本的语言类型均属于目标语言,从而,针对每个第二语料对,便可以获取该第二语料对包括的第二文本的目标风格文本,以及上述利用目标翻译模型所得到的该第二语料对包括的第二文本对应的属于初始风格的第三文本,进而,便可以建立对应于该第二语料对包括的第二文本的目标风格文本与属于初始风格的第三文本的对应关系。

也就是说,针对每个第二语料对包括的第二文本,可以建立对应于该第二文本的属于目标语言的目标风格的第二文本与属于目标语言的初始风格的第三文本之间的对应关系。

因此,在利用上述目标翻译模型,得到每个第二语料对包括的第二文本对应的属于初始风格的第三文本后,便可以建立每个第二语料对中的目标风格文本与第三文本的对应关系。进而,所建立的每个对应关系中包括的目标风格文本和第三文本,便可以构成一个用于进行风格迁移模型训练的语料对。

可选的,上述获取的各个第一语料对所包括的各个初始风格文本中,可以不包括上述获取的各个第二语料对中的各个目标风格文本。

S103:利用对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

利用上述建立的各个目标风格文本与属于初始风格的第三文本的对应关系,对初始文本风格迁移模型进行训练,从而,得到目标文本风格迁移模型。

可选的,一种具体实现方式中,上述步骤S103,可以包括如下步骤22:

步骤22:将每个第三文本作为输入,并将每个第三文本对应的目标风格文本作为输出,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

在本具体实现方式中,可以将每个第三文本作为输入,并将每个第三文本对应的目标风格文本作为输出,对初始文本风格迁移模型进行训练,当初始文本风格迁移模型达到第二预设条件时,停止训练,得到目标文本风格迁移模型。

其中,上述初始文本风格迁移模型可以是各类能够实现同一种语言在不同文本风格之间切换的文本迁移的模型,例如,基于强化学习(Reinforcement Learning)框架的无监督文本风格迁移模型、基于生成对抗网络(GAN,GenerativeModel andDiscriminativeModel)的文本风格迁移模型等,其中,GenerativeModel为生成模型,DiscriminativeModel为判别模型。

在训练得到上述目标文本风格迁移模型的过程中,用于进行模型训练的第一电子设备可以预先构建初始文本风格迁移模型,然后将上述每个第三文本作为输入,将每个第三文本对应的目标风格文本作为输出,对初始文本风格迁移模型进行训练,进而,得到目标文本风格迁移模型。

在训练过程中,初始文本风格迁移模型可以学习各个第三文本和各个第三文本对应的目标风格文本的语义特征,经过对大量第三文本和每个第三文本对应的目标风格文本间语义特征的学习,初始文本风格迁移模型逐步建立目标风格文本与属于初始风格的第三文本的对应关系。

可选的,上述第二预设条件可以是各个第三文本和各个第三文本对应的目标风格文本的迭代次数达到第二预设次数。

可选的,上述第二预设条件可以是各个第三文本和每个第三文本对应的目标风格文本的真值与预测值的误差小于第二预设值。

可选的,上述第一预设条件和第二预设条件可以相同,也可以不同。

可选的,上述第一预设次数和第二预设次数可以相同,也可以不同。

可选的,上述第一预设值和第二预设值可以相同,也可以不同。

在一个实施例中,以基于强化学习框架的无监督文本风格迁移模型为例,由于风格迁移任务一般存在由目标风格迁移至初始风格以及由初始风格迁移至目标风格的两个风格迁移方向,因此,可以在上述两个风格迁移方向上建立循环,利用上述所建立的各个目标风格文本与属于初始风格的第三文本的对应关系,分别训练由属于目标风格的文本迁移至属于初始风格的文本的第一子模型,以及由属于初始风格的文本迁移至属于目标风格的文本的第二子模型,从而,利用第一子模型的输出指导第二子模型的训练,并利用第二子模型的输出指导第一子模型的训练,直到第一子模型和第二子模型的损失值均达到预定值后,结束训练。

这样,便可以利用训练完成的第一子模型,将属于目标语音的目标风格的文本转换为属于目标语音的初始风格的文本,并利用训练完成的第二子模型,将属于目标语音的初始风格的文本转换为属于目标语音的目标风格的文本。

在另一个实施例中,以基于生成对抗网络的文本风格迁移模型为例,训练两个编码器,该两个编码器分别为:抽取决定文字内容模板的特征的内容编码器以及抽取决定文本风格的特征的风格编码器,进而,训练可以利用上述文字内容模板的特征向量和决定文本风格的特征向量,还原原始文本的解码器。在训练过程中,可以将该基于生成对抗网络的文本风格迁移模型作为自解码器训练。进而,在进行文本风格迁移时,可以将文本输入到上述内容编码器中,得到文字内容模板的特征向量,从而,利用解码器对该文字内容模板的特征向量和上述风格编码器所给出的风格特征向量,便可以得到风格迁移后的文本。

其中,可选的,一种具体实现方式中,初始文本风格迁移模型还可以为:Transformer模型,或者,篇章级Transformer模型。

其中,Transformer模型是一个完全依赖自注意力(self-attention)来计算输入和输出的表示,而不使用序列对齐的递归神经网络或卷积神经网络的转换模型。

进一步的,由于文本不是由孤立,无关的元素组成的,而是有并置且结构化的句子组组成的,这些句子由复杂的语言元素绑定在一起,因此,忽略元素之间的相互关系,会导致得到的文本存在语句不通、逻辑性较差等问题。因此,为了进一步提高文本迁移的效果,可以在Transformer模型的基础上,使用在模型训练中可以引入训练样本中各个词的上下文信息的篇章级Transformer模型作为初始文本文本迁移模型。

其中,篇章级Transformer模型为Transformer模型的一个变体,其在训练过程中,可以引入训练样本上下文信息。

也就是说,对于篇章级Transformer模型而言,其是在Transformer模型的基础上,使用上下文感知编码器,使用基于句子的预训练嵌入作为上下文编码器的输入。在训练的第二阶段,该模型只学习文档级参数,而不微调该模型的句子级参数。

其中,在利用篇章级Transformer模型进行文本风格迁移模型训练时,对于模型训练所使用的训练文本,可以不需要循环且顺序操作,而是可以并行处理序列中的所有词,同时利用自注意力机制将每个词的上下文内容与较远的词结合起来,从而,通过并行处理所有词,并让每个词在多个训练步骤中注意到训练文本中的其他词。这样,通过引入训练文本中的每个词的上下文信息作为输入,并结合该词对应的风格迁移后的词作为输出,可以提高训练得到的文本风格迁移模型的文本迁移效果。

也就是说,在本具体实现方式中,在利用上述所建立的每个语料对中的第二文本对应的目标风格文本与第三文本的对应关系,对篇章级Transformer模型进行训练,以得到目标文本风格迁移模型时,针对每组对应关系,可以将该组对应关系中的第三文本作为篇章级Transformer模型的输入,并且,针对该第三文本中的每个词,将该词在该第三文本中的上下文信息同样作为输入引入到篇章级Transformer模型,进而,将该组对应关系中的目标风格文本作为输出。

这样,篇章级Transformer模型在通过学习上述各组对应关系中的第三文本和目标风格文本的语义特征,建立目标风格文本与属于初始风格的第三文本的对应关系时,可以注意到每个第三文本所包括的各个词的顺序以及相互之间的逻辑关系,以提高最终所得到的文本风格迁移模型的文本迁移结果的准确率。

示例性的,图2示出了篇章级Transformer模型的模型结构,其中,该篇章级Transformer模型包括:上下文嵌入(Context Embedding)层、自注意力机制(Self-Attention)层、前馈(Feed-Forward)层、源嵌入(Source-Embedding)层、软件最大值(Softmax)层、编码-解码注意力(Encoder-Decoder Attention)层和目标嵌入(TargetEmbedding)层。

示例性的,图3示出了文本风格迁移模型的具体训练方法,其中翻译语料A为第一语料对,每个第一语料对包括:初始风格文本与对应的第一文本,翻译语料B为第二语料对,每个第二语料对包括:目标风格文本与对应的第二文本,语言a为指定语言,语言b为目标语言,各个初始风格文本和各个目标风格文本属于目标语言b,各个第一文本和各个第二文本属于指定语言a,指定语言a与目标语言b不同,训练翻译模型为关于指定语言a的翻译模型,翻译模型Model-A为目标翻译模型,领域翻译语料B为第二语料对,回译语料B’为第三文本,篇章级Transformer模型为初始文本风格迁移模型,文本风格迁移模型Model-B为目标文本风格迁移模型。

利用翻译语料A对翻译模型进行训练,得到翻译模型Model-A,将领域翻译语料B输入至翻译模型Model-A,便可以得到回译预料B’,进而,利用领域语料B和回译预料B’对篇章级Transformer模型进行训练,得到文本风格迁移模型Model-B。

以上可见,应用本发明实施例提供的方案,可以利用各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,从而,每组相对应的目标风格文本和第三文本,便可以作为一个用于训练风格迁移模型的语料对。这样,在进行文本风格迁移模型训练时,无需逐一建立各个用于模型训练的语料对,提高了用于模型训练的语料对的建立效率,进而,提高了文本风格迁移模型的训练效率。

相应于上述本发明实施例提供的一种文本风格迁移模型训练方法,本发明实施例还提供了一种文本风格迁移方法。

其中,该方法适用于需要进行文本风格迁移的各类应用场景,例如,将口语化的中文文本转换为文言文,又例如,将日常用语构成的文本转换为专业用语构成的文本等等。并且该方法可以应用于笔记本电脑、平板电脑、手机等各类电子设备中,以下简称第二电子设备。基于此,本发明实施例不对该方法的应用场景和执行主体进行限定。

需要说明的是,上述第一电子设备和第二电子设备可以是相同的电子设备,也可以是不同的电子设备。

图4为本发明实施例提供的一种文本风格迁移方法,如图4所示,该方法包括如下步骤S401-S403。

S401:获取待迁移文本;

S402:将待迁移文本输入预设的目标文本风格迁移模型中;

其中,目标文本风格迁移模型是基于上述任一项文本风格迁移模型训练方法得到的;

S403:获取目标文本风格迁移模型的输出结果,作为待迁移文本进行文本风格迁移后的目标文本。

在本具体实现方式中,首先获取待迁移文本,然后,将上述待迁移文本输入至预先通过上述任一项文本风格迁移模型训练方法得到的目标文本风格迁移模型中,从而,该目标文本风格迁移文本模型便可以对上述待迁移文本进行处理,得到待迁移文本的语义特征,进而,利用所建立的各个目标风格文本与属于初始风格的第三文本的对应关系,得到待迁移文本对应的输出结果,作为待迁移文本进行风格迁移后的目标文本。

基于此,应用本发明实施例提供的方案,可以在目标文本风格迁移模型中输入待迁移文本,利用各个目标风格文本与属于初始风格文本的第三文本的对应关系,直接得到待迁移文本进行风格迁移后的目标文本,实现文本风格迁移。

相应于上述本发明实施例提供的一种文本风格迁移模型训练方法,本发明实施例提供了一种文本风格迁移模型训练装置。

图5为本发明实施例提供的一种文本风格迁移模型训练装置的结构示意图,如图5所示,该装置可以包括如下模块:

语料对获取模块510,用于获取各个第一语料对和各个第二语料对;其中,每个第一语料对包括:初始风格文本与对应的第一文本,每个第二语料对包括:目标风格文本与对应的第二文本,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,所述指定语言与所述目标语言不同;

对应关系确定模块520,用于利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格的第三文本的对应关系;

模型训练模块530,用于利用所述对应关系,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

以上可见,应用本发明实施例提供的方案,在文本风格迁移模型训练的过程中,首先获取各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,其中,各个初始风格文本和各个目标风格文本属于目标语言,各个第一文本和各个第二文本属于指定语言,而上述指定语言与上述目标语言不同。然后,利用各个第一语料对和各个第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,最后,利用上述对应关系,对初始文本风格迁移模型进行训练,从而,得到训练完成的目标文本风格迁移模型。

基于此,应用本发明实施例提供的方案,可以利用各个包括初始风格文本与对应的第一文本的第一语料对,以及各个包括目标风格文本与对应的第二文本的第二语料对,建立各个目标风格文本与属于初始风格文本的第三文本的对应关系,从而,每组相对应的目标风格文本和第三文本,便可以作为一个用于训练风格迁移模型的语料对。这样,在进行文本风格迁移模型训练时,无需逐一建立各个用于模型训练的语料对,提高了用于模型训练的语料对的建立效率,进而,可以在保证文本风格迁移模型的训练效率较高的基础上,提高所训练得到的文本风格迁移模型的文本迁移结果的准确率。

可选的,一种具体实现方式中,所述对应关系确定模块520具体用于:

利用各个第一语料对训练用于将所述指定语言翻译至所述目标语音的目标目标翻译模型;

利用所述目标翻译模型对各个第二语料对中的第二文本进行翻译,得到各个第二文本对应的属于初始风格的第三文本;

针对每个第二预料对,建立对应于该第二语料对中的第二文本的目标风格文本与第三文本的对应关系。

可选的,一种具体实现方式中,所述模型训练模块530具体用于:

将每个第三文本作为输入,并将每个第三文本对应的目标风格文本作为输出,对初始文本风格迁移模型进行训练,得到训练完成的目标文本风格迁移模型。

可选的,一种具体实现方式中,所述各个初始风格文本中不包括所述各个目标风格文本。

可选的,一种具体实现方式中,所述初始文本风格迁移模型为:Transformer模型,或者,篇章级Transformer模型。

相应于上述本发明实施例提供的一种文本风格迁移方法,本发明实施例提供了一种文本风格迁移装置。

图6为本发明实施例提供的一种文本风格迁移装置的结构示意图,如图5所示,该装置可以包括如下模块:

文本获取模块610,用于获取待迁移文本;

文本输出模块620,用于将所述待迁移文本输出预设的目标文本风格迁移模型中;其中,所述目标文本风格迁移模型是基于前文所述的文本风格迁移方法方法训练得到的;

结果获取模块630,用于获取所述目标文本风格迁移模型的输出结果,作为所述待迁移文本进行文本风格迁移后的目标文本。

基于此,应用本发明实施例提供的方案,可以在目标文本风格迁移模型中输入待迁移文本,利用各个目标风格文本与属于初始风格文本的第三文本的对应关系,直接得到待迁移文本进行风格迁移后的目标文本,实现文本风格迁移。

相应于上述本发明实施例提供的一种文本风格迁移模型训练及文本风格迁移装置,本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,

存储器703,用于存放计算机程序;

处理器701,用于执行存储器703上所存放的程序时,实现上述本发明实施例提供的任一文本风格迁移模型训练方法的步骤,和/或,上述本发明实施例提供的任一文本风格迁移方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述本发明实施例提供的任一文本风格迁移模型训练方法的步骤,和/或,上述本发明实施例提供的任一文本风格迁移方法的步骤。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述本发明实施例提供的任一文本风格迁移模型训练方法的步骤,和/或,上述本发明实施例提供的任一文本风格迁移方法的步骤。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号