首页> 中国专利> 一种博弈型蒙古文神经机器翻译方法

一种博弈型蒙古文神经机器翻译方法

摘要

一种博弈型蒙古文神经机器翻译方法,将蒙古文神经机器翻译中影响译文解码的问题因素通过伪数据形式转化为干扰噪声;根据噪声干扰策略构建基于生成对抗网络的博弈模型,由生成器G、抗干扰器AJ和鉴别器D组成,在三个模块的博弈中完成对干扰噪声的泛化,提升博弈模型对这些噪声的翻译性能;在博弈训练中,利用REINFORCE策略对G进行参数优化,得到原始数据和噪声数据的训练奖励,借助对抗训练机制对原始语料和含干扰噪声的伪语料训练,利用AJ对训练数据的判断决策噪声数据的训练优先级,使G和D对添加的干扰噪声产生足够的解码能力,最终以训练得到的G为翻译模型,进行蒙古文翻译。本发明可提高蒙古文翻译的准确率和效率。

著录项

  • 公开/公告号CN114818742A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 内蒙古工业大学;

    申请/专利号CN202210276166.0

  • 申请日2022-03-21

  • 分类号G06F40/58(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构西安智大知识产权代理事务所 61215;

  • 代理人段俊涛

  • 地址 010080 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06F40/58 专利申请号:2022102761660 申请日:20220321

    实质审查的生效

说明书

技术领域

本发明属于机器翻译技术领域,特别涉及一种博弈型蒙古文神经机器翻译方法。

背景技术

蒙古文神经机器翻译是一种通过深度学习的方法将蒙古文或西里尔蒙古文通过迭代学习映射为其它语言的计算训练过程,其原理是将蒙古文文本数据经过去噪和切分等预处理操作在翻译模型中更好地被表征和特征提取。翻译模型在选定的机器学习算法指导下建立基于双语之间的数据映射关系(模型参数),然后通过多次迭代训练使这种映射关系逐步准确,最终对未知测试数据产生良好的泛化能力。

对抗训练是生成对抗网络通过一个生成器和一个鉴别器在生成样本和标准样本的博弈训练中找到博弈模型的最优参数状态,生成器G用于产生能够迷惑鉴别器的预测样本,而鉴别器D旨在尽可能的在预测样本和真实样本之间找到不同之处,当训练过程达到一个纳什平衡时,博弈模型即收敛到一个最优状态。在此状态下,D很难鉴别出来自G产生的预测样本和真实样本。所述纳什均衡状态是指两个实体或变化量在博弈训练过程中,任意角色的训练策略选择或更新都不影响角色对整体训练的影响。在这个博弈训练中,各个角色都致力于使自身的期望收益达到最大。在机器翻译应用中该平衡是指G和D之间的奖励最大,损失最小,当各自满足这种训练平衡时,翻译模型满足纳什均衡状态,博弈模型趋于最优。

蒙古文机器翻译长期受限于平行语料匮乏和资源稀缺,导致参与翻译模型训练的数据存在较为严重的数据稀疏问题,而一般的深度神经网络无法解决稀疏存储中解码准确率和效率问题。在具体的蒙古文翻译中,上述问题主要体现在翻译模型不能在有限的迭代周期内准确解码,对一些典型的问题没有足够的泛化能力。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种博弈型蒙古文神经机器翻译方法,以解决蒙古文翻译任务中长期存在的数据稀疏导致的翻译模型训练不充分和泛化能力不足以及对序列结构分析能力差等问题,通过噪声干扰策略并构建生成对抗网络提升翻译模型整体的解码能力,借助博弈训练使翻译模型提升对蒙古文中一些黏着成分以及如格和特殊字符等附加成分的解码能力,提高蒙古文翻译的准确率和效率。

为了实现上述目的,本发明采用的技术方案是:

一种博弈型蒙古文神经机器翻译方法,包括如下步骤:

步骤1,将蒙古文神经机器翻译中影响译文解码的问题因素通过伪数据的形式转化为干扰噪声;

步骤2,在机器翻译任务上,根据噪声干扰策略构建基于生成对抗网络的博弈模型,所述博弈模型由三部分组成:生成器G、抗干扰器AJ和鉴别器D,其中抗干扰器AJ置于生成器G和鉴别器D之间,生成器G旨在欺骗鉴别器D使其认为输出是标准译文,鉴别器D旨在提高其鉴别能力以区分生成器G的输出和标准译文,抗干扰器AJ旨在使干扰噪声序列能够在训练中被鉴别器D鉴别;

步骤3,在博弈训练(即博弈模型的训练)中,利用REINFORCE策略对生成器G进行参数优化,得到原始数据和噪声数据的训练价值,然后借助对抗训练机制对原始语料和含干扰噪声的伪语料训练,利用得到的训练价值进一步根据AJ决策噪声数据的训练优先级,以使生成器G和D对添加的干扰噪声产生足够的解码能力,最终以训练得到的生成器G为翻译模型,进行蒙古文翻译。

所述步骤1中,影响译文解码的问题因素包括蒙古文语料中的未登录词、词缀变形、格附加成分、指代词以及特殊字符,通过对所述问题因素进行掩膜和替换等操作,形成与原始语料序列结构相同语义相似的含干扰噪声的伪语料;所述噪声干扰策略是指利用对抗训练机制对原始语料和伪语料训练解码,并在训练过程中增强对添加噪声的泛化能力。

所述步骤2中,采用多层感知机模型作为生成器G,并采用CNN设计构建鉴别器D,鉴别器D的目标是对根据干扰噪声解码的译文和标准译文进行二分类鉴别。

所述REINFORCE策略基于REINFORCE算法,在解码过程中将所述REINFORCE策略与GAN训练过程进行比较和映射:(1)首先将REINFORCE策略中的智能体与生成器G映射,从而完成生成器G与状态空间s∈S的交互;(2)将生成器G的参数状态与REINFORCE策略映射,利用每个时间步的动作a∈A完成下一时间步单词y′

所述步骤2中,抗干扰器AJ基于卷积值迭代构建,REINFORCE策略采用序列级的BLEU值奖励作为相应的解码价值,根据一种动态的价值决策方法,确定含噪数据与普通数据的训练价值,从而根据奖励价值得到样本的训练优先级,优先训练含噪多价值低的样本。

所述卷积值迭代,是通过提供当前时间步t的解码状态s

对于博弈模型的整体训练,采用误差反向传播作为鉴别器D对生成器G的反馈方式,使值迭代适应博弈模型的前馈计算和参数更新。

所述步骤3中,博弈模型的训练过程如下:

步骤31,在机器翻译任务的正式编码阶段前,利用双语平行语料对生成器G进行翻译预训练,并对鉴别器D进行二分类预训练;

步骤32,对生成器G进行干扰训练,生成器G根据干扰噪声的嵌入编码产生一系列噪声输出样本来欺骗鉴别器D;

步骤33,生成器G针对编码的噪声序列在以超参数形式设定的柱搜索状态空间中依据REINFORCE算法对其解码并产生相应的噪声奖励,该奖励的计算基于当前序列的BLEU值;

步骤34,利用抗干扰器AJ对产生的噪声奖励进行抗干扰处理,即进行奖励值筛查操作,依据产生的序列价值与最优价值判定当前包含干扰噪声序列的批训练语料即含噪样本是否具有进一步训练的资格;

步骤35,鉴别器D对生成器G生成的通过抗干扰器AJ的含噪样本进行分类鉴别,以免将其视为标准译文;

步骤36,抗干扰对抗训练

将步骤31-步骤35的训练目标T

T

其中(x,y′)是生成器G生成的含噪样本翻译结果,p

所述步骤32中,生成器G的训练过程中每个时间步的输入均是来自上一时间步所产生的样本的输出,包括参与损失计算的目标序列;

所述步骤33中,将多个候选集的BLEU值作为翻译模型训练的奖励来更新和指导训练策略;

所述步骤34中,在序列解码的每次迭代期间,通过将上一个时间步的预测值V

所述参数优化中,采用蒙特卡洛采样方法对蒙古文序列解码的中间状态进行采样,以获得中间状态的奖励,从而得到准确的序列级奖励。

与现有技术相比,本发明的有益效果是:

本发明在蒙古文神经机器翻译任务上构建了博弈模型,能够使蒙古文机器翻译中的一系列噪声在博弈训练机制中被翻译模型泛化。这种训练机制能够使博弈模型在连续的迭代训练过程中对噪声序列优化,缓解蒙古文机器翻译中训练不充分和泛化能力不足的弊端。

附图说明

图1示出了构建博弈模型的整体架构。

图2示出了蒙古文噪声结构图。

图3示出了回鹘蒙古文噪声切分算法。

图4示出了蒙古文噪声干扰策略。

图5示出了蒙古文神经机器翻译抗干扰博弈模型的整体训练过程。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明为一种博弈型蒙古文神经机器翻译方法,应用于以蒙古语为源端的神经机器翻译任务中,主要以传统蒙古文和西里尔蒙古文为主。本发明的主要思想是首先将蒙古文神经机器翻译中一些典型的问题因素通过伪数据的形式转化为干扰噪声,然后在机器翻译任务上构建基于序列文本的博弈模型,并利用REINFORCE算法对翻译模型进行参数优化,使其对添加的干扰噪声产生足够的解码能力。

其主要包括如下步骤:

步骤1,将蒙古文神经机器翻译中影响译文解码的问题因素通过伪数据的形式转化为可训练的干扰噪声,使其在训练过程中被有效解码。

影响译文解码的问题因素在蒙古文神经机器翻译中长期存在,是由翻译模型解码能力差表现出的典型问题,其主要包括蒙古文语料中的未登录词、词缀变形、格附加成分、指代词以及特殊字符。通过数据增强方法,对这些问题因素进行掩膜和替换等操作,形成与原始语料序列(即训练数据)结构相同且语义相似的含干扰噪声的伪语料。

步骤2,在机器翻译任务上,根据噪声干扰策略构建基于生成对抗网络(Generative Adversarial Networks,GAN)的博弈模型。博弈模型的架构关注于干扰噪声的解码效率,如蒙古文语料中词语解码时各种形态变化产生的未登录词或其他特殊字符。博弈模型的构建侧重于提升翻译模型对多种噪声的解码能力,而不是减轻其带来的后果。博弈模型由三部分组成:生成器G、抗干扰器AJ和鉴别器D,在三个模块的博弈中完成模型对干扰噪声的泛化,从而提升博弈模型对这些噪声的翻译性能。其中抗干扰器AJ置于生成器G和鉴别器D之间,生成器G旨在欺骗鉴别器D使其认为输出是标准译文,即,致力于让鉴别器D认为其解码含有干扰噪声的预测结果是标准译文。鉴别器D旨在提高其鉴别能力以区分生成器G的输出和标准译文,即,致力于区分生成器G解码的译文结果和标准译文。抗干扰器AJ旨在使干扰噪声序列能够在训练中被鉴别器D鉴别,即,使鉴别器D能够通过值甄别机制确定蒙古文噪声采样的优先级,使博弈训练对添加的干扰噪声更有针对性,同时解决整体训练过程中的效率低的问题。

其中,噪声干扰策略是指利用对抗训练机制对原始语料和伪语料训练解码,并在训练过程中增强对添加噪声的泛化能力。

本发明采用多层感知机模型作为生成器G,并采用CNN设计构建鉴别器D,鉴别器D的目标是对干扰噪声通过生成器G的解码结果与标准译文进行二分类鉴别。

对本发明博弈模型做出如下详细说明。

(a)生成器G

出于对生成器G在GAN中集成性能考虑,采用多层感知机(Multi-Layerperceptron,MLP)模型作为生成器G,同时REINFORCE算法作为对应的优化训练策略,从而解决GAN中长期奖励的计算和传播困难的问题,利用马尔可夫决策特性对序列解码过程做决策和状态规划。其中REINFORCE策略基于REINFORCE算法,在解码过程中将所述REINFORCE策略与GAN训练过程进行比较和映射:

(1)首先将REINFORCE策略中的智能体与生成器G映射,从而完成生成器G与状态空间s∈S的交互,可如下表所示:

(2)将生成器G的参数状态与REINFORCE策略映射,利用每个时间步的动作a∈A完成下一时间步单词y′

(3)将评价指标与激励函数R(s,a)映射,计算序列的奖励。

因此,序列解码状态表示为:

p

序列中单个单词y′

y′

其中y表示目标译文,h

(b)抗干扰器AJ

为了增强博弈模型对干扰噪声的敏感性,训练参考机器学习中的值迭代网络,根据生成器G的特点,本发明在生成器G和鉴别器D之间构建了基于卷积值迭代(Convolutional Value Iteration)的抗干扰器AJ。与传统的值迭代主要区别是:①训练的奖励机制不同,本发明中通过计算序列级BLEU值得到奖励,抗干扰器AJ采用生成器G产生的序列级的BLEU奖励作为输入,即相应的解码价值,产生每个序列的优先级决策结果。②由于含噪数据的解码结果对应更低的BLEU值,因此含噪样本诱导产生的译文对应的奖励较低,对应价值也较低,从而判断哪些含噪序列能够在有限的训练周期内优先解码,并根据奖励价值得到样本的训练优先级。优先级的核心作用是为鉴别器D确定低价值噪声样本的优先级,使含噪多价值低的样本优先训练。

在本发明中,大部分干扰噪声序列由于与标准译文之间有更大的差异会映射到更低的序列价值,因此噪声序列也会被优先训练。

本发明抗干扰器AJ的奖励转化机制区别于传统的值迭代网络对字符级奖励的处理,主要转化强化训练产生的序列级BLEU奖励,从而将序列噪声在对抗训练中泛化。

其中,卷积值迭代是通过提供当前时间步t的解码状态s

本发明对值迭代思想和马尔可夫决策过程做了严格的映射,因此其功能的具体实现方面也根据值迭代中的对应模块来涉及相应的网络体系结构。

对于博弈模型的整体训练,本发明采用误差反向传播作为鉴别器D对生成器G的反馈方式,使值迭代适应博弈训练的前馈计算和参数更新。

为了得到上述训练结构,本发明采用卷积神经网络结构(Convolutional NeuralNetworks,CNN)来模拟值迭代模块使其在整体的训练结构中能够以传统的神经网络方式训练。

在训练迭代中统计卷积操作计算上一训练时间步(t-1)序列产生的值V

o

本发明构建的网络结构在序列解码过程中具有一定的时序性,翻译模型在参数更新过程中产生的预测概率P(s|s

可选的,池化操作可设定为最大池化或均值池化。

训练中长度为N的序列价值在经过N轮卷积和池化操作(以均值池化为例)后得到,每个批处理(batch size)规模的价值由该batch的序列对应的价值均值(V

在进行博弈训练之前,为了提高整体训练的效率,先预训练一个翻译模型(称为预训练模型),用于博弈模型中的初始的生成器G。

对于生成器G,本发明基于熵损失对预训练模型进行迭代训练。预训练产生的最优状态对应的决策值作为初始阈值V

该训练决策是抗干扰器AJ的主要作用,即干扰噪声进入生成器G,然后解码生成对应的价值(V

可选的,在Tensorflow或Pytorch架构基于上面设计的抗干扰策略,完成相应的训练。

(c)鉴别器D

鉴于CNN高效的分类效率,本发明采用CNN来设计和构建鉴别器D,鉴别器D的目标是对根据干扰噪声解码的译文和标准译文进行二分类鉴别。

将蒙古文词嵌入矩阵{s

k

其中

在实际的蒙古文翻译模型训练中,可选的,本发明确定最终的窗口大小使用{“3×5”;“3×7”;“5×7”},并设置了与窗口大小匹配的内核以提取局部特征。另外,在向量的前馈计算中,将蒙古文段嵌入c

p

其中T表示将c

步骤3,博弈训练是通过生成器G和鉴别器D的博弈训练找到博弈模型训练的平衡,即生成器G用于产生能够迷惑鉴别器D的预测样本,而鉴别器D顾名思义,尽可能的在预测样本和真实样本之间找到不同之处,当训练过程达到一个平衡时,模型收敛到一个最优状态,在此状态下,鉴别器D很难鉴别出来自生成器G产生的预测样本和真实样本,从而达成一种生成器G和鉴别器D的博弈状态。

本发明博弈模型的训练中,利用REINFORCE策略对生成器G进行参数优化,得到原始数据和噪声数据的训练价值,然后借助对抗训练机制对原始语料和含干扰噪声的伪语料训练,利用得到的训练价值进一步决策噪声数据的训练优先级,以使生成器G对添加的干扰噪声产生足够的解码能力,最终以训练得到的生成器G为翻译模型,进行蒙古文翻译。

具体地,训练过程如下:

步骤31,预训练。

为了确保参与训练良好的参数空间以及候选集的搜索空间,在机器翻译任务的正式编码阶段前,利用双语平行语料对生成器G进行翻译预训练,与传统GAN模型不同的是,对鉴别器D也进行了以回归算法为主的二分类预训练。示例地,在本发明的实施例中,对生成器G进行100000操作步的预训练,对D进行20000操作步的预训练,并将其作为编码器的初始参数状态。

步骤32,干扰训练生成器G。

生成器G根据干扰噪声的嵌入编码产生一系列噪声输出样本来欺骗鉴别器D。与常规GAN模型不同的是,生成器G的训练过程中,每个时间步的输入均是来自上一时间步所产生的样本的输出,包括参与损失计算的目标序列。

步骤33,噪声奖励计算。

生成器G针对编码的噪声序列在以超参数形式设定的柱搜索状态空间中依据REINFORCE算法对其解码并产生相应的噪声奖励,该奖励的计算基于当前序列的BLEU值。在具体实施例中,为了解决强化训练和GAN常见的梯度传播困难,本发明将多个候选集的BLEU值作为翻译模型训练的奖励来更新和指导训练。

步骤34,抗干扰。

利用抗干扰器AJ对产生的噪声奖励进行抗干扰处理,即进行奖励值筛查操作,依据产生的序列价值与最优价值判定当前包含干扰噪声序列的批训练语料即含噪样本是否具有进一步训练的资格。在序列解码的每次迭代期间,可通过将上一个时间步的预测值V

当以相同方式计算批样本的价值时,可以根据公式(5)对抗干扰器AJ进行过滤。

步骤35,鉴别。

鉴别器D对生成器G生成的通过抗干扰器AJ的含噪样本进行分类鉴别,以免将其视为标准译文。

步骤36,抗干扰对抗训练。

将步骤31-步骤35的训练目标T

T

其中(x,y′)是生成器G生成的含噪样本翻译结果,p

本发明的噪声采样方法是在构建的博弈模型中融入蒙特卡洛采样方法。方法主要基于一个学习模型和模拟策略,在当前的训练状态中,对每一个预测动作进行多轮采样,这样每个动作都会得到相应完整的预测序列。在本发明构建的博弈训练中,由于蒙古文属于黏着性语言,词语的组成成分之间有较强的黏着特性,如序列解码时词干与词缀之间的连接或格等附加成分等形态结构的变化,因此蒙特卡洛主要用于对蒙古文序列解码的中间状态的采样,以获得中间状态的奖励,从而得到准确的序列级奖励。

具体地,蒙特卡洛采样方法是采用蒙特卡洛(Monte Carlo)搜索策略解决传统GAN翻译模型中典型的误差损失问题。其中误差损失即翻译模型解码的中间状态生成离散数据时,其参数的误差损失信号会在反向传播中有较大的损失,使训练目标T

与常规机器学习的方法不同的是,由于本发明中的翻译方法添加了噪声样本,因此在解码采样中的样本奖励来自于字符级序列奖励和句子级序列奖励的联合奖励。

误差损失是将G的最大概率目标转化为最小化损失的目标:

Loss=E(x,y′)[log(1-p

反向传播过程表示为:

参数优化从梯度的负方向反向传播,l是学习率。

在本发明的一个实施例中,参考图1,示出了本发明整个训练过程的处理流程。

(1)数据清洗。

首先对蒙古文和对应目标语言的平行语料做数据的粗处理。粗处理主要针对蒙古文端语料的格成分编码处理,以及蒙古文中一些特殊成分的处理,该处理步骤也为后续添加噪声提供预处理步骤。图2示出了回鹘蒙古文特殊的切分处理结构,其处理算法图3所示。

其次,对处理后的语料添加噪声,噪声来源于造成蒙古文翻译任务中最常见的几种形态变化导致的解码错误、附加成分、变音符解码错误、蒙文黏着成分衔接错误以及指代噪声。

具体执行操作为对蒙古文词根词缀的切分,对蒙古文格成分的编码记录以及对一些附加成分和特殊字符的词表标注。

加噪后的语料被分为以下几部分:原始数据,原始数据+尾缀干扰,原始数据+附加成分干扰,原始数据+词缀干扰+附加成分干扰。

(2)生成干扰噪声

本发明中噪声分为指代噪声和其它噪声,两类噪声都采用相同的获取方式,但在技术方案方面有一些针对性区别,因此区分说明。

1)指代噪声

方法的初衷是希望翻译模型对干扰噪声进行有效解码,因此构成的噪声序列也以训练数据形式参与翻译模型学习。

本发明中,指代噪声是在蒙古文神经机器翻译训练过程中出现的几个主要指代问题,包括:指代缺失、代词重叠以及指代关系中的固有偏见。

对于代词的缺失和重叠,本发明通过增加翻译模型迭代次数来缓解稀疏数据引起的过拟合问题,从而解决基本的缺失和重叠问题。

对于指代错误问题,本发明首先对构建的干扰噪声序列做简单的标注处理,该标注处理并不需要对词性逐一训练和判别,而只对序列中的指代词标注位置信息即可。

然后将干扰噪声序列的代词掩膜或随机替换,这样的处理方法可以确保代词可以被翻译模型完全学习而不会失真。

伪序列-替代:

对应汉语为:@教授很幸福,她(他)(它)男朋友给她(他)(它)买了礼物并且他(她)(它)总是随身携带。@

伪序列-掩膜:

对应汉语为:@教授很幸福,她(@mask@)男朋友给她(@mask@)买了礼物并且他(@mask@)总是随身携带。@

在两种干扰噪声序列中,所有代词都被当前位置可能的代词或掩膜符号@mask@替代。译文解码时代词‘他’存在偏见问题,这不仅影响当前词的解码准确率,对于整体序列的逻辑推理也有较大的影响。

2)其它噪声

除指代噪声外在蒙古文翻译任务中最常见的几种问题还包括形态变化导致的解码错误,附加成分和变音符解码错误,蒙古文黏着成分衔接错误。

为了生成蒙古文语料的干扰噪声序列,本发明首先对蒙古文原始语料进行词干词缀以及附加成分(主要指格成分)识别和切分。通过添加相应的干扰噪声训练数据被分为以下三类:原始数据,原始数据+尾缀干扰,原始数据+附加成分干扰,原始数据+词缀干扰+附加成分干扰。

可选的,本发明在多次实验后确定了两种干扰序列和原序列在训练过程中的有效配比:当参与博弈训练的噪声数据满足{原始~60%,掩膜~20%,代替20%},并在博弈训练中根据每轮验证集的收敛时间点增加两种干扰序列1%,同时减少原始序列量2%。图4示出了多种本发明对多种干扰噪声的掩膜编码方法过程。

(3)嵌入化训练

对经过步骤(1)粗处理后的平行语料进行嵌入式向量表示训练,本发明中主要采用子词粒度和词干词缀粒度处理,一方面可以有效缓解蒙古文神经翻译中的数据稀疏问题,另一方面便于噪声的提取。

可选的,在本发明中嵌入训练主要采用Fastext作为Embedding的训练工具,从而得到不同嵌入单元之间的语义关联程度,为翻译模型解码提供候选集的搜索空间。为了适应蒙古文的低资源和多形态特点,区别于传统Fastext工具,本发明在Embedding训练时对向量空间的相似性要求做了进一步约束。

可选的,将词向量的分布缩小为语义关联程度为3(一般算法不设限),该方法的改进能够更好的适应蒙古文向量空间的稀疏分布,减少未知词和低频词的出现概率。

(4)预训练

为了确保较优的参数状态直接参与博弈训练,本发明在正式训练前对生成器进行预训练。

可选的,具体为对多层感知机模型进行100000训练步的预训练并保留三个候选模型用于筛选适应噪声的翻译模型。

(5)抗干扰对抗训练

图5示出了博弈训练中各个模块的功能在机器翻译中构建整体的训练过程,多层感知机主要感知参数状态并根据动作空间A做出准确的映射关系,而后借助训练REINFORCE策略来更新翻译的参数。

记录相应的探索状态后得出了基于预测序列和标准序列的BLEU得分奖励,整个训练目标T

由于生成器G对于θ(θ表示翻译模型的参数集或当前参数状态)不可微,本发明采用蒙特卡洛离散的采样方法来解决博弈模型训练中梯度不可传递的问题,从而将奖励视为离散函数。

在具体的参数状态更新中使用样本分布来估计每个输入的梯度,由于状态空间中动作是离散的,奖励是稀疏的,因此在解码过程中会产生很多噪声。因此本发明将这种抗干扰对抗训练被视为单状态下的马尔可夫决策过程,即:生成器G使用预处理的语料库来更新随机隐藏层状态和奖励,抗干扰器用于根据REINFORCE产生的奖励评估生成器G的输出,鉴别器D根据AJ的评估结果来为当前训练序列的训练优先级。

此外,为了防止字符粒度和序列级别的混合奖励会引起鉴别器D持续得到负反馈,本发明选择对生成器G和鉴别器D进行交替训练,使用方向搜索的采样方法进行梯度计算,并适当限制鉴别器D的权重。

其中,奖励和BLEU值的计算之间的关系,其核心思想就是具有正确解码噪声效率和更高BLEU分数的预测序列将产生更高的回报。

抗干扰器AJ是在G和D之间构建一个基于卷积价值迭代的网络结构,该模块的核心作用是赋予鉴别器D优先级,以根据生成器G产生的奖励来标识具有较少奖励的序列,其中较少的奖励对应于不准确或欠佳的含噪序列。

本发明在具体的方法应用时重点设计了两个方面的价值:整个序列的BLEU价值V

V

其中Q()表示在第t个时间步的状态s下动作a的价值,从G获得奖励R

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号