首页> 中国专利> 融合多层次语言特征知识的汉越神经机器翻译的方法

融合多层次语言特征知识的汉越神经机器翻译的方法

摘要

本发明涉及融合多层次语言特征知识的汉越神经机器翻译的方法,本发明分别对字符、词及短语三个不同层次的语言特征知识进行融合并分析,为了有效地利用不同层次的语言特征知识,本发明首先通过双向LSTM得到基于字符的词向量表示,然后将基于字符的词向量表示和预训练的词向量相结合,通过注意力机制,使模型能够动态地选择词向量和字符信息。其次通过在标准序列编码器的基础上构建一个短语树编码器的方法,进一步将句子中的短语信息融入到汉越神经机器翻译的序列转换过程中。实验结果表明,该融合方法可以有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。

著录项

  • 公开/公告号CN112541364A

    专利类型发明专利

  • 公开/公告日2021-03-23

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202011409192.3

  • 申请日2020-12-03

  • 分类号G06F40/58(20200101);G06F40/284(20200101);G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构53204 昆明人从众知识产权代理有限公司;

  • 代理人何娇

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 10:21:15

说明书

技术领域

本发明涉及融合多层次语言特征知识的汉越神经机器翻译的方法,属于自然语言处理技术领域。

背景技术

汉语-越南语是典型的低资源语言对,可获取的资源较少,需要利用不同层次的语言特征知识来弥补资源不足的问题。而越南语具有丰富的形态变化和多样的语法结构,本发明旨在充分地挖掘和利用不同层次的语言特征知识,以解决汉越神经机器翻译所面临的资源稀缺这一难点问题。

不同层次的语言特征知识是指字符、词、短语等不同层次的序列结构中蕴含的语义信息。现有的神经机器翻译大多是以词为基础,但词向量的训练需要大规模的语料,且翻译过程中容易产生未登录词的问题。因此,有研究者考虑从更小的粒度入手,充分利用词内的信息。考虑到越南语不同的形态变化和多样的语法结构,本发明使用字符、词和短语三个层次作为语言符号序列的多层次表示,其中,字符序列能够对越南语的不同形态变化进行有效表征,任意越南语的词都是由字符序列组合而成,同时,字符序列能够有效表示词内蕴含的信息,一定程度上缓解小规模语料下更易产生的稀有词问题;词序列能够直观的刻画源语言蕴含的语义信息,符合人类习惯的表达方式,是机器翻译最早采用也是见效最快的翻译单位;短语序列则包含一定的词序和句法结构信息,有助于改进汉越神经机器翻译中的远距离依赖问题。因此,本发明提出一种融合多层次语言特征知识的汉越神经机器翻译方法。

发明内容

本发明提供了融合多层次语言特征知识的汉越神经机器翻译的方法,有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。

本发明提供的一种融合多层次语言特征知识(字符Character、词Word、短语Phrase)的汉越神经机器翻译方法。该识别方法分别对字符(Character),词(Word)及短语(Phrase)三个不同层次的语言特征知识进行融合并分析,为了有效地利用不同层次的语言特征知识,本发明首先通过双向LSTM得到基于字符的词向量表示,然后将基于字符的词向量表示和预训练的词向量相结合,通过注意力机制,使模型能够动态地选择词向量和字符信息。其次通过在标准序列编码器的基础上构建一个短语树编码器的方法,进一步将句子中的短语信息融入到汉越神经机器翻译的序列转换过程中。实验结果表明,该融合方法是实验过程中获得的一个最优的技术方案,可以有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。

本发明的技术方案是:融合多层次语言特征知识的汉越神经机器翻译的方法,所述方法的具体步骤如下:

Step1、语料收集与预处理:收集汉越平行数据,并分别使用符合汉越语言特性的预处理工具对数据进行预处理;

Step2、在Step1的基础上,使用双向的LSTM获得词内字符的向量,将字符训练计算得到的词向量与预训练的词向量结合得到融合字符特征的词向量;

Step3、深层语义特征融合:在中心语驱动的短语结构语法中,一个句子由多个短语单元组成,表示为二叉树形式,另根据句子结构,在标准序列编码器上构造基于短语树的编码器,在词的基础上进一步融入短语特征知识;

完成了融合不同层次语言特征知识的汉语神经机器翻译的实现。

进一步地,所述步骤Step1的具体步骤为:

Step1.1、通过网络爬取、人工收集方式获得140K汉越平行句对,其中测试集2K平行句对,验证机2K平行句对;

Step1.2、中文数据利用JIEBA分词工具进行分词,使用斯坦福大学的StanfordNLP工具包进行短语据法分析;越南语数据采用越南语短语句法解析工具进行短语据法解析,以获得越南语短语树。

进一步地,所述步骤Step2的具体步骤为:

Step2.1、在神经机器翻译中需要将自然语言表征为特征向量的形式作为模型的输入,通过词内字符的信息计算得到该词的语义向量表示;

Step2.2、使用权重加权的方法,将通过字符训练计算得到的词向量和预训练的词向量相结合,以得到一个语义单元的最佳表示;

Step2.3、常见词本身就具有高质量的词向量表示,通过优化向量来将字符表示与词向量对齐,最终训练得到融合字符特征的词向量。

进一步地,所述步骤Step3的具体步骤为:

Step3.1、在中心语驱动的短语结构语法中,一个句子由多个短语组成,表示为二叉树形式,其中二叉树中的每个节点都用一个LSTM单元表示,并以自下而上的方式由短语向量构造句子向量;

Step3.2、在计算叶节点的LSTM单元时,允许模型计算同一个单词在句子中多次出现的不同表示形式;现在模型有两个不同的句子向量:一个来自序列编码器,另一个来自基于短语树的编码器,提供另一个Tree-LSTM单元,利用Tree-LSTM单元将最终序列编码器单元和基于短语树的编码器单元作为两个子单元,用来初始化解码器单元;

Step3.3、将注意力机制引入到短语树-序列模型中,使得模型不仅关注序列隐藏单元,还关注短语隐藏单元,当模型解码目标单词时,可以知道原语句中的哪些单词或者短语是重要的,在词的基础上进一步融入短语特征知识。

本发明的有益效果是:本发明通过对字符、词和短语三种不同层次语言特征知识的融合表征,将不同符号序列中蕴含的语义信息引入神经机器翻译过程中。实验结果表明,本发明方法有效地利用了不同层次的语言特征知识,一定程度上提升了汉越神经机器翻译的性能。

附图说明

图1为本发明融合多层次语言特征知识的神经机器翻译流程图;

图2为本发明浅层语义特征融合示意图;

图3为本发明越南语短语结构树示例图;

图4为本发明基于短语树-序列的神经机器翻译示意图。

具体实施方式

实施例1:如图1-4所示,融合多层次语言特征知识的汉越神经机器翻译的方法,所述方法的具体步骤如下:

Step1、语料收集与预处理:收集汉越平行数据,并分别使用符合汉越语言特性的预处理工具对数据进行预处理;

Step1.1、通过网络爬取、人工收集方式获得140K汉越平行句对,其中测试集2K平行句对,验证机2K平行句对;

Step1.2、在实验数据预处理中,中文数据利用JIEBA分词工具进行分词,使用斯坦福大学的StanfordNLP工具包进行短语据法分析;越南语数据采用越南语短语句法解析工具进行短语据法解析,以获得越南语短语树。由于越南语的句法解析开源工具较少,我们采用李英等开发的越南语短语句法解析工具对越南语进行短语句法解析,得到越南语短语树。所使用的实验数据如表1所示。

表1 实验数据设置

Step2、在Step1的基础上,使用双向的LSTM获得词内字符的向量,将字符训练计算得到的词向量与预训练的词向量结合得到融合字符特征的词向量;

Step2.1、在神经机器翻译中需要将自然语言表征为特征向量的形式作为模型的输入。因此,我们首先考虑如何通过词内字符的信息计算得到该词的语义向量表示。如图2所示,句子中的单词被分解为字符得到字符嵌入序列(c1,...,cR)通过双向LSTM传递:

每个LSTM的最后一个隐藏向量连接起来作为单个单词的字符表示,然后通过一个单独的非线性层:

h

其中W

在字符和词的浅层语义特征融合中,使用word2vec预训练词向量,词嵌入维度为256维,训练数据中只出现过一次的单词都被通用的OOV标记替换,但仍然在字符组件中使用。语料中所有数字都被字符“0”替换,字符的嵌入长度设置为50,并随机初始化。每个方向的LSTM层尺寸设置为200,组合表示m具有与词嵌入相同的维度,默认学习率为1.0,批次大小为64。

Step2.2、使用权重加权的方法,将上述通过字符训练计算得到的词向量和预训练的词向量相结合,以得到一个语义单元的最佳表示。公式(3)(4)能够为词嵌入和字符组件为每个单词学习相同的语义特征:

其中

Step2.3、另外常见词本身就具有高质量的词向量表示,因此,我们通过优化向量m来将字符表示与词向量对其:

其中m

Step3、深层语义特征融合:在中心语驱动的短语结构语法中,一个句子由多个短语单元组成,表示为二叉树形式,另根据句子结构,在标准序列编码器上构造基于短语树的编码器,在词的基础上进一步融入短语特征知识;在中心语驱动的短语结构语法中,一个句子由多个短语单元组成,表示为二叉树,如图3所示。

Step3.1、根据句子结构,我们在标准序列编码器的基础上构造了一个基于短语树的编码器,如图4所示。其中二叉树中的每个节点都用一个LSTM单元来表示,并以自下而上的方式由短语向量构造句子向量。第k个父隐藏单元

其中f

其中,i

Step3.2、在计算叶节点的LSTM单元时,我们允许模型计算同一个单词在句子中多次出现的不同表示形式。现在模型有两个不同的句子向量:一个来自序列编码器,另一个来自基于短语树的编码器,我们提供另一个Tree-LSTM单元,该单元将最终序列编码器单元h

其中函数g

Step3.3、将注意力机制引入到短语树-序列模型中,使得模型不仅关注序列隐藏单元,还关注短语隐藏单元,当模型解码目标单词时,可以知道原语句中的哪些单词或者短语是重要的,在词的基础上进一步融入短语特征知识。

第j上下文向量由顺序向量d

若二叉树有n个叶,则二叉树有n-1个短语节点,我们设置了一个最终的解码器

其中

完成了融合不同层次语言特征知识的汉语神经机器翻译的实现。

在深层语义特征融合中,隐藏单元和词嵌入维度为256维,使用1.0初始化LSTM和Tree-LSTM的遗忘门偏置项,其余模型参数是在[-0.1,0.1]中均匀初始化的。模型参数采用普通SGD优化,初始学习率SGD为1.0,批次大小为128。当损失变得更严重时,将学习率减半。梯度规范被裁剪为3.0,以避免爆发梯度问题。实验中通过BLEU自动评估指标对模型进行评估。

本发明研究融合多层次语言特征知识对汉越神经机器翻译性能的影响,实验中对比了只使用字符的模型(LSTM+C)、只使用词的模型(LSTM+W)、只使用短语树的模型(Tree-LSTM)、只进行字符和单词融合的模型(LSTM+C+W)、只进行字符和短语树融合的模型(Tree-LSTM+C)、只进行词和短语树融合的模型(Tree-LSTM+W)以及本发明提出的模型(Tree-LSTM+C+W)。实验结果如表2所示。

表2 融合不同层次语言特征知识对BLEU值的影响

通过表2的实验结果对比来看,只进行字符和单词融合的模型(LSTM+C+W)、只进行字符和短语融合的模型(Tree-LSTM+C)以及只进行词和短语融合的模型(Tree-LSTM+W)相比三种没有进行特征融合的模型BLEU值都要高。本发明模型(Tree-LSTM+C+W)相比只进行字符和单词融合(LSTM+C+W)的模型,BLEU值提升了0.95个百分比;相比只进行字符和短语融合(Tree-LSTM+C)的模型,BLEU值提升了0.69个百分比;相比只进行词和短语融合(Tree-LSTM+W)的模型,BLEU值提升了0.58个百分比。说明本发明通过对字符、词和短语的深度挖掘与利用,有效地将不同层次的语言特征知识引入到神经机器翻译中,一定程度上提升了汉越神经机器翻译的性能。

同时,从表2中可以看出,只使用字符的模型(LSTM+C)性能较差,相比只使用词的模型(LSTM+W)BLEU值降低了0.68个百分比,相比只使用短语树的模型(Tree-LSTM)BLEU值降低了1.24个百分比。分析原因为,单独的使用字符虽然一定程度上降低了数据稀疏的问题,但是句子长度大大增加,加大了长距离依赖学习的难度。因此,完全以字符为操作对象的模型还较为缺乏竞争力,这也是本发明在浅层语义特征融合阶段没有使用字符嵌入完全取代单词嵌入的原因,而是将两者结合起来,从而允许模型在两个粒度级别上充分利用信息。

在此基础上,为了直观的观察和对比不同模型的翻译效果,我们对4种融合不同层次语言特征知识模型的翻译结果进行了译文质量对比分析。实验结果如表3所示。

表3 译文质量对比分析

通过表3可以看出,本发明模型(Tree-LSTM+C+W)的翻译质量更高,如“游泳”一词的正确译文为

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号