首页> 中国专利> 基于跨模态表征对齐的英越端到端语音翻译方法

基于跨模态表征对齐的英越端到端语音翻译方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及基于跨模态表征对齐的英越端到端语音翻译方法，属于自然语言处理技术领域。本发明基于英语音频表征与文本表征的长度信息，进行对齐并分别混合得到词级与句子级的混合表征；使用长度归一化融合方法统一混合表征与音频表征的长度以减轻混合表征与语音表征之间由长度导致的模态差异问题，使用门控融合方法对混合表征进一步融合得到多粒度混合表征作为解码器输入，对不同模态的输出进行一致性在多任务训练框架下约束，实现英语语音表征与对应文本表征的跨模态对齐。本发明为后续在英语到越南语端到端语音翻译以及语音与文本跨模态表征对齐等工作提供强有力的支撑，缓解了英语到越南语语音翻译的跨模态映射困难问题。

著录项

公开/公告号CN116663577A

专利类型发明专利
公开/公告日2023-08-29

原文格式PDF
申请/专利权人昆明理工大学;
展开▼

申请/专利号CN202310646473.8
发明设计人余正涛;周国江;高盛祥;
展开▼

申请日2023-06-02
分类号G06F40/58(2020.01);G06F40/211(2020.01);G06F40/284(2020.01);G06F18/25(2023.01);G06N3/0442(2023.01);G06N3/0455(2023.01);G06N3/08(2023.01);G10L21/055(2013.01);
代理机构昆明隆合知识产权代理事务所(普通合伙) 53220;
代理人何娇
地址 650500 云南省昆明市呈贡区景明南路727号
入库时间 2024-01-17 01:26:37

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-15

实质审查的生效 IPC(主分类):G06F40/58 专利申请号:2023106464738 申请日:20230602

实质审查的生效
2023-08-29

公开

发明专利申请公布

说明书

技术领域

本发明涉及基于跨模态表征对齐的英越端到端语音翻译方法，属于自然语言处理技术领域。

背景技术

端到端语音翻译任务将源语言语音直接翻译为目标语言文本，在多语言视频字幕、多语言会议同传等场景中具有广阔的应用前景。相较于先对源语言语音进行识别再翻译为目标语言文本的级联系统，端到端语音翻译系统具有更低的延迟和更少的参数量，避免了错误传播问题，因此备受研究者关注。目前，面向端到端语音翻译任务的标注数据相对较少，有限标注数据条件下，输入语音和输出文本间的模态差异在较大程度上影响着语音翻译模型的性能。这种模态差异主要表现在：音频长度远远大于其对应的文本长度，导致模型难以学习到语音和文本的对齐关系；音频和文本的结构不同，音频是连续的时序信号，而文本是离散的符号序列，导致模型难以捕捉到语音和文本中对应的语言学规律。目前端到端语音翻译大多利用机器翻译、语音识别领域中较为丰富的数据通过预训练，多任务训练知识蒸馏等方式进行语音翻译辅助训练。然而机器翻译中的训练数据仅为文本模态，语音识别中的训练数据并不具备跨语言特性，故使用这类数据进行语音翻译辅助训练易导致编解码器跨模态映射能力不匹配，因此，如何有效缓解音频和文本之间的模态差异，提升语音翻译模型的跨模态映射能力是端到端语音翻译任务面临的一个重要问题。

发明内容

本发明针对英语到越南语端到端语音翻译中英语语音到文本的跨模态映射问题，提出基于跨模态表征对齐的英越端到端语音翻译方法，对英语语音文本表征进行多粒度对齐并进行混合作为并行输入，基于多模态表征的一致性约束进行多任务融合训练，在有限标注数据条件下，建立英语语音文本表征间的统一映射，提升翻译性能。

本发明的技术方案是：基于跨模态表征对齐的英越端到端语音翻译方法，所述方法的步骤为：

Step1、英语到越南语文本翻译预训练，使用英语文本作为输入，越南语文本作为目标，对编码层和解码层进行文本翻译预训练；

Step2、根据语音文本表征的长度关系进行对齐，根据对齐关系对英语语音与文本表征在词级与句子级进行混合得到英语语音文本词级、句子级混合表征；

所述Step2的具体步骤为：

英语语音文本的词级混合，计算出训练数据中所有英语语音表征序列a＝(a

其中，i，j为文本表征序列中对应元素的位置，其满足1≤j≤M；

计算根据位置信息u

将对齐后的序列混合后得到英语语音文本词级混合表征p＝(m

英语语音文本表征的句子级混合，句子级混合不需要对齐，英语语音文本混合后得到英语语音文本句子级混合表征q＝(a

Step3、使用长度归一融合方法统一英语语音文本词级、句子级混合表征与语音表征的长度；具体的，使用长度归一化融合方法对语音表征与英语语音文本词级、句子级混合表征进行融合，融合方法为交叉注意力，固定其query输入Q为音频表征，其value输入V与key输入K为输入表征，过程如下式所示：

Step4、经编码层提取统一了长度后的Step3中的表征的抽象语义信息后，使用门控融合方法对语义编码后的英语语音文本词级、句子级混合表征进行融合；

具体的，对经过语义编码的英语语音文本词级、句子级混合表征

Step5、在多任务训练框架下，对英语语音表征与门控融合后的英语语音文本词级、句子级混合表征经翻译解码层后输出的结果进行一致性约束。

对于英语语音表征与多粒度融合表经翻译编码层的输出h(a)与h(a,e)，在h(a)与目标单词序列y计算交叉熵作为损失的基础上，使用Jensen-Shannon散度计算得到h(a)与h(a,e)的一致性约束损失，如下式所示，L

L＝L

本发明的有益效果是：

本发明所述方法针对英语语音与文本间的位置关系进行对齐预混合，针对长度差异问题进行一致性融合，针对表征分布的差异使用一致行损失约束。在多个层次弥合英语到越南语语音翻译中语音与文本模态差异，有效的提高英语-越南语端到端语音翻译的效果。

附图说明

图1为本发明总流程图；

图2为本发明提出基于跨模态表征对齐的英越端到端语音翻译方法模型图；

图3为本发明中提出的英语语音文本表征对齐与混合的示意图；

具体实施方式

实施例1：如图1-图3所示，基于跨模态表征对齐的英越端到端语音翻译方法，所述方法的步骤为：

Step1、英语到越南语文本翻译预训练，使用英语文本作为输入，越南语文本作为目标，对编码层和解码层进行文本翻译预训练；

Step2、使用开源数据集MuST-C中的语音翻译数据，对采样率为16000的语音信号序列输入,使用经960小时英语音频预训练的Huber提取声学表征，在此基础上加入两个卷积层对声学表征进行下采样得到语音表征，，对于文本输入，使用无监督的UnigramSentencesPiece模型学习源语言与目标语言双语词表，进行编码与嵌入后得到文本表征。根据语音文本表征的长度关系进行对齐，根据对齐关系对英语语音与文本表征在词级与句子级进行混合得到英语语音文本词级、句子级混合表征；英语语音文本词级、句子级混合表征作为多任务训练时的并行输入。

所述Step2的具体步骤为：

英语语音文本的词级混合，计算出训练数据中所有英语语音表征序列a＝(a

其中，i，j为文本表征序列中对应元素的位置，其满足1≤j≤M；

计算根据位置信息u

将对齐后的序列混合后得到英语语音文本词级混合表征p＝(m

英语语音文本表征的句子级混合，句子级混合不需要对齐，英语语音文本混合后得到英语语音文本句子级混合表征q＝(a

Step3、使用长度归一化融合方法对语音表征与英语语音文本词级、句子级混合表征进行融合，融合方法为交叉注意力，固定其query输入Q为音频表征，其value输入V与key输入K为输入表征，过程如下式所示：

Step4、经编码层提取统一了长度后的Step3中的表征的抽象语义信息后，使用门控融合方法对语义编码后的英语语音文本词级、句子级混合表征进行融合；

所述Step4的具体步骤为：

对经过语义编码的英语语音文本词级、句子级混合表征

Step5、在多任务训练框架下，对英语语音表征与门控融合后的英语语音文本词级、句子级混合表征经翻译解码层后输出的结果进行一致性约束。

所述Step5的具体步骤为：

L＝L

本发明所进行的实验基于Fairseq的Transformer-S2T框架，模型的基本配置中，共享语义编码器有6层，解码层有6层，多头注意力头数为8，隐层变量维度为512，前馈网络的维度为2048，dropout为0.1。所有实验的训练配置参数均如下，使用Adam作为优化器，其中，使用标签平滑率为0.1的交叉熵损失作为目标函数。学习率最大阈值为1e-4，学习率预热为4000，使用inverse sqrt动态调整学习率。使用ScareBLEU作为模型性能的评价指标,使用大小为5的集束算法。

为了验证本发明的有效性，在MuST-C英-越数据集上分别使用Fairseq S2T语音翻译系统和使用Hubert作为声学编码器的Transformer系统与本发明进行对比，下面简称为Fairseq-ST与Hubert-Transformer，其中Fairseq-ST通过语音识别任务进行预训练，其声学特征为Fbank特征，对于Hubert-Transformer，分别在进行文本预训练与不进行文本翻译预训练的条件下进行实验，结果如表1所示。

表1.与基线模型对比实验结果

在没有经过文本预训练的情况下，使用经预训练的Hubert作为声学编码器进行训练BLEU值达到了22.6，比在语音识别预训练下以Fbank作为特征输入进行训练得到的BLEU结果高出1.8，验证了Hubert作为声学编码器的有效性。在使用文本翻译进行预训练后，结果再次提高了0.8BLEU，表明进行跨模态的预训练对端到端语音翻译是有效的。在此基础上，本发明所提基于跨模态表征对齐的英越端到端语音翻译方法训练得到的BLEU再次提升了1.3，验证了本发明所提方法的有效性。

本发明首先将英语音频通过声学编码器得到英语语音表征，将音频对应的转录文本进行分词与嵌入后得到英语文本表征，使用文本表征作为输入进行英语到越南语文本翻译预训练；基于英语音频表征与文本表征的长度信息，进行对齐并分别混合得到词级与句子级的混合表征作为多任务训练时的并行输入；针对不同模态表征间的长度差异性，使用长度归一化融合方法统一混合表征与音频表征的长度以减轻混合表征与语音表征之间由长度导致的模态差异问题，使用门控融合方法对混合表征进一步融合得到多粒度混合表征作为解码器输入，对不同模态的输出进行一致性在多任务训练框架下约束，实现英语语音表征与对应文本表征的跨模态对齐；本发明所述方法针对英语语音与文本间的位置关系进行对齐预混合，针对长度差异问题进行一致性融合，针对表征分布的差异使用一致行损失约束。在多个层次弥合英语到越南语语音翻译中语音与文本模态差异，有效的提高英语-越南语端到端语音翻译的效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于语音文本自动对齐混合自训练的端到端语音翻译方法 [P] . 中国专利： CN115985298A . 2023-04-18
2. 一种基于DNN-HMM双模态对齐网络的端到端语音合成方法及系统 [P] . 中国专利： CN111739508B . 2020-12-01
3. VOICE SEGMENT DETECTION SYSTEM, VOICE STARTING END DETECTION DEVICE, VOICE TERMINATION END DETECTION DEVICE, VOICE SEGMENT DETECTION METHOD, VOICE STARTING END DETECTION METHOD, VOICE TERMINATION END DETECTION METHOD, AND PROGRAM [P] . 世界知识产权组织专利： WO2016043182A1 . 2016-03-24

机译：语音段检测系统，语音起始端检测设备，语音终止端检测设备，语音段检测方法，语音起始端检测方法，语音终止端检测方法和程序
4. METHOD FOR CONTROLLING TRANSMISSION OF MULTIMEDIA DATA FROM SERVER TO CLIENT BASED ON CLIENT'S DISPLAY CONDITION, METHOD AND MODULE FOR ADAPTING DECODING OF MULTIMEDIA DATA IN CLIENT BASED ON CLIENT'S DISPLAY CONDITION, MODULE FOR CONTROLLING TRANSMISSION OF MULTIMEDIA DATA FROM SERVER TO CLIENT BASED ON CLIENT'S DISPLAY CONDITION AND CLIENT-SERVER SYSTEM [P] . 日本专利： JP2006134326A . 2006-05-25

机译：基于客户端的显示状况的从服务器到客户端的多媒体数据传输控制方法，基于客户端的显示状况的从客户端到多媒体数据自适应解码的方法和模块，基于服务器的多媒体数据从客户端到客户端的传输到客户端的控制方法和客户端服务器系统
5. Universal Messaging system providing integrated voice, data and fax messaging services to PC/web-based clients, including a large object server for efficiently distributing voice/fax messages to web-based clients [P] . 美国专利： US6301245B1 . 2001-10-09

机译：通用消息系统，为基于PC /基于Web的客户端提供集成的语音，数据和传真消息传递服务，包括用于高效地将语音/传真消息分发给基于Web的客户端的大型对象服务器