首页> 中国专利> 一种新型蒙古语语音合成方法

一种新型蒙古语语音合成方法

摘要

本发明公开了一种新型蒙古语语音合成方法,具体包括以下步骤:S1、基于BiLSTM对蒙古文单词序列进行处理:基于BiLSTM神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法,包括输入层,注意力层,BiLSTM层和输出层,对输入的蒙古文单词序列进行处理,具体地,给定蒙古文单词的词向量WE、形态向量ME、音系向量PE,本发明涉及语音合成技术领域。该新型蒙古语语音合成方法,基于BiLSTM神经网络提出了融合形态向量和音系向量的蒙古文韵律建模,对输入的蒙古文单词序列进行处理,利用合成器,将文字输入生产声学特征,而后利用声码器从声学特征生成波形输出,其中,加入了对WaveGlow的改进,极大的在计算和消耗上提升了合成器的效率。

著录项

  • 公开/公告号CN113838449A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 内蒙古工业大学;

    申请/专利号CN202110817588.X

  • 申请日2021-07-20

  • 分类号G10L13/02(20130101);G10L13/10(20130101);G10L25/30(20130101);

  • 代理机构42284 武汉菲翔知识产权代理有限公司;

  • 代理人刘谷红

  • 地址 010051 内蒙古自治区呼和浩特市土默特左旗金川开发区内蒙古工业大学

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及语音合成技术领域,具体为一种新型蒙古语语音合成方法。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术,TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术,采用世界领先的语音合成技术,研发出来的“语音合成助手”软件可以完美的完成语音合成工作,蒙古语属阿尔泰语系或蒙古语族,主要使用者在中国蒙古族聚居区、蒙古国和俄罗斯联邦西伯利亚联邦管区,蒙古国使用的蒙古语因在二十世纪五六十年代受苏联影响主要使用西里尔字母拼写,俄罗斯的卡尔梅克语、布里亚特语被视为蒙古语的方言,中国内蒙古地区的蒙古族还在使用传统蒙古文。

现存的高质量语音合成器都需要消耗十分可观的计算资源,而且在计算和消耗上降低了合成器的效率,数据传到云端,会有数据安全的隐患, WaveGlow用flow-based代替自回归,因此可以并行化,但是难以应用到实时的系统。

发明内容

针对现有技术的不足,本发明提供了一种新型蒙古语语音合成方法,解决了现存的高质量语音合成器都需要消耗十分可观的计算资源,而且在计算和消耗上降低了合成器的效率,数据传到云端,会有数据安全的隐患, WaveGlow用flow-based代替自回归,因此可以并行化,但是难以应用到实时的系统的问题。

为实现以上目的,本发明通过以下技术方案予以实现:一种新型蒙古语语音合成方法,具体包括以下步骤:

S1、基于BiLSTM对蒙古文单词序列进行处理:基于BiLSTM神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法,包括输入层,注意力层,BiLSTM层和输出层,对输入的蒙古文单词序列进行处理,具体地,给定蒙古文单词的词向量WE、形态向量ME、音系向量PE,它们的权重分别通过两个两层全连接神经网络进行预测,之后将三种向量乘以各自的权重wI,w2, w3后拼接在一起即为最终的蒙古文词向量表示WE

S2、用SqueezeWave提高合成器效率:TTS从云端向边缘,典型的现代语音合成模型主要包含两个部分:合成器和声码器,提出用一种轻量级的基于流的声码器SqueezeWave用于边缘设备的语音合成,重新设计了WaveGlow的架构,通过重整音频张量、采用深度可分离卷积以及相关优化使其比WaveGlow 少消耗61-214倍的计算量,可在笔记本端实现每秒123-303K样本的生成,与直接进行卷积操作不同,WaveGlow首先将邻近的样本聚类构建多通道的输入,其中L为时域维度的长度,Cg为每个时间步上的聚类组合的样本数量,波形中的样本总数量为波形随后被一系列双边映射进行转换,其中每一个都会利用的输入得到输出,在每个双边映射中,输入信号首先被可逆的逐点卷积处理,而后将结果沿通道拆分为和,其中被用于计算仿射耦合系数,其中将被应用于的后续计算,而则为类似wavenet的函数,为编码音频的梅尔谱Lm 为梅尔谱的时间长度,Cm为频率分量的数目,最终将在通道方向上组合得到最后的输出;

S3、利用声码器从声学特征生产波形:WaveGlow最主要的计算量来自于 WN函数,输入首先通过逐点卷积进行处理,随后核为3的一维膨胀卷积将继续对上述结果进行处理,同时梅尔谱也被馈入到网络中,而后in_layer和 cond_layer输出按照WaveNet的方式通过门函数进行合并,随后传输到res_skip_layer,其输出长度为L=2000,通道数为512,随后将按照通道拆分为两部分,这一结构将重复八次,并在最后的res_skip_layer输出与end进行逐点卷积,计算出转换因子s

优选的,所述S1中,输入层即将输入的蒙古文单词通过查找词表找到其对应的词向量、形态向量和音系向量,注意力层输入三种蒙古文单词特征向量,通过加权求和的方式将三种特征向量整合在一起得到新的蒙古文词向量。

优选的,所述S2中,其中合成器用于从文字输入生成声学特征,而后利用声码器从声学特征生成波形输出。

优选的,所述S3中,卷积使得的通道数从增加到非常大的数目,在 WaveGlow中start的输出维度为256维。

优选的,所述S3中,由于梅尔谱的时域长度远小于波形长度,所以需要对其进行上采样来进行维度匹配。

优选的,所述S3中,当L=64时,时域长度与梅尔谱相同无需上采样,而L=128时,梅尔谱仅需要进行最邻近采样,这样进一步减少了cond_layer 的计算开销,fig2深度可分离卷积减小计算量。

优选的,所述S3中,基于WaveGlow的改进,SqueezeWave–light vocoder,可以生成相似的语音质量,但是可以在61x–214x MAC上跑,对WaveGlow的网络结构进行重新设计,从而大大减少计算量。

有益效果

本发明提供了一种新型蒙古语语音合成方法。与现有技术相比具备以下有益效果:

(1)、该新型蒙古语语音合成方法,通过基于BiLSTM对蒙古文单词序列进行处理:基于BiLSTM神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法,包括输入层,注意力层,BiLSTM层和输出层,对输入的蒙古文单词序列进行处理,具体地,给定蒙古文单词的词向量WE、形态向量ME、音系向量PE,它们的权重分别通过两个两层全连接神经网络进行预测,基于 BiLSTM神经网络提出了融合形态向量和音系向量的蒙古文韵律建模,对输入的蒙古文单词序列进行处理,利用合成器,将文字输入生产声学特征,而后利用声码器从声学特征生成波形输出,其中,加入了对WaveGlow的改进,极大的在计算和消耗上提升了合成器的效率。

(2)、该新型蒙古语语音合成方法,通过WaveGlow最主要的计算量来自于WN函数,输入首先通过逐点卷积进行处理,随后核为3的一维膨胀卷积将继续对上述结果进行处理,同时梅尔谱也被馈入到网络中,而后in_layer和 cond_layer输出按照WaveNet的方式通过门函数进行合并,随后传输到 res_skip_layer,其输出长度为L=2000,通道数为512,随后将按照通道拆分为两部分,这一结构将重复八次,并在最后的res_skip_layer输出与end进行逐点卷积,计算出转换因子s

附图说明

图1为本发明的流程图;

图2为本发明蒙古文韵律建模方法的示意图;

图3为本发明逐点卷积进行处理的示意图;

图4为本发明WaveGlow的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-4,本发明提供一种技术方案:一种新型蒙古语语音合成方法,具体包括以下步骤:

S1、基于BiLSTM对蒙古文单词序列进行处理:基于BiLSTM神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法,包括输入层,注意力层,BiLSTM层和输出层,对输入的蒙古文单词序列进行处理,具体地,给定蒙古文单词的词向量WE、形态向量ME、音系向量PE,它们的权重分别通过两个两层全连接神经网络进行预测,之后将三种向量乘以各自的权重wI,w2, w3后拼接在一起即为最终的蒙古文词向量表示WE

S2、用SqueezeWave提高合成器效率:TTS从云端向边缘,典型的现代语音合成模型主要包含两个部分:合成器和声码器,其中合成器用于从文字输入生成声学特征,而后利用声码器从声学特征生成波形输出。现存的高质量语音合成器都需要消耗十分可观的计算资源,SqueezeWave的主要目的在于提升合成器的效率,提出用一种轻量级的基于流的声码器SqueezeWave用于边缘设备的语音合成,重新设计了WaveGlow的架构,通过重整音频张量、采用深度可分离卷积以及相关优化使其比WaveGlow少消耗61-214倍的计算量,可在笔记本端实现每秒123-303K样本的生成,与直接进行卷积操作不同, WaveGlow首先将邻近的样本聚类构建多通道的输入,其中L为时域维度的长度, Cg为每个时间步上的聚类组合的样本数量,波形中的样本总数量为波形随后被一系列双边映射进行转换,其中每一个都会利用的输入得到输出,在每个双边映射中,输入信号首先被可逆的逐点卷积处理,而后将结果沿通道拆分为和,其中被用于计算仿射耦合系数,其中将被应用于的后续计算,而则为类似wavenet的函数,为编码音频的梅尔谱Lm为梅尔谱的时间长度,Cm为频率分量的数目,最终将在通道方向上组合得到最后的输出;

S3、利用声码器从声学特征生产波形:WaveGlow最主要的计算量来自于 WN函数,输入首先通过逐点卷积进行处理,随后核为3的一维膨胀卷积将继续对上述结果进行处理,同时梅尔谱也被馈入到网络中,而后in_layer和 cond_layer输出按照WaveNet的方式通过门函数进行合并,随后传输到 res_skip_layer,其输出长度为L=2000,通道数为512,随后将按照通道拆分为两部分,这一结构将重复八次,并在最后的res_skip_layer输出与end进行逐点卷积,计算出转换因子s

通过对WaveGlow的分析发现最主要的计算量来自于输入音频波形的形状 (长度),WaveGlow的输出维度为(L=2000,Cg=8)这会从三个方面带来非常高的计算复杂度:WaveGlow是一维卷积,其计算复杂度随L线性增长,为了提高梅尔谱的时域分辨率需要对其进行上采样。

本发明中,S1中,输入层即将输入的蒙古文单词通过查找词表找到其对应的词向量、形态向量和音系向量,注意力层输入三种蒙古文单词特征向量, 通过加权求和的方式将三种特征向量整合在一起得到新的蒙古文词向量。

本发明中,S2中,其中合成器用于从文字输入生成声学特征,而后利用声码器从声学特征生成波形输出。

本发明中,S3中,卷积使得的通道数从增加到非常大的数目,在WaveGlow 中start的输出维度为256维。

本发明中,S3中,由于梅尔谱的时域长度远小于波形长度,所以需要对其进行上采样来进行维度匹配。

本发明中,S3中,当L=64时,时域长度与梅尔谱相同无需上采样,而 L=128时,梅尔谱仅需要进行最邻近采样,这样进一步减少了cond_layer的计算开销,fig2深度可分离卷积减小计算量。

本发明中,S3中,基于WaveGlow的改进,SqueezeWave–light vocoder,可以生成相似的语音质量,但是可以在61x–214x MAC上跑,对WaveGlow的网络结构进行重新设计,从而大大减少计算量。

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号