首页> 中国专利> 用于原始音频的基于小占用空间流的模型

用于原始音频的基于小占用空间流的模型

页面导航

摘要
著录项
说明书
相似文献

摘要

WaveFlow是用于原始音频的小占用空间生成流，可以以最大的似然度直接对其进行训练。WaveFlow使用扩展的二维(2D)卷积架构处理波形的远程结构，同时使用表达性自回归函数对局部变化进行建模。WaveFlow可以为原始音频提供基于似然度模型(包括WaveNet和WaveGlow)的统一视图，这可视为特殊情况。它生成高保真语音，同时合成速度比现有系统快几个数量级，因为它仅使用几个序列步骤来生成相对较长的波形。WaveFlow显著减小了自回归模型与基于流的模型之间存在的似然度差距，从而实现有效合成。它具有5.91M参数的小占用空间使其比一些现有模型小15倍。WaveFlow可在V100图形处理单元(GPU)上以比实时快42.6倍的速度生成22.05kHz高保真音频，而无需使用工程化推理内核。

著录项

公开/公告号CN112634936A

专利类型发明专利
公开/公告日2021-04-09

原文格式PDF
申请/专利权人百度(美国)有限责任公司;
展开▼

申请/专利号CN202010979804.6
发明设计人平伟;彭开南;赵可心;宋钊;
展开▼

申请日2020-09-17
分类号G10L25/03(20130101);G10L25/27(20130101);G10L25/30(20130101);G10L25/48(20130101);
代理机构11204 北京英赛嘉华知识产权代理有限责任公司;
代理人王达佐;王艳春
地址美国加利福尼亚州
入库时间 2023-06-19 10:32:14

说明书

相关申请的交叉引用

本专利申请涉及并要求于2019年9月24日提交的名称为“COMPACT FLOW-BASEDMODELS FOR RAW AUDIO(用于原始音频的基于紧凑流的模型)”并将Wei Ping、KainanPeng、Kexin Zhao和Zhao Song列为发明人的共同待决和共同拥有的第62/905261号美国专利申请(案号为28888-2353P)的优先权益处。本文提及的每个文件出于所有目的通过引用以其整体并入本文中。

技术领域

本公开总体上涉及通信系统和机器学习。更具体地，本公开涉及用于原始音频的基于小占用空间流的模型。

背景技术

深度生成模型在高保真语音合成和音乐生成中对原始音频建模已经取得了显著成功。自回归模型是表现最佳的原始波形生成模型之一，提供最高的似然度得分并生成高保真音频。一个成功的示例为WaveNet，一种用于波形合成的自回归模型，它以原始音频的高时间分辨率(例如，24kHz)运行，并在推理时顺序生成一维(1D)波形样本。因此，WaveNet的语音合成速度非常慢，并且必须开发用于实时推理的高度工程化的内核，这是大多数生产文本语音转换(TTS)系统的需求。

因此，非常需要找到新的、更有效的生成模型和方法，这些模型和方法可生成更快的高保真音频，而无需求助于工程化的推理内核。

发明内容

第一方面，本申请公开了一种用于训练音频生成模型的方法，该方法包括：获取从原始音频数据采样的一维(1D)波形数据；通过列优先顺序将1D波形数据转换为二维(2D)矩阵，2D矩阵包括限定高度尺寸的行的集合；在音频生成模型中输入2D矩阵，音频生成模型包括向2D矩阵应用双射的一个或多个扩展的2D卷积神经网络层；以及使用双射在音频生成模型上执行最大似然训练，而无需使用概率密度蒸馏。

第二方面，本申请公开了一种用于对原始音频波形建模的系统，该系统包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，其包括一组或多组指令，一组或多组指令在由一个或多个处理器中的至少一个执行时使得执行以下步骤，包括：在包括一个或多个扩展的2D卷积神经网络层的音频生成模型处，获得一组声学特征；以及使用一组声学特征生成音频样本，其中，音频生成模型已通过执行以下步骤训练，包括：获取从原始音频数据采样的一维(1D)波形数据；通过列优先顺序将1D波形数据转换为二维(2D)矩阵，2D矩阵包括限定高度尺寸的行的集合；在向2D矩阵应用双射的音频生成模型中输入2D矩阵；以及使用双射在音频生成模型上执行最大似然训练，而无需使用概率密度蒸馏。

第三方面，本申请公开了一种用于对原始音频波形建模的生成方法，该方法包括：在音频生成模型处，获得一组声学特征；以及使用一组声学特征生成音频样本，其中，音频生成模型已通过执行以下步骤训练，包括：获取从原始音频数据采样的一维(1D)波形数据；通过列优先顺序将1D波形数据转换为二维(2D)矩阵，2D矩阵包括限定高度尺寸的行的集合；在音频生成模型中输入2D矩阵，音频生成模型包括向2D矩阵应用双射的一个或多个扩展的2D卷积神经网络层；以及使用双射在音频生成模型上执行最大似然训练，而无需使用概率密度蒸馏。

附图说明

将参考本公开的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然随附的本公开大体上在这些实施方式的上下文中描述，但应理解，本公开的范围并不旨在限于这些特定实施方式。附图中的项目可以不按比例绘制。

图1A描绘了自回归变换的雅可比矩阵。

图1B描绘了二分变换的雅可比矩阵。

图2描绘了根据本公开的一个或多个实施方式的在(a)WaveFlow、(b)WaveGlow和(c)具有列优先级的自回归流中的用于计算Z

图3A和图3B描绘了根据本公开的一个或多个实施方式的表6中的基于似然度的模型的测试对数似然度(LL)对MOS的得分。

图4是根据本公开的一个或多个实施方式的用于训练音频生成模型的流程图。

图5描绘了根据本公开的一个或多个实施方式的用于对原始音频建模的基于似然度训练的简化系统图。

图6描绘了根据本公开的一个或多个实施方式的用于对原始音频建模的简化系统图。

图7描绘了根据本公开的实施方式的计算系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本公开的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如过程、装置、系统/装置或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本公开实施方式的示例性说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(例如，包括整合在单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、“通信地联接”、“接合(interfacing)”、“接合(interface)”或其任何派生词应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。还应注意，任何诸如信号、响应、答复、确认、消息、查询等的通信，可包括一个或多个信息交换。

在本说明书中对“一个或多个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”等的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本公开的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。

服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。存储器、数据库、信息库、数据存储、表、硬件、高速缓存等的使用在本文中可以用来指代其中可输入信息或以其它方式记录信息的一个或多个系统组件。术语“数据”、“信息”以及类似术语可由涉及一组一个或多个比特的其它术语代替，并且可互换地使用。术语“数据包”或“帧”应理解为是指一组一个或多个比特。词语“最佳”、“优化(optimize)”、“优化(optimization)”等是指结果或过程的改进，并且不需要指定的结果或过程已达到“最佳”或峰值状态。

应注意的是：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

本文中使用的任何标题仅用于组织目的，并且不应用于限制说明书或权利要求书的范围。本专利文件中提及的每个参考文献/文件均通过引用以其整体并入本文中。

在一个或多个实施方式中，停止条件可以包括：(1)已经执行了设定数量的迭代；(2)已达到一定的处理时间；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散(例如，性能劣化)；以及(5)已达到可接受的结果。

应注意的是，本文提供的任何实验和结果以说明的方式提供，并且使用一个或多个的具体实施方式在具体条件下执行；因此，这些实验或其结果不应当用于限制本专利文件的公开的范围。

A.一般介绍

基于流的模型是一组生成模型，其中通过应用一系列可逆转换，将简单的初始密度转换为复杂密度的密度。一组模型基于自回归变换，包括自回归流(AF)和逆自回归流(IAF)作为彼此的“对偶”。AF类似于自回归模型，它执行并行密度评估和顺序合成。相反地，IAF执行并行合成和顺序密度评估，这使得基于似然度的训练非常缓慢。并行WaveNet从预先训练的自回归WaveNet中蒸馏IAF，从而获得两全其美的效果。然而，必须应用蒙特卡罗方法来近似蒸馏中的难解的Kullback-Leibler(KL)散度。相反地，ClariNet通过以封闭形式计算正则化KL散度来简化概率密度蒸馏。两者都需要预先训练的WaveNet老师和一组辅助损耗来实现高保真合成，这会使训练通道复杂化并增加开发成本。如本文所使用的，ClariNet是指2019年2月15日提交的名称为“SYSTEMS AND METHODS FOR NEURAL TEXT-TO-SPEECH USING CONVOLUTIONAL SEQUENCE LEARNING(使用卷积序列学习进行神经文本语音转换的系统和方法)”并将Sercan

另一组基于流的模型基于二分变换，其提供了基于似然度的训练和并行合成。最近，WaveGlow和FloWaveNet分别将Glow和RealNVP应用于波形合成。然而，二分流需要更多的层、更大的隐藏大小和大量参数才能达到与自回归模型相当的容量。具体地，WaveGlow和FloWaveNet具有87.88M和182.64M的参数，分别具有96层和256个剩余通道，而常规的30层WaveNet具有4.57M的参数，具有128个剩余通道。此外，它们都在应用二分变换之前在通道维度上压缩时域样本，这可能会丢失时间顺序信息并降低波形序列的建模效率。

在本专利文件中，为方便起见，通常将用于原始音频的基于小占用空间流的一个或多个实施方式称为“WaveFlow”，其特征是i)简单训练，ii)高保真且超快速合成，以及iii)小占用空间。与并行WaveNet和ClariNet不同，各种实施方式包括直接以最大似然度训练WaveFlow，而无需概率密度蒸馏和辅助损失，这简化了训练通道并降低了开发成本。在一个或多个实施方式中，WaveFlow将1D波形样本压缩到二维(2D)矩阵中，并使用自回归函数处理局部相邻样本，而不会丢失时间顺序信息。实施方式利用扩展的2D卷积架构来实现WaveFlow，其导致比WaveGlow少15倍的参数和更快的合成速度。

在一个或多个实施方式中，WaveFlow为原始音频提供了基于似然度模型的统一视图，其中包括WaveNet和WaveGlow(可将其视为特殊情况)，并允许人们明确地将推理并行性用于模型容量。就测试似然度和音频保真度方面对此类模型进行了系统研究。实施方式证明，中等大小的WaveFlow可获得与WaveNet相当的似然度并合成高保真语音，而合成速度快了数千倍。众所周知，自回归模型与提供有效采样的基于流的模型之间存在很大的似然度差距。

在一个或多个实施方式中，WaveFlow实施方式可通过利用紧凑的自回归函数使用例如5.91M的参数对局部信号变化进行建模。WaveFlow可合成22.05kHz的高保真语音，平均意见得分(MOS)为4.32，比Nvidia V100图形处理单元(GPU)上的实时速度快40倍以上。相比之下，WaveGlow需要87.88M的参数生成高保真语音。在生产TTS系统中，尤其是对于内存、功率和处理能力受到限制的装置上部署，首选小内存占用空间。

B.基于流的生成模型

通过应用双射x＝f(z)，其中x和z均为n维，基于流的模型将简单密度p(z)(例如，各向同性的高斯分布)转换为复杂的数据分布p(x)。x的概率密度可以通过使用以下公式改变变量来获得：

其中，z＝f

1.自回归变换

自回归流(AF)和逆自回归流(IAF)使用自回归变换。具体来说，AF定义了

其中，移位变量

雅可比矩阵的行列式是对角线条目的乘积：

相比之下，IAF对逆映射z＝f

使密度评估对于基于似然度的训练非常慢，但是可通过

2.二分变换

RealNVP和Glow通过将数据x分为两组x

其中，将移动变量μ

应注意，评估z＝f

WaveGlow和FloWaveNet在通道维数上压缩时域样本，然后在分区通道上应用二分变换。应注意，这种压缩操作效率低下，因为可能会丢失时间顺序信息。因此，例如合成音频可具有恒定频率的噪声。

表1

表1示出了基于流的模型进行密度评估z＝f

3.关系

自回归变换比二分变换更具表现力。如图1A和图1B所示，自回归变换在数据x与潜变量z之间引入了

考虑到表达性较低的构建块，二分流需要更多的层和更大的隐藏大小才能达到自回归模型的能力，例，如按似然度衡量。

下一部分介绍了具有扩展的2D卷积的WaveFlow实施方式和实现实施方式。还讨论了用于堆叠多个流的置换策略。

C.WaveFlow实施方式

1.定义

在一个或多个实施方式中，将一维波形表示为x＝{x

其中，X

应注意：(i)在WaveFlow中，当h>2时，用于计算Z

如第C.2部分所述，在一个或多个实施方式中，公式(6)中的移位变量μ

因此，可通过公式(1)中变量的变化来并行计算对数似然度。

并且可有效地执行最大似然度训练。在一个或多个实施方式中，在合成时，可从各向同性的高斯分布采样Z，并且可应用前向映射X＝f

它在高度尺寸上是自回归的，并且使用h个连续步骤来生成整个X。在一个或多个实施方式中，可使用相对较小的h(例如，8或16)。因此，可在几个连续步骤内生成相对较长的波形。

2.具有扩展的2D卷积的实施例

在一个或多个实施方式中，WaveFlow可用扩展的2D卷积架构来实施。例如，可使用2D卷积层的堆叠(例如，在实验中使用了8层)来对公式(6)中的移位变量μ

在一个或多个实施方式中，对于高度和宽度尺寸，可将滤波器大小设置为3，并且可在宽度尺寸上使用非因果卷积，将扩展周期设置为[1,2,4,…,2

表2

应注意，堆叠的扩展卷积层的接受域可表示为：r＝(k-1)×∑

表3总结了实验中使用的高度和首选的扩展。示出了高度h、在高度尺寸上的过滤器大小k以及相应的扩展。应注意，接受域r仅略大于高度h。

表3

在一或多个实施方式中，可实施卷积队列以缓存中间隐藏状态，从而加速高度尺寸上自回归推理。应注意，当x压缩其长度(即h＝n)并且在宽度尺寸上将过滤器大小设置为1时，WaveFlow可能是完全自回归的。如果将x压缩h＝2，并且在高度尺寸上将过滤器大小设置为1，则WaveFlow变为二分流。

3.用于语音合成的局部调节

在神经语音合成中，神经声码器(例如，WaveNet)会合成时域波形，其可以以语言特征、来自文本频谱图转换模型的梅尔频谱图或在文本波转换架构中学习到的隐藏表示为条件。在一个或多个实施方式中，通过在地面真值的梅尔频谱图上对WaveFlow进行调节来对WaveFlow进行测试，该频谱图的上采样深度与具有转置2D卷积的波形样本的长度相同。为了与波形对齐，将它们压缩为c×h×w的形状，其中，c是输入通道的尺寸(例如，梅尔带)。在一个或多个实施方式中，在输入通道到剩余通道的1×1卷积映射之后，可将它们作为偏置项添加到每一层。

4.在高度尺寸上堆叠具有置换的多个流

基于流的模型使用一系列变换，直到分布p(X)达到所需的容量水平。我们表示X＝Z

在一个或多个实施方式中，在每个变换之后在其高度尺寸上置换每个Z

在语音合成中，需要在与Z

表4

5.相关工作

神经语音合成获得了最新的成果，并引起了广泛的关注。已经引入了几种神经TTS系统，包括WaveNet、Deep Voice 1&2&3、Tacotron1&2、Char2Wav、VoiceLoop、WaveRNN、ClariNet、Transformer TTS、ParaNet和FastSpeech。

诸如WaveNet的神经声码器(波形合成器)在语音合成的最新进展中起着最重要的作用。最新的神经声码器是自回归模型。有人主张加快其顺序生成过程。特别地，SubscaleWaveRNN将长的波形序列x

基于流的模型可表示用于变分推理的近似后验，或者，如在本文中呈现的一个或多个实施方式中，它们也可使用变量公式的变化直接训练。Glow可通过在通道尺寸上进行可逆1×1卷积来扩展RealNVP，这首先会生成高保真图像。一些方法将可逆卷积概括为在通道和空间轴上操作。基于流的模型已成功地应用于并行波形合成，该波形合成具有与自回归模型相当的保真度。在这些模型中，WaveGlow和FloWaveNet具有简单的训练通道，因为它们仅使用最大似然度目标。然而，这两种方法都不如自回归模型富有表现力，如它们的较大占用空间和较低的似然度得分所指示的。

D.实验

在测试似然度、音频保真度和合成速度方面对原始音频的基于似然度的生成模型进行了比较。

数据：在家庭环境中，使用在MacBook Pro上记录的LJ语音数据集，其包括约24小时的音频，采样率为22.05kHz。它来自单个女性讲话者的包含13000段音频剪辑。

模型：评估了几种基于似然度的模型，包括WaveFlow、高斯WaveNet、WaveGlow和自回归流(AF)。如C.2部分所描述的，通过在宽度尺寸上按长度压缩波形并将滤波器大小设置为1，可从WaveFlow实现AF。WaveNet和AF都具有30层，其扩展周期是[1,2,…,512]且滤波器大小为3。对于WaveFlow和WaveGlow，研究了不同的设置，包括流的数量、剩余通道的大小和压缩高度h。

调节器：原始音频的80波段梅尔频谱图用作WaveNet、WaveGlow和WaveFlow的调节器。FFT大小设置为1024，跳数设置为256，并且窗口大小设置为1024。对于WaveNet和WaveFlow，通过应用两层其中交错有泄漏ReLU(α＝0.4)的转置2D卷积(时间和频率)，对梅尔调节器进行256次上采样。两层的上采样时间跨度为16，2D卷积滤波器的大小为[32，3]。对于WaveGlow，实施方式可直接使用开源实施例。

训练：所有模型都在8个Nvidia 1080Ti GPU上进行训练，使用从每个话语中随机选择的16,000个样本剪辑。对于WaveFlow和WaveNet，使用Adam优化器，其批处理大小为8，恒定学习率为2×10

1.似然度

WaveFlow、WaveNet、WaveGlow和自回归流(AF)的测试LL以1M训练步骤的梅尔频谱图为条件进行评估。选择1M步骤作为截止点，因为此后LL缓慢下降，并且花费一个月的时间来训练最大的WaveGlow(剩余通道＝512)达到1M步骤。结果总结在表5中，该表示出了以梅尔频谱图为条件的所有模型(行(a)至(t))的测试LL。对于“流×层数”列中的a×b＝c，a是流的数量，b是每个流中的层数，以及c是总层数。在WaveFlow中，h是压缩的高度。在以下观测中提到了带有粗体的测试LL的模型：

1.堆叠大量流会改善所有基于流的模型的LL。例如，具有8个流的WaveFlow(m)比具有6个流的WaveFlow(l)提供更大的LL。自回归流(b)获得最高的似然度，并且优于具有相同参数量的WaveNet(a)。的确，AF通过将3个流与反转操作堆叠在一起来提供双向建模。

2.与参数数量相当的情况下，WaveFlow比WaveGlow具有更大的似然度。特别地，小占用空间WaveFlow(k)仅具有5.91M参数，但可提供与具有268.29M参数的最大WaveGlow(g)相当的似然度(5.023相对于5.026)。

3.从(h)-(k)可看出，随着h的增加，WaveFlow的似然度会稳步增加，并且在GPU上采用更多顺序步骤时，其推理速度会变慢。在极限情况下，它等效于AF。这说明了模型容量与推理并行性之间的权衡。

表5

4.具有128个剩余通道的WaveFlow(r)可获得与具有128个剩余通道的WaveNet(a)相当的似然度(5.055相对于5.059)。具有256个剩余通道的较大WaveFlow(t)可获得比WaveNet甚至更大的似然度(5.101相对于5.059)。

应注意，自回归模型和提供有效采样的基于流的模型之间迄今为止存在很大的似然度差距。在一个或多个实施方式中，WaveFlow可用高度h的相对适度的压缩来接近似然度差距，这表明自回归模型的强度主要在于对信号的局部结构进行建模。

2.音频保真度和合成速度

在一个或多个实施方式中，表4中描述的置换策略b)用于WaveFlow。WaveNet进行1M步骤的训练。由于实际的时间限制，大型WaveGlow和WaveFlow(剩余通道256和512)进行1M步骤的训练。中等大小的模型(剩余通道128)进行2M步骤的训练。小型模型(剩余通道64和96)进行3M步骤的训练，在2M步骤后性能略微改善。对于ClariNet，使用与ClariNet中相同的设置：使用端到端文本语音转换中的并行波生成(Ping，W.、Peng，K.和Chen，J.，ICLR(2019))。合成时，Z分别从用于Waveflow和WaveGlow的具有标准差1.0和0.6(默认值)的各向同性高斯分布采样。crowdMOS工具包用于语音质量评估，这些模型中的测试语音被呈现给Mechanical Turk上的工作人员。此外，在不使用任何工程化推理内核的情况下，在NVIDIA V100 GPU上测试了合成速度。对于WaveFlow和WaveGlow，合成是在NVIDIA Apex上使用16位浮点(FP16)算术运行的，该算术不会导致音频保真度下降，并且加速了大约2倍。卷积队列是在Python中实现的，用于在WaveFlow中缓存中间隐藏状态，以便在高度尺寸上进行自回归推理，这导致额外的3倍至5倍加速，取决于高度h。

表6中示出了具有95％置信区间、实时合成速度和模型占用空间的5阶MOS(音频样本可从https://waveflow-demo.github.io获得)。得出以下观测结果：

1.小WaveFlow(剩余通道64)具有5.91M参数，可合成22.05kHz高保真语音(MOS：4.32)，比实时速度快42.6倍。相比之下，小型WaveGlow(剩余通道64)的语音质量明显较差(MOS：2.17)。实际上，WaveGlow(剩余通道256)需要87.88M参数才能生成高保真语音。

2.就语音保真度而言，大型WaveFlow(剩余通道256)的性能优于相同大小的WaveGlow(MOS：4.43相对于4.34)。它也与最新的WaveNet相匹配，同时生成语音的速度比实时快8.42倍，因为它只需128个连续步骤(流的数量×高度h)即可合成数十万个时间步骤的超长波形。

表6

3.ClariNet具有最小的占用空间，并且由于其“寻模”行为而提供了相当好的语音保真度(MOS：4.22)。相比之下，基于似然度的模型被迫对数据中存在的所有可能的变化进行建模，只要它们具有足够的模型容量，就可导致更高保真度的采样。

此外，图3A和图3B描绘了根据本公开的一个或多个实施方式的表6中的基于似然度的模型的测试对数似然度(LL)对MOS得分。即使我们比较所有模型，较大的LL也大致对应较高的MOS得分。当我们分别考虑每个模型时，这种相关性变得更加明显。这表明可将似然度得分用作模型选择的客观指标。

3.文本语音转换

为方便起见，还对WaveFlow进行了专有数据集上文本语音转换的测试。该数据集包括来自女性说话者的20小时的音频，采样率为24kHz。Deep Voice 3(DV3)用于预测文本的梅尔频谱图。对20层WaveNet(剩余通道＝256，#参数＝9.08M)、WaveGlow(#参数＝87.88M)和WaveFlow(h＝16，#参数＝5.91M)进行训练并以DV3的老师强制的梅尔频谱图为条件。如本文所使用的，DV3是指2018年8月8日提交的标题为“SYSTEMS AND METHODS FORNEURAL TEXT-TO-SPEECH USING CONVOLUTIONAL SEQUENCE LEARNING(使用卷积序列学习进行神经文本语音转换的系统和方法)”并将

结果表明，WaveFlow是一种非常引人注目的神经声码器，具有以下特点：i)简单的基于似然度的训练；ii)高保真和超快速合成；iii)小内存占用。

表7

E.讨论

并行WaveNet和ClariNet在概率密度蒸馏中使学生模型与老师模型之间的反向KL散度(KLD)最小化，这具有“寻模”行为，并且在实践中可能会导致轻柔的语音。因此，引入了一些辅助损耗来减轻该问题，包括STFT损耗、感知损耗、对比损耗和对抗损耗。实际上，这使系统调整复杂化并增加了开发成本。由于小占用空间模型不需要在实际数据分布中对众多模式进行建模，因此，例如，在仔细调整辅助损耗时，它可生成高质量的语音。值得一提的是，基于GAN的模型还表现出类似的语音合成“寻模”行为。相比之下，基于似然度的模型(诸如WaveFlow、WaveGlow和WaveNet)将模型和数据分布之间的正向KLD最小化。因为模型学习了实际数据中的所有可能模式，所以假设有足够的模型容量，则合成的音频可能非常逼真。然而，当模型容量不足时，由于前向KLD的“寻模”行为(例如，具有128个剩余通道的WaveGlow)，其性能可能会迅速下降。

尽管音频信号主要由低频分量(例如，在幅度方面)支配，但是人耳对高频成分非常敏感。因此，有利的是为波形的局部变化精确建模以进行高保真合成，这是自回归模型的优势。然而，自回归模型在建模远程关联时效率较低，这可从生成全局一致图像的困难中看出来。更糟糕的是，它们的合成速度也很慢。非自回归卷积架构可执行快速合成并轻松捕获数据中的远程结构，但这可能会产生假的高频成分，从而降低音频保真度。相比之下，WaveFlow使用短程自回归函数对局部变化进行紧凑建模，并使用非自回归卷积架构处理远程关联，从而获得两全其美的效果。

F.计算系统实施方式

在一个或多个实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统或者可在一个或多个信息处理系统(或计算系统)上实施。信息处理系统/计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、移动设备(例如，个人数字助理(PDA)、智能手机、平板手机、平板等)、智能手表、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、只读存储器(ROM)和/或其它类型的存储器。计算系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、手写笔、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图4是根据本公开的一个或多个实施方式的用于训练音频生成模型的流程图。在一个或多个实施方式中，用于对原始音频建模的过程400可在获得已经从原始音频数据采样的1D波形数据时开始(405)。该1D波形数据可例如通过列优先级转换(410)为2D矩阵。在一个或多个实施方式中，2D矩阵可包括限定高度尺寸的行的集合。2D矩阵可输入(415)到音频生成模型，该音频生成模型可包括将双射应用于2D矩阵的一个或多个扩展的2D卷积神经网络层。在一个或多个实施方式中，可使用双射(420)在音频生成模型上执行最大似然度训练，而无需使用概率密度蒸馏。

图5描绘了根据本公开的一个或多个实施方式的用于对原始音频建模的基于似然度训练的简化系统图。在实施方式中，系统500可包括WaveFlow模块510、输入505和510以及输出515，例如损耗。输入505可包括可从原始音频采样的1D波形数据，以用作地面真值数据。输入520可包括声学特征，诸如语言特征、梅尔频谱图、梅尔频率倒谱系数(MFCC)等。应当理解，WaveFlow模块510可包括比图5中所描绘的附加的和/或其它的输入和输出。在一个或多个实施方式中，WaveFlow模块510可利用在此描述的一种或多种方法来执行最大似然度训练，以例如通过使用来自公式(6)的变量Z

图6描绘了根据本公开的一个或多个实施方式的用于对原始音频建模的简化系统图。在实施方式中，系统600可包括WaveFlow模块610、输入605和输出615。输入605可包括声学特征，诸如语言特征、梅尔频谱图、MFCC等，这取决于应用(例如，TTS、音乐等)。输出615包括合成数据，诸如1D波形数据。参照图5，应理解，WaveFlow模块610可包括比图6中所描绘的附加的和/或其它的输入和输出。在一个或多个实施方式中，WaveFlow模块610可已经根据本文讨论的方法中的任一种进行了训练，并且可利用一个或多个方法来生成输出615。作为示例，WaveFlow模块610可使用以上C部分中的讨论的公式(9)来预测输出615，例如，一组原始音频信号。

图7描绘根据本公开的一个或多个实施方式的计算系统(或是计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图7中所示的更少或更多的部件，但应理解，针对系统700所示出的功能可操作为支持计算系统的各种实施方式。

如图7所示，计算系统700包括一个或多个CPU 701，CPU 701提供计算资源并控制计算机。CPU 701可实施有微处理器等，并且还可包括一个或多个GPU 719和/或用于数学计算的浮点协处理器。在一个或多个实施方式中，一个或多个GPU 719可并入显示控制器709中，诸如一个或多个图形卡的一部分。系统700还可包括系统存储器702，系统存储器702可包括RAM、ROM、或两者的形式。

如图7所示，还可提供多个控制器和外围装置。输入控制器703表示至各种输入装置704的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统700还可包括存储控制器707，该存储控制器707用于与一个或多个存储装置708对接，存储装置中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本公开的各方面的程序的一个或多个实施方式)。存储装置708还可用于存储经处理的数据或是将要根据本公开处理的数据。系统700还可包括显示控制器709，该显示控制器709用于为显示装置711提供接口，显示装置711可为阴极射线管(CRT)、显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其它类型的显示器。计算系统700还可包括用于一个或多个外围装置706的一个或多个外围控制器或接口705。外围装置的示例可包括一个或多个打印机、扫描仪、输入装置、输出装置、传感器等。通信控制器714可与一个或多个通信装置715对接，这使系统700能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程装置。

在示出的系统中，所有主要系统组件可连接至总线716，总线716可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如光盘(CD)-ROM和全息装置的光学介质；磁光介质；以及硬件装置，该硬件装置专门被配置成存储或存储并执行程序代码，该硬件装置例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存装置、其它非易失性存储器(NVM)装置(诸如基于3D Xpoint的装置)以及ROM和RAM装置。

本公开的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和/或非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本公开的一个或多个实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件装置，例如，ASIC、可编程逻辑器件(PLD)、闪存装置、其它NVM装置(诸如基于3D Xpoint的装置)以及ROM和RAM装置。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本公开的一个或多个实施方式可整体地或部分地实施为可在由处理装置执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本公开的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成模块和/或子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本公开的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于原始音频的基于小占用空间流的模型 [P] . 中国专利： CN112634936A . 2021-04-09
2. 用于识别、可视化和触发来自自动建议动作的工作流以回收基于模型的工业过程控制器的损失利益的装置和方法 [P] . 中国专利： CN110892350A . 2020-03-17
3. Methods for editing an original audio signal, and for decoding a stream of audio, audio editor, audio player, audio system, audio stream, and storage medium. [P] . BR0205527A . 2003-07-08

机译：用于编辑原始音频信号并解码音频流的方法，音频编辑器，音频播放器，音频系统，音频流和存储介质。
4. Digital audio stream transmitting device for e.g. internet network, has selection unit for selecting two digital audio streams based on selection signal, and transmission unit for transmitting selected digital audio stream [P] . 法国专利： FR2914480A1 . 2008-10-03

机译：数字音频流发送设备，例如互联网网络，具有用于基于选择信号选择两个数字音频流的选择单元，以及用于发送选择的数字音频流的发送单元
5. SMALL-FOOTPRINT FLOW-BASED MODELS FOR RAW AUDIO [P] . US2021090547A1 . 2021-03-25

机译：基于小型流量的原始音频模型