首页> 中国专利> 语音风格迁移模型的训练方法、装置、设备及存储介质

语音风格迁移模型的训练方法、装置、设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请涉及人工智能技术领域，公开了一种语音风格迁移模型的训练方法、装置、设备及存储介质，该方法包括：通过基于预置神经网络模型，根据第一梅尔语谱信息和第二梅尔语谱信息得到第一更新参数；将第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；通过第二梅尔语谱信息确定第一内容奖励参数；根据第一风格奖励参数和第一内容奖励参数，获取第二更新参数；通过第一更新参数和第二更新参数对预置神经网络模型的模型参数进行更新生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且分类器可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，无需收集大量目标音频语料。

著录项

公开/公告号CN112992177A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人平安科技(深圳)有限公司;
展开▼

申请/专利号CN202110192901.5
发明设计人孙奥兰;王健宗;程宁;
展开▼

申请日2021-02-20
分类号G10L25/24(20130101);G10L25/30(20130101);G06K9/62(20060101);G06N3/02(20060101);
代理机构44507 深圳市力道知识产权代理事务所(普通合伙);
代理人张传义
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 11:27:38

说明书

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质。

背景技术

近年来，随着神经网络的成功，文本转语音(Text-To-Speech TTS)的发展也搭上了快班车，基本上实现了端到端的语音合成。基于声谱预测网络(Tacotron2)改进的各种模型一定程度上改进了合成语音的自然度，但缺乏对说话人韵律和风格的控制，随着信息社会需求的快速发展，对语音交互提出了更高的要求，其细分领域包括风格迁移、跨语种合成等。

所谓语音风格迁移即对说话人的音色、风格、情感等特征进行抽取，在推理阶段对抽取的特征向量进行特定操作后再生成声音波形，以实现细粒度的风格迁移。如谷歌提出的无监督风格建模，通过Global Style Tokens实现风格迁移。又如腾讯AILab提出的Duration Informed Attention Network For Multimodal Synthesis(DurIAN)对styleembedding进行建模，把嵌入向量的方向看作不同的情绪属性，把数值大小看作情绪的强弱程度，然后固定向量的方向只改变数值大小即可完成细粒度风格迁移。但由于语音的情感数据集以及平行说话人数据集较为缺乏，无法通过少量的语音的情感数据集以及平行说话人数据集完成语音风格迁移模型的训练。

发明内容

本申请的主要目的在于提供一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质，旨在解决现有语音的情感数据集以及平行说话人数据集较为缺乏，无法通过少量的语音的情感数据集以及平行说话人数据集完成语音风格迁移模型的训练的技术问题。

第一方面，本申请提供一种语音风格迁移模型的训练方法，所述语音风格迁移模型的训练方法包括以下步骤：

将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；

基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

通过所述第二梅尔语谱信息确定第一内容奖励参数；

根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

第二方面，本申请还提供一种语音风格迁移模型的训练装置，所述语音风格迁移模型的训练装置包括：

第一获取模块，用于将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；

第二获取模块，用于基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

第三获取模块，用于将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

第一确定模块，用于通过所述第二梅尔语谱信息确定第一内容奖励参数；

第二确定模块，用于根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

第四获取模块，用于通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

生成模块，用于通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的语音风格迁移模型的训练方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的语音风格迁移模型的训练方法的步骤。

本申请提供一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质，通过将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；通过所述第二梅尔语谱信息确定第一内容奖励参数；根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且针对分类器作进调整可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，仅需一条目标音频即可实现源音频到目标音频的转换，无需收集大量目标音频语料。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音风格迁移模型的训练方法的流程示意图；

图2为图1中的语音风格迁移模型的训练方法的子步骤流程示意图；

图3为本申请实施例提供的另一种语音风格迁移模型的训练方法的流程示意图；

图4为图3中的语音风格迁移模型的训练方法的子步骤流程示意图；

图5为本申请实施例提供的另一种语音风格迁移模型的训练方法的流程示意图；

图6为本申请实施例提供的一种语音风格迁移模型的训练装置的示意性框图；

图7为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质。其中，该语音风格迁移模型的训练方法可应用于计算机设备中，该计算机设备可以是笔记本电脑、台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种语音风格迁移模型的训练方法的流程示意图。

如图1所示，该语音风格迁移模型的训练方法包括步骤S101至步骤S107。

步骤S101、将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息。

示范性的，获取第一风格音频和第二风格音频，其中，获取的方式包括通过预置存储路径获取预先存储的第一风格音频和第二风格音频，或者，从预置区块链中获取预先存储的第一风格音频和第二风格音频。第一风格音频和第二风格音频为相同内容的不同说话人音频。例如，第一人用高兴风格读取目标文本的音频为第一风格音频，第二人用户悲伤风格读取目标文本的音频为第二风格音频。在获取到第一风格音频和第二风格音频时，分别对第一风格音频和第风格音频进行处理，得到第一风格音频音频的第一梅尔语谱信息和第二风格音频对应的第二梅尔语谱信息，其中处理的方式包括短时傅里叶变换等。

步骤S102、基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数。

示范性的，获取预置神经网络模型，通过第一梅尔语谱信息和第二梅尔语谱信息对预置神经网络模型进行训练，获取训练后该预置神经网络模型当前的模型参数，将该模型参数作为第一更新参数。

在一实施例中，具体地，参照图2，步骤S102包括：子步骤S1021至子步骤S1022。

子步骤S1021、将所述第一梅尔语谱信息和所述第二梅尔语谱信息分别输入所述第一预置神经网络模型。

示范性的，在获取到第一梅尔语谱信息和第二梅尔语谱信息时，分别将第一梅尔语谱信息和第二梅尔语谱信息输入到第一预置神经网络模型中，该第一预置神经网络模型可以表示为f

子步骤S1022、通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数。

示范性的，将第一梅尔语谱信息和第二梅尔语谱信息输入到第一预置神经网络模型f

在一实施例中，所述第一预置神经网络模型包括第一解码器、第一编码器和第一全连接层；通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数，包括：通过所述第一编码器对所述第一梅尔语谱信息进行编码，得到对应的第一隐状态矩阵信息；通过所述第一解码器对所述隐状态矩阵信息和所述第二梅尔语谱信息解码，获取对应的第一隐状态向量信息；将所述第一隐状态向量信息输入所述第一全连接层，并通过所述第一全连接层中的激活函数，得到对应的第一更新参数。

示范性的，该第一预置神经网络模型f

该第一预置神经网络模型f

步骤S103、将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数。

示范性的，将获取到的第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器中，通过该预置分类器中的激活函数对该第一梅尔语谱信息和第二梅尔语谱信息计算，得到对应的第一风格奖励参数，其中，该预置分类器为预先通过不同梅尔语谱信息进行训练得到的。例如，预训练一个风格分类器，该分类器以梅尔声谱图作为输入，叠加两层Conv2D和MaxPooling2D，最后接上两个全连接层输入风格分类的概率。其中，风格分类器结构为两层Cov2D和MaxPooling堆叠，然后接2层Dense层，最后一层神经元为1，激活函数为sigmoid。接收的输入为经过padding后的目标说话人梅尔声谱，形状为batch_size,、mel_frames、mel_dims、1，最后一维的1表示灰度图，图像只有一个channel。网络输出的概率小于0.5表示源说话人风格，大于等于0.5表示目标说话人风格。

通过将该第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器中，通过该预置分类器中的sigmoid激活函数计算出对应的概率，该概率即第一风格奖励参数R

步骤S104、通过所述第二梅尔语谱信息确定第一内容奖励参数。

示范性的，在获取到第二梅尔语谱信息时，确定该第二梅尔语谱信息的第一内容奖励参数R

步骤S105、根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数。

示范性的，在获取到第一风格奖励参数R

步骤S106、通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数。

示范性的，在获取到第一调和平均参数时，通过预置策略梯度算法对该第一调和平均参数进行计算，得到对应的第二更新参数。

步骤S107、通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

示范性的，在获取到第一更新参数和第二更新参数时，通过该第一更新参数和第一更新参数对预置模型的模型参数进行更新，生成的语音风格迁移模型。

在一实施例中，所述预置神经网络模型包括第一预置神经网络模型；所述通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，包括：通过所述第一更新参数和所述第二更新参数对所述第一预置神经网络模型的模型参数进行更新；确定所述第一预置神经网络模型是否处于收敛状态；若所述第一预置神经网络处于收敛状态，则将所述第一预置神经网络作为语音风格迁移模型。

示范性的，通过第一更新参数和第二更新参数对第一预置神经网络模型的模型参数进行更新，当对该第一预置神经网络模型进行更新后，检测更新后的第一预置神经网络模型，确定该第一预置神经网络模型是否处于收敛撞状态，若确定该第一预置神经网络模型处于收敛状态，则将该第一预置神经网络模型作为语音风格迁移模型。例如，确定该第一预置神经网模型的是否处于收敛状态包括获取当前第一预置神经网络模型的梯度值，将该梯度值与预置梯度值进行比对，若该梯度值小于或等于预置梯度值，则确定该第一预置神经网络模型处于收敛状态；若该梯度值大于预置梯度值，则确定第一预置神经网络模型不处于收敛状态。

在本申请实施例中，通过第一风格音频和第二风格音频训练预置神经网络模型，得到对应的第一更新参数，以及通过第一风格音频和第二风格音频得到第一风格奖励参数，通过第二风格音频确定第一内容奖励参数，通过第一风格奖励参数和第一内容奖励参数得到第二更新参数，并通过第一更新参数和第二更新参数对预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且针对分类器作进调整可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，仅需一条目标音频即可实现源音频到目标音频的转换，无需收集大量目标音频语料。

请参照图3，图3为本申请的实施例提供的另一种语音风格迁移模型的训练方法的流程示意图。

如图3所示，该语音风格迁移模型的训练方法包括步骤S201至步骤S207。

步骤S201、若所述第一预置神经网络模型不处于收敛状态，则获取第三风格音频对应的第三梅尔语谱信息。

示范性的，若确定该第一预置神经网络模型不处于收敛状态时，则获取第三风格音频对应的第三梅尔语谱信息。例如，在确定该第一预置神经网络模型f

步骤S202、通过所述第三风格音频对所述第一预置神经网络模型进行训练，得到对应的第三更新参数和第四梅尔语谱信息。

示范性的，该第一预置神经网络模型f

该第一预置神经网络模型f

步骤S203、将所述第三梅尔语谱信息和所述第四梅尔语谱信息输入所述预置分类器，得到对应第二风格奖励参数。

示范性的，将获取到的第三梅尔语谱信息和第四梅尔语谱信息输入到预置分类器中，通过该预置分类器中的激活函数对该第三梅尔语谱信息和第四梅尔语谱信息计算，得到对应的第二风格奖励参数，其中，该预置分类器为预先通过不同梅尔语谱信息进行训练得到的。例如，预训练一个风格分类器，该分类器以梅尔声谱图作为输入，叠加两层Conv2D和MaxPooling2D，最后接上两个全连接层输入风格分类的概率。其中，风格分类器结构为两层Cov2D和MaxPooling堆叠，然后接2层Dense层，最后一层神经元为1，激活函数为sigmoid。接收的输入为经过padding后的目标说话人梅尔声谱，形状为batch_size,、mel_frames、mel_dims、1，最后一维的1表示灰度图，图像只有一个channel。网络输出的概率小于0.5表示源说话人风格，大于等于0.5表示目标说话人风格。

通过将该第三梅尔语谱信息和第四梅尔语谱信息输入到预置分类器中，通过该预置分类器中的sigmoid激活函数计算出对应的概率，该概率即第二风格奖励参数R

步骤S204、根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数。

示范性的，该预置神经网络模型包括第二预置神经网络模型g

在一实施例中，具体地，参照图4，步骤S204包括：子步骤S2041至子步骤S2044。

子步骤S2041、通过所述第二编码器对所述第四梅尔语谱信息进行编码，得到对应的第二隐状态矩阵信息。

示范性的，该第二预置神经网络模型g

子步骤S2042、将所述隐状态矩阵信息输入所述第二解码器，获取对应的第二隐状态向量信息。

示范性的，该第二预置神经网络模型g

子步骤S2043、将所述第二隐状态向量信息输入所述第二全连接层，获取第五梅尔语谱信息。

示范性的，该第二预置神经网络模型g

子步骤S2044、计算所述第三梅尔语谱信息与所述第五梅尔语谱信息之间的相似度，将所述相似度作为第二内容奖励参数。

示范性的，在获取到第五梅尔语谱信息时，将获取到的第五梅尔语谱信息与第三梅尔语谱信息进行比对，确定该第三梅尔语谱信息与第五梅尔语谱信息之间的相似度。在得到第三梅尔语谱信息与第五梅尔语谱信息之间的相似度时，将该第三梅尔语谱信息与第五梅尔语谱信息之间的相似度作为第二内容奖励参数。

步骤S205、根据所述第二风格奖励参数和所述第二内容奖励参数，确定第二调和平均参数。

示范性的，在获取到第二风格奖励参数R

步骤S206、通过预置策略梯度算法对所述第二调和平均参数进行计算，获取第四更新参数。

示范性的，在获取到第二调和平均参数时，通过预置策略梯度算法对该第二调和平均参数进行计算，得到对应的第四更新参数。

步骤S207、通过所述第三更新参数和所述第四更新参数继续更新所述第一预置神经网络模型的模型参数，使所述第一预置神经网络模型处于收敛状态，并生成对应的语音风格迁移模型。

示范性的，在获取到第三更新参数和第四更新参数时，通过该第三更新参数和第四更新参数对第一预置模型的模型参数进行更新，使第一预置神经网络模型处于收敛状态，生成的语音风格迁移模型。

在本申请实施例中，在第一预置神经网络模型不处于收敛状态时，通过获取第三梅尔语谱信息训练第一预置神经网络模型，得到第三更新参数以及第四梅尔语谱信息，并通过第四梅尔语谱信息和第二预置神经网络模型，得到第二内容奖励参数，通过第三梅尔语谱信息和第四梅尔语谱信息，得到第二风格奖励参数，通过第二内容奖励参数和第二风格奖励参数，得到第四更新参数，通过第三更新参数和第四更新参数更新第一预置神经网络模型，以使第一预置神经网络模型处于收敛状态，生成的语音风格迁移模型，从而实现在模型没有处于收敛状态时，通过获取第三梅尔语谱信息以及第二预置神经网络模型，得到第三更新参数和第四更系参数，使模型达到收敛状态，提高语音风格迁移模型的准确率。

请参照图5，图5为本申请的实施例提供的另一种语音风格迁移模型的训练方法的流程示意图。

如图5所示，该语音风格迁移模型的训练方法包括步骤S301至步骤S302。

步骤S301、获取待风格迁移音频，并将所述待风格迁移音频转换为待风格迁移梅尔语谱信息；

示范性的，获取待风格迁移音频，并将待风格迁移音频转换为待风格迁移梅尔语谱信息，该转换的方式包括短时傅里叶变换。例如，通过短时傅里叶变换将待风格迁移音频转换为待风格迁移梅尔语谱信息。

步骤S302、将所述待风格迁移梅尔语谱信息输入所述语音风格迁移模型，获取所述语音风格迁移模型输出对应的风格迁移音频。

示范性的，将待风格迁移梅尔语谱信息输入语音风格迁移模型，通过该语音风格迁移模型中的编码器、解码器以及全连接层对该待风格迁移梅尔语谱信息进行处理，得到对应的风格迁移梅尔语谱信息，并输出该风格迁移梅尔语谱信息对应的风格迁移音频。

在本发明实施例中，通过生成的语音风格迁移模型，快速的将待风格迁移梅尔语谱信息变换为对应的风格迁移音频，实现音频到音频的风格迁移。

请参照图6，图6为本申请实施例提供的一种语音风格迁移模型的训练装置的示意性框图。

如图6所示，该语音风格迁移模型的训练装置400，包括：第一获取模块401、第二获取模块402、第三获取模块403、第一确定模块404、第二确定模块405、第四获取模块406、生成模块407。

第一获取模块401，用于将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；

第二获取模块402，用于基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

第三获取模块403，用于将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

第一确定模块404，用于通过所述第二梅尔语谱信息确定第一内容奖励参数；

第二确定模块405，用于根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

第四获取模块406，用于通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

生成模块407，用于通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

其中，第二获取模块402具体还用于：

将所述第一梅尔语谱信息和所述第二梅尔语谱信息分别输入所述第一预置神经网络模型；

通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数。

其中，第二获取模块402具体还用于：

通过所述第一编码器对所述第一梅尔语谱信息进行编码，得到对应的第一隐状态矩阵信息；

通过所述第一解码器对所述隐状态矩阵信息和所述第二梅尔语谱信息解码，获取对应的第一隐状态向量信息；

将所述第一隐状态向量信息输入所述第一全连接层，并通过所述第一全连接层中的激活函数，得到对应的第一更新参数。

其中，生成模块407具体还用于：

通过所述第一更新参数和所述第二更新参数对所述第一预置神经网络模型的模型参数进行更新；

确定所述第一预置神经网络模型是否处于收敛状态；

若所述第一预置神经网络处于收敛状态，则将所述第一预置神经网络作为语音风格迁移模型。

其中，语音风格迁移模型的训练装置还用于：

若所述第一预置神经网络模型不处于收敛状态，则获取第三风格音频对应的第三梅尔语谱信息；

通过所述第三风格音频对所述第一预置神经网络模型进行训练，得到对应的第三更新参数和第四梅尔语谱信息；

将所述第三梅尔语谱信息和所述第四梅尔语谱信息输入所述预置分类器，得到对应第二风格奖励参数；

根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数；

根据所述第二风格奖励参数和所述第二内容奖励参数，确定第二调和平均参数；

通过预置策略梯度算法对所述第二调和平均参数进行计算，获取第四更新参数；

通过所述第三更新参数和所述第四更新参数继续更新所述第一预置神经网络模型的模型参数，使所述第一预置神经网络模型处于收敛状态，并生成对应的语音风格迁移模型。

其中，语音风格迁移模型的训练装置还用于：

通过所述第二编码器对所述第四梅尔语谱信息进行编码，得到对应的第二隐状态矩阵信息；

将所述隐状态矩阵信息输入所述第二解码器，获取对应的第二隐状态向量信息；

将所述第二隐状态向量信息输入所述第二全连接层，获取第五梅尔语谱信息；

计算所述第三梅尔语谱信息与所述第五梅尔语谱信息之间的相似度，将所述相似度作为第二内容奖励参数。

其中，语音风格迁移模型的训练装置还用于：

获取待风格迁移音频，并将所述待风格迁移音频转换为待风格迁移梅尔语谱信息；

将所述待风格迁移梅尔语谱信息输入所述语音风格迁移模型，获取所述语音风格迁移模型输出对应的风格迁移音频。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述语音风格迁移模型的训练方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音风格迁移模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音风格迁移模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

通过所述第二梅尔语谱信息确定第一内容奖励参数；

根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

在一个实施例中，所述处理器所述预置神经网络模型包括第一预置神经网络模型；

所述基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数实现时，用于实现：

将所述第一梅尔语谱信息和所述第二梅尔语谱信息分别输入所述第一预置神经网络模型；

通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数。

在一个实施例中，所述处理器所述第一预置神经网络模型包括第一解码器、第一编码器和第一全连接层；

通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数实现时，用于实现：

通过所述第一编码器对所述第一梅尔语谱信息进行编码，得到对应的第一隐状态矩阵信息；

通过所述第一解码器对所述隐状态矩阵信息和所述第二梅尔语谱信息解码，获取对应的第一隐状态向量信息；

将所述第一隐状态向量信息输入所述第一全连接层，并通过所述第一全连接层中的激活函数，得到对应的第一更新参数。

在一个实施例中，所述处理器所述预置神经网络模型包括第一预置神经网络模型；

所述通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型实现时，用于实现：

通过所述第一更新参数和所述第二更新参数对所述第一预置神经网络模型的模型参数进行更新；

确定所述第一预置神经网络模型是否处于收敛状态；

若所述第一预置神经网络处于收敛状态，则将所述第一预置神经网络作为语音风格迁移模型。

在一个实施例中，所述处理器所述预置神经网络模型包括第二预置神经网路模型；

所述确定所述第一预置神经网络模型是否处于收敛状态之后实现时，用于实现：

若所述第一预置神经网络模型不处于收敛状态，则获取第三风格音频对应的第三梅尔语谱信息；

通过所述第三风格音频对所述第一预置神经网络模型进行训练，得到对应的第三更新参数和第四梅尔语谱信息；

将所述第三梅尔语谱信息和所述第四梅尔语谱信息输入所述预置分类器，得到对应第二风格奖励参数；

根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数；

根据所述第二风格奖励参数和所述第二内容奖励参数，确定第二调和平均参数；

通过预置策略梯度算法对所述第二调和平均参数进行计算，获取第四更新参数；

在一个实施例中，所述处理器所述第二预置神经网络模型包括第二解码器、第二编码器和第二全连接层；

根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数实现时，用于实现：

通过所述第二编码器对所述第四梅尔语谱信息进行编码，得到对应的第二隐状态矩阵信息；

将所述隐状态矩阵信息输入所述第二解码器，获取对应的第二隐状态向量信息；

将所述第二隐状态向量信息输入所述第二全连接层，获取第五梅尔语谱信息；

计算所述第三梅尔语谱信息与所述第五梅尔语谱信息之间的相似度，将所述相似度作为第二内容奖励参数。

在一个实施例中，所述处理器所述生成对应的语音风格迁移模型之后实现时，用于实现：

获取待风格迁移音频，并将所述待风格迁移音频转换为待风格迁移梅尔语谱信息；

将所述待风格迁移梅尔语谱信息输入所述语音风格迁移模型，获取所述语音风格迁移模型输出对应的风格迁移音频。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请语音风格迁移模型的训练方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是预置神经网络模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音风格迁移模型的训练方法、装置、设备及存储介质 [P] . 中国专利： CN112992177A . 2021-06-18
2. 一种图像风格迁移模型训练方法、装置及电子设备 [P] . 中国专利： CN113160042A . 2021-07-23
3. MICROPHONE, VOCAL TRAINING APPARATUS COMPRISING MICROPHONE AND VOCAL ANALYZER, VOCAL TRAINING METHOD, AND NON-TRANSITORY TANGIBLE COMPUTER-READABLE STORAGE MEDIUM [P] . 欧洲知识产权局专利： EP3619709A1 . 2020-03-11

机译：麦克风，包括麦克风和语音分析器的语音训练装置，语音训练方法以及非瞬态可识别的计算机可读存储介质
4. MICROPHONE, VOCAL TRAINING APPARATUS COMPRISING MICROPHONE AND VOCAL ANALYZER, VOCAL TRAINING METHOD, AND NON-TRANSITORY TANGIBLE COMPUTER-READABLE STORAGE MEDIUM [P] . 美国专利： US2019124441A1 . 2019-04-25

机译：麦克风，包括麦克风和语音分析器的语音训练装置，语音训练方法以及非瞬态可识别的计算机可读存储介质
5. MICROPHONE, VOCAL TRAINING APPARATUS COMPRISING MICROPHONE AND VOCAL ANALYZER, VOCAL TRAINING METHOD, AND NON-TRANSITORY TANGIBLE COMPUTER-READABLE STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2018201688A1 . 2018-11-08

机译：麦克风，包括麦克风和语音分析器的语音训练装置，语音训练方法以及非瞬态可识别的计算机可读存储介质