首页> 中国专利> 一种针对粤语的语音合成模型的训练方法及语音合成方法

一种针对粤语的语音合成模型的训练方法及语音合成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请公开了一种针对粤语的语音合成模型的训练方法及语音合成方法，涉及语音处理技术领域。该方法包括：获取目标语言类型对应的第一训练样本集；获取与目标语言类型相关联的第一初始网络，作为初始模型，第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，多种语言类型与所述目标语言类型相关联；将第一文本样本输入至初始模型，得到第一文本样本对应的合成语音；基于第一文本样本对应的合成语音和第一文本样本对应的目标语言类型的第一语音样本，对初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型。如此，减小了模型训练需要的训练样本，同时提高了模型训练的效率。

著录项

公开/公告号CN114944144A

专利类型发明专利
公开/公告日2022-08-26

原文格式PDF
申请/专利权人广东电力信息科技有限公司;
展开▼

申请/专利号CN202210322437.1
发明设计人陈颖璇;赖蔚蔚;吴广财;郑杰生;郑颖龙;周昉昉;林嘉鑫;黄宏恩;赵创业;张乐然;吴穹;
展开▼

申请日2022-03-29
分类号G10L13/02(2013.01);G10L13/08(2013.01);G10L13/06(2013.01);G10L25/30(2013.01);G10L25/24(2013.01);
代理机构深圳市智圈知识产权代理事务所(普通合伙) 44351;
代理人林炮勤
地址 510000 广东省广州市越秀区东风东路808号509房
入库时间 2023-06-19 16:31:45

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-13

实质审查的生效 IPC(主分类):G10L13/02 专利申请号:2022103224371 申请日:20220329

实质审查的生效

说明书

技术领域

本申请涉及语音处理技术领域，更具体地，涉及一种针对粤语的语音合成模型的训练方法及语音合成方法。

背景技术

语音合成，又称文语转换(text to speech,TTS)，是一种可以将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的相应语音的技术，是自然语言处理领域中一个重要的研究分支。

在相关技术中，一般利用大量的训练样本进行模型训练，以得到用于合成语音的语音合成模型。但是，针对一些地方性语言，如粤语、闽南语或一些少数民族所使用的语言，获取到的训练样本数量非常有限，如此，则会导致训练得到的针对该地方性语言的语音合成模型的合成效果差。

发明内容

有鉴于此，本申请提出了一种针对粤语的语音合成模型的训练方法及语音合成方法。

第一方面，本申请实施例提供了一种针对粤语的语音合成模型的训练方法，所述方法包括：获取目标语言类型对应的第一训练样本集，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应；获取与所述目标语言类型相关联的第一初始网络，作为初始模型，所述第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，所述多种语言类型与所述目标语言类型相关联；将所述第一文本样本输入至所述初始模型，得到所述第一文本样本对应的合成语音；基于所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本，对所述初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，所述语音合成模型用于合成待处理文本对应的所述目标语言类型的语音。

第二方面，本申请实施例提供了一种针对粤语的语音合成方法，所述方法包括：获取待处理文本；将所述待处理文本输入至预先训练的语音合成模型，得到所述待处理文本对应的目标语言类型的语音，所述预先训练的语音合成模型是利用所述目标语言类型对应的第一训练样本集，对初始模型进行迭代训练，直至满足第一预设条件后得到的，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应，所述初始模型是与所述目标语言类型相关联的第一初始网络，所述第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，所述多种语言类型与所述目标语言类型相关联。

本申请提供的方案中，获取目标语言类型对应的第一训练样本集，第一训练样本集包括第一文本样本集和第一语音样本集，第一语音样本集中的第一语音样本与述第一文本样本集中的第一文本样本一一对应；获取与目标语言类型相关联的第一初始网络，作为初始模型，第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，多种语言类型与目标语言类型相关联；将第一文本样本输入至所述初始模型，得到第一文本样本对应的合成语音；基于第一文本样本对应的合成语音和第一文本样本对应的目标语言类型的第一语音样本，对初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，语音合成模型用于合成待处理文本对应的目标语言类型的语音。如此，由于基于多种语言类型对应的第二训练样本集训练得到的第一初始网络具备更强的学习能力，因此，以第一初始网络作为初始模型进行语音合成模型的训练，大大减少了模型的训练时间，提高了模型训练的效率；并且，可以实现在较少数量的第一训练样本上，也能训练出性能较好的语音合成模型，以及，在少量的第一训练样本上进行模型的优化，大大减少了模型过度拟合的可能性，从而提升最后利用训练得到的语音合成模型合成语音的自然度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的针对粤语的语音合成模型的训练方法的应用场景的示意图。

图2示出了本申请一实施例提供的针对粤语的语音合成模型的训练方法的流程示意图。

图3示出了图2中步骤S240在一种实施方式中的子步骤流程示意图。

图4示出了本申请另一实施例提供的针对粤语的语音合成模型的训练方法的流程示意图。

图5示出了图4中步骤S340在一种实施方式中的子步骤流程示意图。

图6示出了图5中步骤S343在一种实施方式中的子步骤流程示意图。

图7示出了本申请又一实施例提供的针对粤语的语音合成模型的训练方法的流程示意图。

图8示出了本申请一实施例提供的针对粤语的语音合成方法的流程示意图。

图9是根据本申请一实施例提供的针对粤语的语音合成模型的训练装置的框图。

图10是根据本申请一实施例提供的针对粤语的语音合成装置的框图。

图11是本申请实施例的用于执行根据本申请实施例的针对粤语的语音合成模型的训练方法的计算机设备的框图。

图12是本申请实施例的用于保存或者携带实现根据本申请实施例的针对粤语的语音合成模型的训练方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

针对上述问题，发明人提出一种针对粤语的语音合成模型的训练方法及语音合成方法，将第一文本样本输入至与目标语言类型相关联的，且基于多种语言类型对应的第二训练样本集训练得到第一初始网络中进行迭代训练，得到目标语言类型的语音合成模型。

请参阅图1，图1为本申请一实施例提供的一种针对粤语的语音合成模型的训练方法的应用场景的示意图，该应用场景包括针对粤语的语音合成模型的训练系统10。其中，针对粤语的语音合成模型的训练系统10包括计算机设备110和第一训练样本集120，该计算机设备110可以是具有数据处理功能的电子终端，该电子终端包括但不限于智能手机、平板电脑以及笔记本电脑等；当然，该计算机设备110也可以是服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。第一训练样本集120包括第一文本样本集121和第一语音样本集122，第一语音样本集122中的第一语音样本与第一文本样本集121中的第一文本样本一一对应，可以理解地，第一训练样本集120可以是计算机设备110从本地数据库中直接获取预存的训练样本，也可以从通过有线或无线网络从网络数据库中下载所需的训练样本，当然，其他方式的训练样本获取方式也在本申请的保护范围内，在此不再具体进行限定。

在一些实施方式中，计算机设备110获取目标语言类型对应的第一训练样本集120；获取与目标语言类型相关联的第一初始网络，作为初始模型，该第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，多种语言类型与目标语言类型相关联；计算机设备110再将第一文本样本121输入至所述初始模型，得到所述第一文本样本121对应的合成语音；基于所述第一文本样本121对应的合成语音和所述第一文本样本121对应的目标语言类型的第一语音样本122，对所述初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，所述语音合成模型用于合成待处理文本对应的所述目标语言类型的语音。

请参照图2，图2为本申请一实施例提供的一种针对粤语的语音合成模型的训练方法的流程示意图。下面将结合图2对本申请实施例提供的针对粤语的语音合成模型的训练方法进行详细阐述。该针对粤语的语音合成模型的训练方法可以包括以下步骤：

步骤S210：获取目标语言类型对应的第一训练样本集，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应。

在本实施例中，目标语言类型为粤语，当然也可以是任何国家的任一种语言，包括但不限于汉语普通话、客家方言、闽南方言、上海方言、四川方言、东北方言、英式英语、美式英语、日语、韩语等。可以理解地，目标语言类型可以是根据实际需求确定得到，例如，若希望训练出用于合成粤语的语音合成模型，则将粤语作为上述目标语言类型；若希望训练出用于合成四川话的语音合成模型，则将四川方言作为上述目标语言类型，本实施例对此不作限制。

可选地，在确定出目标语言类型之后，则进一步获取目标语言类型对应的第一训练样本集，该第一训练样本集中包括第一文本样本集和第一语音样本集，第一语音样本集中的第一语音样本与第一文本样本集中的第一文本样本一一对应。例如，目标语言类型为粤语，若第一语音样本集中包括“您好”的粤语第一语音样本，则第一文本样本集中也包括有与其对应的“您好”的第一文本样本。

步骤S220：获取与所述目标语言类型相关联的第一初始网络，作为初始模型，所述第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，所述多种语言类型与所述目标语言类型相关联。

在本实施例中，第一初始网络是可以是神经网络，包括不限于深度神经网络(DeepNeural Networks，DNN)、前馈神经网络(feedforward neural network，FF)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、深度残差网络(Deep Residual Network，DRN)等神经网络。可以理解地，若直接以未被训练过的神经网络，作为训练语音合成模型的初始模型，由于未被训练过的神经网络的初始模型参数是人为设置或随机分配的，该初始模型参数是否合适并不确定，当人为设置或随机分配的初始模型参数与理想的模型参数差距较大时，则会导致利用第一训练样本集对初始模型训练的时间过长，浪费大量的计算资源，耗时耗力；同时也会需要大量的第一训练样本对初始模型进行训练调参，若无法获取到足够多的目标语言类型的第一训练样本，则会导致训练得到的语音合成模型的语音合成不自然，即语音合成效果很差。

基于此，可以将预先进行了参数初始化的神经网络，作为用于训练的语音合成模型的初始模型，可以理解地，预先进行了参数初始化的神经网络相当于被赋予有更多的先验知识，类比我们人类，让一个小学没毕业的人去听高等数学，显然他是无法听懂的；而让一个高考数学满分的高中毕业生去听，他可能要学得轻松得多。其原因就是因为两者积累的知识量不同，前者积累的知识少，后者积累的知识更多，因此，后者学习并未学习过的知识可以更快。同理，预先进行了参数初始化的神经网络比人为设置或随机分配的神经网络具备更强的学习能力，如此，在预先进行了参数初始化的神经网络训练语音合成模型的时间更短，同时所使用的第一训练样本的数量也更少，即在更少的第一训练样本上进行训练后，即可得到很好性能的语音合成模型。

因此，可以获取基于多种语言类型对应的第二训练样本集训练得到的第一初始网络，作为初始模型。可见，第一初始网络是先通过其他任务训练出的一个具备较好的模型参数的网络，即第一初始网络是先通过训练可以合成多种语言类型中任一语言类型的语音的网络，针对语音合成功能该网络已经具备较好的模型参数，基于此，选择该第一初始网络作为初始模型，来训练目标语言类型的语音合成模型耗时更短，同时训练得到的语音合成模型的语音合成效果也更好。并且，前述多种语言类型是与目标语言类型相关联的语言类型，例如，目标语言类型为“粤语”，多种语言类型可以包括“粤语”、“广西地区的方言”、“香港地区的方言”等，即与目标语言类型的语音发音相似的语言类型。如此，可以使得第一初始网络具备有更为贴近用于合成目标语言类型的语音的模型参数，进一步提高了后续基于第一初始网络进行目标语言类型的语音合成模型的训练速度；同时，也可以使用更少的目标语言类型的第一训练样本进行训练，并且能保证训练得到的语音合成模型仍具备较好的语音合成效果。

在一些实施方式中，计算机设备可以预先训练多种第一初始网络，并将多种预先训练的第一初始网络进行存储，不同的第一初始网络可以作为不同语言类型的语音合成模型的初始模型。在计算机设备需要训练目标语言类型的语音合成模型时，再从多种预先训练的第一初始网络中，获取与目标语言类型相关联的预先训练的第一初始网络，作为初始模型。如此，可以提高对目标语言类型的语音合成模型的训练效率，同时也实现了多种第一初始网络的复用，避免了每次需要训练不同语言类型的语音合成模型时，均需要对与该语言类型相关联的第一初始网络进行训练，节省了计算机设备的计算资源。

在另一些实施方式中，计算机设备可以是在确定需要训练目标语言类型的语音合成模型时，再获取与目标语言类型相关联的多种语言类型的第二训练样本集，再基于多种语言类型的第二训练样本集训练第一初始网络；并将训练后的第一初始网络，作为初始模型。可以理解地，第一初始网络除了与目标语言类型相关联，还与多种语言类型中的每种语言类型相关联。因此，可以将训练后的第一初始网络进行存储，可以存储于计算机设备中，也可以为节省计算机设备中的存储资源，将其上传至云服务器中进行存储。如此，将训练后的第一初始网络进行存储，以便后续对多种语言类型中的语言类型的语音合成模型进行训练时，可以直接调用存储的第一初始网络，无需重新训练，极大提高了语音合成模型的训练效率，同时也节省了计算机设备的计算资源，降低了计算成本。

步骤S230：将所述第一文本样本输入至所述初始模型，得到所述第一文本样本对应的合成语音。

在获取到初始模型后，将第一文本样本输入至初始模型，由初始模型文本转化成音素序列，并标出每个音素的起止时间、频率变化等信息，再根据音素序列(以及标注好的起止时间、频率变化等信息)生成第一文本样本对应的合成语音。其中，生成语音的方法包括但不限于拼接法、参数法和声道模拟法。

步骤S240：基于所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本，对所述初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，所述语音合成模型用于合成待处理文本对应的所述目标语言类型的语音。

在一些实施方式中，请参阅图3，步骤S240可以包括以下步骤：

步骤S241：根据所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本的差异，确定第二损失值。

在本实施例中，可以通过损失函数来计算合成语音与第一文本样本对应的目标语言类型的第一语音样本之间的差异，得到第二损失值。其中，损失函数可以是均方误差损失函数，当然也可以是其他的损失函数，本实施例对此不作限制。以损失函数为均方误差损失函数为例，由于均方误差损失函数是用于计算估计量与被估计量之间差异程度的度量，因此可以利用均方误差损失函数用于计算合成语音的语音特征与第一文本样本对应的目标语言类型的第一语音样本的语音特征质检的差异程度，得到第二损失值。可以理解地，第二损失值越小，表征合成语音与对应的第一语音样本的差异越小，即合成语音越贴近真实的目标语言类型的语音，语音合成的自然度更高。

步骤S242：根据所述第二损失值，对所述初始模型进行迭代训练，直至所满足所述第一预设条件，得到训练后的语音合成模型。

基于此，在得到用于表征合成语音与对应的第一语音样本的差异的第二损失值后，则可以根据该第二损失值，对初始模型进行迭代训练，直至满足第一预设条件后，得到训练后的初始模型，作为上述语音合成模型。

其中，第一预设条件可以为：第二损失值小于预设值、第二损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据第一训练样本集对初始模型进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对初始模型中的参数进行优化，使得上述第二损失值越来越小，最后变小为一个固定值，或者小于预设值，此时，则表示初始模型已收敛；当然也可以是在训练次数达到预设次数后，确定初始模型已经收敛，此时，则可以将初始模型，作为上述语音合成模型。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整。对初始模型中的参数进行优化可以通过梯度下降的方式进行优化，例如，批量梯度下降法、随机梯度下降法或小批量梯度下降法，当然，也可以使用牛顿法、拟牛顿法、DFP(Davidon-Fletcher-Powell algorithm)算法、或改进的迭代尺度法等优化算法对初始模型中的参数进行优化，本实施例对此不作限制。

进一步地，训练得到的语音合成模型可以用于合成待处理文本对应的目标语言类型的语音，其中，语音合成模型可以应用于多种应用场景中。例如，在阅读听书领域，可以将书本中的文本信息作为前述待处理文本，再利用语音合成模型将待处理文本合成对应的目标语言类型的语音，能够为用户提供个性化的朗读功能，释放用户的双手和双眼，提供更极致的阅读体验。又例如，在订单播报场景(打车、餐饮叫号或排队叫号)，将订单播报的文本信息作为前述待处理文本，利用语音合成模型将待处理文本合成对应的目标语言类型的语音，实现语音订单播报，让用户可以更便捷地获取到播报通知的信息。

在本实施例中，获取与目标语言类型相关联的预先进行了参数初始化的第一初始网络，作为初始模型，再利用第一训练样本集对该初始模型进行训练，得到训练后的语音合成模型。如此，由于预先进行了参数初始化的第一初始网络具备更强的学习能力，因此，以第一初始网络作为初始模型进行语音合成模型的训练，大大减少了模型的训练时间，提高了模型训练的效率；并且，可以实现在较少数量的第一训练样本上，也能训练出性能较好的语音合成模型，以及，在少量的第一训练样本上进行模型的优化，大大减少了模型过度拟合的可能性，从而提升最后利用训练得到的语音合成模型合成语音的自然度。

请参照图4，图4为本申请另一实施例提供的一种针对粤语的语音合成模型的训练方法的流程示意图。下面将结合图4对本申请实施例提供的针对粤语的语音合成模型的训练方法进行详细阐述。该针对粤语的语音合成模型的训练方法可以包括以下步骤：

步骤S310：获取目标语言类型对应的第一训练样本集，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应。

在本实施例中，步骤S310的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S320：获取所述多种语言类型中每种语言类型对应的第二训练样本集，所述第二训练样本集包括第二文本训练样本集和第二语音训练样本，所述第二语音训练样本集中的第二语音训练样本与所述第二文本训练样本集中的第二文本训练样本一一对应。

在本实施例中，多种语言类型与是与目标语言类型相关联的语言类型，即与目标语言类型的语音发音相似的语言类型。在确定需要训练目标语言类型的语音合成模型后，即可获取与其相关联的多种语言类型中每种语言类型对应的第二训练样本集。以便计算机设备利用每种语言类型对应的第二训练样本集，预先对网络进行初始化，提高网络在面对不同任务时的泛化能力，即提高网络对合成不同语言类型的语音合成能力。

步骤S330：分别将每种语言类型的第二文本训练样本输入至所述每种语言类型对应的第二初始网络，得到所述第二文本训练样本对应的所述每种语言类型的合成语音。

在本实施例中，生成第二文本训练样本对应的每种语言类型的合成语音的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

其中，第二初始网络可以是未被训练过的神经网络，将每种语言类型的第二文本训练样本分别输入至每种语言类型对应的第二初始网络，得到第二文本训练样本对应的每种语言类型的合成语音，如此，便于计算机设备可以基于每种语言类型的合成语音对每种语言类型的第二初始网络的参数进行优化。

例如，若多种语言类型的种类数量为3种，即包括语言类型1、语言类型2和语言类型3，输入第二文本训练样本，语言类型1对应的第二初始网络可以输出第二文本训练样本对应的语言类型1的合成语音，语言类型2对应的第二初始网络可以输出第二文本训练样本对应的语言类型2的合成语音，语言类型3对应的第二初始网络可以输出第二文本训练样本对应的语言类型3的合成语音。如此，可以根据3种语言类型的合成语音，分别对每种语言类型的第二初始网络的参数进行优化。

步骤S340：基于所述第二文本训练样本对应的所述每种语言类型的合成语音和所述第二文本训练样本对应的所述每种语言类型的第二语音训练样本，对所述每种语言类型对应的第二初始网络进行迭代训练，直至满足第二预设条件，得到所述每种语言类型对应的训练后的第二初始网络，作为所述每种语言类型对应的所述第一初始网络。

在一些实施方式中，所述第二训练样本集还包括第二文本测试样本集和第二语音测试样本集，所述第二语音测试样本集中的第二语音测试样本与所述第二文本测试样本集中的第二文本测试样本一一对应，请参阅图5，步骤S340可以包括以下步骤：

步骤S341：基于所述第二文本训练样本对应的所述每种语言类型的合成语音和所述第二文本训练样本对应的所述每种语言类型的第二语音训练样本，对所述每种语言类型对应的第二初始网络进行迭代训练，直至满足第三预设条件，得到每种语言类型对应的训练后的第二初始网络，作为所述每种语言类型对应的第三初始网络。

在一些实施方式中，根据第二文本训练样本对应的每种语言类型的合成语音和第二文本训练样本对应的每种语言类型的第二语音训练样本之间的差异，确定出每种语言类型对应的第二初始网络的第三损失值；根据每种语言类型对应的第二初始网络的第三损失值，对每种语言类型对应的第二初始网络进行迭代训练，直至满足第三预设条件，得到每种语言类型对应的训练后的第二初始网络，作为每种语言类型对应的第三初始网络。

其中，第三预设条件可以为：第三损失值小于预设值、第三损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据每种语言类型对应的第二文本训练样本对每种语言类型对应的第二初始网络进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对初始模型中的参数进行优化，使得上述第三损失值越来越小，最后变小为一个固定值，或者小于预设值，此时，则表示初始模型已收敛；当然也可以是在训练次数达到预设次数后，确定第二初始网络已经收敛，此时，则可以将第二初始网络，作为第三初始网络。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整。对每种语言类型对应的第二初始网络中的参数进行优化可以通过梯度下降的方式进行优化，例如，批量梯度下降法、随机梯度下降法或小批量梯度下降法，当然，也可以使用牛顿法、拟牛顿法、DFP算法、或改进的迭代尺度法等优化算法对每种语言类型对应的第二初始网络中的参数进行优化，本实施例对此不作限制。

示例性地，仍以多种语言类型包括语言类型1、语言类型2和语言类型3为例，基于第二文本训练样本对应的语言类型1的合成语音和第二文本训练样本对应的语言类型1的第二语音训练样本，对语言类型1对应的第二初始网络进行迭代训练，直至满足第三预设条件，得到语言类型1对应的训练后的第二初始网络，作为语言类型1对应的第三初始网络。同理，可以训练得到语言类型2对应的第三初始网络和语言类型3对应的第三初始网络。可以理解地，此时，语言类型1对应的第三初始网络对于将文本合成为语言类型1的语音的效果较好，语言类型2对应的第三初始网络对于将文本合成为语言类型2的语音的效果较好，语言类型3对应的第三初始网络对于将文本合成为语言类型3的语音的效果较好。可见，实现了分别对第二初始网络在面对不同任务的参数的优化。

步骤S342：分别将每种语言类型的第二文本测试样本输入至所述每种语言类型对应的第三初始网络，得到所述第二文本测试样本对应的所述每种语言类型的合成语音。

步骤S343：基于所述第二文本测试样本对应的所述每种语言类型的合成语音和所述第二文本测试样本对应的所述每种语言类型的第二语音测试样本，对所述每种语言类型对应的第三初始网络进行迭代训练，直至满足所述第二预设条件，得到每种语言类型对应的训练后的第三初始网络，作为所述每种语言类型对应的所述第一初始网络。

可以理解地，在训练得到针对每种语言类型的语音合成效果较好的第三初始网络后，不同语言类型的第三初始网络用于合成多种语言类型中的其他语言类型的语音的效果可能并不好，因此，可以利用第二文本测试样本集和第二语音测试样本集，再次对每种语言类型的第三初始网络同时进行参数优化，以得到获取到针对多种语言类型中每种语言类型均较好的参数，即具备该较好的参数的网络用语合成每种语言类型的语音的效果均较好。

具体地，分别将每种语言类型的第二文本测试样本输入至每种语言类型对应的第三初始网络，得到第二文本测试样本对应的每种语言类型的合成语音；再基于第二文本测试样本对应的每种语言类型的合成语音和第二文本测试样本对应的每种语言类型的第二语音测试样本，对每种语言类型对应的第三初始网络进行迭代训练，直至满足第二预设条件，得到每种语言类型对应的训练后的第三初始网络，作为每种语言类型对应的第一初始网络。

在一些实施方式中，请参阅图6，步骤S343可以包括以下步骤：

步骤S3431：基于所述第二文本测试样本对应的所述每种语言类型的合成语音和所述第二文本测试样本对应的所述每种语言类型的第二语音测试样本，获取总损失值。

具体地，根据第二文本测试样本对应的每种语言类型的合成语音和第二文本测试样本对应的所述每种语言类型的第二语音测试样本之间的差异，确定与每种语言类型的第三初始网络对应的损失值，得到多个第一损失值；获取多个第一损失值的和值，作为上述总损失值。

步骤S3432：根据所述总损失值，对所述每种语言类型对应的第三初始网络进行迭代训练，直至满足所述第二预设条件，得到每种语言类型对应的训练后的第三初始网络，作为所述每种语言类型对应的所述第一初始网络。

其中，第二预设条件可以为：总损失值小于预设值、总损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据每种语言类型对应的第二文本训练样本对每种语言类型对应的第三初始网络进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对每种语言类型对应的第三初始网络中的参数进行优化，使得上述总损失值越来越小，最后变小为一个固定值，或者小于预设值，此时，则表示每种语言类型对应的第三初始网络均已收敛；当然也可以是在训练次数达到预设次数后，确定每种语言类型对应的第三初始网络均已经收敛，此时，则可以将每种语言类型对应的训练后的第三初始网络，作为每种语言类型对应的第一初始网络。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整。对每种语言类型对应的第三初始网络中的参数进行优化可以通过梯度下降的方式进行优化，例如，批量梯度下降法、随机梯度下降法或小批量梯度下降法，当然，也可以使用牛顿法、拟牛顿法、DFP算法、或改进的迭代尺度法等优化算法对每种语言类型对应的第三初始网络中的参数进行优化，本实施例对此不作限制。

可以理解地，步骤S320至步骤S340的内容相当于元学习的学习过程，具体地，以task(任务)为基本单位，每个task都有自己独立的损失函数，训练时，首先使用训练集(Support set)对每个task进行模型训练，分别利用自己独立的损失函数计算损失值，对每个task的损失值独立对其对应的模型参数进行迭代优化，得到针对每个task的模型；再使用测试集(Query set)对每个task优化后的模型进行性能测试，即二次模型训练，根据所有task的损失值之和，统一对所有task的模型参数进行优化，以获取到针对每个task均较好的模型参数，最终得到一个具备较好模型参数的模型，该模型对每个task任务都有较好的执行能力。如此，提升模型整体的学习能力，而不是解决某个具体问题的能力，训练时，不停地在不同的任务上切换，从而达到优化网络参数的目的，最终得到的模型，面对新的任务时可以学习得更快。即上述第一初始网络在面对任何新的语言类型的语音合成模型的训练任务时，均能以较快的速度完成训练。

步骤S350：将所述多种语言类型中任一语言类型对应的所述第一初始网络，作为所述初始模型。

基于此，在获取到每种语言类型对应的第一初始网络之后，由于此时每种语言类型对应的第一初始网络的网络结构和参数均是相同的，因此，可以将多种语言类型中任一语言类型对应的第一初始网络，作为初始模型。

步骤S360：将所述第一文本样本输入至所述初始模型，得到所述第一文本样本对应的合成语音。

步骤S370：基于所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本，对所述初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，所述语音合成模型用于合成待处理文本对应的所述目标语言类型的语音。

在本实施例中，步骤S360至步骤S370的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，首先通过第二文本训练样本集以及第二语音训练样本集对每种语言类型的网络进行独立参数优化，得到优化后的每种语言类型对应的第二初始网络，作为每种语言类型对应的第三初始网络；再基于第二文本测试样本集和第二语音测试样本集，对所有第三初始网络进行联合参数优化，得到优化后的第三初始网络，作为初始模型。如此，使得初始模型可以利用以往的知识经验来指导新任务的学习，使初始网络具备更强的学习能力，从而在少量样本数据上训练后就能有很好的性能，即通过初始模型训练得到的语音合成模型的语音合成效果较好，也大大减少了模型的训练时间，提高了模型训练的效率；并且，可以实现在较少数量的第一训练样本上，也能训练出性能较好的语音合成模型，以及，在少量的第一训练样本上进行模型的优化，大大减少了模型过度拟合的可能性，从而提升最后利用训练得到的语音合成模型合成语音的自然度。

请参照图7，图7为本申请又一实施例提供的一种针对粤语的语音合成模型的训练方法的流程示意图。下面将结合图7对本申请实施例提供的针对粤语的语音合成模型的训练方法进行详细阐述。该针对粤语的语音合成模型的训练方法可以包括以下步骤：

步骤S401：获取目标语言类型对应的第一训练样本集，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应。

在本实施例中，步骤S401的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S402：获取预设文本在多种预设语言类型中每种预设语言类型下的预设语音。

步骤S403：提取每种预设语言类型下的预设语音的语音特征，得到与每种预设语言类型对应的预设语音特征。

在本实施例中，计算机设备可以预先存储有多种预设语言类型、预设文本以及预设文本在每种预设语言类型下的预设语音。基于此，计算机设备在确定目标语言类型后，可以从多种预设语言类型中筛选出与目标语言类型相关联的多种预设语言类型。

在一些实施方式中，可以获取每种预设语言类型下的预设语音，并提取每种预设语言类型下的预设语音的语音特征，得到与每种预设语言类型对应的预设语音特征。

其中，可以通过特征提取算法进行语音特征的提取，特征提取算法宝库但不限于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)算法、滤波器组(Filterbank，FBANK)算法、横Q变换(constant-Q transform，CQT)算法、线性预测倒谱系数(LinearPredic TIve Cepstral Coefficient，LPCC)算法、感知线性预测系数(Perceptual LinearPredicTIve，PLP)算法、线性预测分析(Linear Prediction Coefficients，LPC)算法等，对应得上述语音特征可以是MFCC特征、FBANK特征、CQT特征、LPCC特征、PLP特征或LPC特征。当然，也可以通过预先训练的特征提取网络对预设语音进行语音特征的提取，本实施例对此不作限制。

步骤S404：获取所述预设文本在所述目标语言类型下的目标语音。

步骤S405：提取所述目标语音的语音特征，作为与所述目标语言类型对应的目标语音特征。

进一步地，计算机设备可以获取预设文本在目标语言类型下的目标语音，并提取目标语音的语音特征，作为与目标语言类型对应的目标语音特征。如此，则可以以目标语音特征与预设语音特征为筛选依据，从多种预设语言类型中筛选出与目标语言类型相关联的多种预设语言类型。

步骤S406：获取与所述目标语音特征的相似度达到预设相似度阈值的预设语音特征所对应的预设语言类型，作为所述多种语言类型。

在一些实施方式中，可以获取目标语音特征与每种预设语言类型对应的预设语音特征之间的相似度，得到多个目标相似度；获取目标相似度达到预设相似度阈值的预设语音特征所对应的预设语言类型，作为多种语言类型。如此，以语音特征为筛选依据，可以获取到与目标语言类型发音更为相似的多种语言类型，进而使得训练得到的第一初始网络具备有更为贴近用于合成目标语言类型的语音的模型参数，即有更好地学习目标语言类型的语音合成的能力。

步骤S407：获取所述多种语言类型中每种语言类型对应的第二训练样本集，所述第二训练样本集包括第二文本训练样本集和第二语音训练样本，所述第二语音训练样本集中的第二语音训练样本与所述第二文本训练样本集中的第二文本训练样本一一对应。

步骤S408：分别将每种语言类型的第二文本训练样本输入至所述每种语言类型对应的第二初始网络，得到所述第二文本训练样本对应的所述每种语言类型的合成语音。

步骤S409：基于所述第二文本训练样本对应的所述每种语言类型的合成语音和所述第二文本训练样本对应的所述每种语言类型的第二语音训练样本，对所述每种语言类型对应的第二初始网络进行迭代训练，直至满足第二预设条件，得到所述每种语言类型对应的训练后的第二初始网络，作为所述每种语言类型对应的所述第一初始网络。

步骤S410：将所述多种语言类型中任一语言类型对应的所述第一初始网络，作为所述初始模型。

步骤S411：将所述第一文本样本输入至所述初始模型，得到所述第一文本样本对应的合成语音。

步骤S412：基于所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本，对所述初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，所述语音合成模型用于合成待处理文本对应的所述目标语言类型的语音。

在本实施例中，步骤S407至步骤S412的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，以语音特征为筛选依据，可以获取到与目标语言类型发音更为相似的多种语言类型，进而使得训练得到的第一初始网络具备有更为贴近用于合成目标语言类型的语音的模型参数，即有更好地学习目标语言类型的语音合成的能力；进一步提高了后续基于第一初始网络进行目标语言类型的语音合成模型的训练速度；同时，也可以使用更少的目标语言类型的第一训练样本进行训练，并且能保证训练得到的语音合成模型仍具备较好的语音合成效果。

请参照图8，图8为本申请一实施例提供的针对粤语的语音合成方法的流程示意图。下面将结合图8对本申请实施例提供的针对粤语的语音合成方法进行详细阐述。该针对粤语的语音合成方法可以包括以下步骤：

步骤S510：获取待处理文本。

在本实施例中，待处理文本是指以文本形式呈现且包含内容信息的数据。该待处理文本可以是用户输入至计算机设备中，希望进行对其进行语音合成的文本，也可以是计算机设备从预先存储的播报文本中获取到的需要进行语音合成的播报文本，还可以是计算机设备针对用户输入的文本生成的回复文本，还可以是计算机设备将与目标语言类型不同的待转换语音进行文本转换得到的文本，本实施例对此不作限制。

步骤S520：将所述待处理文本输入至预先训练的语音合成模型，得到所述待处理文本对应的目标语言类型的合成语音，所述预先训练的语音合成模型是利用所述目标语言类型对应的第一训练样本集，对初始模型进行迭代训练，直至满足第一预设条件后得到的，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应，所述初始模型是与所述目标语言类型相关联的第一初始网络，所述第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，所述多种语言类型与所述目标语言类型相关联。

基于此，在获取到待处理文本之后，可以先将待处理文本转换为音素序列，再将音素序列输入至预先训练的语音合成模型，得到所述待处理文本对应的目标语言类型的合成语音。其中，目标语言类型为粤语，当然，也可以是任何国家的任一种语言，包括但不限于汉语普通话、客家方言、闽南方言、上海方言、四川方言、东北方言、英式英语、美式英语、日语、韩语等。

示例性地，待处理文本为“您好，订单已完成，请取餐”，计算机设备可以通过查询音素表后，可将该待处理文本转换成10个音素序列：{n,i,n}、{h,a,o}、{d,i,n,g}、{d,a,n}、{y,i}、{w,a,n}、{c,h,e,n,g}、{q,i,n,g}、{q,u}、{c,a,n}，待处理文本中的每个词语对应一个音素序列，将上述10个音素序列输入至语音合成模型中，即可合成与待处理文本对应的目标语言类型的合成语音。

在一些实施方式中，语音合成模型对音素序列进行语音合成处理得到待处理文本对应的梅尔频谱，该梅尔频谱中包含有待处理文本中每个词语对应的音频特征，再对梅尔频谱进行傅里叶变换处理得到待处理文本对应的目标语言类型的合成语音。可选地，为使最后得到的合成语音能更加真实，可基于预设信噪比计算得到背景噪声数据，并将背景噪声数据添加到待处理文本对应的合成语音中，也即可得到能具有真实背景环境的语音，且该语音中还包括呼吸声，更能体现语音的真实感。

在本实施例中，由于预先进行了参数初始化的第一初始网络具备更强的学习能力，在较少数量的第一训练样本上，也能训练出性能较好的语音合成模型，进而大大提高了基于训练得到的语音合成模型合成语音的自然度。

请参照图9，其中示出了本申请一实施例提供的一种针对粤语的语音合成模型的训练装置600的结构框图。该装置600可以包括：样本获取模块610、初始模型获取模块620、语音合成模块630和模型训练模块640。

样本获取模块610用于获取目标语言类型对应的第一训练样本集，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应。

初始模型获取模块620用于获取与所述目标语言类型相关联的第一初始网络，作为初始模型，所述第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，所述多种语言类型与所述目标语言类型相关联。

语音合成模块630用于将所述第一文本样本输入至所述初始模型，得到所述第一文本样本对应的合成语音。

模型训练模块640用于基于所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本，对所述初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，所述语音合成模型用于合成待处理文本对应的所述目标语言类型的语音。

在一些实施方式中，初始模型获取模块620可以包括：第二样本获取单元、第二语音合成单元、第一初始网络获取单元以及初始模型获取单元。其中，第二样本获取单元可以用于获取所述多种语言类型中每种语言类型对应的第二训练样本集，所述第二训练样本集包括第二文本训练样本集和第二语音训练样本，所述第二语音训练样本集中的第二语音训练样本与所述第二文本训练样本集中的第二文本训练样本一一对应。第二语音合成单元可以用于分别将每种语言类型的第二文本训练样本输入至所述每种语言类型对应的第二初始网络，得到所述第二文本训练样本对应的所述每种语言类型的合成语音。第一初始网络获取单元可以用于基于所述第二文本训练样本对应的所述每种语言类型的合成语音和所述第二文本训练样本对应的所述每种语言类型的第二语音训练样本，对所述每种语言类型对应的第二初始网络进行迭代训练，直至满足第二预设条件，得到所述每种语言类型对应的训练后的第二初始网络，作为所述每种语言类型对应的所述第一初始网络。初始模型获取单元可以用于将所述多种语言类型中任一语言类型对应的所述第一初始网络，作为所述初始模型。

在该方式下，初始模型获取模块620还可以包括：预设语音获取单元、预设语音特征获取单元、目标语音获取单元、目标语音特征获取单元以及语言类型确定单元。其中，预设语音获取单元可以用于在所述获取所述多种语言类型中每种语言类型对应的第二训练样本集之前，获取预设文本在多种预设语言类型中每种预设语言类型下的预设语音。预设语音特征获取单元可以用于提取每种预设语言类型下的预设语音的语音特征，得到与每种预设语言类型对应的预设语音特征。目标语音获取单元可以用于获取所述预设文本在所述目标语言类型下的目标语音。目标语音特征获取单元可以用于提取所述目标语音的语音特征，作为与所述目标语言类型对应的目标语音特征。语言类型确定单元可以用于获取与所述目标语音特征的相似度达到预设相似度阈值的预设语音特征所对应的预设语言类型，作为所述多种语言类型。

在一些实施方式中，所述第二训练样本集还包括第二文本测试样本集和第二语音测试样本集，所述第二语音测试样本集中的第二语音测试样本与所述第二文本测试样本集中的第二文本测试样本一一对应；第一初始网络获取单元可以包括：第三网络获取子单元、第三语音合成子单元以及第一网络获取子单元。其中，第三网络获取子单元可以用于基于所述第二文本训练样本对应的所述每种语言类型的合成语音和所述第二文本训练样本对应的所述每种语言类型的第二语音训练样本，对所述每种语言类型对应的第二初始网络进行迭代训练，直至满足第三预设条件，得到每种语言类型对应的训练后的第二初始网络，作为所述每种语言类型对应的第三初始网络。第三语音合成子单元可以用于分别将每种语言类型的第二文本测试样本输入至所述每种语言类型对应的第三初始网络，得到所述第二文本测试样本对应的所述每种语言类型的合成语音。第一网络获取子单元可以用于基于所述第二文本测试样本对应的所述每种语言类型的合成语音和所述第二文本测试样本对应的所述每种语言类型的第二语音测试样本，对所述每种语言类型对应的第三初始网络进行迭代训练，直至满足所述第二预设条件，得到每种语言类型对应的训练后的第三初始网络，作为所述每种语言类型对应的所述第一初始网络。

在一些实施方式中，第一网络获取子单元可以具体用于：基于所述第二文本测试样本对应的所述每种语言类型的合成语音和所述第二文本测试样本对应的所述每种语言类型的第二语音测试样本，获取总损失值；根据所述总损失值，对所述每种语言类型对应的第三初始网络进行迭代训练，直至满足所述第二预设条件，得到每种语言类型对应的训练后的第三初始网络，作为所述每种语言类型对应的所述第一初始网络。

在该方式下，第一网络获取子单元还可以具体用于：根据所述第二文本测试样本对应的所述每种语言类型的合成语音和所述第二文本测试样本对应的所述每种语言类型的第二语音测试样本的差异，确定与所述每种语言类型的第三初始网络对应的损失值，得到多个第一损失值；获取所述多个第一损失值的和值，作为所述总损失值。

在一些实施方式中，模型训练模块640可以包括：损失值确定单元以及模型训练单元。其中，损失值确定单元可以用于根据所述第一文本样本对应的合成语音和所述第一文本样本对应的目标语言类型的第一语音样本的差异，确定第二损失值。模型训练单元可以用于根据所述第二损失值，对所述初始模型进行迭代训练，直至所满足所述第一预设条件，得到训练后的语音合成模型。

请参照图10，其中示出了本申请一实施例提供的针对粤语的语音合成装置700的结构框图。该装置700可以包括：文本获取模块710以及语音合成模块720。

文本获取模块710用于获取待处理文本。

语音合成模块720用于将所述待处理文本输入至预先训练的语音合成模型，得到所述待处理文本对应的目标语言类型的语音，所述预先训练的语音合成模型是利用所述目标语言类型对应的第一训练样本集，对初始模型进行迭代训练，直至满足第一预设条件后得到的，所述第一训练样本集包括第一文本样本集和第一语音样本集，所述第一语音样本集中的第一语音样本与所述第一文本样本集中的第一文本样本一一对应，所述初始模型是与所述目标语言类型相关联的第一初始网络，所述第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，所述多种语言类型与所述目标语言类型相关联。

在一些实施方式中，针对粤语的语音合成装置700可以包括：文本转换模块。其中，文本转换模块可以用于将所述待处理文本转换为音素序列。语音合成模块720可以具体用于将所述音素序列输入至所述预先训练的语音合成模型，得到所述待处理文本对应的目标语言类型的合成语音。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的方案中，获取目标语言类型对应的第一训练样本集，第一训练样本集包括第一文本样本集和第一语音样本集，第一语音样本集中的第一语音样本与述第一文本样本集中的第一文本样本一一对应；获取与目标语言类型相关联的第一初始网络，作为初始模型，第一初始网络是基于多种语言类型对应的第二训练样本集训练得到，多种语言类型与目标语言类型相关联；将第一文本样本输入至所述初始模型，得到第一文本样本对应的合成语音；基于第一文本样本对应的合成语音和第一文本样本对应的目标语言类型的第一语音样本，对初始模型进行迭代训练，直至满足第一预设条件，得到训练后的语音合成模型，语音合成模型用于合成待处理文本对应的目标语言类型的语音。如此，由于基于多种语言类型对应的第二训练样本集训练得到的第一初始网络具备更强的学习能力，因此，以第一初始网络作为初始模型进行语音合成模型的训练，大大减少了模型的训练时间，提高了模型训练的效率；并且，可以实现在较少数量的第一训练样本上，也能训练出性能较好的语音合成模型，以及，在少量的第一训练样本上进行模型的优化，大大减少了模型过度拟合的可能性，从而提升最后利用训练得到的语音合成模型合成语音的自然度。

下面将结合图11对本申请提供的一种计算机设备进行说明。

参照图11，图11示出了本申请实施例提供的一种计算机设备800的结构框图，本申请实施例提供的上述方法可以由该计算机设备800执行。其中，计算机设备800可以是智能手机、平板电脑、智能手表、笔记本电脑、台式电脑、服务器、录音笔等能够运行应用程序的设备。

本申请实施例中的计算机设备800可以包括一个或多个如下部件：处理器801、存储器802、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器802中并被配置为由一个或多个处理器801执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器801可以包括一个或者多个处理核。处理器801利用各种接口和线路连接整个计算机设备800内的各个部分，通过运行或执行存储在存储器802内的指令、程序、代码集或指令集，以及调用存储在存储器802内的数据，执行计算机设备800的各种功能和处理数据。可选地，处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器801可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器801中，单独通过一块通信芯片进行实现。

存储器802可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器802可用于存储指令、程序、代码、代码集或指令集。存储器802可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备800在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种语音合成模型、模型的训练方法以及语音合成方法 [P] . 中国专利： CN113920977A . 2022-01-11
2. 一种语音合成模型的训练方法及一种语音合成方法 [P] . 中国专利： CN113450756A . 2021-09-28
3. SPEECH SYNTHESIS DEVICE, SPEECH SYNTHESIS METHOD, SPEECH SYNTHESIS MODEL TRAINING DEVICE, SPEECH SYNTHESIS MODEL TRAINING METHOD, AND COMPUTER PROGRAM PRODUCT [P] . 美国专利： US2018174570A1 . 2018-06-21

机译：语音合成装置，语音合成方法，语音合成模型训练装置，语音合成模型训练方法以及计算机程序产品
4. Speech synthesis apparatus, speech synthesis method, speech synthesis program, speech synthesis model learning apparatus, speech synthesis model learning method, and speech synthesis model learning program [P] . 日本专利： JP6499305B2 . 2019-04-10

机译：语音合成装置，语音合成方法，语音合成程序，语音合成模型学习装置，语音合成模型学习方法和语音合成模型学习程序
5. Speech synthesis apparatus, speech synthesis method, speech synthesis program, speech synthesis model learning apparatus, speech synthesis model learning method, and speech synthesis model learning program [P] . 日本专利： JPWO2017046887A1 . 2018-04-12

机译：语音合成装置，语音合成方法，语音合成程序，语音合成模型学习装置，语音合成模型学习方法和语音合成模型学习程序