首页> 中国专利> 一种合成语音的变奏方法、装置、电子设备及存储介质

一种合成语音的变奏方法、装置、电子设备及存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种合成语音的变奏方法、装置、电子设备及存储介质，用于解决现有的合成语音层次感不够分明，生动性差的技术问题。本发明包括：获取预处理文本，并从所述预处理文本中识别自然段落；对所述自然段落进行调整，得到实际段落；依次计算相邻两个实际段落的相关性；生成所述实际段落的合成语音；获取所述合成语音中各所述实际段落的语言节奏；根据所述相关性对所述语言节奏进行调整，得到变奏合成语音。

著录项

公开/公告号CN114783402A

专利类型发明专利
公开/公告日2022-07-22

原文格式PDF
申请/专利权人广东电网有限责任公司佛山供电局;
展开▼

申请/专利号CN202210707967.8
发明设计人余勇;钟少恒;王翊;王佳骏;陈志刚;陈捷;曹小冬;吴启明;蔡勇超;林承勋;吕华良;丁铖;林家树;郭泽豪;符春造;方美明;陈瑾;李鸿盛;
展开▼

申请日2022-06-22
分类号G10L13/00;G10L13/033;G10L13/08;G10L13/10;
代理机构北京集佳知识产权代理有限公司;
代理人黄忠
地址 528000 广东省佛山市禅城区汾江南路1号
入库时间 2023-06-19 16:03:19

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-22

公开

发明专利申请公布

说明书

技术领域

本发明涉及语音变奏技术领域，尤其涉及一种合成语音的变奏方法、装置、电子设备及存储介质。

背景技术

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。这与传统的声音回放设备（系统）有着本质的区别。传统的声音回放设备（系统），如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。但这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。

在语音合成中，选择基本节奏是最重要的一个步骤，基本节奏一般是由文本的基调来决定的。然而，基于基调决定的基本节奏是比较稳定的，由此进行的语音合成而来的语音层次感不够分明，生硬而不生动。

发明内容

本发明提供了一种合成语音的变奏方法、装置、电子设备及存储介质，用于解决现有的合成语音层次感不够分明，生动性差的技术问题。

本发明提供了一种合成语音的变奏方法，包括：获取预处理文本，并从所述预处理文本中识别自然段落；对所述自然段落进行调整，得到实际段落；依次计算相邻两个实际段落的相关性；生成所述实际段落的合成语音；获取所述合成语音中各所述实际段落的语言节奏；根据所述相关性对所述语言节奏进行调整，得到变奏合成语音。可选地，所述获取预处理文本，并从所述预处理文本中识别自然段落的步骤，包括：获取预处理文本，并识别所述预处理文本中的换行键；基于所述换行键将所述预处理文本拆分为若干个自然段落。可选地，所述对所述自然段落进行调整，得到实际段落的步骤，包括：判断每个所述自然段落是否只有一种场景；若否，根据场景拆分所述自然段落，生成实际段落；若是，判断相邻两个自然段落是否为同一种场景；若是，将同一个场景的相邻两个自然段落合并为同一个实际段落。可选地，所述根据所述相关性对所述语言节奏进行调整，得到变奏合成语音的步骤，包括：遍历所有所述实际段落，依次将每个所述实际段落确定为当前调整段落；当当前调整段落与上一实际段落的相关性大于第一预设阈值时，调整所述当前调整段落的语言节奏，得到变奏段落；所述变奏段落具有若干个句子；确定所述变奏段落中相邻两个句子的句子相关性；当当前句子与上一句子的句子相关性大于第二预设阈值时，调整所述当前句子的语言节奏，得到句子调整节奏；采用所有实际段落中每个句子的句子调整节奏，生成变奏合成语音。可选地，所述当当前调整段落与上一实际段落的段落相关性大于第一预设阈值时，调整所述当前调整段落的语言节奏，得到变奏段落的步骤，包括：当当前调整段落与上一实际段落的相关性大于第一预设阈值时，获取当前实际段落的第一段落调整指标与所述上一实际段落的第二段落调整指标；比较所述第一段落调整指标和所述第二段落调整指标，确定目标段落调整指标；基于所述目标段落调整指标调整所述当前调整段落的语言节奏，得到变奏段落。本发明还提供了一种合成语音的变奏装置，包括：自然段落识别模块，用于获取预处理文本，并从所述预处理文本中识别自然段落；实际段落获取模块，用于对所述自然段落进行调整，得到实际段落；相关性计算模块，用于依次计算相邻两个实际段落的相关性；合成语音生成模块，用于生成所述实际段落的合成语音；语言节奏获取模块，用于获取所述合成语音中各所述实际段落的语言节奏；变奏模块，用于根据所述相关性对所述语言节奏进行调整，得到变奏合成语音。可选地，所述自然段落识别模块，包括：换行键识别子模块，用于获取预处理文本，并识别所述预处理文本中的换行键；预处理文本拆分子模块，用于基于所述换行键将所述预处理文本拆分为若干个自然段落。可选地，所述实际段落获取模块，包括：第一场景判断子模块，用于判断每个所述自然段落是否只有一种场景；自然段落拆分子模块，用于若否，根据场景拆分所述自然段落，生成实际段落；第二场景判断子模块，用于若是，判断相邻两个自然段落是否为同一种场景；段落合并子模块，用于若是，将同一个场景的相邻两个自然段落合并为同一个实际段落。本发明还提供了一种电子设备，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行如上任一项所述的合成语音的变奏方法。本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的合成语音的变奏方法。

从以上技术方案可以看出，本发明具有以下优点：本发明通过获取预处理文本，并从预处理文本中识别自然段落；对自然段落进行调整，得到实际段落；依次计算相邻两个实际段落的相关性；生成实际段落的合成语音；获取合成语音中各实际段落的语言节奏；根据相关性对语言节奏进行调整，得到变奏合成语音。调整了合成语音中的语言节奏，从而使得合成语音层次更分明、生动。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种合成语音的变奏方法的步骤流程图；

图2为本发明另一实施例提供的一种合成语音的变奏方法的步骤流程图；

图3为本发明实施例提供的一种合成语音的变奏装置的结构框图。

具体实施方式

本发明实施例提供了一种合成语音的变奏方法、装置、电子设备及存储介质，用于解决现有的合成语音层次感不够分明，生动性差的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种合成语音的变奏方法的步骤流程图。

本发明提供的一种合成语音的变奏方法，具体可以包括以下步骤：

步骤101，获取预处理文本，并从预处理文本中识别自然段落；

在本发明实施例中，在获取到需要进行语音合成的预处理文本后，可以对其进行段落识别，将预处理文本分为若干个自然段落。

步骤102，对自然段落进行调整，得到实际段落；

在实际应用中，有些时候会出现作者误分段，或者因为排版的原因导致分段变化，使得同一个段落被拆分或者不同段落被合并，导致一个段落的场景或者情感层次不连续，或者一个步骤中存在区别较大的不同的场景或情感层次。因此，在获取到预处理文本中的自然段落后，可以对其进行调整，得到场景、情感唯一且完整的实际段落。

步骤103，依次计算相邻两个实际段落的相关性；

在本发明实施例中，在完成实际段落的划分后，可以依次计算相邻两个实际段落的相关性，以便于后续判断是否对实际段落进行变奏处理。

步骤104，生成实际段落的合成语音；

在完成实际段落分段后，可以采用实际段落生成合成语音。

需要说明的是，本发明实施例不对合成语音的方式进行限定，本领域技术人员可以根据实际情况选择任一语音合成方式。

步骤105，获取合成语音中各实际段落的语言节奏；

步骤106，根据相关性对语言节奏进行调整，得到变奏合成语音。

在本发明实施例中，在生成合成语音后，可以获取合成语音中每个实际段落的语言节奏，然后根据相邻的实际段落之间的相关性，来对合成语言的语言节奏进行调整，得到变奏合成语音。

在一个示例中，实际段落的语言节奏可以包括语速、音调、音量、停顿等。

本发明通过获取预处理文本，并从预处理文本中识别自然段落；对自然段落进行调整，得到实际段落；依次计算相邻两个实际段落的相关性；生成实际段落的合成语音；获取合成语音中各实际段落的语言节奏；根据相关性对语言节奏进行调整，得到变奏合成语音。调整了合成语音中的语言节奏，从而使得合成语音层次更分明、生动。

请参阅图2，图2为本发明另一实施例提供的一种合成语音的变奏方法的步骤流程图。具体可以包括以下步骤：

步骤201，获取预处理文本，并识别预处理文本中的换行键；

步骤202，基于换行键将预处理文本拆分为若干个自然段落；

在本发明实施例中，可以通过检索预处理文本中的换行键来区分预处理文本中的自然段落。步骤203，对自然段落进行调整，得到实际段落；

在一个示例中，对自然段落进行调整，得到实际段落的步骤，具体可以包括以下子步骤：S31，判断每个自然段落是否只有一种场景；S32，若否，根据场景拆分自然段落，生成实际段落；

在具体实现中，可以通过预训练的第一神经网络模型来进行场景判断。其中，第一神经网络模型可以通过以下过程训练得到：获取大量的段落作为样本数据，一部分是存在一种场景的段落，一部分是存在超过一种场景的段落，为每个段落标注场景个数。将段落作为输入，将场景个数作为输出，训练第一神经网络模型。

将从预处理文本中得到的自然段落输入到已训练好的第一神经网络模型，根据输出结果来判断自然段落中的场景个数。

当自然段落中不止一种场景时，将其进行拆分，将拆分得到的段落作为实际段落。

S33，若是，判断相邻两个自然段落是否为同一种场景；S34，若是，将同一个场景的相邻两个自然段落合并为同一个实际段落。当自然段落中只有一种场景时，可以通过已训练好的第二神经网络模型判断两个自然段落是否为同一种场景。其中，第二神经网络模型可以通过以下过程训练得到：获取大量的段落作为样本数据，并标注每两个段落是否为同一种场景。将每两个段落作为输入，以是否为同一种场景作为输出，训练第二神经网络模型。

将只含有一种场景的两个相邻自然段落输入已训练好的第二神经网络模型中，根据输出结果来判断两个自然段落是否为同一种场景。若是，将这两个自然段落合并为一个实际段落。

需要说明的是，除了场景外，本领域技术人员也可以采用其他要素作为实际段落的划分依据，如情感层次等。本发明实施例对此不作具体限制。步骤204，依次计算相邻两个实际段落的相关性；

在本发明实施例中，在完成实际段落的划分后，可以依次计算相邻两个实际段落的相关性，以便于后续判断是否对实际段落进行变奏处理。

在具体实现中，可以通过神经网络模型分析相邻两个实际段落的相关性。步骤205，生成实际段落的合成语音；在完成实际段落分段后，可以采用实际段落生成合成语音。

需要说明的是，本发明实施例不对合成语音的方式进行限定，本领域技术人员可以根据实际情况选择任一语音合成方式。

步骤206，获取合成语音中各实际段落的语言节奏；步骤207，根据相关性对语言节奏进行调整，得到变奏合成语音。在本发明实施例中，在生成合成语音后，可以获取合成语音中每个实际段落的语言节奏，然后根据相邻的实际段落之间的相关性，来对合成语言的语言节奏进行调整，得到变奏合成语音。

在一个示例中，实际段落的语言节奏可以包括语速、音调、音量、停顿等。

在一个示例中，根据相关性对语言节奏进行调整，得到变奏合成语音的步骤，具体可以包括以下子步骤：S71，遍历所有实际段落，依次将每个实际段落确定为当前调整段落；S72，当当前调整段落与上一实际段落的相关性大于第一预设阈值时，调整当前调整段落的语言节奏，得到变奏段落；变奏段落具有若干个句子；

在本发明实施例中，当当前调整段落与上一实际段落的相关性大于第一预设阈值（如80%）时，可以认为两个段落的场景或者情感层次是近似的。这种段落的基本节奏是近似的，如果不做调整，合成的语音的节奏就很平稳，持续地平稳语音会显得没有感情，不够生动。因此，在这种情况下可以对当前调整段落进行变奏，得到变奏段落，以使语音更生动。

在一个示例中，当当前调整段落与上一实际段落的段落相关性大于第一预设阈值时，调整当前调整段落的语言节奏，得到变奏段落的步骤，具体可以包括：

S721，当当前调整段落与上一实际段落的相关性大于第一预设阈值时，获取当前实际段落的第一段落调整指标与上一实际段落的第二段落调整指标；

S722，比较第一段落调整指标和第二段落调整指标，确定目标段落调整指标；

S723，基于目标段落调整指标调整当前调整段落的语言节奏，得到变奏段落。

在具体实现中，由于语言节奏可以包括语速、音调和音量等。因此可以将语速、音调、音量作为调整指标。其中，当前调整段落的语速、音调和音量为第一调整指标，上一实际段落的语速、音调和音量为第二调整指标。

对比第一调整指标和第二调整指标，判断两者的语速、音调和音量中哪个相似性更大。将相似性最大的作为目标调整指标。

如当当前调整段落与上一调整段落的语速相似性最大时，可以调整当前调整段落的语速。如加快或减慢当前调整段落的语速。

需要说明的是，从听觉效果来看，太快的语速或太慢的语速都会导致听觉效果下降。因此，在本发明实施例中，可以为语速设置上下限阈值。在对语速的调整过程中，当当前调整段落的语速接近下限阈值时，可以加快当前调整段落的语速，当当前调整段落的语速接近上限阈值时，可以减慢当前调整段落的语速。

同理，音调和音量同样可以设置上下限阈值，以避免对音调和音量的调整对听觉效果的削弱。

需要说明的是，对于当前调整段落的语言节奏的调整，可以是对整个段落中每个句子都按照相同的调整比例进行调整，如整体降低20%的语速等，从而得到调整后的变奏段落。S73，确定变奏段落中相邻两个句子的句子相关性；S74，当当前句子与上一句子的句子相关性大于第二预设阈值时，调整当前句子的语言节奏，得到句子调整节奏；S75，采用所有实际段落中每个句子的句子调整节奏，生成变奏合成语音。上述只是对同一个段落进行整体的语言节奏变化，变化后的变奏段落中，句子与句子之间的语言节奏同样是存在区别的。因此，在本发明实施例中，在完成对当前调整段落的调整之后，可以对调整得到的变奏段落中的每一个句子进行调整。

首先获取相邻两个句子之间的句子相似性；然后判断当前句子与上一句子的句子相似性是否大于第二预设阈值，若是，表征两个句子的语言节奏相似，此时可以对当前句子的语言节奏进行调整。对于当前句子的语言节奏的调整，同样可以是对语速、音量、音调中的其中一种进行调整，具体可以参考对当前调整段落的语速、音量、音调调整过程，此处不再赘述。

在完成对每一个句子的语言节奏的调整后，可以采用每个句子的句子调整节奏，生成变奏合成语音。

请参阅图3，图3为本发明实施例提供的一种合成语音的变奏装置的结构框图。

本发明实施例提供了一种合成语音的变奏装置，包括：

自然段落识别模块301，用于获取预处理文本，并从预处理文本中识别自然段落；

实际段落获取模块302，用于对自然段落进行调整，得到实际段落；

相关性计算模块303，用于依次计算相邻两个实际段落的相关性；

合成语音生成模块304，用于生成实际段落的合成语音；

语言节奏获取模块305，用于获取合成语音中各实际段落的语言节奏；

变奏模块306，用于根据相关性对语言节奏进行调整，得到变奏合成语音。

在本发明实施例中，自然段落识别模块301，包括：

换行键识别子模块，用于获取预处理文本，并识别预处理文本中的换行键；

预处理文本拆分子模块，用于基于换行键将预处理文本拆分为若干个自然段落。

在本发明实施例中，实际段落获取模块302，包括：

第一场景判断子模块，用于判断每个自然段落是否只有一种场景；

自然段落拆分子模块，用于若否，根据场景拆分自然段落，生成实际段落；

第二场景判断子模块，用于若是，判断相邻两个自然段落是否为同一种场景；

段落合并子模块，用于若是，将同一个场景的相邻两个自然段落合并为同一个实际段落。

在本发明实施例中，变奏模块306，包括：

遍历子模块，用于遍历所有实际段落，依次将每个实际段落确定为当前调整段落；

变奏段落获取子模块，用于当当前调整段落与上一实际段落的相关性大于第一预设阈值时，调整当前调整段落的语言节奏，得到变奏段落；变奏段落具有若干个句子；

句子相关性确定子模块，用于确定变奏段落中相邻两个句子的句子相关性；

句子调整节奏获取子模块，用于当当前句子与上一句子的句子相关性大于第二预设阈值时，调整当前句子的语言节奏，得到句子调整节奏；

变奏合成语音生成子模块，用于采用所有实际段落中每个句子的句子调整节奏，生成变奏合成语音。

在本发明实施例中，变奏段落获取子模块，包括：

段落调整指标获取单元，用于当当前调整段落与上一实际段落的相关性大于第一预设阈值时，获取当前实际段落的第一段落调整指标与上一实际段落的第二段落调整指标；

目标段落调整指标确定单元，用于比较第一段落调整指标和第二段落调整指标，确定目标段落调整指标；

变奏段落获取单元，用于基于目标段落调整指标调整当前调整段落的语言节奏，得到变奏段落。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明实施例的合成语音的变奏方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的合成语音的变奏方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种合成语音的变奏方法、装置、电子设备及存储介质 [P] . 中国专利： CN114783402A . 2022-07-22
2. 语音合成方法、语音合成装置、存储介质及电子设备 [P] . 中国专利： CN109523989B . 2022.01.11
3. METHOD AND APPARATUS OF SYNTHESIZING SPEECH, METHOD AND APPARATUS OF TRAINING SPEECH SYNTHESIS MODEL, ELECTRONIC DEVICE, AND STORAGE MEDIUM [P] . 美国专利： US2022020356A1 . 2022-01-20

机译：训练语音合成模型，电子设备和存储介质的语音，方法和装置合成语音的方法和装置
4. MACHINE-SYNTHESIZED SPEECH RECOGNITION METHOD, APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM [P] . WO2021051566A1 . 2021-03-25

机译：机器合成语音识别方法，装置，电子设备和存储介质
5. METHOD AND APPARATUS FOR REGISTERING PROPERTIES OF VOICE SYNTHESIS MODEL, ELECTRONIC EQUIPMENT, STORAGE MEDIUM, AND COMPUTER PROGRAM PRODUCT [P] . 韩国专利： KR20210124103A . 2021-10-14

机译：用于登记语音合成模型，电子设备，存储介质和计算机程序产品的特性的方法和装置