公开/公告号CN114913877A
专利类型发明专利
公开/公告日2022-08-16
原文格式PDF
申请/专利权人 平安科技(深圳)有限公司;
申请/专利号CN202210516102.3
申请日2022-05-12
分类号G10L25/51(2013.01);G10L25/03(2013.01);G06N20/00(2019.01);
代理机构深圳国新南方知识产权代理有限公司 44374;
代理人周雷
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 16:23:50
法律状态公告日
法律状态信息
法律状态
2022-09-02
实质审查的生效 IPC(主分类):G10L25/51 专利申请号:2022105161023 申请日:20220512
实质审查的生效
技术领域
本发明涉及智能语音技术领域,特别是涉及一种声韵母发音时长预测方法、系统、终端及存储介质。
背景技术
声韵母发音时长建模是指在给定文本及其对应音频的已知情况下,顺序输出文本对应每一个声韵母在音频中的起止时间。声韵母发音时长建模被广泛应用于视频、直播等领域,用于自动生成字幕时间戳。声韵母发音时长通常需要利用专业人员进行人工标注,需要耗费大量时间,标注成本较高。声韵母发音时长建模常利用自回归模型中的注意力机制对齐声韵母与音频之间的起止时间,实现了替代人工标注,但现有的声韵母发音时长建模普遍存在对齐关系重复或丢失等问题,尤其针对数据集较长文本的精度较差。MFA(Montreal Forced Aligner,一个命令行实用程序,使用Kaldi执行语音数据集的强制对齐)也常用于建模声韵母发音时长,其利用多维高斯分布建模每一个声韵母的发音时长,同时利用决策树聚类方法对多维高斯分布进行聚类。然而,声韵母时长预测值往往为多维高斯分布的均值,缺乏灵活性。因为其目标为最大化多维高斯联合分布概率。现有的声韵母发音时长建模方法均限制了声韵母发音时长建模的推广与应用。
发明内容
本发明提供了一种声韵母发音时长预测方法、结构、终端及存储介质,旨在解决现有的声韵母发音时长建模方法存在的精度较差以及缺乏灵活性等技术问题。
为解决上述技术问题,本发明采用的技术方案为:
一种声韵母发音时长预测方法,包括:
将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;
将所述第一隐状态映射为均值序列和标准差序列;
将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;
基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。
本发明实施例采取的技术方案还包括:所述将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态包括:
所述声韵母发音时长预测模型通过编码器计算得到用于表示文本特征的第一隐状态
本发明实施例采取的技术方案还包括:所述将所述第一隐状态映射为均值序列和标准差序列包括:
通过所述声韵母发音时长预测模型的一维卷积将第一隐状态映射为均值序列
本发明实施例采取的技术方案还包括:所述将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态包括:
利用梅尔滤波器组从所述音频数据中提取出梅尔谱;
利用解码器将所述梅尔谱映射为用于表征音频数据的第二隐状态
本发明实施例采取的技术方案还包括:所述利用梅尔滤波器组从所述音频数据中提取出梅尔谱包括:
利用快速傅立叶变换算法计算所述音频数据的幅度谱;
通过设定维数的梅尔滤波器组对所述幅度谱进行转换,生成所述音频数据的梅尔谱。
本发明实施例采取的技术方案还包括:所述时长计算模块表示为A(j)=i,所述时长计算模块为单调函数,所述基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系包括:
通过最小化似然函数找到所述文本数据与音频数据对齐关系的最优解A*;所述似然函数表示在已知声韵母数据C时,计算最优解A*使得所述第二隐状态Z的概率分布约服从于C概率分布:
使用维特比算法提取所述最优解A*中声韵母数据c
本发明实施例采取的技术方案还包括:所述最优解A*的计算过程包括:
初始化Q为负无穷,计算
当j=2:T
迭代执行上一步,得到似然函数log P(Z|C;A
本发明实施例采取的另一技术方案为:一种声韵母发音时长预测系统,包括:
第一隐状态计算模块:用于将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;
第一隐状态映射模块:用于将所述第一隐状态映射为均值序列和标准差序列;
第二隐状态计算模块:用于将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;
发音时长计算模块:用于基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。
本发明实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现上述的声韵母发音时长预测方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述端到端声韵母发音时长预测操作。
本发明实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的声韵母发音时长预测方法。
本发明实施例的声韵母发音时长预测方法、结构、终端及存储介质利用normalizing flow的特性将音频梅尔谱映射为隐状态,通过隐状态与均值序列和标准差序列之间的概率分布关系判断声韵母数据与梅尔谱之间的对应关系,并利用迭代计算的方式计算出文本与音频对齐关系的最优解,从而得到每一个声韵母数据的发音时长。本发明实施例可以有效地减少标注时间与标注成本,同时,考虑了文本与音频对齐的单调性,有效减少了文本与音频对齐重复和对齐遗漏等问题,显著提升了对齐精度。
附图说明
图1是本发明第一实施例的声韵母发音时长预测方法的流程示意图;
图2是本发明第二实施例的声韵母发音时长预测方法的流程示意图;
图3是本发明实施例的声韵母发音时长预测系统的结构示意图;
图4是本发明实施例的终端结构示意图;
图5是本发明实施例的存储介质结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图1,是本发明第一实施例的声韵母发音时长预测方法的流程示意图。本发明第一实施例的声韵母发音时长预测方法包括以下步骤:
S100:将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;
本步骤中,声韵母发音时长预测模型通过编码器计算得到用于表示文本特征的第一隐状态,编码器为VAE(Variational autoencoders,变分自编码器)编码器,VAE编码器是发现数据的一些隐状态(不完整、稀疏、去噪、收缩)表示的模型,输入数据被转换成一个编码向量,其中每个维度表示从输入数据中学到的属性,自编码器提供了描述隐空间观察的概率方式,因此不需要构建一个输出单个值来描述每个隐状态属性的编码器,而是用编码器描述每个隐属性的概率分布。VAE编码器计算得到的用于表示文本特征的第一隐状态表示为
S101:将第一隐状态映射为均值序列和标准差序列;
本步骤中,通过声韵母发音时长预测模型的一维卷积将第一隐状态H映射为均值序列
S102:将文本数据对应的音频数据的梅尔谱映射为第二隐状态;
本步骤中,首先利用梅尔滤波器组从音频数据中提取出梅尔谱,利用decoder(解码器)将梅尔谱映射为用于表征音频数据的第二隐状态;梅尔谱提取过程具体为:利用FFT(fast Fourier transform,快速傅立叶变换)算法计算音频数据的幅度谱,并通过一定维数(80维)的梅尔滤波器组对幅度谱进行转换,得到的结果即为音频数据的梅尔谱x,FFT帧长为50ms,帧移为25ms,具体帧长和帧移参数可根据实际应用场景进行设定。decoder为normalizing flow(标准化流)网络,normalizing flow网络用一系列的可逆映射将原始分布转换成新的分布,通过优化这一系列分布,即可实现将简单的高斯分布转换为复杂的真实后验分布的目的。用于表征音频数据的第二隐状态
S103:基于第二隐状态、均值序列和标准差序列,通过时长计算模块计算出声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。
本步骤中,时长计算模块表示为A(j)=i,当第二隐状态z
定义Q
Q
当已知c
请参阅图2,是本发明第二实施例的声韵母发音时长预测方法的流程示意图。本发明第二实施例的声韵母发音时长预测方法包括以下步骤:
S200:获取待预测文本数据对应的音频数据以及声韵母数据;
本步骤中,待预测文本数据的数字化声音数据即为音频数据。汉语普通话中包括23个声母和35个韵母,假设待预测文本数据为“中国人”,则该文本数据对应的声韵母数据为“zhong guoren”,记为
S201:将声韵母数据输入预训练好的声韵母发音时长预测模型,声韵母发音时长预测模型通过编码器计算得到用于表示文本特征的第一隐状态;
本步骤中,编码器为VAE(Variational autoencoders,变分自编码器)编码器,VAE编码器是发现数据的一些隐状态(不完整、稀疏、去噪、收缩)表示的模型,输入数据被转换成一个编码向量,其中每个维度表示从输入数据中学到的属性,自编码器提供了描述隐空间观察的概率方式,因此不需要构建一个输出单个值来描述每个隐状态属性的编码器,而是用编码器描述每个隐属性的概率分布。VAE编码器计算得到的用于表示文本特征的第一隐状态表示为
S202:通过声韵母发音时长预测模型的一维卷积将第一隐状态H映射为均值序列
S203:利用梅尔滤波器组从音频数据中提取出梅尔谱;
本步骤中,梅尔谱提取过程具体为:利用FFT(fast Fourier transform,快速傅立叶变换)算法计算音频数据的幅度谱,并通过一定维数(80维)的梅尔滤波器组对幅度谱进行转换,得到的结果即为音频数据的梅尔谱x。FFT是一种DFT(Discrete FourierTransform,离散傅里叶变换)的高效算法,称为快速傅立叶变换(fast Fouriertransform),幅值谱表征信号的幅值随频率的分布情况,利用FFT算法将音频数据变换到频域上之后,对音频数据进行取模操作即可获取幅度谱。本发明实施例中,FFT帧长为50ms,帧移为25ms,具体帧长和帧移参数可根据实际应用场景进行设定。
S204:利用decoder(解码器)将梅尔谱映射为用于表征音频数据的第二隐状态;
本步骤中,decoder为normalizing flow(标准化流)网络,normalizing flow网络用一系列的可逆映射将原始分布转换成新的分布,通过优化这一系列分布,即可实现将简单的高斯分布转换为复杂的真实后验分布的目的。用于表征音频数据的第二隐状态
S205:基于均值序列、标准差序列和第二隐状态,通过时长计算模块计算文本数据与音频数据对齐关系的最优解,得到每一个声韵母数据的发音时长;
本步骤中,时长计算模块表示为A(j)=i,当第二隐状态z
定义Q
Q
当已知c
具体的,最优解A*的计算流程如下:
1.初始化Q为负无穷,计算
2·当j=2:T
1.3.迭代执行上一步,得到最大值
基于上述,本发明第二实施例的声韵母发音时长预测方法利用normalizing flow的特性将音频梅尔谱映射为隐状态,通过隐状态与均值序列和标准差序列之间的概率分布关系判断声韵母数据与梅尔谱之间的对应关系,并利用迭代计算的方式计算出文本与音频对齐关系的最优解,从而得到每一个声韵母数据的发音时长。本发明实施例可以有效地减少标注时间与标注成本,同时,考虑了文本与音频对齐的单调性,有效减少了文本与音频对齐重复和对齐遗漏等问题,显著提升了对齐精度。
在一个可选的实施方式中,还可以:将所述的声韵母发音时长预测方法的结果上传至区块链中。
具体地,基于所述的声韵母发音时长预测方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的声韵母发音时长预测方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的声韵母发音时长预测方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图3,是本发明实施例端到端声韵母发音时长预测系统的结构示意图。本发明实施例端到端声韵母发音时长预测系统40包括:
第一隐状态计算模块41:用于将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;其中,汉语普通话中包括23个声母和35个韵母,假设待预测文本数据为“中国人”,则该文本数据对应的声韵母数据为“zhong guoren”,记为
第一隐状态映射模块42:用于将第一隐状态映射为均值序列和标准差序列;其中,通过声韵母发音时长预测模型的一维卷积将第一隐状态H映射为均值序列
第二隐状态计算模块43:用于将文本数据对应的音频数据的梅尔谱映射为第二隐状态;其中,首先利用梅尔滤波器组从音频数据中提取出梅尔谱,利用decoder(解码器)将梅尔谱映射为用于表征音频数据的第二隐状态;梅尔谱提取过程具体为:利用FFT(fastFourier transform,快速傅立叶变换)算法计算音频数据的幅度谱,并通过一定维数(80维)的梅尔滤波器组对幅度谱进行转换,得到的结果即为音频数据的梅尔谱x,本发明实施例中,FFT帧长为50ms,帧移为25ms,具体帧长和帧移参数可根据实际应用场景进行设定。decoder为normalizing flow(标准化流)网络,normalizing flow网络用一系列的可逆映射将原始分布转换成新的分布,通过优化这一系列分布,即可实现将简单的高斯分布转换为复杂的真实后验分布的目的。用于表征音频数据的第二隐状态
发音时长计算模块44:用于基于第二隐状态、均值序列和标准差序列,通过时长计算模块计算出声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长;其中,时长计算模块表示为A(j)=i,当第二隐状态z
定义Q
Q
当已知c
具体的,最优解A*的计算流程如下:
1.初始化Q为负无穷,计算
2.当j=2:T
3.迭代执行上一步,得到最大值
基于上述,本发明实施例的声韵母发音时长预测系统利用normalizing flow的特性将音频梅尔谱映射为隐状态,通过隐状态与均值序列和标准差序列之间的概率分布关系判断声韵母数据与梅尔谱之间的对应关系,并利用迭代计算的方式计算出文本与音频对齐关系的最优解,从而得到每一个声韵母数据的发音时长。本发明实施例可以有效地减少标注时间与标注成本,同时,考虑了文本与音频对齐的单调性,有效减少了文本与音频对齐重复和对齐遗漏等问题,显著提升了对齐精度。
请参阅图4,为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
存储器52存储有用于实现上述声韵母发音时长预测方法的程序指令。
处理器51用于执行存储器52存储的程序指令以执行端到端声韵母发音时长预测操作。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图5,图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
机译: 电池寿命预测系统,电池寿命预测方法,通信终端设备,电池寿命预测设备,数据传输程序,电池寿命预测程序以及通过程序存储的计算机可读记录介质
机译: 一种更新网页信息内容的方法;向网络服务器提供来自终端的网页刷新信息的方法;维护网页的网络服务器;终端保持与维护网络页面的网络服务器的连接;计算机程序产品,该计算机程序产品由计算机存储在物理可读介质上,并且可以在数据处理设备上执行以维护网页;以及存储在计算机可读物理介质上并且可以在数据处理设备上执行的计算机程序产品,以向网络服务器提供关于在网页上进行的更新的信息。
机译: 一种控制站的控制方法,一种终端站的控制方法,一种控制站,一个终端站以及一种计算机可读存储介质