首页> 中国专利> 一种对语调进行评估的方法

一种对语调进行评估的方法

摘要

本发明公开了一种对语调进行评估的方法,该方法包括:对输入的语音进行基频提取,获得连续不断的基频曲线;对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量;以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估。利用本发明,解决了现有的计算机辅助语言教学技术中的语调评估问题。

著录项

  • 公开/公告号CN101727902A

    专利类型发明专利

  • 公开/公告日2010-06-09

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN200810225405.X

  • 发明设计人 柯登峰;陈振标;浦剑涛;徐波;

    申请日2008-10-29

  • 分类号G10L15/02(20060101);G10L15/28(20060101);G10L15/08(20060101);G09B5/00(20060101);G09B19/06(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人周国城

  • 地址 100080 北京市海淀区中关村东路95号

  • 入库时间 2023-12-18 00:14:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-03-25

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/02 变更前: 变更后: 申请日:20081029

    专利权人的姓名或者名称、地址的变更

  • 2012-10-03

    专利权的转移 IPC(主分类):G10L15/02 变更前: 变更后: 登记生效日:20120831 申请日:20081029

    专利申请权、专利权的转移

  • 2011-08-10

    授权

    授权

  • 2010-08-11

    实质审查的生效 IPC(主分类):G10L15/02 申请日:20081029

    实质审查的生效

  • 2010-06-09

    公开

    公开

说明书

技术领域

本发明涉及语音信息处理及计算机辅助教学技术领域,尤其涉及一种对语调进行评估的方法。

背景技术

随着语音技术的不断发展,利用计算机辅助口语教学的应用已经在国内外悄然兴起。专利号200410074445公开了一种基于语音识别及语音分析的发音评估方法,提出了对每个音节的发音评估的方法。然而该方法没有对汉语的语调层次的评估进行描述。专利号200510082059提出了一种语调相似性的匹配框架,但是没有对具体方法进行详细描述,特别是涉及到如何匹配的部分,原专利描述含糊不清,并没有对如何计算相似性作出合理的描述。而专利中提到的对提取不出基频的位置进行基频平均化,本身也不是解决基频提取问题的根本途径。该专利提出的方法,其主要缺点如下:

1.专利号200510082059的方法以词组为单位进行重新划分和处理音调数据。这样做有两个弊端。首先,词组的长度是非常不稳定的,有的词只含有一个音节,但有的词可以含有多个音节,这非常不利于语速归一化和调型归一化。其次,词组如果含有多个音节,中间可能出现清辅音和短静音,基频曲线在一个词组内部不能保证完全连续,因而不得不采用插值方法对无基频处进行插值修正,但这些修正都是会带来误差的,必然影响整体性能。

2.专利号200510082059的方法中的标准化和均匀化是在提取音调数据之后直接做的。这样做并没有充分利用好语音自动切分模块提供的边界信息,当静音长度发生变化时,必然影响基频规整化的结果。

3.专利号200510082059的方法中对标准化的描述含糊不清。虽然提到了标准化,但是标准化的概念是模糊的,零均值化、方差化为一、分布化为正态分布等等,都可以称为标准化。对于音调来说,不同人有不同的音高,特别是男女声大概相差一个八度音,因此,均值规整化是必要的。实验语音学成果还表明,不同人的调域也是不同的,特别是女声的调域大约是男声的1.5倍,因此,音高的方差规整化也是必要的。而分布的规整化只对声调识别有用,是不必要的。

4.专利号200510082059的方法中对处理音调数据没有详细描述,该方法谈及了通过切分结果,可以把每个词对应上。但是,每个词的长短是不一的,即使同个人读同一句话两次,也无法保证两句话的长度一直,如何解决长短不一的两个句子在时间上一一对应问题,对解决语调的对比评估非常重要。

5.专利号200510082059的方法中提到,可以给出语调的相似度,但没有给出具体方案。相似度的度量,并不是一个唯一确定的值,可以用欧几里德距离、马氏距离、相关系数、偏相关系数、平均误差、均方误差等等无穷尽的方法。不同方法的性能是有差异的。本发明的实验表明,采用相关系数法和均方误差法比较好,并且相关系数法比均方误差法要好很多。但是这两种方法对基频提取性能的要求很高,当基频提取错误率上升到25%的时候,相关系数和均方误差法评估的等级划分错误率提升到40%。也就是说,这些方法对基频提取性能要求较高,随着基频提取性能下降,该方法性能下降非常快。

可见,如何评估语调的好坏,还未有比较可行的解决方案。本发明正是针对现有方案的问题,提出了一种可靠的语调的评估方法,用以解决语调评估问题。该发明在国际上首次提出“排序误差矢量”这种专门用于语调评估的特征。

发明内容

(一)要解决的技术问题

有鉴于此,本发明的主要目的在于提出一种对语调进行自动评估的方法,用以解决现有的计算机辅助语言教学技术中的语调评估问题,该方法还可用于语音合成中的语调自动评估。

(二)技术方案

为了实现上述目的,本发明采用的技术方案如下:

一种对语调进行评估的方法,该方法包括:

对输入的语音进行基频提取,获得连续不断的基频曲线;

对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;

将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;

将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量;

以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估。

上述方案中,所述对输入的语音进行基频提取,获得连续不断的基频曲线,具体包括:对输入的语音先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值,从而获得连续不断的基频曲线。

上述方案中,所述对输入的语音做初步提取,采用Praat的自相关法、AMDF算法、YIN算法或基于统计模型的基频识别方法。

上述方案中,所述对输入的语音进行对齐分割,是以建模单元为单位对边界进行对齐,使待测语音与标准音的各个建模单元边界一一对齐;对汉语建模单元来说,是使声韵母边界对齐,包括声母与声母对齐、韵母与韵母对齐。

上述方案中,所述对输入的语音进行对齐分割,获得声韵母边界,是采用动态时间规整DTW将输入语音与标注好边界的标准音进行对齐,或是采用维特比Viterbi切分分别求出输入语音和标准音的声韵母边界。

上述方案中,所述对音高进行规整化处理,包括对音高均值的规整化和音高方差的规整化。

上述方案中,所述对音高进行规整化处理,获得规整音高曲线,具体包括:将音高的单位转换成半音,然后在每个韵母内部将每个建模单元内部的音高进行规整,首先计算所有韵母段的平均基频M,并计算所有韵母段基频的标准差,然后将每个韵母段的基频减去平均基频M,并将得到的差值除以R,R表示调域,然后将每个韵母段的基频规整化为N点,则每个韵母都会形成一个N点基频曲线,把每个字的N点基频曲线连起来,形成规整的音高曲线。

上述方案中,所述对时长进行规整化处理,包括建模单元层次的时长规整化和句子层次的时长规整化。

上述方案中,所述对建模单元层次的时长规整化,采用N等分元音建模单元处基频曲线的方法对每个元音建模单元的基频的重采样。

上述方案中,所述对句子层次的时长规整化,是采用一定方法消除语速对语调评估的影响;实现该过程,通过定义全句的所有建模单元的平均时长为1对每个建模单元时长进行规整化,从而获得各个建模单元的相对时长。

上述方案中,所述对时长进行规整化处理,获得规整时长曲线,具体包括:将音高的单位转换成半音,然后将不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,利用该相对时长信息形成规整的时长曲线。

上述方案中,所述将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量,具体包括:将音高和时长的误差值分别进行排序,然后对该排序进行任意N等分并抽取N个特征点,形成N维的音高排序误差矢量和时长排序误差矢量,N为自然数。

上述方案中,所述以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估,具体包括:将音高排序误差矢量和时长排序误差矢量作为语调得分计算的一个重要特征,利用该特征对语调得分进行拟合,实现对语调等级的分类,进而实现对语调的评估。

(三)有益效果

从上述技术方案可以看出,本发明具有以下有益效果:

1、本发明采用语音建模单元为分块单位,建模单位的长度比较稳定的,不受词组长短的影响,因此很适合进行语速归一化和调型归一化。

2、从目前的研究成果看,有调语言中对声调的感知的贡献是在元音段的,因此本发明提倡将建模单元分为辅音建模单元和元音建模单元,辅音建模单元的基频是不予考虑的,只考虑元音建模单元的基频。

3、本发明将标准化和均匀化放在边界切分之后进行,此时标准化可以利用边界信息,剔除静音段(无基频段)以及辅音段(无需考虑基频的段)。这样无论静音、停顿的长度如何,都不会影响基频规整化的最终结果。

4、本发明提出的规整化包含均值和方差的规整化过程,考虑到句子音高不一定覆盖整个调域,本发明还采用了方差规整门限解决此问题。

5、本发明提出将基频曲线一分为二的思想,将一条基频曲线,划分成“表示调型的曲线”和“表示时长的曲线”两条曲线,这样做既可以对比两句化的调型差异,又可以对比两句话中每个建模单元的长短差异,既解决了一一对应问题,又使得每条曲线的物理意义更加明确。

6、本发明中提出了一种新的特征——排序误差矢量,这种特征对基频提取性能的影响不太敏感,在基频提取错误率上升到25%的时候,还能保证等级划分错误率在23%的水平。

附图说明

图1是本发明提供的对语调进行评估的方法流程图;

图2是依照本发明实施例对语调进行评估的方法流程图;

图3是依照本发明实施例对音高和时长进行规整的方法流程图;

图4是依照本发明实施例对每个建模单元内部的音高进行规整的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明的基本构思为:提取语音的基频特征,通过对齐和规整后,与标准音进行音高误差和时长误差统计,得到排序误差矢量,通过排序误差矢量来描述的句子语调的好坏,用排序误差矢量解决句子长短不一的问题,并最终用排序误差矢量对语调进行评估。

如图1所示,图1是本发明提供的对语调进行评估的方法流程图,该方法包括:

步骤101:对输入的语音进行基频提取,获得连续不断的基频曲线;

步骤102:对输入的语音进行对齐分割,获得声韵母边界,并对音高和时长进行规整化处理,获得规整音高曲线和规整时长曲线;

步骤103:将该规整音高曲线和规整时长曲线与标准音的规整音高曲线和规整时长曲线进行比较,计算出输入语音的音高和时长相对于标准音的误差值;

步骤104:将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量;

步骤105:以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估。

上述步骤101中所述对输入的语音进行基频提取,获得连续不断的基频曲线,具体包括:对输入的语音先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值,从而获得连续不断的基频曲线。此处,对输入的语音做初步提取,可以采用任何一种非频域的算法,例如Praat的自相关法、AMDF算法、YIN算法以及基于统计模型的基频识别算法等。其中,Praat是一个软件的名称,Praat在1993年提出的基频提取算法;AMDF是平均幅度差函数(average magnitude difference function);YIN是日本人提出的算法,是根据中国“阴阳相生相克”的思想做出来的,所以称“YIN”。

上述步骤102中所述对输入的语音进行对齐分割,是以建模单元为单位对边界进行对齐,使待测语音与标准音的各个建模单元边界一一对齐;对汉语建模单元来说,是使声韵母边界对齐,包括声母与声母对齐、韵母与韵母对齐。所述对输入的语音进行对齐分割,获得声韵母边界,是采用动态时间规整(DTW)将输入语音与标注好边界的标准音进行对齐,或是采用维特比(Viterbi)切分分别求出输入语音和标准音的声韵母边界。

上述步骤103中所述对音高进行规整化处理,包括对音高均值的规整化和音高方差的规整化。所述对音高进行规整化处理,获得规整音高曲线,具体包括:将音高的单位转换成半音,然后在每个韵母内部将每个建模单元内部的音高进行规整,首先计算所有韵母段的平均基频M,并计算所有韵母段基频的标准差,然后将每个韵母段的基频减去平均基频M,并将得到的差值除以R(R为range,即表示调域),然后将每个韵母段的基频规整化为N点,则每个韵母都会形成一个N点基频曲线,把每个字的N点基频曲线连起来,形成规整的音高曲线。

所述对时长进行规整化处理,包括建模单元层次的时长规整化和句子层次的时长规整化。所述对建模单元层次的时长规整化,采用N等分元音建模单元处基频曲线的方法对每个元音建模单元的基频的重采样。所述对句子层次的时长规整化,是采用一定方法消除语速对语调评估的影响;实现该过程,通过定义全句的所有建模单元的平均时长为1对每个建模单元时长进行规整化,从而获得各个建模单元的相对时长。

上述步骤103中所述对时长进行规整化处理,获得规整时长曲线,具体包括:将音高的单位转换成半音,然后将不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,利用该相对时长信息形成规整的时长曲线。

上述步骤104中所述将音高和时长的误差值分别进行排序,并抽取出有代表性的点,形成音高排序误差矢量和时长排序误差矢量,具体包括:将音高和时长的误差值分别进行排序,然后对该排序进行任意N等分并抽取N个特征点,形成N维的音高排序误差矢量和时长排序误差矢量,N为自然数。一种可行的办法是分别抽取10%、20%、30%、......、100%处的误差值,形成10维的音高排序误差矢量和时长排序误差矢量。

上述步骤105中所述以音高排序误差矢量和时长排序误差矢量为特征对语调进行评估,具体包括:将音高排序误差矢量和时长排序误差矢量作为语调得分计算的一个重要特征,利用该特征对语调得分进行拟合,实现对语调等级的分类,进而实现对语调的评估。

下面以汉语普通话的语调评估为例。如图2所示,图2是依照本发明实施例对语调进行评估的方法流程图。从210处输入的语音要通过220提取基频,要通过270获得声韵母边界,然后在230处对音高和时长进行规整化处理,在240处求出规整化的音高和规整化的时长跟标准音比较的误差,在250处将这些误差值排序,抽取出有代表性的点,形成排序误差适量,再通过260对语调的好坏进行评估和诊断。

在210处输入的语音,既可以是录音设备实时地输入,也可以是从已经存盘的文件中读取出来。

在220处提取基频,可以采用Praat的自相关法先做初步提取,再利用频谱上的谐波亮纹,对提取过程产生的倍频和半频进行修正,对提不出基频的部分,利用嘎裂音基频提取办法对基频进行提取,再用样条函数对没有基频的位置进行插值。从而获得连续不断的基频曲线。

在270处对语音进行对齐分割,可以采用动态时间规整(DTW)把输入语音与标注好边界的标准音进行对齐,也可以采用维特比(Viterbi)切分分别求出输入语音和标准音的声韵母边界。

在230处进行音高和时长规整化,一种可行的办法是将音高的单位转换成半音(semitone),然后按照图3所示方法进行规整。图3是依照本发明实施例对音高和时长进行规整的方法流程图。首先在320处进行时长规整,不同的韵母的时长除以所有韵母的平均时长,获得每个韵母的相对时长信息,该信息输出为340处的“规整的时长曲线”。而对每个韵母内部,则在330按照图4所示方法把每个建模单元内部的音高进行规整,图4是依照本发明实施例对每个建模单元内部的音高进行规整的方法流程图。首先在410处计算所有韵母段的平均基频M,在420处计算所有韵母段基频的标准差,在430处把每个韵母段的基频减去平均基频M,在450处把430的输出除以R(注意450处把每个基频除以R而不是S,是因为当整句话都是第一声时,S远远小于真实调域,所以需要统计人的调域门限Θ来辅助修正这个不足),然后在460处把每个韵母段的基频规整化为N点,则每个韵母都会在470处形成一个N点基频曲线,把每个字的N点基频曲线连起来,在350处形成规整的句子音高曲线。

在240处,通过对比标准音的“规整音高曲线”和“规整时长曲线”,可以一一对应地计算出音高和时长相对于标准音的误差。

然后在250处,将音高的误差值进行排序,将时长的误差值进行排序,分别抽取10%,20%,30%,......,100%处的误差值,形成10维的音高排序误差矢量和时长排序误差矢量,以这两个排序误差矢量为特征输入到260处进行语调评估。

此方法不仅可以对整句进行语调评估,还可以对句子中指定的韵律词,韵律短语等小片段进行评估,按照260的输出结果,可以知道具体错误在哪个韵律词或者哪个韵律短语,从而完成语调错误位置的具体诊断。

此方法还可以应用在语音合成中,对合成的语调进行自动评估。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号