首页> 中国专利> 基于重音突显度的英语发音质量评价方法

基于重音突显度的英语发音质量评价方法

摘要

基于重音突显度的英语发音质量评价方法,属于语音信号技术领域,其特征包括:计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用Bayes分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射。本发明的发音质量评价方法稳健性好,能与匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。

著录项

  • 公开/公告号CN101996635A

    专利类型发明专利

  • 公开/公告日2011-03-30

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201010266766.6

  • 发明设计人 李坤;袁桦;刘加;

    申请日2010-08-30

  • 分类号G10L19/00(20060101);G10L13/08(20060101);G10L15/10(20060101);

  • 代理机构11246 北京众合诚成知识产权代理有限公司;

  • 代理人朱琨

  • 地址 100084 北京市100084-82信箱

  • 入库时间 2023-12-18 01:48:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-11

    专利权的转移 IPC(主分类):G10L19/00 登记生效日:20181121 变更前: 变更后: 申请日:20100830

    专利申请权、专利权的转移

  • 2012-02-08

    授权

    授权

  • 2011-05-18

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20100830

    实质审查的生效

  • 2011-03-30

    公开

    公开

说明书

技术领域

本发明属于语音信号技术领域,具体地说,涉及利用语音信号处理技术实现英语发音质量评价方法,可用于计算机辅助语言学习系统。

背景技术

发音质量客观评价是计算机辅助语言学习系统中最重要的功能之一,是进行人机交互式学习的前提。发音质量客观评价可以分为两个方面,一个方面是从语音信号学角度进行评价,主要考察音素或单词的发音是否准确;另一个方面是从音韵学角度进行评价,主要从韵律方面进行考察,包括重音、语调、语速、停顿等。其中,重音的特征主要表现为音高的提高,音节段长的延长和音强的增大等,也就是对应基频、段长和能量这三个语音信号基本参数。

由于现有技术的局限,目前发音质量客观评价方法的性能还不够理想。由于韵律特征很难判断,特别是重音和语调很难准确检测,传统的发音质量评价方法只是考察了音素或单词的发音是否准确,并不考虑发音的韵律特性。近年来,也有些研究通过比较测试语音信号和参考语音信号的基频、段长和能量等参数的匹配程度,从而提高原来的发音质量评价的性能。中国发明专利申请第200510114848.8号公开了一种基于HMM的发音质量评价方法,该方法主要依靠声学模型,只是从音素发音是否准确来评价发音质量。中国发明专利申请第200810102076.X号提出了一种以教师的发音作为参考语音的评价方法,该方法从声学、感知、和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别,但是在韵律上只是使用基频和段长,但由于基频和段长只是韵律的低层次参数,还不能很好的反映韵律特性。

本发明针对现有技术中存在的问题,提出一种基于重音凸显度的发音质量评价方法。该方法充分考虑了韵律中的重音发音情况,在没考虑音素和单词的匹配分数的情况下,其性能已经十分接近现有的最好技术水平。本发明的发音质量评价方法稳健性好,能与音素和单词的匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。

发明内容

本发明的目的是为克服已有技术的不足之处,提出一种基于重音突显度的发音质量评价方法,可用于计算机辅助语言学习系统,其得到的机器分数与专家的主观分数的相关性达到0.774。

本发明的特征在于所述方法是在计算机中依次按以下步骤实现的:

步骤(1)计算机初始化:

建立一个大规模语音信号数据库,该数据库中的语音都有相应的音素级别标注,且该语音中包含了英语所有音素的语音。

建立一个大规模语音信号的重音训练数据库,该数据库中包含多段语音,语音的所有音节都手工标注为重读或者非重读;

建立一个语音发音质量评价数据库,该数据库由多段测试语音和对应的参考语音组成,且每一段测试语音都由英语评分专家给出了一个发音质量评价分数,作为主观评价分数;

步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路,分别得到相应的分帧语音信号,每帧语音信号长度为30ms;

步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算电路,按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段长:

步骤(3.1)利用预先训练好的隐含马尔可夫模型HMM,采用维特比Viterbi解码算法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准,得到所述两种分帧语音信号中每个音素以及每个单词的时间分隔信息,所述音素分为元音和辅音,辅音又分为前辅音和后辅音,元音分为单词重音和非单词重音,共计四类音素;

步骤(3.2)根据步骤(3.1)得到的各音素的时长,按下式计算参考语音信号和测试语音信号中第i个音素的归一化段长:

dpnorm(i)=d(i)×Σi=1NPDstd(i)Σi=1NPd(i)

i=1,2,…,NP

其中,dpnorm(i)为第i个音素的归一化段长,d(i)为第i个音素的实际时长,Dstd(i)为第i个音素对应的标准段长,等于大规模语音信号数据中,各音素的归一化段长的平均值,为已知值,NP为所述各语音信号中音素的个数;

步骤(3.3)对所述的参考语音信号和测试语音信号的每个音素按音节进行划分,每个音节中包含一个元音音素以及多个辅音音素;

步骤(3.4)按下式计算所述参考语音信号和测试语音信号中第s个音节的归一化段长:

dsnorm(s)=max{dvnorm(s),dvnorm(s)+Δdcon(s)}

s=1,2,…,NS

其中,dsnorm(s)为所述第s个音节的归一化段长,dvnorm(s)为所述第s个音节的元音音素归一化段长,其值已由步骤(3.2)计算得到,NS为所述各参考语音信号和测试语音信号中音节的个数,Δdcon(s)为所述第s个音节中所有辅音音素的归一化延长段长的加权值,即:

Δdcon(s)=Σi=1Ncon(s)ci(dnorm_con(i)-Dstd_con(i))

其中,Ncon(s)为所述第s个音节的辅音个数,dnorm_con(i′)为所述第s个音节中的第i′个辅音的归一化段长,其值已由步骤(2.3)计算得到,Dstd_con(i′)为为所述第s个音节中的第i′个辅音对应的标准段长,ci′为加权系数,ci′=0.8;

步骤(4)按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的最高归一化响度:

步骤(4.1)把步骤(2)所述一段参考语音信号和一段测试语音信号经过预加重、分帧、加Hamming窗、FFT处理,其中预加重滤波器取为1-0.95z-1,分帧和Hamming窗的帧长均为30ms;

步骤(4.2)计算每个频点的能量为:

G(n)=R2(n)+I2(n),n=0,1,…,NFFT-1

其中,G(n)为第n个频点的能量,NFFT为FFT的点数,R(n)和I(n)分别为FFT后输出的频域的实部和虚部;

步骤(4.3)把步骤(4.2)的每个频点n的能量输入一组在Mel频标上均匀分布的Q个三角滤波器中的每一个三角滤波器,得到第q个滤波器的输出能量和的对数M(q):

M(q)=ln[Σn=Fq-1Fqn-Fq-1Fq-Fq-1G(n)+Σn=FqFq+1Fq+1-nFq+1-FqG(n)],

q=1,2,…,Q

其中,Fq是第q个三角滤波器的中心频率,Fq+1和Fq-1为第q个Mel三角滤波器的上、下截止频率,Q为三角滤波器的个数,Q=24;

步骤(4.4)按下式计算所述Mel频标上第q个三角滤波器输出的能量到响度的映射:

L(q)=0.048M(q)0.6

步骤(4.5)按下式计算一帧语音信号的响度为:

L=Σq=1QL(q)=Σq=1Q0.048M(q)0.6

其中,Q为三角滤波器的数量;

步骤(4.6)分别计算所述一段参考语音信号和一段测试语音信号的各帧响度,并进行归一化运算,先求出整段语音信号的响度平均值,再用各帧语音信号的响度减去响度平均值得到归一化后的各帧语音信号的响度值;

步骤(4.7)利用步骤(3.1)计算得到的各音素时间分隔信息,查找所述参考语音信号和测试语音信号的各音节内归一化响度的最高值,求得所述参考语音信号和测试语音信号的各音节最高归一化响度值;

步骤(5)以8kHz作为采样频率,按以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节最高归一化半音程:

步骤(5.1)按以下步骤,计算所述参考语音信号和测试语音信号的各帧基频值:

步骤(5.1.1)对所述一段参考语音信号和一段测试语音信号进行分帧,帧长50ms;

步骤(5.1.2)采用紧支集二次样条小波,对步骤(5.1.1)中得到的分帧参考语音信号和分帧测试语音信号进行2次Mallet小波分解,得到有效频带为0~1kHz,1kHz~2kHz,2kHz~4kHz的各级语音信号,Mallet小波分解公式如下:

cj+1(k)=28cj(2k-2)+328cj(2k-1)+328cj(2k)+28cj(2k+1)dj+1(k)=28cj(2k-2)-328cj(2k-1)+328cj(2k)-28cj(2k+1),k=1,2,...,Nj+1

其中,cj(k)为第j级语音信号的第k个样本点,第0级语音信号为步骤(5.1.1)重新分帧后得到的语音信号,cj+1(k)为小波分解后得到的第j+1级低频分量信号的第k个样本点,{dj+1(k)}为小波分解后得到的第j+1级高频分量信号的第k个样本点,Nj+1为第j+1级语音信号的样本个数;

步骤(5.1.3)对步骤(5.1.2)所述有效频带为0~1kHz的语音信号,送入一个线性预测LP逆滤波器;

步骤(5.1.4)对有效频带为0~1kHz的语音信号,继续进行4次小波分解,得到500~1000Hz、250~500Hz、125~250Hz、62.5~125Hz、0~62.5Hz共5个信号层,为最大限度去除倍频干扰,需要对前4个信号层乘以倍频抑制系数:a0、a1、a2、a3,如果当前帧的前一帧基频在250~500Hz范围时,倍频抑制系数取值为0.2∶1∶2∶2,如果当前帧的前一帧基频在250~500Hz范围以外时,取值为0.2∶1∶2∶4,其余信号层置零,当前帧为第一帧时,所有信号层置零;

步骤(5.1.5)对步骤(5.1.2)和步骤(5.1.4)所述各个信号层进行小波重构的数学运算,把信号恢复到原始8kHz的采样率,此时已经去除了大部分噪音、强共振峰和其他倍频信号的干扰,其中小波重构公式为:

cj(k)=28cj+1(k+22)+328cj+1(k+12)+328cj+1(k2)+28cj+1(k-12)

+28dj+1(k+22)-328dj+1(k+22)+328dj+1(k+22)-28dj+1(k+22)

其中cj(k)、dj+1(k)、cj(n)如步骤(5.1.2)所述;

步骤(5.1.6)对步骤(5.1.5)所述的重构后的分帧语音信号做自相关计算得到每帧的基频值;

步骤(5.1.7)若步骤(5.1.6)计算得到的基频值为0Hz,并且前1帧基频值大于0HZ,则无法检测当前帧的基频值,要重新计算当前帧基频值,但不再通过步骤(5.1.3)LP逆滤波器,而是重新计算步骤(5.1.2)、步骤(5.1.4)~步骤(5.1.6);

步骤(5.1.8)重复步骤(5.1.2)~步骤(5.1.7),得到各帧语音信号的基频值;

步骤(5.1.9)对步骤(5.1.8)所述各帧语音信号的基频值进行平滑处理;

步骤(5.2)按下式计算,把步骤(2)所述的一段参考语音信号和一段测试语音信号的各帧大于0的基频值f转换为半音程值fst

fst=12×log2f55+33,f>0

步骤(5.3)对步骤(2)所述一段参考语音信号和一段测试语音信号的各帧半音程值进行归一化运算,即把基频值为0Hz的半音程值置为-12,再求得整段语音信号中基频值大于0Hz的所有帧的半音程值的平均值,再把基频值中大于0的所有帧的半音程值减去所述平均值,得到的结果即为归一化后的各帧半音程值;

步骤(5.4)利用步骤(3.1)所述的各音素时间分隔信息,查找所述一段参考语音信号和一段测试语音信号的各音节内归一化半音程的最高值,即求得所述一段参考语音信号和一段测试语音信号的音节最高归一化半音程;

步骤(6)计算步骤(2)所述一段参考语音信号和一段测试语音信号的包含非重音音节在内的各音节段长突显度、音节响度突显度、和音节半音程突显度,音节段长突显度定义为prom(s)′:

prom(s)′=0.20Δxs-2′+0.60Δxs-1′+0.60x(s)′+0.40Δxs+1

其中,x(s)′为第s个音节的归一化段长,

音节响度突显度定义为prom(s)″:

prom(s)″=0.20Δxs-2″+1.10Δxs-1″+0.30x(s)″+0.40Δxs+1

其中,x(s)″为第s个音节的最高归一化响度,

音节半音程突显度定义为prom(s)″′:

prom(s)″′=0.25Δxs-2″′+1.25Δxs-1″′+0.30x(s)″′+0.50Δxs+1″′

其中,x(s)″′为第s个音节的最高归一化半音程,

在上述的音节段长突显度、音节响度突显度、和音节半音程突显度定义中,

s=1,2,3,…,Ns,k=-2,-1,1

Ns所述各音节的个数,k表示Δxs+k序号s+k中s的增量值;

步骤(7)按照以下步骤,计算步骤(2)所述的一段参考语音信号和一段测试语音信号的各音节归一化重音突显度:

步骤(7.1)对步骤(1)大规模语音重音训练数据库中所有语音,所述按照步骤(2)~步骤(6)所述的方法,得到所述大规模语音重音训练数据库中所有音节的音节段长突显度、音节响度突显度和音节半音程突显度;

步骤(7.2)采用步骤(1)所述大规模语音重音训练数据库中音节的重音或非重音的标注,以及步骤(7.1)得到的特征,进行贝叶斯分类器的训练,得到贝叶斯分类器的贝叶斯分类矩阵;

步骤(7.3)根据步骤(2)~步骤(6)得到的一段参考语音信号和一段测试语音信号的各音节段长突显度、音节响度突显度和音节半音程突显度,利用步骤(7.1)~步骤(7.2)得到的贝叶斯分类矩阵,进行贝叶斯分类计算,得到所述一段参考语音信号和一段测试语音信号的各音节的重音突显度值;

步骤(7.4)对步骤(7.3)得到的所述参考语音信号和测试语音信号的各音节重音突显度值进行归一化,其计算公式为:

其中,Pnorm(s)为第s个音节的归一化重音突显度值,P(s)为第s个音节的重音突显度值,P0为步骤(7.1)所述的大规模语音重音训练数据库中所有非重音音节的平均突显度值,P1为步骤(7.1)所述的大规模语音重音训练数据库中所有重音音节的平均突显度值;

步骤(8)按照以下步骤,计算所述测试语音信号的发音质量评价分数:

步骤(8.1)按照以下公式,计算所述测试语音信号的重音突显度分数Pwmsd

Pwmsd=Σs=1NSPref_norm(s)·(Ptest_norm(s)-Pref_norm(s))2Σs=1NPref_norm(s)·(Ptest_norm2(s)+Pref_norm2(s))

其中,Ptest_norm(s)为所述一段测试语音信号的第s个音节的归一化重音突显度、Pref_norm(s)为参考语音信号第s个音节的归一化重音突显度,NS为所述各音节的个数;

步骤(8.2)按照以下Sigmoid函数公式,进行分数映射,得到最终发音质量评价分数:

Pscore=1+41+exp(-α·Pwmsd+β)

其中,Pwmsd为映射前分数,Pscore是映射后的分数,α和β为映射系数,由所述大规模发音质量评价数据库中针对同一段参考语音信号的重音突显度分数和专家主观评价分数根据最小方差准则确定。

本发明提出的计算机辅助语音信号学习系统中的基于重音突显度的发音质量评价方法在对学习者的发音质量进行评价时,充分考虑了韵律中的重音发音情况,在没考虑音素和单词的匹配分数的情况下,其性能已经十分接近现有的最好技术水平。本发明的发音质量评价方法稳健性好,能与音素和单词的匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。

本发明具有以下优点:

(1)本发明充分利用了重音突显度进行发音质量客观评价,其机器分数与专家的主观分数相关性达到0.774。

(2)本发明提出的基频提取方法,结合了倍频抑制系数的小波变换和LPC,其准确率达到97.8%,在信噪比为0dB时,其准确依然达到91.1%,而且具有很好的鲁棒性。

(3)基于本发明提出的音节归一化段长、音节最高归一化响度和音节最高归一化半音程等特征,利用Bayes分类器,能提高英语重音检测的性能。在检测单词重音时,其准确性为79.7%;在检测句子重音时,其准确性为78.7%,虚警率11.9%,漏检率9.37%。

(4)基于由本发明提出的突显度模型得到的音节段长突显度、音节响度突显度、音节半音程突显度,利用Bayes分类器,能进一步提高英语句子重音检测的性能,其准确性达到83.4%,虚警率10.9%,漏检率5.72%。

附图说明

图1是发音质量评价方法的总体流程示意图。

图2是以8k采样率的一帧语音信号为例,基于倍频抑制小波变换和LPC的基频提取流程示意图。

具体实施方式

本发明提出的发音质量评价方法主要包括:计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用贝叶斯(Bayes)分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射,最终可以得到发音质量评价分数。其特征在于,各部分具体包括以下几个步骤:

1、所述音节归一化段长、所述音节最高归一化响度、所述音节最高归一化半音程的计算方法,具体步骤如下:

(A)所述音节归一化段长的计算包括:(1)利用预先训练好的隐含马尔可夫模型(HMM),采用Viterbi解码算法,分别对参考语音信号和测试语音信号进行强制对准,得到参考语音信号和测试语音信号的音素时间分隔信息;(2)基于所述音素时间分隔信息,利用各音素标准段长,计算得到参考语音信号和测试语音信号的各音素的归一化段长;(3)基于所述各音素归一化段长,计算参考语音信号和测试语音信号的各音节的归一化段长。

(B)所述音节最高归一化响度计算包括:(1)对参考语音信号和测试语音信号施加Mel滤波器;(2)基于幂定定律,将参考语音信号和测试语音信号经过Mel滤波器的输出能量映射为响度;(3)对响度做归一化处理;(4)找出参考语音信号和测试语音信号的各音节最高归一化响度。

(C)所述音节最高归一化半音程计算包括:(1)基于倍频抑制系数的小波变换和LPC,计算参考语音信号和测试语音信号的各帧基频值;(2)把所述基频值转换到半音程值;(3)找到参考语音信号和测试语音信号的各音节最高归一化半音程。

2、所述音节段长突显度、所述音节响度突显度、所述音节半音程突显度的计算方法,具体步骤如下:

(A)所述音节段长突显度的计算包括:(1)选择合适的段长突显度掩蔽系数;(2)把所述各音节归一化段长,通过突显度模型,得到参考语音信号和测试语音信号的各音节段长突显度。

(B)所述音节响度突显度的计算包括:(1)选择合适的响度突显度掩蔽系数;(2)把所述各音节最高归一化响度,通过突显度模型,得到参考语音信号和测试语音信号的各音节响度突显度。

(C)所述音节半音程突显度的计算包括:(1)选择合适的半音程突显度掩蔽系数;(2)把所述各音节最高归一化半音程,通过突显度模型,得到参考语音信号和测试语音信号各音节的半音程突显度。

3、所述音节归一化重音突显度的计算方法,具体步骤如下:(1)基于所述音节归一化段长、所述音节最高归一化响度、所述音节最高归一化半音程,或者基于所述音节段长突显度、所述音节响度突显度、所述音节半音程突显度,利用Bayes分类器,得到参考语音信号和测试语音信号的各音节重音突显度;(2)对所述重音突显度,进行归一化,得到参考语音信号和测试语音信号的各音节归一化重音突显度。

4、所述重音突显度分数、所述分数映射的计算方法,具体步骤如下:(1)利用所述音节归一化重音突显度,根据加权的均方误差最小准则,计算重音突显度分数;(2)基于Sigmoid函数,对所述的重音突显度分数进行映射,使映射后分数和专家分数处于相同取值区间内。

所述Viterbi解码算法在语音信号处理领域是熟知的算法,可以得到所述音素时间分隔信息。

所述各音素标准段长是通过大规模语音信号数据库,求取音素的归一化段长,然后计算各个音素的平均段长,以此作为各音素的标准段长。

所述突显度模型是基于语音信号的掩蔽效应,除了考虑了当前音节的特征值外,还考虑了前两个音节和后一个音节的特征值的计算模型。

所述掩蔽系数是通过大规模语音信号数据库,通过调试选择最适合所述突显度模型的系数。

所述贝叶斯分类器在模式识别领域中是熟知的算法,通过大规模语音信号数据库,由提取特征数据训练得到。

以下结合附图对本发明提出的基于重音突显度的发音质量评价方法的实施进行详细说明。图1是本发明的发音质量评价方法的总体流程图。(1)首先分别对参考语音信号和测试语音信号提取音节归一化段长、音节最高归一化响度和音节最高归一化半音程等特征。(2)将这些归一化特征再经过相应的突显度模型,得到音节段长突显度、音节响度突显度和音节半音程突显度等特征。(3)利用(1)或(2)中的特征,由贝叶斯分类器,可以得到各音节的归一化重音突显度。(4)利用参考语音信号和测试语音信号的各音节归一化重音突显度,根据加权的均方误差最小准则,得到重音突显度分数。(5)重音突显度分数经过映射后可以得到发音质量评价分数。本发明实施例的整个计算过程细节说明如下:

步骤(1)计算机初始化:

建立一个大规模语音信号数据库,该数据库中的语音都有相应的音素级别标注,且该语音中包含了英语所有音素的语音。

建立一个大规模语音信号的重音训练数据库,该数据库中包含多段语音,语音的所有音节都手工标注为重读或者非重读;

建立一个语音发音质量评价数据库,该数据库由多段测试语音和对应的参考语音组成,且每一段测试语音都由英语评分专家给出了一个发音质量评价分数,作为主观评价分数;

步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路,分别得到相应的分帧语音信号,每帧语音信号长度为30ms;

步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算电路,按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段长:

步骤(3.1)利用预先训练好的隐含马尔可夫模型HMM,采用维特比Viterbi解码算法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准,得到所述两种分帧语音信号中每个音素以及每个单词的时间分隔信息,所述音素分为元音和辅音,辅音又分为前辅音和后辅音,元音分为单词重音和非单词重音,共计四类音素;

步骤(3.2)根据步骤(3.1)得到的各音素的时长,按下式计算参考语音信号和测试语音信号中第i个音素的归一化段长:

dpnorm(i)=d(i)×Σi=1NPDstd(i)Σi=1NPd(i)

i=1,2,…,NP

其中,dpnorm(i)为第i个音素的归一化段长,d(i)为第i个音素的实际时长,Dstd(i)为第i个音素对应的标准段长,等于大规模语音信号数据中,各音素的归一化段长的平均值,为已知值,NP为所述各语音信号中音素的个数;

步骤(3.3)对所述的参考语音信号和测试语音信号的每个音素按音节进行划分,每个音节中包含一个元音音素以及多个辅音音素;

步骤(3.4)按下式计算所述参考语音信号和测试语音信号中第s个音节的归一化段长:

dsnorm(s)=max{dvnorm(s),dvnorm(s)+Δdcon(s)}

s=1,2,…,NS

其中,dsnorm(s)为所述第s个音节的归一化段长,dvnorm(s)为所述第s个音节的元音音素归一化段长,其值已由步骤(3.2)计算得到,NS为所述各参考语音信号和测试语音信号中音节的个数,Δdcon(s)为所述第s个音节中所有辅音音素的归一化延长段长的加权值,即:

Δdcon(s)=Σi=1Ncon(s)ci(dnorm_con(i)-Dstd_con(i))

其中,Ncon(s)为所述第s个音节的辅音个数,dnorm_con(i′)为所述第s个音节中的第i′个辅音的归一化段长,其值已由步骤(2.3)计算得到,Dstd_con(i′)为为所述第s个音节中的第i′个辅音对应的标准段长,ci′为加权系数,ci′=0.8;

步骤(4)按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的最高归一化响度:

步骤(4.1)把步骤(2)所述一段参考语音信号和一段测试语音信号经过预加重、分帧、加Hamming窗、FFT处理,其中预加重滤波器取为1-0.95z-1,分帧和Hamming窗的帧长均为30ms;

步骤(4.2)计算每个频点的能量为:

G(n)=R2(n)+I2(n),n=0,1,…,NFFT-1

其中,G(n)为第n个频点的能量,NFFT为FFT的点数,R(n)和I(n)分别为FFT后输出的频域的实部和虚部;

步骤(4.3)把步骤(4.2)的每个频点n的能量输入一组在Mel频标上均匀分布的Q个三角滤波器中的每一个三角滤波器,得到第q个滤波器的输出能量和的对数M(q):

M(q)=ln[Σn=Fq-1Fqn-Fq-1Fq-Fq-1G(n)+Σn=FqFq+1Fq+1-nFq+1-FqG(n)],

q=1,2,…,Q

其中,Fq是第q个三角滤波器的中心频率,Fq+1和Fq-1为第q个Mel三角滤波器的上、下截止频率,Q为三角滤波器的个数,Q=24;

步骤(4.4)按下式计算所述Mel频标上第q个三角滤波器输出的能量到响度的映射:

L(q)=0.048M(q)0.6

步骤(4.5)按下式计算一帧语音信号的响度为:

L=Σq=1QL(q)=Σq=1Q0.048M(q)0.6

其中,Q为三角滤波器的数量;

步骤(4.6)分别计算所述一段参考语音信号和一段测试语音信号的各帧响度,并进行归一化运算,先求出整段语音信号的响度平均值,再用各帧语音信号的响度减去响度平均值得到归一化后的各帧语音信号的响度值;

步骤(4.7)利用步骤(3.1)计算得到的各音素时间分隔信息,查找所述参考语音信号和测试语音信号的各音节内归一化响度的最高值,求得所述参考语音信号和测试语音信号的各音节最高归一化响度值;

步骤(5)以8kHz作为采样频率,按以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节最高归一化半音程:

步骤(5.1)按以下步骤,计算所述参考语音信号和测试语音信号的各帧基频值:

步骤(5.1.1)对所述一段参考语音信号和一段测试语音信号进行分帧,帧长50ms;

步骤(5.1.2)采用紧支集二次样条小波,对步骤(5.1.1)中得到的分帧参考语音信号和分帧测试语音信号进行2次Mallet小波分解,得到有效频带为0~1kHz,1kHz~2kHz,2kHz~4kHz的各级语音信号,Mallet小波分解公式如下:

cj+1(k)=28cj(2k-2)+328cj(2k-1)+328cj(2k)+28cj(2k+1)dj+1(k)=28cj(2k-2)-328cj(2k-1)+328cj(2k)-28cj(2k+1),k=1,2,...,Nj+1

其中,cj(k)为第j级语音信号的第k个样本点,第0级语音信号为步骤(5.1.1)重新分帧后得到的语音信号,cj+1(k)为小波分解后得到的第j+1级低频分量信号的第k个样本点,{dj+1(k)}为小波分解后得到的第j+1级高频分量信号的第k个样本点,Nj+1为第j+1级语音信号的样本个数;

步骤(5.1.3)对步骤(5.1.2)所述有效频带为0~1kHz的语音信号,送入一个线性预测LP逆滤波器;

步骤(5.1.4)对有效频带为0~1kHz的语音信号,继续进行4次小波分解,得到500~1000Hz、250~500Hz、125~250Hz、62.5~125Hz、0~62.5Hz共5个信号层,为最大限度去除倍频干扰,需要对前4个信号层乘以倍频抑制系数:a0、a1、a2、a3,如果当前帧的前一帧基频在250~500Hz范围时,倍频抑制系数取值为0.2∶1∶2∶2,如果当前帧的前一帧基频在250~500Hz范围以外时,取值为0.2∶1∶2∶4,其余信号层置零,当前帧为第一帧时,所有信号层置零;

步骤(5.1.5)对步骤(5.1.2)和步骤(5.1.4)所述各个信号层进行小波重构的数学运算,把信号恢复到原始8kHz的采样率,此时已经去除了大部分噪音、强共振峰和其他倍频信号的干扰,其中小波重构公式为:

cj(k)=28cj+1(k+22)+328cj+1(k+12)+328cj+1(k2)+28cj+1(k-12)

+28dj+1(k+22)-328dj+1(k+22)+328dj+1(k+22)-28dj+1(k+22)

其中cj(k)、dj+1(k)、cj(n)如步骤(5.1.2)所述;

步骤(5.1.6)对步骤(5.1.5)所述的重构后的分帧语音信号做自相关计算得到每帧的基频值;

步骤(5.1.7)若步骤(5.1.6)计算得到的基频值为0Hz,并且前1帧基频值大于0Hz,则无法检测当前帧的基频值,要重新计算当前帧基频值,但不再通过步骤(5.1.3)LP逆滤波器,而是重新计算步骤(5.1.2)、步骤(5.1.4)~步骤(5.1.6);

步骤(5.1.8)重复步骤(5.1.2)~步骤(5.1.7),得到各帧语音信号的基频值;

步骤(5.1.9)对步骤(5.1.8)所述各帧语音信号的基频值进行平滑处理;

步骤(5.2)按下式计算,把步骤(2)所述的一段参考语音信号和一段测试语音信号的各帧大于0的基频值f转换为半音程值fst

fst=12×log2f55+33,f>0

步骤(5.3)对步骤(2)所述一段参考语音信号和一段测试语音信号的各帧半音程值进行归一化运算,即把基频值为0Hz的半音程值置为-12,再求得整段语音信号中基频值大于0Hz的所有帧的半音程值的平均值,再把基频值中大于0的所有帧的半音程值减去所述平均值,得到的结果即为归一化后的各帧半音程值;

步骤(5.4)利用步骤(3.1)所述的各音素时间分隔信息,查找所述一段参考语音信号和一段测试语音信号的各音节内归一化半音程的最高值,即求得所述一段参考语音信号和一段测试语音信号的音节最高归一化半音程;

步骤(6)计算步骤(2)所述一段参考语音信号和一段测试语音信号的包含非重音音节在内的各音节段长突显度、音节响度突显度、和音节半音程突显度,音节段长突显度定义为prom(s)′:

prom(s)′=0.20Δxs-2′+0.60Δxs-1′+0.60x(s)′+0.40Δxs+1

其中,x(s)′为第s个音节的归一化段长,

音节响度突显度定义为prom(s)″:

prom(s)″=0.20Δxs-2″+1.10Δxs-1″+0.30x(s)″+0.40Δxs+1

其中,x(s)″为第s个音节的最高归一化响度,

音节半音程突显度定义为prom(s)″′:

prom(s)″′=0.25Δxs-2″′+1.25Δxs-1″′+0.30x(s)″′+0.50Δxs+1″′

其中,x(s)″′为第s个音节的最高归一化半音程,

在上述的音节段长突显度、音节响度突显度、和音节半音程突显度定义中,

s=1,2,3,…,Ns,k=-2,-1,1

Ns为所述各音节的个数,k表示Δxs+k序号s+k中s的增量值;

步骤(7)按照以下步骤,计算步骤(2)所述的一段参考语音信号和一段测试语音信号的各音节归一化重音突显度:

步骤(7.1)对步骤(1)大规模语音重音训练数据库中所有语音,所述按照步骤(2)~步骤(6)所述的方法,得到所述大规模语音重音训练数据库中所有音节的音节段长突显度、音节响度突显度和音节半音程突显度;

步骤(7.2)采用步骤(1)所述大规模语音重音训练数据库中音节的重音或非重音的标注,以及步骤(7.1)得到的特征,进行贝叶斯分类器的训练,得到贝叶斯分类器的贝叶斯分类矩阵;

步骤(7.3)根据步骤(2)~步骤(6)得到的一段参考语音信号和一段测试语音信号的各音节段长突显度、音节响度突显度和音节半音程突显度,利用步骤(7.1)~步骤(7.2)得到的贝叶斯分类矩阵,进行贝叶斯分类计算,得到所述一段参考语音信号和一段测试语音信号的各音节的重音突显度值;

步骤(7.4)对步骤(7.3)得到的所述参考语音信号和测试语音信号的各音节重音突显度值进行归一化,其计算公式为:

其中,Pnorm(s)为第s个音节的归一化重音突显度值,P(s)为第s个音节的重音突显度值,P0为步骤(7.1)所述的大规模语音重音训练数据库中所有非重音音节的平均突显度值,P1为步骤(7.1)所述的大规模语音重音训练数据库中所有重音音节的平均突显度值;

步骤(8)按照以下步骤,计算所述测试语音信号的发音质量评价分数:

步骤(8.1)按照以下公式,计算所述测试语音信号的重音突显度分数Pwmsd

Pwmsd=Σs=1NSPref_norm(s)·(Ptest_norm(s)-Pref_norm(s))2Σs=1NPref_norm(s)·(Ptest_norm2(s)+Pref_norm2(s))

其中,Ptest_norm(s)为所述一段测试语音信号的第s个音节的归一化重音突显度、Pref_norm(s)为参考语音信号第s个音节的归一化重音突显度,NS为所述各音节的个数;

步骤(8.2)按照以下Sigmoid函数公式,进行分数映射,得到最终发音质量评价分数:

Pscore=1+41+exp(-α·Pwmsd+β)

其中,Pwnsd为映射前分数,Pscore是映射后的分数,α和β为映射系数,由所述大规模发音质量评价数据库中针对同一段参考语音信号的重音突显度分数和专家主观评价分数根据最小方差准则确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号