法律状态公告日
法律状态信息
法律状态
2019-09-24
授权
授权
2018-12-25
实质审查的生效 IPC(主分类):G10L25/51 申请日:20180617
实质审查的生效
2018-11-30
公开
公开
技术领域
本发明是一种基于偏差器官形态行为可视化的口语学习矫正方法,属于语音信号处理与软件工程交叉领域。
背景技术
口语教学有着长期而又广泛的需求,本发明提出的口语学习方法能够对学习者的口语发音质量进行检测,给出发音评分,同时以可视化的方式告诉学习者标准发音以及标准发音器官行为。语言的基本单位是音素,在进一步组成词和句子,本发明基于对音素发音的标准度评估学习者的发音情况,并可视化展示给学习者发错音的因素的标准器官行为。掌握好词间停顿对英语学习至关重要,因此首先要将句子分割成单词的组合,近年来,在语音信号处理领域,关于语音信号中端点检测及判定的研究越来越重要。作为语音识别的前提工作,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰,使语音识别更为准确。本发明基于结合短时能量和短时过零率的端点检测方法来分割句子成单词。口语学习中重读有很多规则,英语是重读因素最为明显的一种语言,本发明提出通过单词的发音时长和短时平均能量对学习者的重读发音进行评分。语调,即说话的腔调,就是一句话里声调高低抑扬轻重的配制和变化,例如英语有五种基本语调:升调、降调、升降调、降升调以及平调。本法明使用DTW算法计算学习者的语调发音和标准音之间的曲线相似度来对学习者发音质量进行评分,并以可视化的方式展示给学习者错误发音对应的标准发音器官行为。
发明内容
本发明提出一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作。具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度。本发明是一种口语学习方法,其特征在于,包括
S1.采集学习者对学习句子的发音信息以及标准发音信息,对所述采集信号进行预处理,提取特征;
S2. 构建标准发音器官形态行为库,将标准音的特征映射到标准发音器官形态行为库;
S3.将采集的学习者的发音信息和标准音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;
S4.根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者该次句子发音的综合得分。
其中,所述步骤S3包括:
通过计算学习者的原始发音信息的音素和标准音的音素的Mel倒频谱系数的欧几里得距离评估音素发音的准确度,若超过给定阈值,则认为发音准确,该阈值由训练得出。若音素发音不准确,则计算不准确音素发音器官行为与标准器官行为的偏差。
所述步骤S3还包括:
通过基于结合短时能量和过零率的检测方法计算重音的平均短时能量和过零率,综合平均短时能量和重音在单词当中的相对位置计算学习者的重音发音和标准重音发音的相似度。若超过给定阈值,则认为发音准确,该阈值由训练得出。若重读发音不准确,则计算不准确音素发音器官行为与标准器官行为的偏差。
所述步骤S3还包括:
通过基于结合短时能量和过零率的检测方法计算无声段,从而确定词间停顿,通过对比学习者对句子发音时的词间停顿时长和标准发音的词间停顿时长对学习者发音的准确度进行评分。
所述步骤S3还包括:
将原始信号分成n段,每段取声音强度的最大值,连接起来形成包络表示该语音信号语调曲线,调取学习者发音信号和标准音信号的语调曲线。利用DTW算法计算两个曲线之间的差异参数dist。并根据差异参数评估学习者发音的语调准确度。若语调不准确,则计算不准确音素发音器官行为与标准器官行为的偏差。
所述步骤S4包括:
综合音素、重读、词间停顿和语调对学习者的发音进行准确度评分,每个指标对评分的影响权重为
所述步骤S2包括:
对所述采集的原始信号进行预处理(Pre-emphasis),预处理包括包括预加重处理、分帧处理、加窗处理和端点检测;
预加重处理:通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器(6dB/oct的规格)来实现预加重,输出结果:y(n)=x(n)->
分帧处理:语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来来进行处理;
加窗处理:所述加窗函数为汉明窗:
端点检测:使用双门方法进行端点检测。分别求信号的短时能量和过零率。
所述步骤S2还包括:
提取句子的原始语音信息的单词特征和音素特征,调取原始信号的Mel倒频谱系数,根据语音的发音时长分段,从而获取句子的每个单词的Mel倒频谱系数作为单词的特征向量。建立标准音素的Mel倒频谱系数表,将每个单词的Mel倒频谱系数的特征向量集合与标准音素的Mel倒频谱系数进行匹配从而切割每个单词成音素Mel倒频谱系数的组成。
所述步骤S2还包括:
提取句子标准发音的所述四个指标的特征,即因素特征提取Mel倒频谱系数(这里,MFCC的阶数设为12),重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络。使用映射函数mapping()将特征与器官形态行为记录函数h(oi,>k)将标准发音的四个指标特征与标准发音器官形态行为建立对应关系,其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点。h(oi,>k)定义为一个包含误差范围器官形态行为的值的范围。
所述步骤S2还包括:
音素特征的映射:
即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi,>k):
本发明使用一组映射系数
h(oi,>k)=>1>1+>2*u1+… +>12*u1
这组U系数的选择条件是:
满足条件:
得出Ujl最小的这组U将作为评估学习者发音器官行为与标准行为差异的一组评估系数。
所述S2还包括:
重读特征的映射:
标准音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1,>2,>m}.>1,>2,>m}将标准音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:
h(oi,>k)=>1*w1 +>2*w2 + ,,, +>m*wm
选取系数W的标准是:
满足条件:
所述S2还包括:
语调的映射:
标准音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1,>2, …,>n},使用一组系数Q={q1,>2, …,>n}将标准音的语调映射到标准器官行为上,如下所示:
h(oi,>k)=>1*q1 +>2*q2 + … +>n*qn
其中,y(n)是标准音原始信号的包络,选取系数W的标准是:
满足条件:
附图说明
图1是一种基于偏差器官形态行为可视化的口语学习矫正方法的一个实施例的总框图;
图2是一种基于偏差器官形态行为可视化的口语学习矫正方法具体实施流程;
图3是一种基于偏差器官形态行为可视化的口语学习矫正方法的器官行为量化时建立的坐标系。
具体实施方式
本发明提出一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作。具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度。本发明是一种口语学习方法,其特征在于,包括
S1.如图2中的步骤001所示,采集学习者对学习句子的发音信息以及标准发音信息,对所述采集信号进行预处理,提取特征;
S2. 如图2中的步骤002,003所示,构建标准发音器官形态行为库,将标准音的特征映射到标准发音器官形态行为库;
S3. 如图2中的步骤004到013所示,将采集的学习者的发音信息和标准音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;
S4. 如图2中的步骤013,014所示,根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者该次句子发音的综合得分。并反馈给学习者。
其中,所述步骤S3包括:
音素相似度计算:经过步骤S2后,得到每个音素的Mel倒频谱系数,通过计算学习者发音的音素与标准发音发音的音素的Mel倒频谱系数的欧几里得距离来评估学习者对音素发音的准确度,如图2中的步骤004,音素相似度计算如下:
xk表示采集的学习者的语音引号的第k个音素Mel倒频谱系数的特征向量,yk表示标准音的第k个音素的Mel倒频谱系数的特征向量,如图2中的步骤007,判断音素发音相似度与阈值的大小,若音素相似度小于阈值Similarityys0,则认为发音不准确,计算学习者发音的器官行为与标准器官形态行为的差异值Differencexw1,如图2中的步骤007-1,计算实现如下:
其中,
所述步骤S3还包括:
重读相似度计算:使用结合基于短时能量和过零率的检测方法进行端点检测确定词的界限,从而切分连续语音信号的句子分开成一组词;当短时能量值超过阈值E0时标记为重读部分,标准音的短时能量超过E0的起始时刻为STstart和STend,如图2中的008,重音相似度计算如下:
其中,CTmiddle表示短时能量谱上第k个重音的中间时刻,CTstart表示第k个重音的发音起始时刻,STmiddle表示标准音的短时能量谱上第k个重音的中间时刻,STstart表示标准音的第k个重音的发音起始时刻。>表示采集的语音信号的重读的短时平均能量,
其中,
所述步骤S3还包括:
词间停顿相似度计算:语音和噪声的区别可以体现在他们的能量上,语音和噪声的区别可以体现在他们的能量上,因此假设有一段语音,如果某部分短时能量和过零率都为零或者为很小的值,就可以认为这部分为无声段。测量单词间无声段的时长作为词间停顿时长指标,如图2中的步骤010,词间停顿相似度计算如下:
其中CTtd表示第i个停顿的时长,STtd表示对应的标准音的第i个停顿的时长。
所述步骤S3还包括:
语调相似度计算:提取语音信号的包络,采集n个采集点的语音强度值作为特征向量,使用DTW算法计算语调相似度,如图2中的012,实现如下:
dist是采集信号与标准信号的DTW相似度参数,a和b通过训练得出;如图2中的步骤013,判断语调相似度与阈值的大小,若重读相似度小于阈值Similarityyd0,则认为发音不准确,计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw3,如图2中的步骤013-1,计算实现如下:
其中,
所述步骤S3还包括:
综合音素、重读、词间停顿和语调对学习者的发音进行准确度评分,每个指标对评分的影响权重为
所述步骤S1包括:
如图2中的步骤001,对所述采集的原始信号进行预处理(Pre-emphasis),预处理包括包括预加重处理、分帧处理、加窗处理和端点检测:
预加重:信号传输线表现出来的是低通滤波特性,传输过程中信号的高频成分衰减大,低频成分衰减少。预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。发送端对输入信号高频分量的提升。本发明通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器(6dB/oct的规格)来实现预加重。其中a为预加重系数,0.9<a<1.0;
设n时刻的原始语音采样值为x(n),经过预加重处理后的结果为:
y(n)=x(n)->
分帧:对预加重数字滤波处理后的信号进行加窗分帧处理,语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来来进行处理,这就是分帧,所述语音信号的分帧采用可移动的有限长度的窗口进行加权的方法来实现的,即交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般为0~0.5,
所述加窗函数为汉明窗:
汉明窗的主瓣宽度较宽,具有更平滑的低通特性,能够在较高的程度上反应短时信号的频率特性;
端点检测:采用双门限法进行端点检测,短时能量的定义:设第n帧语音信号xn(m)的短时能量谱用En>
过零率:短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用来区分清音和浊音,这是因为语音信号中的高频段有高的过零率,低频段过零率较低。定义语音信号xn(m)>n为
式中,sgn[] 是符号函数,即:
为防止误判以及无声段过零率太大,设t1和t2为相邻两个采样点,则同时满足
t1*t2 < 0和|t1- t2|的大于delta时才算一次过零,除此之外,为短时能量和过零率分别确定两个门限,一个是较低的门限ELT>T,其数值较小,对信号的变化比较敏感,很容易就会被超过。另一个是较高的门限EHT>T,数值较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过有可能是时间很短的噪声引起的,高门限被超过则可以基本确定是由语音信号引起的。
所述S1还包括:
提取特征,求单词和音素的Mel倒频谱系数;
Mel特征提取过程:1)先对语音进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过DFT(离散傅里叶变换)得到对应的频谱,实现如下:
3)将上面的频谱通过Mel滤波器组得到Mel频谱;
梅尔滤波器第一个得到 0Hz 附近的能量,越往后的滤波器频带越宽。梅尔滤波器是一组包含20-40个(标准26个)三角滤波器的滤波器。根据梅尔尺度(Mel scale)设置每一个滤波器,频率到梅尔尺度(Mel scale)转换公式:
梅尔尺度转为频率, 转换成梅尔频率后,我们要实现的是40个滤波器,所以计算这40个滤波器的梅尔频率分布,然后把梅尔频率转换成实际频率如下公式:
根据以下公式,计算滤波器的输出(m为滤波器的个数):
4)在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC:
根据发音时长对语音信号进行分段聚类,得到每个单词的Mel倒频谱系数,其中第i段的语音信号的Mel倒频谱系数如下:
M(k)表示第k个单词的Mel倒频谱系数,tk表示第k个单词的发音时长。经过分段聚类后每个单词将由一个Mel倒频谱系数的特征向量集合表示,求音素的Mel倒频谱系数:
建立标准音素的Mel倒频谱系数表,
将每个单词的Mel倒频谱系数的特征向量集合与标准音素的Mel倒频谱系数进行匹配从而切割每个单词成音素Mel倒频谱系数的组成。
所述S2包括:
如图2中的步骤002,提取句子标准发音的所述四个指标的特征,即因素特征提取Mel倒频谱系数(这里,MFCC的阶数设为12),重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络。如图2中的步骤003,使用映射函数mapping()将特征与器官形态行为记录函数h(oi,>k)将标准发音的四个指标特征与标准发音器官形态行为建立对应关系,其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点。
所述S2还包括:
音素特征的映射:
即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi,>k):
本发明使用一组映射系数U={u1,>2,>3,>4,>5,>6,>7,>8,>9,>10,>11,>12}将标准发音映射到标准器官行为。求出这组系数U之后就可以对学习者的发音与标准发音的器官行为进行对比。MFCC系数为{m1,>2,>3,>4,>5,>6,>7,>8,>9,>10,>11,>12},
h(oi,>k)=>1>1+>2*u1+>3*u1+>4*u1+>5*u1+>6*u1+>7*u1+>8*u1+>9*u1+>10*u1+>11*u1+>12*u1
这组U系数的选择条件是:
满足条件:
例如,普通话音素s的MFCC为{-18.10, 5.30, 3.72, 2.11, 1.73, 0.25, -0.11, -0.002, 0.067, -19.3, 5.28, 3.49}对应的标准发音器官形态行为是:
o1(嘴部):{ 0, 20hmm,>hmm},标签:开唇,平展
o2(舌位):{+7zmm,>
o3(牙齿):{+4zmm,>zmm}
o4(呼气量):100,标签:不送气
o5(下颌高度):-20zmm,标签:高
描述:发音时舌尖接近上门齿背,流出窄缝,气门从舌尖的窄缝挤出,摩擦成音。
其中下表h表示相对于牙齿平面、以门牙点为原点画纵坐标的横向移动数据(标记点的变化后的横坐标),下表z表示该坐标系下的纵向移动数据(标记点变化后的纵坐标)。如附图3所示,使用一组映射系数{u1,>2,>3,>4,>5,>6,>7,>8,>9,>10,>11,>12}将标准发音映射到标准器官行为的函数是:
h(oi,>k)=-18.10*u1>+ 5.30*u2>+ 3.73*u3>+ 2.11*u4>+ 1.73*u5>+ 0.25*u6>+ (-0.11)*u7>+ (-0.002)*u8>9>+>10>+>11>+>12
得出Ujl最小的这组U将作为评估学习者发音器官行为与标准行为差异的一组评估系数。
所述S2还包括:
重读特征的映射:
标准音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1,>2,>m}.>1,>2,>m}将标准音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:
h(oi,>k)=>1*w1 +>2*w2 + ,,, +>m*wm
选取系数W的标准是:
满足条件:
所述S2还包括:
语调的映射:
标准音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1,>2, …,>n},使用一组系数Q={q1,>2, …,>n}将标准音的语调映射到标准器官行为上,如下所示:
h(oi,>k)=>1*q1 +>2*q2 + … +>n*qn
其中,y(n)是标准音原始信号的包络,选取系数W的标准是:
满足条件:最小时的系数组Q。
机译: 口语生成模型学习设备,口语收集模型设备,口语生成模型学习方法,口语收集方法和程序
机译: 基于口语学习原理的语言学习装置及语言学习方法
机译: 基于树状结构的反复重复英语口语和外语学习方法及与单词相关的学习方法及其程序