法律状态公告日
法律状态信息
法律状态
2014-07-23
授权
授权
2013-05-29
实质审查的生效 IPC(主分类):A61B5/12 申请日:20121217
实质审查的生效
2013-04-24
公开
公开
技术领域
本发明属于言语测听技术领域,涉及一种言语测听动态词表的设计方 法和汉语言语测听系统。所述的言语测听动态词表,是一种由指定长 度的必测词表和不定长度的隐含词表组成的言语测听词表。所述的指 定长度的必测词表是指从语音文件的声学特征的角度对声韵母进行听 感分类和清晰度计算,并以此为核心而编制的言语测听词表。所述的 不定长度的隐含词表是对必测词表的扩充,是指在测听过程中,当受 试者对必测词表项听辨错误时所选择的补充测试项的集合,所选择的 补充测试项与该必测词表听辨错误项的声韵母属于同一声韵母分类。 所述的汉语言语测听系统是指存储有多个等价的言语测听动态词表并 通过隐含词表项对必测词表听辨错误项进行补偿测试的言语测听系统 ,测听过程能通过软件系统自动化完成,相比传统测听系统,具有更 高的测试效率、测试信度和等价性。
背景技术
60年代中期,张家騄先生通过分析大量主观听辨测试结果,并依据音 位平衡原则编制了10张“语言清晰度测试音节表”,每张表75个单音 节字,从主观上研究了汉语的清晰度问题。
21世纪初,从事言语测听领域的研究者们基于上述清晰度测试音节表 编制了多套言语测听词表,并用于言语测听。言语测听方法是基于言 语测听识别率来评价受试者听力情况的方法。具体做法是先按照一定 原则制定统一的词表,然后让受试者听完一个或多个词表的所有项, 记录并统计所有听辨正确的项,最终以正确项数与对应一个或多个表 中项的总数的比值,即言语识别率,作为最终听力评价指标。其中词 表的设计遵循三个原则:挑常用字,考虑音位平衡,保证词表间的等 价性。词表长度的发展趋势是由长变短,先后设计了75字/表、50字/ 表、25字/表和20字/表。但是,已有方法存在一些不足:(1)词表长 度固定,词表越长,测试时间越长,受试者疲劳,测试效率低,信度 差;词表越短,词表间的等价性越低,测听结果的离散度越大;(2) 词表设计未考虑语音声学特征之间的差异,词表在录音中语音信号声 学特征(频谱、音高、音长和能量)的变化会引起听辨误差;(3)已 有测试方法未考虑到随机性因素的干扰,比如受试者的情绪以及注意 力不集中等因素的影响,最终会导致降低测试结果的信度。
本发明从声学特征的角度分别对韵母和声母进行了听感分析。通过提 取韵母线性预测编 码LPC谱,经过层次聚类,最终对韵母进行听感上的分类。通过对声母 时域和频域特征的分析,经过层次聚类,最终对声母进行听感上的分 类,并提出了一种声母清晰度计算方法。基于以上听感分析,本发明 提出了一种新的言语测听动态词表设计方法和汉语言语测听系统。
发明内容
本发明提出了一种言语测听系统,涉及一种言语测听动态词表的设计 方法和汉语言语测听系统。与已有方法相比,该方法主要有三个创新 点:1)在已有词表设计方法的基础上,以词表录音的声学特征评估词 表的清晰度,以此编制的词表具有高信度和高等价性;2)设计了动态 词表,词表长度不再固定,从而在测试周期上能表现出更高的灵活性 ,同时能在保证较高信度的基础上缩短测试时间,提高测试效率;3) 设计的汉语言语测听系统的测试方法可对听辨错误项进行补偿,并设 计了一套基于多维特征的计分规则,能提高测试结果的信度。该方法 克服了已有言语测听中测试周期与词表长度之间难以平衡的矛盾以及 测试信度偏低的缺陷,同时通过评估词表清晰度及测试方法中对听辨 错误项的修正,提高测试结果的信度。其特征在于,是在一个汉语言 语测听系统中依次按以下步骤实现的:
步骤(1),构建一个包括中央处理器、鼠标、键盘、图形显示器、外存 设备和听力计的汉语言语测听系统,所述中央处理器的各输入端分别 与所述键盘、鼠标及听力计的输出端相连,所述听力计的输入端与扬 声器的输出端相连,所述中央处理器的各其他输出/输入端与图形显示 器和外存设备分别互连;
步骤(2),在所述中央处理器中,依次按以下步骤构造一个汉语普通话 言语测听动态词表,其中包括一个指定长度的必测词表和一个不定长 度的隐含词表:
步骤(2.1),依次按以下步骤构造一个所述的指定长度的必测词表:
步骤(2.1.1),选择测试文件方式的测试项,每个所述测试项在汉语 口语交流中出现的频次都排名在前2000以内,所述测试项的集合要覆 盖汉语普通话所有声韵调的组合,并为每个所述测试项录制成一个相 应语音文件;
步骤(2.1.2),对步骤(2.1.1)得到的语音文件分别标注每个音节 中声母和韵母的起始位置,并把声母部分的语音信号重新存储为一个 声母语音文件,把韵母部分的语音信号重新存储为一个韵母语音文件 ;
步骤(2.1.3),依次按以下步骤在听感上对声母进行分类:
步骤(2.1.3.1),按以下步骤从步骤(2.1.2)得到的声母语音文件 中提取如下所述声学特征参数:声母过零率参数ZCR、声母MFCC参数M 以及声母Bark频带能量比率参数Br,所述的ZCR,M及Br是按照以下步 骤得到的:
步骤(2.1.3.1.1),所述的声母过零率参数ZCR按以下公式计算:
其中K为声母时域语音信号采样点个数,k为声母时域语音信号采样点 的索引,k=2,3,…,K,x(k)为第k个声母时域语音信号采样值,sgn(x (k))表示取x(k)的符号,x(k)为正数时取1,x(k)为负数时取-1,否则 取0,ZCR为声母过零率参数;
步骤(2.1.3.1.2),所述的声母Bark频带能量比率参数Br按以下步骤 得到:
步骤(2.1.3.1.2.1),把声母语音信号分帧、加窗后按下列公式求声 母FFT能量谱:
其中,K为声母时域语音信号采样点个数,k为声母时域语音信号采样 点的索引,k=0,1,…,K-1,x(k)为第k个声母时域语音信号采样值, n为声母频域信号的索引,计算中声母频域信号总数与时域信号总数相 同,n=0,1,…,K-1,j为频数单位,e为自然对数的底,为谐波频率, 为第n次谐波序列,F[n]为转换后的第n个FFT频域值,取其幅值的对 数值作为FFT能量值,所有FFT能量值组成该声母语音信号的FFT能量谱 ,F[2n']为偶数项频域值,F[2n'+1]为奇数项频域值,;
步骤(2.1.3.1.2.2),令x1,x2,…,x21分别为所述声学FFT能量谱中, 每一个Bark频带i的累计能量分量和,共有21个,i=1,2,…,21;
步骤(2.1.3.1.2.3),按下式计算频带i的累计能量分量和占全部频 带能量的比例yi:
步骤(2.1.3.1.2.4),令yi=y1,y2,…,yi,…,y21,得到以y1,y2,…, y21作为声母的21维Bark频带能量比率参数;
步骤(2.1.3.1.3),声母MFCC参数M按以下步骤得到:
步骤(2.1.3.1.3.1),按步骤(2.1.3.1.2.1)对声母语音信号做FF T变换,得到FFT变换后的频谱,计算该频谱的幅值的平方,得到离散 的功率谱;
步骤(2.1.3.1.3.2),采用如下三角滤波器组在频域内对步骤(2.1 .3.1.3.1)得到的离散的功率谱进行带通滤波,并将滤波后的结果取 对数:
其中f(u)为第u个频带的中心频率,u为频带的索引,u=0,1,…,U-1, U为频带总数,取U=24,v为离散频率分量值,v=0,1,…, Tu(v)为第 u个频带对应的滤波器组对频率v的频率响应;
步骤(2.1.3.1.3.3),将步骤(2.1.3.1.3.2)得到的结果通过以下 离散余弦变换DCT公式计算,得到12阶的MFCC系数M:
其中,w(u')为步骤(2.1.3.1.3.2)得到的对数值序列,表示第u' 个余弦分量,Mu为第u个MFCC参数,(M1,M2,…,M12)构成12阶MFCC参数 ;
步骤(2.1.3.2),对步骤(2.1.3.1.1)至步骤(2.1.3.1.3)得到的 声学特征参数按下式进行归一化处理:
其中,fnew是归一化处理后的包括ZCR、Mu、yi在内的各声学特征参数, fsource是归一化处理之前的声学特征参数,Fsource为同一维度i的未处理时的声 学特征参数集合;
步骤(2.1.3.3),按下式计算每个语音对应的清晰度ATLh:
其中Ca为常值,取值为Ca=0.9027,c0为参数ZCR的系数,取值为c0=- 0.0585,Bri表示第i维Bark频带能量比率参数,Bri=yi,bi为参数Bri的 系数,取值分别为b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493, b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143, Mu表示第u维MFCC参数,mu为参数Mu的系数,取值分别为m1=-0.2620, m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0, h表示测试项的索引,h=1,2,…,H,H为测试项总数,取H=20;
步骤(2.1.3.4),按以下步骤得到声母必测词表:
步骤(2.1.3.4.1),设定每一个所述声母语音文件为一类,Sh'={Xh'} ,其中Sh'为第h'个分类,Xh'为第h'个声母语音的特征参数向量;
步骤(2.1.3.4.2),把H'个分类中欧氏距离最近的向量与类归并为 一个子类,构成欧式距离最近的向量声母语音的集合;
步骤(2.1.3.4.3),分别计算步骤(2.1.3.4.2)得到的各个集合内 所有向量的平均值,作为该集合的中心向量,再计算任何两个所述声 母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的 距离;
步骤(2.1.3.4.4),重复步骤(2.1.3.4.2)和步骤(2.1.3.4.3), 直到只剩下一个子类;
步骤(2.1.3.4.5),根据步骤(2.1.3.4.4)得到的结果构造一棵叶 子节点为21个声母语音的聚类树,最终把声母语音分成八类:
第一类声母语音为b, d, f, 分类频率为19.60%,分类个数为4,
第二类声母语音为p, t, ch, 分类频率为7.26%,分类个数为1,
第三类声母语音为g, k, h, 分类频率为11.75%,分类个数为2,
第四类声母语音为j, q, x, 分类频率为14.95%,分类个数为3,
第五类声母语音为z, c, s, 分类频率为5.24%,分类个数为1,
第六类声母语音为l, m. n, r, 分类频率为13.90%,分类个数为 3,
第七类声母语音为zh, sh, 分类频率为14.84%,分类个数为3,
第八类声母语音为零声母, 分类频率为12.45%,分类个数为3,
分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语 中出现的总频次的百分比,分类个数为以单个必测词表测试项总数H= 20为例,将该测试总数乘以分类的频率然后四舍五入得到的该分类在 词表中的个数,零声母是指,在汉语普通话中只由一个韵母组成的音 节,由于该音节没有声母,声学上将该类音节的声母称之为零声母;
步骤(2.1.4),依次按照以下步骤在听感上对韵母语音进行分类:
步骤(2.1.4.1),对步骤(2.1.2)得到的每个韵母语音文件,选 择时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时 刻的语音帧,按如下步骤计算生成三条LPC谱曲线,每个韵母语音文件 均有三条线性预测LPC谱曲线:
步骤(2.1.4.1.1),对每个韵母语音帧按下式进行预加重处理:
s(k')=x(k')-0.94x(k'-1)
其中,k'为韵母语音采样信号的索引,x(k')为原始韵母语音文件中 第k'个韵母语音采样信号的幅值,s(k')为预加重处理后的韵母语音 信号幅值;
步骤(2.1.4.1.2),对步骤(2.1.4.1.1)预加重处理得到的韵母语 音信号采用如下汉明窗进行加窗处理:
其中M为预先指定的窗长,W(m)为第m个窗序列值,m为窗序列的索引, m=0,1,…,M-1,取M=256,
加窗处理公式为:
其中,s(k')为步骤(2.1.4.1.1)得到的语音,W(m-k')为汉明窗的 第m-k'个值,z(m)为加窗处理后的语音;
步骤(2.1.4.1.3),对步骤(2.1.4.1.2)得到的语音信号z(m),按 如下方程组计算指定阶数为P的P个LPC系数,P的取值范围为15≤P≤6 0且P为整数:
令
,
其中,z(m)z(m+p)表示两个时域信号的乘积,r(p)是中间变量,εP为 实际信号与线性预测信号的最小均方误差,αp为第p个LPC系数,p为 LPC系数的索引,且p=1,2,…,P,(α1,α2,…,αp)即为所求的P个LP C系数;
步骤(2.1.4.1.4),按步骤(2.1.3.1.1)计算由步骤(2.1.4.1.3) 得到的LPC系数(α1,α2,…,αp)的FFT能量谱,该能量谱对应的曲线 即为LPC谱曲线;
步骤(2.1.4.2),对于每条所述的LPC谱线,以500Hz,1000Hz,200 0Hz为中心,分别计算[450,550]、[950,1050]和[1950,2050]三个频率 段内LPC谱曲线的积分,由此得到一个九维特征向量,作为韵母的特征 向量;
步骤(2.1.4.3),对所有的韵母语音文件执行步骤(2.1.4.1)到步 骤(2.1.4.2),各九维特征向量之间的欧氏距离为韵母语音感知距离 ;
步骤(2.1.4.4),把步骤(2.1.4.3)的结果聚成一个韵母语音的聚 类树,把韵母语音分成八类:
第一类韵母语音为o, ou, ong, iong, er, uo, 分类频率为11 .70%,分类个数为2,
第二类韵母语音为ia, iao, iang, ai, an, üan, eng, uan , 分类频率为16.37%,分类个数为3,
第三类韵母语音为a, ao, ang, ua, uang, uai, 分类频率为1 1.27%,分类个数为2,
第四类韵母语音为en, iu, ui, uen, 分类频率为9.40%,分类个 数为2,
第五类韵母语音为i, in, ing, ie, ian, ei, ün, 分类频率 为28.53%,分类个数为6,
第六类韵母语音为ü, üe, 分类频率为2.81%,分类个数为1,
第七类韵母语音为u, 分类频率为7.11%,分类个数为1,
第八类韵母语音为e, 分类频率为12.38%,分类个数为3;
步骤(2.1.5),设定:所述汉语普通话言语测听动态词表中音位q的 出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同, 为fq,按如下步骤计算每个声母语音分类、韵母语音分类及声调语音 分类在所述汉语普通话言语测听动态词表中的实际分配个数:
步骤(2.1.5.1),按如下公式计算每个声母语音分类在所述汉语普通 话言语测听动态词表中的实际分配个数:
其中q1为声母音位,为q1的统计频率,Sa为第a类声母音位集合,a为 声母类的索引,为声母类Sa在所述汉语普通话言语测听动态词表中的 实际分配个数,H为测试项总数;
步骤(2.1.5.2),按如下公式计算每个韵母语音分类在所述汉语普通 话言语测听动态词表中的实际分配个数:
其中q2为韵母音位,为q2的统计频率,Sb为第b类韵母音位集合,b为 声母类的索引,为韵母类Sb在所述汉语普通话言语测听动态词表中的 实际分配个数;
步骤(2.1.5.3),按如下公式计算每个声调语音分类在所述汉语普通 话言语测听动态词表中的实际分配个数:
其中q3为声调音位,为q3的统计频率,Sc为第c类声调音位集合,c为 声调类的索引,为声调类Sc在所述汉语普通话言语测听动态词表中的 实际分配个数;
步骤(2.1.6),根据步骤(2.1.5)中的声母语音、韵母语音及声调 语音的分类及各类的实际分配个数搭配组词编制成所述设定长度的必 测词表;
步骤(2.1.7),按下式计算所述必测词表的清晰度ATL_TB:
并按所述必测词表清晰度ATL_TB调整词表项,使各个语音文件所对应 的必测词表的清晰度相等或相近,以减少各个必测词表在听感上的差 异,步骤如下:
步骤(2.1.7.1),计算步骤(2.1.7)生成的所有所述必测词表的词 表清晰度的平均值ATL_TBmean及标准差ATL_TBSD:
其中,q表示所述必测词表的索引,q=1,2,…,Q,Q为所制定的所述必 测词表的总张数, ATL_TBq为第q张所述必测词表的清晰度;
步骤(2.1.7.2),设定:步骤(2.1.7.1)中各必测词表与词表清晰 度平均值ATL_TBmean之差的绝对值的阈值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步骤(2.1.7.3),把步骤(2.1.7.1)中各必测词表的清晰度ATL_TB 与ATL_TBmean进行比较,若Δ(ATL_TB)≤0.1,则可不必对该词表进行调 整,否则:
若ATL_TB<ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较小语音 测试项,
若ATL_TB>ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较大语音 测试项;
步骤(2.1.7.4),按以下方式对步骤(2.1.7.3)中被删去的项进行 替代:
若ATL_TB<ATL_TBmean,则用清晰度大于所述删去项且由和该删去项的相 同声母、同类韵母项搭配组成的项代替,
若ATL_TB>ATL_TBmean,则用清晰度小于所述删去项且由与该被删去项相 同声母、同类韵母搭配组成的项代替;
步骤(2.1.7.5),重复执行步骤(2.1.7.4)直至步骤(2.1.7.4)中 的各必测词表的清晰度ATL_TB与ATL_TBmean之差的绝对值小于预先设定的 阈值Δ(ATL_TB)≤0.1为止,从而组成一个有多个等价的言语测听动态 词表的言语测听系统;
步骤(2.2),不定长度的隐含词表是当受试者对必测词表项听辨错误 时所选择的补充测试项的集合,其中,两者的声母语音属于同一个声 母语音分类,韵母语音也属于同一韵母语音分类,共同组成隐含词表 同质项;
步骤(3),测试者在一个隔音房间中对被测试者进行言语测听,由计 算机随机播放测试项,用听力计对音强进行调节。
汉语言语测听系统是按照如下测试步骤测听的:
步骤(1),选择一个必测词表,并固定播放声强;
步骤(2),若必测词表中的所有测试项都已被测试过,则转步骤(4 ),否则选择该必测词表中未被测试的一个测试项播放,并标记该测 试项为已测试;
步骤(3),受试者对上述测试项进行反馈,测试员记录反馈结果,反 馈结果包括听辨正误及该测试项是属于必测词表项还是隐含词表项, 下同:
步骤(3.1),若受试者听辨正确,则记录反馈结果,转步骤(2);
步骤(3.2),若受试者听辨错误,则从隐含词表中选择同一声母分类 的另一声母和同一韵母分类的另一韵母搭配的测试项(即隐含词表同 质项)继续进行测试并记录反馈结果,直至所有同质项中听辨正确项 与错误项的比例不等于1:1为止,则转步骤(2);
步骤(4),测试结束;
步骤(5),此次测试的识别率结果计算方法如下:
步骤(5.1),若必测项答对,则该项得分为1;
步骤(5.2),若必测项答错,且隐含项连续两次都答对,则该项得分 为α;
步骤(5.3),若必测项答错,隐含项第一项答错或隐含项一对一错, 则该项得分为-β;
步骤(5.4),测试最终得分由必测词表项和隐含词表项的听辨结果共 同决定,最终得分为F=p+rα-(q-r)β,其中p为必测项听辨正确的总次 数,q为出现要使用隐含词表的总次数,r为出现步骤(5.2)情况的次 数,且p与q之和为必测词表项的总和。
本发明的优越性在于:采用基于声韵母声学特征参数的层次聚类及听 感实测数据的统计分析对声韵母进行听觉感知分类,以该听觉感知分 类及词表清晰度为原则编制的词表,具有较高的等价性;通过隐含词 表项的补偿,能保证测试结果具有较高的信度;不定长度的动态词表 的设计,能保证在较高信度的基础上,缩短测试时间,提高测试效率 。
附图说明
图1 适用于本发明实施例的计算机言语测听系统。
图2 基于动态词表的言语测听系统测听流程图。
图3基于动态词表的汉语言语自动测听方法流程图。
具体实施方式
以汉语普通话言语测听动态词表的设计方法和汉语普通话言语测听系 统为例,本发明的详细设计过程描述如下:
图1为适用于本发明实施例的计算机言语测听系统。图2为本发明提出 的基于动态词表的言语测听系统测听流程图。图3为摘要附图,是基于 动态词表的汉语言语自动测听方法流程图。
该发明的详细设计步骤为:
步骤(1),构建一个包括中央处理器、鼠标、键盘、图形显示器、外存 设备和听力计的汉语言语测听系统,所述中央处理器的各输入端分别 与所述键盘、鼠标及听力计的输出端相连,所述听力计的输入端与扬 声器的输出端相连,所述中央处理器的各其他输出/输入端与图形显示 器和外存设备分别互连;
步骤(2),在所述中央处理器中,依次按以下步骤构造一个汉语普通话 言语测听动态词表,其中包括一个指定长度的必测词表和一个不定长 度的隐含词表:
步骤(2.1),依次按以下步骤构造一个所述的指定长度的必测词表:
步骤(2.1.1),选择测试文件方式的测试项,每个所述测试项在汉语 口语交流中出现的频次都排名在前2000以内,所述测试项的集合要覆 盖汉语普通话所有声韵调的组合,并为每个所述测试项录制成一个相 应语音文件;
步骤(2.1.2),对步骤(2.1.1)得到的语音文件分别标注每个音节 中声母和韵母的起始位置,并把声母部分的语音信号重新存储为一个 声母语音文件,把韵母部分的语音信号重新存储为一个韵母语音文件 ;
步骤(2.1.3),依次按以下步骤在听感上对声母进行分类:
步骤(2.1.3.1),按以下步骤从步骤(2.1.2)得到的声母语音 文件中提取如下所述声学特征参数:声母过零率参数ZCR、声母MFCC参 数M以及声母Bark频带能量比率参数Br,所述的ZCR,M及Br是按照以下 步骤得到的:
步骤(2.1.3.1.1),所述的声母过零率参数ZCR按以下公式计算:
其中K为声母时域语音信号采样点个数,k为声母时域语音信号采样点 的索引,k=2,3,…,K,x(k)为第k个声母时域语音信号采样值,sgn(x (k))表示取x(k)的符号,x(k)为正数时取1,x(k)为负数时取-1,否则 取0,ZCR为声母过零率参数;
步骤(2.1.3.1.2),所述的声母Bark频带能量比率参数Br按以下步骤 得到:
步骤(2.1.3.1.2.1),把声母语音信号分帧、加窗后按下列公式求声 母FFT能量谱:
其中,K为声母时域语音信号采样点个数,k为声母时域语音信号采样 点的索引,k=0,1,…,K-1,x(k)为第k个声母时域语音信号采样值, n为声母频域信号的索引,计算中声母频域信号总数与时域信号总数相 同,n=0,1,…,K-1,j为频数单位,e为自然对数的底,为谐波频率, 为第n次谐波序列,F[n]为转换后的第n个FFT频域值,取其幅值的对 数值作为FFT能量值,所有FFT能量值组成该声母语音信号的FFT能量谱 ,F[2n']为偶数项频域值,F[2n'+1]为奇数项频域值,;
步骤(2.1.3.1.2.2),令x1,x2,…,x21分别为所述声学FFT能量谱中, 每一个Bark频带i的累计能量分量和,共有21个,i=1,2,…,21;
步骤(2.1.3.1.2.3),按下式计算频带i的累计能量分量和占全部频 带能量的比例yi:
步骤(2.1.3.1.2.4),令yi=y1,y2,…,yi,…,y21,得到以y1,y2,…, y21作为声母的21维Bark频带能量比率参数;
步骤(2.1.3.1.3),声母MFCC参数M按以下步骤得到:
步骤(2.1.3.1.3.1),按步骤(2.1.3.1.2.1)对声母语音信号做FF T变换,得到FFT变换后的频谱,计算该频谱的幅值的平方,得到离散 的功率谱;
步骤(2.1.3.1.3.2),采用如下三角滤波器组在频域内对步骤(2.1 .3.1.3.1)得到的离散的功率谱进行带通滤波,并将滤波后的结果取 对数:
其中f(u)为第u个频带的中心频率,u为频带的索引,u=0,1,…,U-1, U为频带总数,取U=24,v为离散频率分量值,v=0,1,…, Tu(v)为第 u个频带对应的滤波器组对频率v的频率响应;
步骤(2.1.3.1.3.3),将步骤(2.1.3.1.3.2)得到的结果通过 以下离散余弦变换DCT公式计算,得到12阶的MFCC系数M:
中,w(u')为步骤(2.1.3.1.3.2)得到的对数值序列,表示第u'个 余弦分量,Mu为第u个MFCC参数,(M1,M2,…,M12)构成12阶MFCC参数;
步骤(2.1.3.2),对步骤(2.1.3.1.1)至步骤(2.1.3.1.3)得到的 声学特征参数按下式进行归一化处理:
其中,fnew是归一化处理后的包括ZCR、Mu、yi在内的各声学特征参数, fsource是归一化处理之前的声学特征参数,Fsource为同一维度i的未处理时的声 学特征参数集合;
步骤(2.1.3.3),按下式计算每个语音对应的清晰度ATLh:
其中Ca为常值,取值为Ca=0.9027,c0为参数ZCR的系数,取值为c0=- 0.0585,Bri表示第i维Bark频带能量比率参数,Bri=yi,bi为参数Bri的 系数,取值分别为b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493, b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143, Mu表示第u维MFCC参数,mu为参数Mu的系数,取值分别为m1=-0.2620, m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0, h表示测试项的索引,h=1,2,…,H,H为测试项总数,取H=20;
步骤(2.1.3.4),按以下步骤得到声母必测词表:
步骤(2.1.3.4.1),设定每一个所述声母语音文件为一类,Sh'={Xh'} ,其中Sh'为第h'个分类,Xh'为第h'个声母语音的特征参数向量;
步骤(2.1.3.4.2),把H'个分类中欧氏距离最近的向量与类归并为 一个子类,构成欧式距离最近的向量声母语音的集合;
步骤(2.1.3.4.3),分别计算步骤(2.1.3.4.2)得到的各个集合内 所有向量的平均值,作为该集合的中心向量,再计算任何两个所述声 母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的 距离;
步骤(2.1.3.4.4),重复步骤(2.1.3.4.2)和步骤(2.1.3.4.3), 直到只剩下一个子类;
步骤(2.1.3.4.5),根据步骤(2.1.3.4.4)得到的结果构造一棵叶 子节点为21个声母语音的聚类树,最终把声母语音分成八类:
第一类声母语音为b, d, f, 分类频率为19.60%,分类个数为4,
第二类声母语音为p, t, ch, 分类频率为7.26%,分类个数为1,
第三类声母语音为g, k, h, 分类频率为11.75%,分类个数为2,
第四类声母语音为j, q, x, 分类频率为14.95%,分类个数为3,
第五类声母语音为z, c, s, 分类频率为5.24%,分类个数为1,
第六类声母语音为l, m. n, r, 分类频率为13.90%,分类个数为 3,
第七类声母语音为zh, sh, 分类频率为14.84%,分类个数为3,
第八类声母语音为零声母, 分类频率为12.45%,分类个数为3,
分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语 中出现的总频次的百分比,分类个数为以单个必测词表测试项总数H= 20为例,将该测试总数乘以分类的频率然后四舍五入得到的该分类在 词表中的个数,零声母是指,在汉语普通话中只由一个韵母组成的音 节,由于该音节没有声母,声学上将该类音节的声母称之为零声母;
步骤(2.1.4),依次按照以下步骤在听感上对韵母语音进行分类:
步骤(2.1.4.1),对步骤(2.1.2)得到的每个韵母语音文件,选择 时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时刻 的语音帧,按如下步骤计算生成三条LPC谱曲线,每个韵母语音文件均 有三条线性预测LPC谱曲线:
步骤(2.1.4.1.1),对每个韵母语音帧按下式进行预加重处理:
s(k')=x(k')-0.94x(k'-1)
其中,k'为韵母语音采样信号的索引,x(k')为原始韵母语音文件中 第k'个韵母语音采样信号的幅值,x(k')为预加重处理后的韵母语音 信号幅值;
步骤(2.1.4.1.2),对步骤(2.1.4.1.1)预加重处理得到的 韵母语音信号采用如下汉明窗进行加窗处理:
其中M为预先指定的窗长,W(m)为第m个窗序列值,m为窗序列的索引, m=0,1,…,M-1,取M=256,
加窗处理公式为:
其中,s(k')为步骤(2.1.4.1.1)得到的语音,W(m-k')为汉明窗的 第m-k'个值,z(m)为加窗处理后的语音;
步骤(2.1.4.1.3),对步骤(2.1.4.1.2)得到的语音信号z(m),按 如下方程组计算指定阶数为P的P个LPC系数,P的取值范围为15≤P≤6 0且P为整数,本例中取P=40:
令
,
其中,z(m)z(m+p)表示两个时域信号的乘积,r(p)是中间变量,εP为 实际信号与线性预测信号的最小均方误差,αp为第p个LPC系数,p为 LPC系数的索引,且p=1,2,…,P,(α1,α2,…,αp)即为所求的P个LP C系数;
步骤(2.1.4.1.4),按步骤(2.1.3.1.1)计算由步骤(2.1.4.1.3) 得到的LPC系数(α1,α2,…,αp)的FFT能量谱,该能量谱对应的曲线 即为LPC谱曲线;
步骤(2.1.4.2),对于每条所述的LPC谱线,以500Hz,1000Hz,200 0Hz为中心,分别计算[450,550]、[950,1050]和[1950,2050]三个频率 段内LPC谱曲线的积分,由此得到一个九维特征向量,作为韵母的特征 向量;
步骤(2.1.4.3),对所有的韵母语音文件执行步骤(2.1.4.1)到步 骤(2.1.4.2),各九维特征向量之间的欧氏距离为韵母语音感知距离 ;
步骤(2.1.4.4),把步骤(2.1.4.3)的结果聚成一个韵母语音的聚 类树,把韵母语音分成八类:
第一类韵母语音为o, ou, ong, iong, er, uo, 分类频率为11 .70%,分类个数为2,
第二类韵母语音为ia, iao, iang, ai, an, üan, eng, uan , 分类频率为16.37%,分类个数为3,
第三类韵母语音为a, ao, ang, ua, uang, uai, 分类频率为1 1.27%,分类个数为2,
第四类韵母语音为en, iu, ui, uen, 分类频率为9.40%,分类个 数为2,
第五类韵母语音为i, in, ing, ie, ian, ei, ün, 分类频率 为28.53%,分类个数为6,
第六类韵母语音为ü, üe, 分类频率为2.81%,分类个数为1,
第七类韵母语音为u, 分类频率为7.11%,分类个数为1,
第八类韵母语音为e, 分类频率为12.38%,分类个数为3;
步骤(2.1.5),设定:所述汉语普通话言语测听动态词表中音位q的 出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同, 为fq,按如下步骤计算每个声母语音分类、韵母语音分类及声调语音 分类在所述汉语普通话言语测听动态词表中的实际分配个数:
步骤(2.1.5.1),按如下公式计算每个声母语音分类在所述汉语普通 话言语测听动态词表中的实际分配个数:
其中q1为声母音位,为q1的统计频率,Sa为第a类声母音位集合,a为 声母类的索引,为声母类Sb在所述汉语普通话言语测听动态词表中的 实际分配个数,H为测试项总数;
步骤(2.1.5.2),按如下公式计算每个韵母语音分类在所述汉语普通 话言语测听动态词表中的实际分配个数:
其中q2为韵母音位,为q2的统计频率,Sb为第b类韵母音位集合,b为 声母类的索引,为韵母类Sb在所述汉语普通话言语测听动态词表中的 实际分配个数;
步骤(2.1.5.3),按如下公式计算每个声调语音分类在所述汉语普通 话言语测听动态词表中的实际分配个数:
其中q3为声调音位,为q3的统计频率,Sc为第c类声调音位集合,c为 声调类的索引,为声调类Sc在所述汉语普通话言语测听动态词表中的 实际分配个数,
综合起来,各声母、韵母及声调的分类、分类频率及实际分配个数如 表1、表2和表3所示;
表1
表2
表3
步骤(2.1.6),根据步骤(2.1.5)中的声母语音、韵母语音及声调 语音的分类及各类的实际分配个数搭配组词编制成所述设定长度的必 测词表;
步骤(2.1.7),按下式计算所述必测词表的清晰度ATL_TB:
并按所述必测词表清晰度ATL_TB调整词表项,使各个语音文件所对应 的必测词表的清晰度相等或相近,以减少各个必测词表在听感上的差 异,步骤如下:
步骤(2.1.7.1),计算步骤(2.1.7)生成的所有所述必测词表的词 表清晰度的平均值ATL_TBmean及标准差ATL_TBSD:
其中,q表示所述必测词表的索引,q=1,2,…,Q,Q为所制定的所述必 测词表的总张数, ATL_TBq为第q张所述必测词表的清晰度;
步骤(2.1.7.2),设定:步骤(2.1.7.1)中各必测词表与词表清晰 度平均值ATL_TBmean之差的绝对值的阈值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步骤(2.1.7.3),把步骤(2.1.7.1)中各必测词表的清晰度ATL_TB 与ATL_TBmean进行比较,若Δ(ATL_TB)≤0.1,则可不必对该词表进行调 整,否则:
若ATL_TB<ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较小语音 测试项,
若ATL_TB>ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较大语音 测试项;
步骤(2.1.7.4),按以下方式对步骤(2.1.7.3)中被删去的项进行 替代:
若ATL_TB<ATL_TBmean,则用清晰度大于所述删去项且由和该删去项的相 同声母、同类韵母项搭配组成的项代替,
若ATL_TB>ATL_TBmean,则用清晰度小于所述删去项且由与该被删去项相 同声母、同类韵母搭配组成的项代替;
步骤(2.1.7.5),重复执行步骤(2.1.7.4)直至步骤(2.1.7.4)中 的各必测词表的清晰度ATL_TB与ATL_TBmean之差的绝对值小于预先设定的 阈值Δ(ATL_TB)≤0.1为止,从而 组成一个有多个等价的言语测听动态词表的言语测听系统;
步骤(2.2),不定长度的隐含词表是当受试者对必测词表项听辨错误 时所选择的补充测试项的集合,其中,两者的声母语音属于同一个声 母语音分类,韵母语音也属于同一韵母语音分类,共同组成隐含词表 同质项;
步骤(3),测试者在一个隔音房间中对被测试者进行言语测听,由计 算机随机播放测试项,用听力计对音强进行调节。
汉语言语测听系统是按照如下测试步骤测听的:
步骤(1),选择一个必测词表,并固定播放声强;
步骤(2),若必测词表中的所有测试项都已被测试过,则转步骤(4 ),否则选择该必测词表中未被测试的一个测试项播放,并标记该测 试项为已测试;
步骤(3),受试者对上述测试项进行反馈,测试员记录反馈结果,反 馈结果包括听辨正误及该测试项是属于必测词表项还是隐含词表项, 下同:
步骤(3.1),若受试者听辨正确,则记录反馈结果,转步骤(2);
步骤(3.2),若受试者听辨错误,则从隐含词表中选择同一声母分类 的另一声母和同一韵母分类的另一韵母搭配的测试项(即隐含词表同 质项)继续进行测试并记录反馈结果,直至所有同质项中听辨正确项 与错误项的比例不等于1:1为止,则转步骤(2);
步骤(4),测试结束;
步骤(5),此次测试的识别率结果计算方法如下:
步骤(5.1),若必测项答对,则该项得分为1;
步骤(5.2),若必测项答错,且隐含项连续两次都答对,则该项得分 为α;
步骤(5.3),若必测项答错,隐含项第一项答错或隐含项一对一错, 则该项得分为-β;
步骤(5.4),测试最终得分由必测词表项和隐含词表项的听辨结果共 同决定,最终得分为F=p+rα-(q-r)β,其中p为必测项听辨正确的总次 数,q为出现要使用隐含词表的总次数,r为出现步骤(5.2)情况的次 数,且p与q之和为必测词表项的总和,如p=10,q=10,r=4,则此次得 分为F=10+4α-6β。
表4为一个动态词表的必测词表的设计实例。
表4
机译: 言语辨别力评估装置,言语辨别力评估系统,助听增益确定装置,言语辨别力评估方法和程序
机译: 言语辨别力评估装置,言语辨别力评估系统,助听增益确定装置,言语辨别力评估方法和程序
机译: 汉语言语音翻译系统及其方法