公开/公告号CN102222507A
专利类型发明专利
公开/公告日2011-10-19
原文格式PDF
申请/专利权人 中国科学院声学研究所;
申请/专利号CN201110150755.6
申请日2011-06-07
分类号G10L21/02(20060101);
代理机构11309 北京亿腾知识产权代理事务所;
代理人陈霁
地址 100190 北京市海淀区北四环西路21号
入库时间 2023-12-18 03:34:35
法律状态公告日
法律状态信息
法律状态
2016-08-03
未缴年费专利权终止 IPC(主分类):G10L21/02 授权公告日:20121024 终止日期:20150607 申请日:20110607
专利权的终止
2012-10-24
授权
授权
2011-11-30
实质审查的生效 IPC(主分类):G10L21/02 申请日:20110607
实质审查的生效
2011-10-19
公开
公开
技术领域
本发明涉及语音信号处理领域,尤其涉及听力损失补偿方法。
背景技术
在汉语语言中,元音(韵母)和辅音(声母)是构成汉语语言的基本语素。几乎所有汉字都是以辅音(声母)开始,元音(韵母)结束的,其中包括只有元音而没有辅音的纯元音音节,称为“零辅音”。此外,汉语语音还具有以下特点:
(1)音系简单,即音素少、音节少(大约有60个音素,但只有约407个音节,即便考虑音调也不过1330多个有调音节),并且结构简单(只有CV和V两种,其中,C是辅音,V是单元音或复合元音);
(2)清辅音多,而且多是弱清音;
(3)语感响亮,字词分隔清楚。
在汉语语言中,元音是一个音节的主干,无论是从长度还是从能量上来看,元音都占了主要部分。辅音在一个音节的前端,它的时长和音量都相对较小,然而却对语言的辨别和理解至关重要。因此,如果听不到或听不清辅音就很难辨别词语的语义。
随着人年龄的增长,听力损失(多为感音神经性听力损失)通常先是从高频段开始,而辅音的中心频率大多位于2.5kHz以上(有些清辅音甚至高于4kHz)。因此对于有听力损失的患者而言,听清辅音显得尤其重要。
听力损失补偿是助听器的核心算法,它的作用是针对患者的听力损失情况,将外界声音信号进行一系列的压缩放大增强等处理,从而对听力进行一定程度上的补偿。
现有的听力损失补偿技术几乎采用的都是多通道补偿方法,即先将语音信号分成若干个独立频带,在每个频带内根据患者的听力损失情况进行放大补偿。传统的听力补偿方法有两种,一种是采用滤波器组的多通道补偿方法,另一种是采用离散傅里叶变换的多通道补偿方法。
图1是现有技术中采用滤波器组的多通道补偿方法的示意图。该采用滤波器组的多通道补偿方法是在时域中进行的,它首先将语音信号输入给一组带通滤波器组,即分析滤波器组(设为N个),得到N个子带信号(通道),然后计算每个通道的增益量,实现增益补偿。最后再将补偿后的信号输入到综合滤波器组,合成补偿后的语音信号。具体可参见1991年ICASSP会议(国际声学语音与信号处理会议),由T Lunner和J Hellgren提出的“A digital filterbank hearing aid-design,implementation and evaluation”文献;以及参见1998年的IEEE电路与系统国际学术报告会,R Brennan和T Schneider提出的“A flexible filterbank structure for extensive signal manipulations in digital hearing aids”文献。
图2是现有技术中采用离散傅里叶变换的多通道补偿方法的示意图。该采用离散傅里叶变换的多通道补偿方法是在频域进行的,它首先将输入语音信号进行离散傅里叶变换(DFT);然后将频域信号根据需要组合成不同的通道,计算每个通道的增益量,实现增益补偿;最后再将补偿后的信号进行逆傅里叶变换,最终得到补偿后的时域信号。具体可参见1991年ICASSP会议,由F Asano,Y Suzuki和T Sone提出的“A digital hearing aid that compensates loudness for sensorineural impaired listeners”文献;以及参见1995年ICASSP会议,由J C Tejero,S Bernal,J A Hidaldo提出的“Adigital hearing aid that compensates loudness for sensorineural hearing impaiements”文献。
现有技术中的采用滤波器组或离散傅里叶变换算法所进行听力补偿,都需要将声音信号分成数个独立的频率通道,并在每个通道内加以不同程度的放大处理,最后将合成的声音回放出来。然而这种方法会带来一定的问题:
(1)若元音的共振峰正好处于频段的交叠处,就会被“劈”成两部分,而每部分都给予了不同程度的放大,这很可能造成共振峰的移动、变形等,进而大大降低了语音的可理解度;
(2)此种方法在对语音信号进行放大处理过程中,同时也会将语音中的噪声或干扰成分放大,从而降低患者的听觉舒适度。
发明内容
本发明提供了一种能解决以上问题的适用于汉语语言的听力损失补偿方法及设备。
在第一方面,本发明提供了一种听力损失补偿方法。该方法首先接收语音信号x(m);然后检测语音信号x(m)中的辅音;最后对该检测到的辅音进行放大补偿。
在第二方面,本发明提供了一种听力损失补偿设备,该设备接收来自外界的语音信号。并且该设备包括辅音获取模块、辅音补偿模块。该辅音获取模块根据该语音信号的辅音特性,检测该语音信号中的辅音。该辅音补偿模块基于检测到的辅音区域,对该语音信号中的辅音进行放大补偿。
本发明根据汉语语音的特点,提出了一种新的听力损失补偿策略,其采用一种选择放大的方式,将语音中患者难以听清辨识的辅音部分加以放大,而能量较大、容易辨识的元音部分则不做处理。与现有技术相比,本发明具有以下优点:
(1)没有对语音进行分频段处理,因此不会造成共振峰的移动或变形,减少了语音的失真;
(2)仅针对辅音部分进行放大补偿,避免了噪声和干扰的放大,提高了患者的听觉舒适度。
附图说明
下面将参照附图对本发明的具体实施方案进行更详细的说明,在附图中:
图1是现有技术中采用滤波器组的多通道补偿方法示意图;
图2是现有技术中采用离散傅里叶变换的多通道补偿系统示意图;
图3是本发明一个实施例的听力损失补偿设备框图;
图4是汉语语言中元音的短时平均幅度波形示意图;
图5是汉语语言中辅音的短时过零率波形示意图;
图6是某听力患者的听力图;
图7是本发明一个实施例的听力损失补偿方法流程图。
具体实施方式
图3是本发明一个实施例的听力损失补偿设备框图。该听力损失补偿设备包括加窗分帧处理模块310、元音起止端获取模块320、辅音获取模块330、辅音补偿模块340。
该加窗分帧处理模块310将时域语音信号x(l)进行加窗分帧处理,从而得到分帧后的语音信号x(m)。
元音起止端获取模块320接收来自该加窗分帧处理模块310的分帧后的语音信号x(m),并查询得到该语音中元音(韵母)所处位置。在本发明的一个实施例中,通过语音的短时能量参数得到语音中的元音位置。理由是:在汉语语音中,元音的持续时间较长,并且能量远远高于辅音及噪声,因此可通过分析各帧的短时能量参数,检测语音中的元音。
下面简述该元音起止端获取模块320如何通过语音短时能量参数检测语音中的元音。
现设第n帧语音信号xn(m)的长度为N(通常N=10毫秒),则该信号xn(m)的短时平均幅度值(可作为能量的表征)为:
首先,通过计算可得到短时平均幅度的高能量阈值ITU和低能量阈值ITL。然后,根据该高能量阈值ITU和低能量阈值ITL,以及根据元音的短时平均幅度特性,得到元音的起止位置N1和N2,参见图4.图4是汉语中元音(韵母)的短时平均幅度波形示意图。根据图4中的该元音的短时平均幅度以及其与ITU、ITL之间的关系,可获得元音的起止位置。
回到图3,该辅音获取模块330接收来自该元音起止端获取模块320的语音x(m)及该语音的元音起始位置,并从该元音的起点开始往前搜索,以定位出辅音(声母)。一个例子中,根据语音的短时过零率参数,从元音的起点开始定位出辅音(声母)。下面简述如何通过语音的短时过零率参数定位出辅音(声母)。
首先计算语音的短时过零率,第n帧语音信号xn(m)的短时过零率为:
其中,N为xn(m)的长度;sgn[·]是符号函数,且满足,
图5是汉语语言中辅音(声母)的短时过零率波形示意图。在汉语语言中,辅音的短时过零率具有图5所示的波形特性,根据该特性可定位辅音。由于辅音特别是清辅音的短时过零率远远高于元音和噪声的短时过零率。因此,从元音的起点N1向前若干帧(如20帧)、且不超过上一个元音的终止点N2’的范围内搜索,逐次比较各帧的短时过零率。如果连续若干帧(如10帧)以上的短时过零率都大于过零率检测阈值IZCT,则将该短时过零率高于IZCT的此若干帧定位为辅音范围,即该区域为需要进行听力补偿的区域。
需要说明的是,在该辅音获取模块330定位辅音(声母)过程中,如果所查询的汉字是单元音或者复合元音,即“V”型结构,则在其前面一段时间内(一般认为是20帧)不会有辅音出现;如果所查询的汉字是辅音+元音结构,即“CV”型结构,且该结构中的辅音是一些能量较高且频率较低的塞音(如[b],[d],[g]等),因此采用短时过零率参数可能会检测不出来辅音位置,然而此种塞音较清音而言更容易被患者听到,因此,并不会影响整体听力补偿效果。
元音起止端获取模块320和辅音获取模块330主要采用了基于短时能量和短时过零率的语音端点检测方法,它是由R Rabiner和R Sambur在1975年首次提出的,具体实施细节可参见文献“An algorithm for determining the endpoints of isolated utterances”。此外,可以采用的检测元音和辅音的方法还有Q Li等人2002年提出的最优滤波器设计和能量归一化的实时检测方法,具体参见文献“Robust endpoint detection and energy normalization for real-time speech and speaker recognition”;以及L F Lamel等人2003年提出的“An improved endpoint detector for isolated word recognition”方法等。
回到图3,该辅音补偿模块340接收来自辅音获取模块330的语音x(m)以及该语音中辅音的位置,并对该语音中的辅音进行听力补偿。
具体地,该辅音补偿模块340根据患者的听力图,对辅音频段进行听力补偿。其中,该辅音补偿模块340中所存储的听力图可配置,因此本发明的听力补偿设备广泛适用于具有不同听力障碍的患者。
举例说明,该辅音补偿模块340可对语音中辅音较集中的三个频率1000Hz,2000Hz,4000Hz进行听力补偿,如将1000Hz,2000Hz,4000Hz听阈的平均值的1/3作为固定补偿值,将该语音x(m)中的辅音进行放大补偿。下面以图6某听力患者的听力图为例做进一步阐述。
图6中,o为患者右耳的听阈值(在听力测试中能听到的最小声音),x为左耳的听阈值。对于左耳来说,该辅音补偿模块340可将该患者在频率1000HZ、2000HZ、4000HZ上的听阈(60dB、65dB、65dB)求和,再将该和值的平均值的1/3(即21.11dB)作为固定补偿值将该语音的辅音放大补偿。
图7是本发明一个实施例的听力损失补偿方法流程图。
在步骤710,将时域语音信号x(l)进行加窗分帧处理,从而得到分帧后的语音信号x(m)。
在步骤720,根据公式计算语音信号的每帧短时平均幅度值Mn。
在步骤730,计算得到高能量阈值ITU和低能量阈值ITL。
在步骤740,将上述若干帧语音信号的每帧短时平均幅度值Mn,与步骤730得到的高能量阈值ITU、低能量阈值ITL做比较,从而得到元音(韵母)的起止点位置。
在步骤750,根据辅音的短时过零率特性以及步骤740得到的元音起始点位置,从元音的起始点开始向前搜索,定位辅音(声母)。
在步骤760,根据步骤750得到的辅音位置,并依据患者听力图,对语音中的辅音进行听力补偿。
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
机译: 运用语言形成基于听力的汉语语音翻译的方法,利用语言展现基于听力的汉语语音翻译的方法以及使用相同语言学习外国语言的方法
机译: 适用于听力损失补偿的消费类电子设备
机译: 适用于听力损失补偿的消费电子设备