公开/公告号CN1861027A
专利类型发明专利
公开/公告日2006-11-15
原文格式PDF
申请/专利权人 清华大学深圳研究生院;
申请/专利号CN200610060582.8
申请日2006-05-15
分类号A61F11/04(20060101);G10L19/00(20060101);G10L15/00(20060101);G10L21/00(20060101);
代理机构44257 深圳市汇力通专利商标代理有限公司;
代理人王锁林
地址 518055 广东省深圳市南山区西丽大学城清华大学深圳研究生院
入库时间 2023-12-17 17:51:11
法律状态公告日
法律状态信息
法律状态
2023-05-26
未缴年费专利权终止 IPC(主分类):A61F11/04 专利号:ZL2006100605828 申请日:20060515 授权公告日:20100217
专利权的终止
2010-02-17
授权
授权
2007-01-10
实质审查的生效
实质审查的生效
2006-11-15
公开
公开
技术领域
本发明涉及电子耳蜗恢复耳聋患者听觉领域,特别是一种适应汉语特征,以传递声调等频率信息为基础的电子耳蜗语音处理的n度标记法的电刺激编码方法。
背景技术
电子耳蜗也被称为耳蜗埋植、电子耳、仿生耳或人工耳蜗,它是目前唯一能使全聋患者恢复听觉的装置。它依靠直接用微弱电流兴奋听神经纤维模仿外周听觉系统的生理功能,产生与正常人耳相似的神经发放模式,从而恢复患者的听觉。
电子耳蜗可以帮助全聋患者恢复语言交流能力,增加他们接受教育、就业和社会交往的机会。尤其是聋儿,无论是语前聋还是语后聋,当借助于助听器仍然无法听到声音时,将导致他们终生失去获得正常教育的机会,给家庭和社会增加沉重的负担。电子耳蜗可以帮助他们重新获得音感,获取外界的信息和知识,成为对社会有益的人。
电子耳蜗语音信号处理部分的功能是将声音信号转换为与耳蜗中的电极相对应的电刺激信号,语音信号处理算法是电子耳蜗系统中最关键的技术,它对电子耳蜗的性能有重要的影响。现有临床产品采用的算法可分为两大类,一类是基于特征提取,即提取语音信号的基频和共振峰等特征,然后产生相应电极的刺激信号。一类是基于滤波器组的语音信号处理算法,即对语音信号进行分频段滤波处理。但是现有临床产品的语音处理算法都是在英文理解的基础上开发的,主要符合了印欧语系的特点。而汉语作为汉藏语系之一,并不属于印欧语系的亲属语系,两者差异较大,这也是造成现有语音处理算法对于汉语的言语识别效果难以让我国患者满意的原因之一。
汉语有自己的特色,它是一种声、韵、调语言,其中声调和语调对于汉语的正确理解具有重要的意义。然而临床使用的产品仅仅依靠语音幅度信息的提取和传递很难有效的传递汉语的声调等信息,其安静条件下平均识别率约68%,和正常听力受试者的99%±3.0%相差很多,难以满足患者的需求。
因此能够充分利用汉语特性的,更多传递汉语声调等丰富频率信息的电子耳蜗语音处理算法的开发就显得格外重要。语音处理的算法结构可以按照用途分为声调等频率信息的提取以及该信息的有效利用两部分,这其中对于提取出来的声调等汉语频率信息如何在电刺激中加以有效的编码利用从而有效的传递给患者就成为重中之重。
发明内容
本发明的目的在于针对目前电子耳蜗存在的上述问题,提供一种高效的电子耳蜗汉语声调的n度标记法的电刺激编码方法,从而更加有效地恢复我国耳聋患者的听力。
本发明所提出的电子耳蜗汉语声调的n度标记法的电刺激编码方法是在对电刺激听觉的特点进行分析的基础上,利用频率—音调理论和临床量化的电刺激频率辨别能力数据以及汉语声调五度划分法等方法综合研究的结果。编码策略分为预处理模块、初始分类模块、搜索度宽确定模块和电刺激速率生成模块四个部分,具体包括以下步骤:
a、预处理模块测量并拟合耳聋患者的电刺激速率分辨能力,计算出能够被耳聋患者分辨并感知的一组离散的电刺激速率值,将所述一组离散的电刺激速率值从慢到快依次定义为1度、2度……n度;
b、初始分类模块根据预先制定的初始分类标准将输入端接收的不断变化的声调等频率信息分类;
c、分类后的频率信息通过搜索宽度确定模块,自适应选择基频搜索宽度;
d、电刺激速率生成模块根据选定的基频搜索宽度,不断将分类后的声调等频率信息与所述若干离散的电刺激速率值进行对应,从而形成电刺激速率编码序列。
编码策略的预处理主要是测量和拟合患者的电刺激速率分辨能力。测量时电刺激基准速率分别采用[50 75 100 150 200 300 500 800 1000]Hz等速率点,并以这些基准速率为基础向上变动电刺激速率,测量患者能感觉到的音调变化的分辨能力。测量后要对这些测量结果进行拟合,用来计算满足患者可分辨能力的电刺激速率分布,从而为下一步的处理奠定基础。根据以往的临床数据,患者的速率辨别阈随着电刺激速率的增加而增加,两者具有指数函数关系。为了保证患者能够分辨出电刺激的速率变化,必须描绘出速率辨别阈随电刺激速率变化曲线的上限。因为两者呈现指数关系,本发明定义上限曲线为:
式中的A、B和R可以根据测得的临床数据来调整。
由此可以计算得出能够被患者分辨的一组离散的电刺激速率值,本发明定义为度值。一般来讲,度值可以分为九度左右,且从慢到快分别定义为1度、2度……9度。
随后进入初始分类阶段。语音信号经过基频提取后生成了平滑的基频曲线,然后根据初始基频的大小进行自适应的分类。分类的原则基本上依据不同发音人的基频特点制定,分别针对成年男子、成年女子和童声的基频范围进行了初始三类的划分,不同的分类对应不同的初始电刺激速率,这样在进行电刺激速率编码时,就将发音人的部分音色进行了分类传递。
初始分类后,根据发音人基频的变化范围进行了不同分类的基频搜索宽度的定义。分类不同的发音人发音的基频变化范围不同,如果使用同一搜索宽度难以适应各种不同发音人的声音特性,可能会降低某种分类的动态范围,从而影响编码效果,因此,本发明设计了自适应的实现了针对发音人音色特点的基频搜索宽度定义。
通过定义的基频搜索宽度,就可以将计算出的变化的基频等声调频率信息和离散的电刺激速率值进行对应,然后通过随着基频变化而变换电刺激的速率,就将汉语的声调信息传递给了患者,从而帮助患者更好的提高汉语识别能力。
本发明借鉴汉语声调五度标记法的相对音高分段编码方法,利用拟合电子耳蜗患者电刺激识别阈和音调感觉确定可以被患者感知的电刺激速率分段划分方法,提出了创新的汉语声调等频率信息的电刺激编码策略。该编码策略针对发音人音色特点实现了分类传递和自适应的基频搜索,能够最大限度的通过有限的电刺激度值保留和传递发音人的声音特点,适用于对多字调和语调以及频率调制信息等汉语频率信息的编码传递,以帮助患者更好的提高汉语识别能力。其主要效果体现为:
a)为了更好的传递发音人的音色,提高言语识别率,本发明通过初始分类实现了将发音人的部分音色进行了分类传递的算法。三个初始分类分别代表了成年男子、成年女子和童声的基频范围,最大限度的通过有限的电刺激度值保留和传递了发音人的声音特点。
b)本发明还根据发音人基频的变化范围进行了不同分类的基频搜索宽度的定义,基频每升高或降低一倍的搜索宽度,电刺激速率升高或降低一度,从而自适应的实现了针对发音人音色特点的基频搜索。
c)为了保证患者能够分辨出电刺激的速率变化,必须描绘出速率辨别阈随速率变化曲线的上限。因为两者呈现指数关系,本发明自定义了指数关系的上限曲线,从而实现了计算离散可辨别的电刺激速率值。
d)由于汉语的多字调和语调也是通过基频这一载体感知的,而且频率调制信息的动态范围和基频类似,因此这一编码策略同样适用于对多字调和语调以及频率调制信息等汉语频率信息的编码传递。
附图说明
图1是本电刺激编码策略的结构框图;
图2是速率辨别阈上限和电刺激速率函数拟合图(图中横坐标为电刺激速率,纵坐标为速率辨别阈,曲线1为拟合指数曲线,曲线2-9为文献实测数据拟合曲线)。
具体实施方式
下面结合附图说明本发明的具体实施方式。
图1是本发明电刺激编码策略结构框图。它分为预处理模块、初始分类模块、搜索度宽确定模块和电刺激速率尘成模块四个部分。具体编码策略包括以下步骤:
a、预处理模块测量并拟合耳聋患者的电刺激速率分辨能力,计算出能够被耳聋患者分辨并感知的一组离散的电刺激速率值,将所述一组离散的电刺激速率值从慢到快依次定义为l度、2度……n度;
b、初始分类模块根据预先制定的初始分类标准将输入端接收的不断变化的声调等频率信息分类;
c、分类后的频率信息通过搜索宽度确定模块,自适应选择基频搜索宽度;
d、电刺激速率生成模块根据选定的基频搜索宽度,不断将分类后的声调等频率信息与所述若干离散的电刺激速率值进行对应,从而形成电刺激速率编码序列。
在步骤a中,计算能够被耳聋患者分辨并感知的一组离散的电刺激速率值的方法为:定义患者速率辨别阈随电刺激速率变化的上限曲线
本实施例根据文献(Zeng FG:Temporal pitch in electric hearing.Hearing Res.2002,174:101-106)记载的八个测量结果,计算得出上限曲线
[50 70 92 118 150 190 240 325 500]Hz
这样,本实施例便将电刺激速率分成了间隔的能被患者分辨和感知的九个速率,本实施例定义为九度,且从慢到快分别定义为1度、2度……9度。
随后进入初始分类阶段。语音信号经过基频提取后生成了平滑的基频曲线,然后根据初始基频的大小进行自适应的分类。分类的原则根据不同发音人的基频特点制定,本实施例针对成年男子、成年女子和童声的基频范围进行了初始三类的划分,具体分类标准如下:
分类-1基本上代表了成年男子的基频范围,分类-2基本上代表了成年女子的基频范围,分类-3基本上代表了童声的基频范围。不同的分类对应不同的初始电刺激速率:分类-1对应4度;分类-2对应5度;分类-3对应6度。这样在进行电刺激速率编码时,就将发音人的部分音色进行了分类传递。
初始分类后,根据发音人基频的变化范围进行了不同分类的基频搜索宽度的定义。分类-1和分类-3由于基频一般变化不大(约50Hz),搜索宽度定义为10Hz,即分类-1或分类-3的基频每升高10Hz,对应的电刺激速率升高1度,分类-1或分类-3的基频每降低10Hz,对应的电刺激速率降低1度;分类-2由于基频一般有100Hz左右的变化量,搜索宽度定义为20Hz,即分类-2对应的基频搜索宽度为20Hz,分类-2的基频每升高20Hz,对应的电刺激速率升高1度,分类-2的基频每降低20Hz,对应的电刺激速率降低1度。从而自适应的实现了针对发音人音色特点的基频搜索宽度定义。
通过定义的基频搜索宽度,就可以将计算出的变化的基频等声调频率信息和离散的电刺激速率值进行对应,然后通过随着基频变化而变换电刺激的速率,就将汉语的声调信息传递给了患者,从而帮助患者更好的提高汉语识别能力。
由此,本发明借鉴汉语声调的相对音高分段编码方法,利用拟合电子耳蜗患者电刺激识别阈确定可以被患者感知的电刺激速率分段划分方法,提出了创新的汉语声调等频率信息的电刺激编码策略,完善了适合汉语特征的电子耳蜗语音处理算法,生成了符合算法的刺激电流,从而为更好的恢复我国患者的听力奠定了基础。
机译: 耳蜗外植入系统,通过脉冲宽度调制来改变激励电流的量(控制电子器件)。植入的发射器/接收器耦合是通过具有磁芯的线圈(或通过空气)进行的
机译: 可变长度编码方法,可变长度编码设备,图像压缩方法,压缩设备,驱动电路和电子设备
机译: 深度数据,深度图创建设备和电子设备的编码方法