公开/公告号CN1296607A
专利类型发明专利
公开/公告日2001-05-23
原文格式PDF
申请/专利权人 夸尔柯姆股份有限公司;
申请/专利号CN99804886.0
申请日1999-02-03
分类号G10L15/20;
代理机构上海专利商标事务所;
代理人李家麟
地址 美国加州圣地埃哥
入库时间 2023-12-17 13:54:28
法律状态公告日
法律状态信息
法律状态
2019-03-05
专利权有效期届满 IPC(主分类):G10L15/20 授权公告日:20051123 申请日:19990203
专利权的终止
2005-11-23
授权
授权
2001-05-30
实质审查请求的生效
实质审查请求的生效
2001-05-23
公开
公开
发明背景
Ⅰ.发明领域
本发明涉及话音处理。本发明尤其涉及用于口述单词或短语自动识别的系统和方法。
Ⅱ.相关领域的描述
话音处理的数字处理已被广泛采用,特别是用于蜂窝电话和PCS应用。一种数字话音处理技术是话音识别。话音识别的处理由于安全的原因而日益重要。例如,话音识别可以用来取代蜂窝电话按键区上按压键的人工操作。当用户开车时进行电话呼叫的时候就更加重要了。当使用没有话音识别的电话时,司机必须一只手离开方向盘,看着电话按键区进行按键,以进行拨号呼叫。这些动作增加了交通事故的几率。而话音识别可以使司机在进行电话呼叫的同时一直注视着道路,并且两只手一直保持在方向盘上。含有话音识别的免提车载装置将因安全的原因而成为未来系统的法定要求。
当今使用的大多数普通类型的依赖于通话者的话音识别是以两个阶段进行工作的:训练(training)阶段和识别阶段。在训练阶段,话音识别系统请使用者一次或两次说出词汇表中的每一个单词,从而机器可以知道这些特定单词或短语用户说话的特征。识别词汇表的大小通常是比较小的(小于50个单词),并且话音识别系统将仅能够对其训练的用户具有高的识别精度。免提车载装置的一例词汇表包括按键区上的数字、关键词“呼叫”、“发送”、“拨打”、“取消”、“清除”、“增加”、“删除”、“历史”、“程序”、“是”和“否”,以及20个经常使用的同事、朋友或家庭成员的姓名。完成训练以后,用户可以通过说出经训练的关键词在识别阶段进行呼叫。例如,如果姓名“约翰”是受训者姓名,用户通过说出短语“呼叫约翰”向约翰发出呼叫。语音确认系统确认词语“呼叫”和“约翰”,并拨打用户先前输入作为约翰的电话号码的数字。
依赖通话者的语音确认系统的训练单元6的方框图如图1所示。训练单元6接收输入s(n),这是一组用于受训的单词或短语的数字化语音取样。语音信号s(n)通过参数确定块7,由它产生捕获用户特定词语发音特征的N个参数{p(n)n=1… N}的模板。参数确定单元7可以采用几种语音参数确定技术中的任何一种技术,而这些技术在本领域中是众所周知的。参数确定技术典型实施例是声音分成机编码器,见美国专利5,414,796,其标题是“可变速率声音合成机”,该专利已转让给本发明的受让人,在此引述供参考。参数确定技术的另一种实施例是快速富立叶变换(简称为FFT),这里,N个常数是N个FFT系数。其它的实施例根据FFT系数得到一些参数。每一说出的词语产生一个存储在模板数据库8中的由N个参数组成的模板。在完成了M个词汇的训练以后,模板数据库8含有M个模板,每一个模板含有N个参数。将模板数据库8存入某种类型的非易失存储器中,从而模板在断电以后还是存在。
图2是语音识别单元10的方框图,它是在依赖于说话者(speaker)的语音识别系统的识别阶段工作的。语音识别单元10包含模板数据库14,从总体上说,它是来自于训练单元6的模板数据库8。语音识别单元10的输入是数字化的输入语音x(n),这是要识别的语音。输入语音x(n)进入参数确定块12,它采用相同的参数确定技术,作为训练单元6的参数确定块7。参数确定块12产生N个参数{t(n)n=1…N}的识别模板,形成输入语音n(n)的特征模型。识别模板t(n)随后传送到码型(pattern)比较块16,在模板t(n)和模板数据库14中存储的所有模板之间进行码型比较。模板t(n)和模板数据库14中每一模板之间的距离被传送到判断块18,从模板数据库14中选择出与识别模板t(n)最接近的模板14。判断块18的输出是说出的是词汇表中哪一个词汇的判断。
识别准确度是识别系统识别词汇表中的词语正确性的度量。例如,识别正确性为95%表示识别单元能够在100个词语中正确识别出95个词语。在传统的语音识别系统中,识别准确性在有噪声时是受到严重影响的。损失准确性的主要原因是,训练词语通常是出现在安静环境中的,但识别却通常是发生在有噪声的环境中的。例如,免提车载语音识别系统通常是在车辆停在车库内或车道内训练的,从而引擎和空调是不工作的,并且窗户通常是卷起的。但是,识别却是用在车辆行使时的,从而引擎在运行时,会有道路和风的噪声出现,窗户会降下来,等等。由于训练阶段和识别阶段之间的噪声水平的不同,识别模板不会与训练时获得的任何一种模板很好匹配。这就增加了识别差错或失败的可能性。
图3绘出的是必须在有噪声时进行语音识别的语音识别单元20。如图3所示,加法器22将语音信号x(n)与噪声信号w(n)相加,得到受噪声侵扰的语音信号r(n)。应当理解,加法器22不是系统的具体元件,但却是噪声环境的模拟。受噪声侵扰的语音信号r(n)输入到参数确定块24,产生受噪声侵扰的模板t1(n)。码型比较块28将模板t1(n)与模板数据库26中的所有模板比较,而模板数据库26是构筑在安静环境中的。由于受噪声侵扰的模板t1(n)不是与训练模板中的任何一个匹配的,所以,有这样一种很高的可能性,即由判断块30产生的判断可能是一个识别错误或失败。
发明概述
本发明是一种在有噪声时对说出的词语进行自动识别的系统和方法。依赖于说话者的语音识别系统分两个阶段工作:训练阶段和识别阶段。在传统的语音识别系统训练阶段,提示使用者说出规定的词汇表中的所有的词语。对每一词语的数字化语音模板进行处理,以产生表征说出的词语的参数模板。训练阶段的输出是一个这些模板组成的信息库。在识别阶段,使用者说出特定的词语,来启动想要的动作。使说出的词语数字化,并进行处理,产生一个模板,并将其与所有在训练期间产生的模板比较。最接近的匹配确定将要执行的动作。使语音识别系统的准确性受到限制的主要损害是在有噪声的时候。识别期间加入噪声严重损害了识别的准确性,这是因为噪声是不在产生模板数据库时的训练期间出现的。本发明认识到,需要考虑到在识别时出现的特定噪声,以提高识别的准确性。
因此,不采用存储参数模板,改进的语音处理系统和方法存储训练阶段每一说出的词语的语音模板,并使其数字化。因此,训练阶段的输出是一个数字化的语音数据库。在识别阶段,连续监视声音环境中的噪声特征。当使用者说出词语进行识别时,通过在语音数据库中的每一信号中加入噪声信号并对每一话音加噪声信号进行判断构筑经噪声补偿的模板数据库。该加入的噪声信号的每一实施例是一个人工合成的噪声信号,具有与实际噪声类似的特征。另一种实施例是记录一个在使用者说出词语进行识别前出现的噪声时间窗。由于模板数据库是用在要识别的词语中出现的相同类型的噪声构筑的,所以语音识别单元可以找到模板之间的良好匹配,提高识别准确度。
附图简述
读者在参照附图阅读了本发明的详细描述以后,将会更清楚地了解本发明的特征、目的和优点。图中,相同的标号所表示的意义相同。
图1是语音识别系统训练单元的方框图;
图2是语音识别单元的方框图;
图3是对受噪声侵扰的语音输入进行语音识别的语音识别单元方框图;
图4是改进的语音识别系统训练单元的方框图;以及
图5是典型的改进的语音识别单元的方框图。
较佳实施例的详细描述
本发明提供了一种在有噪声时提高语音识别准确性的系统和方法。它利用了近年来计算能力和存储器集成进步的优点,并修改了考虑到在识别时有噪声出现时的训练和识别阶段。语音识别单元的功能是找到与识别模板最接近的匹配,而该模板是对受噪声侵扰的话音进行计算的。由于噪声的特征会随时间和地点而变,本发明认为,构筑模板的最佳时间是在识别阶段。
图4给出的是语音识别系统改进的训练单元40的方框图。与图1中传统的训练方法不同的是,修改了训练单元40,去掉了参数确定步骤。与存储参数模板不同的是,存储的是实际词语的数字化语音采样。所以,训练单元40接收作为输入语音取样s(n),并在语音数据库42中存储数字化的语音取样s(n)。在训练以后,语音数据库42含有M个语音信号,这里,M是词汇表中的词汇数。而已有技术的参数确定系统和方法丢失了有关语音特征的信息,它仅存储语音参数,该系统和方法会保留所有的语音信息,用于识别阶段。
图5是与训练单元40一起使用的改进的语音识别单元50的方框图。语音识别单元50的输入是受噪声侵扰的语音信号r(n)。受噪声侵扰的语音信号r(n)是由加法器52通过把语音信号x(n)与噪声信号w(n)相加后得到的。与以前一样,加法器52不是系统的一个具体元件,但是噪声环境的模拟。
语音识别单元50包含语音数据库60,它含有数字化的语音取样,这些取样是在训练阶段记录的。语音识别单元50还包含参数确定块54,通过它传送受噪声侵扰的语音信号r(n),而产生受噪声侵扰的模板t1(n)。正如在传统的话音识别系统中,参数确定块54采用任何一种语音参数确定技术都可以。
典型的参数确定技术采用线性预告编码(LPC)分析技术。LPC分析技术模拟声道(vocal tract)作为数字滤波器。采用LPC分析,LPC倒频谱系数c(m)可以计算为参数,用以代表语音信号。系数c(m)是用下述步骤计算的。首先,通过采用窗口函数v(n),对一个语音取样帧,对受噪声侵扰的语音信号r(n)开视窗:
y(n)=r(n)v(n) 0<=n<=N-1 (1)
在本典型实施例中,窗口函数v(n)是一个汉明窗口,并且帧大小N等于160。接着,用下面的等式,对窗口取样进行自相关系数计算:
在典型的实施例中,P是要计算的自相关系数,等于LPC预测器的阶数,它等于10。随后,用Durbin递归规则,直接从自相关值计算LPC系数。该规则可以陈述如下:
1.E(0)=R(0), i=1 (3)
3. ai(i)=ki (5)
4. aj(i)=aj(i-1)-kiai-j(i-1) 1<=j<=i-1 (6)
5. E(i)=(1-ki2)E(i-1) (7)
6.如果i<P,则回到(2),并且i=i+1 (8)
7.LPC系数的最终解给出
aj=aj(p) 1<=j<=P (9)随后,用下面的等式,将LPC系数转换成LPC倒频谱系数:
应当理解,其他技术可以用于参数确定,而取代LPC倒频谱系数。
另外,将信号R(n)传送到语音检测块56,由它判断有无话音。语音检测块56可以用任意一种技术来判断是否有话音存在。这样的一种方法见上述美国专利5,414,796,其标题是“可变速率声音合成机”。这一技术对话音活动的电平进行分析,对有无话音存在作出判断。话音活动电平是基于与背景噪声能量估计的比较的信号能量的。首先,对每一帧计算能量E(n),在一较佳实施例中,是由160个取样组成的。随后,用下面的等式计算背景噪声能量估计B(n):
B(n)=min[E(n),5059644,max(1.00547*B(n-1),B(n-1)+1)] (13)
如果B(n)<160000,则如下所述,用B(n)计算三个阈值:
T1(B(n))=-(5.544613x10-6)*B2(n)+4.047152*B(n)+362 (14)
T2(B(n))=-(1.529733x10-5)*B2(n)+8.750045*B(n)+1136 (15)
T3(B(n))=-(3.957050x10-5)*B2(n)+18.89962*B(n)+3347 (16)
如果B(n)>160000,则三个阈值计算为:
T1(B(n))=-(9.043945x10-8)*B2(n)+3.535748*B(n)-62071 (17)
T2(B(n))=-(1.986007x10-7)*B2(n)+4.941658*B(n)+223951 (18)
T3(B(n))=-(40838477x10-7)*B2(n)+80630020*B(n)+645864 (19)
该语音检测方法表示,当能量E(n)大于阈值T2(B(n))时有话音存在,并且表示当能量E(n)小于阈值T2(B(n))时,没有语音存在。在另一种实施例中,这一方法可以扩展到在两个或多个频带中计算背景噪声能量估计和阈值。另外,应当理解,等式(13)-(19)中的数值是通过实验确定的,并且可以根据环境来修改。
当语音检测块56判断不存在语音时,它发送一个使得能够启动噪声分析、建模和合成块58的控制信号。应当注意,在没有语音时,接收信号R(n)与噪声信号w(n)是相同的。
当启动噪声分析、建模和合成块58时,它分析噪声信号r(n)的特征,对其进行建模,并合成一个具有与实际噪声w(n)相似的特征的噪声信号W1(n)。进行噪声分析、建模和合成的典型实施例见美国专利5,646,991,其标题是“回波消除器中的噪声取代系统和方法(Noise Replacement System and Method in an Echo Canceller)”,该专利已转让给本发明的受让人,在此引述供参考。该方法通过预计差错滤波器传送噪声信号r(n)来进行噪声分析:
这是用于噪声分析的滤波器的逆。在对每一合成噪声取样取一换算倍数形成与实际噪声能量相等的合成噪声能量以后,输出为合成噪声w1(n)。
合成的噪声w1(n)由加法器62加到语音数据库60中的每一组数字化语音取样中,得到合成的受噪声侵扰的语音取样集。随后,每一组合成的受噪声侵扰的语音取样通过参数确定块64,与参数确定块54中使用的一样,用相同的参数确定技术,产生用于每一组合成的受噪声侵扰的话音取样的一组参数。参数确定块54产生用于每一组语音取样的参数模板,并且将这些模板存储在噪声受到补偿的模板数据库66中。噪声补偿的模板数据库66是一组这样构筑的模板,就象是在识别期间出现的相同类型的噪声已经发生了传统的训练。注意,除了美国专利5,646,991中揭示的方法以外,有许多可能的方法,用来产生估计噪声w1(n)。另一种实施例是简单记录实际当使用者沉默时出现的实际噪声的时间窗口,并用该噪声信号作为估计噪声w1(n)。在说出要识别的词语前所记录的噪声时间窗口是本方法的典型实施例。另一种方法是对在指定时间周期内得到的各个噪声窗口取平均。
再参见图5,码型比较块68将受噪声侵扰的模板t1(n)与噪声受补偿的模板数据库66中的所有模板比较。由于噪声的影响包括在噪声受到补偿的模板数据库66的模板内的,所以,判断块70能够为t1(n)找到很好的匹配。考虑到以这种方式噪声的影响,可以提高语音识别系统的准确性。
上述较佳实施例的描述使得本领域的技术人员能够制作和使用本发明。很明显,本领域中的技术人员还能够对这些实施例作各种修改,并且在无需发明专业人员的帮助下,还可以将这些基本原理应用于其他的实施例。所以,本发明并非仅限于所给的实施例,应当从最宽的范围来理解本发明的原理和新特征。
机译: 用于摩托车的主动噪声补偿的系统和方法,以及具有用于主动噪声补偿的系统的摩托车
机译: 用于摩托车的主动噪声补偿的系统和方法,以及具有用于主动噪声补偿的系统的摩托车
机译: 用于摩托车中的主动噪声补偿的系统和方法以及具有主动噪声补偿的系统的摩托车