公开/公告号CN1538384A
专利类型发明专利
公开/公告日2004-10-20
原文格式PDF
申请/专利权人 索尼电子有限公司;
申请/专利号CN200410033229.1
申请日2004-03-31
分类号G10L15/14;
代理机构中国专利代理(香港)有限公司;
代理人王岳
地址 美国新泽西州
入库时间 2023-12-17 15:39:00
法律状态公告日
法律状态信息
法律状态
2010-11-24
授权
授权
2006-05-24
实质审查的生效
实质审查的生效
2004-10-20
公开
公开
技术领域
一般地说本发明涉及电子语音识别系统,更具体地说涉及有效地实施普通话汉语(Mandarin Chinese)语音识别字典的系统和方法。
背景技术描述
实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如,语音控制操作允许用户同时执行其它的任务。例如,一个人在驾驶机车的同时,通过语音控制可以操作电子管理器。对于那些具有身体障碍或其它特殊要求的用户来说电子系统的免提操作是比较理想的。
电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说话而与其交互。
然而,有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如,增加系统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于增加了生产成本和操作的无效率,在处理或硬件要求方面的增加也相应地导致了不利的影响。
此外,增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优点,但也导致了对各种系统部件的控制和管理的增加。例如,有效地识别在普通话汉语语言中的字和词的增强的电子系统得益于有效的实施方案,因为要求大量且复杂的数字数据。因此,对于所有的前述原因,实施系统用户与电子设备人机通信的稳健且有效的方法一直是系统设计者和制造者重要的考虑因素。
发明内容
根据本发明,公开了一种有效地实施普通话汉语语音识别字典的系统和方法。在一个实施例中,识别器可以被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇词典的音素串进行比较。
优化的普通话汉语音素集可以以语音学技术实施以单独包括辅音音素和元音音素。由于系统效率的缘故,优化的普通话汉语音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示普通话汉语语音所要求的最小数量的辅音音素和元音音素。
根据本发明的某些实施例,通过利用将多个音位变体(allophone)或发音变化映射到优化的音素集中的相同对应音位的音位变体变化技术(allophone variation technique)可以有效地实施优化的普通话汉语音素集。在某些实施例中,音位变体变化技术可以将音位变体映射到包括辅音类别、半元音类别和元音类别的音素集中。
此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且精确的语音识别。区域变化(regional variation)技术可以将输入语音数据的区域变化映射到在词汇字典中的统一的对应条目,由此改善语音识别精度。输入语音数据的每个区域变化根据地理区域的不同具有重要的发音变化。在某些实施例中,发音的区域变化包括北方普通话汉语和南方普通话汉语的普通话汉语发音变化。
此外,在某些实施例中,前述的词汇字典可以实施为对应于特定的口语语言的不同的具体的区域发音变化的统一的字典。然后在语音识别过程中该字典可以精确地识别北方普通话汉语语音或南方普通话汉语语音。因此本发明提供了一种有效地实施普通话汉语语音识别字典的系统和方法。
附图说明
附图1所示为根据本发明的计算机系统的一个实施例的方块图;
附图2所示为根据本发明附图1的存储器的一个实施例的方块图;
附图3所示为根据本发明附图2的语音检测器的一个实施例的方块图;
附图4所示为根据本发明附图2的隐马尔可夫模型(HiddenMarkov Model)的一个实施例的附图;
附图5所示为根据本发明附图2的字典的一个实施例的附图;
附图6所示为根据本发明的一个实施例附图5的字典条目的附图;和
附图7所示为根据本发明的一个实施例说明区域变化技术的附图。
具体实施方式
本发明涉及语音识别系统的改进。提供下面的描述以便在本领域的普通技术人员能够实现并使用本发明,并且这些描述根据专利申请及其要求提供。对优选实施例做出各种改进对于本领域普通技术人员来说是显而易见的,因此在此的一般原理可应用于其它的实施例。因此并不希望将本发明限于所示的实施例,而是应该给予与在此所描述的原理和特征相一致的最宽泛的范围。
本发明包括有效地实施普通话汉语语音识别字典的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇字典的音素串进行比较的识别器。优化的普通话汉语音素集可以通过利用音位变体变化技术有效地实施。
此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且精确的语音识别。此外,可以将该词汇字典实施为字典集,从该字典集中可以选择适当的字典以在语音识别的过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。
现在参考附图1,所示为根据本发明的计算机系统110的一个实施例的方块图。附图1的实施例包括声音传感器112、放大器116、模拟至数字转换器120、中央处理单元(CPU)128、存储器130和输入/输出接口132。在变型实施例中,除了结合附图1的实施例讨论的那些元件或功能之外或作为它们的替换,计算机系统110容易包括各种其它的元件或功能。
声音传感器112检测声音能量并将所检测到的声音能量转换为模拟语音信号,通过线114将该模拟语音信号提供给放大器116。放大器116放大所接收的模拟语音信号并经线118将经放大的模拟语音信号提供给模拟至数字转换器120。然后模拟至数字转换器120将经放大的模拟语音信号转换为对应的数字语音数据。然后模拟至数字转换器120通过线122将数字语音数据提供给系统总线124。
CPU 128然后访问在系统总线124上的数字语音数据并根据包含在存储器130中的软件指令响应地分析并处理该数字语音数据以执行语音检测。CPU 128的操作和在存储器130中的软件指令将在下文结合附图2-3进一步讨论。在处理了语音数据之后,CPU 128然后将语音检测分析的结果通过输入/输出接口132提供给其它的设备(未示)。在变型实施例中,本发明容易以除了在附图1中所示的计算机系统110之外的各种设备实施。
现在参考附图2,所示为根据本发明的附图1的存储器130的一个实施例的方块图。可替换的是,存储器130可以包括各种存储装置结构,包括随机存取存储器(RAM)和存储装置比如软盘或硬盘驱动器。在附图2的实施例中,存储器130包括但不限于语音识别引擎210、隐马尔可夫模型(HMM)212、词汇字典214和语言模型216。在变型实施例中,除了结合附图2的实施例讨论的那些元件或功能之外或作为它们的替换,存储器130容易包括各种其它的元件或功能。
在附图2的实施例中,语音识别引擎210包括由CPU 128执行以分析并识别语音数据的一系列软件模块,下文将参考附图3进一步描述这些模块。在变型实施例中,语音识别引擎210容易以各种其它的软件和/或软件结构实施。HMM 212和字典214可以由语音识别引擎210使用以实施本发明的语音识别功能。HMM 212的一种实施例将在下文结合附图4进一步讨论,字典214的一种实施例将在下文结合附图5进一步讨论。
现在参考附图3,所示根据本发明的附图2的语音识别引擎210的一个实施例的方块图。语音识别引擎210包括但不限于特征提取器310、端点检测器312和识别器314。在变型实施例中,除了结合附图3的实施例讨论的那些元件或功能之外或作为它们的替换,语音识别引擎210容易包括各种其它的元件或功能。
在附图3的实施例中,模拟至数字转换器120(附图1)通过系统总线124给特征提取器310提供数字语音数据。特征提取器310响应地产生特征矢量,通过路径320将该特征矢量提供给识别器314。特征提取器310进一步通过路径322响应地产生语音能量给端点检测器312。端点检测器312分析该语音能量并响应地确定由语音能量所代表的话语的端点。该端点指示该话语在时间上的开始和结束。端点检测器312然后通过路径324将该端点提供给识别器314。
识别器314优选被构造成识别在字典214(附图2)中提供的预定的词汇中的命令。前述的在字典214中的词汇命令可以对应于任何所需的命令、指令或计算机系统110的其它通信。然后将所识别的词汇命令通过通路332输出给系统110。
在实际中,来自字典214的每个命令都可以与表示该字的对应的音素串(单个音素的串)关联。隐马尔可夫模型(HMM)212(附图2)可以包括来自可有效地用于表示在字典214中的命令的预先确定的音素集中的每个音素的经训练的随机表示。识别器314然后将来自线320的输入特征矢量与来自字典214的每个音素串的适当的HMM 212进行比较以确定哪个命令产生了最高的识别分值。由此将对应于最高的识别分值的命令标识为所识别的命令。
现在参考附图4,所示为根据本发明的附图2的HMM 212的一个实施例的方块图。在附图4的实施例中,HMM 212优选包括模型1(412(a))至模型N(412(c))。在变型实施例中,除了结合附图4的实施例讨论的那些元件或功能之外或作为它们的替换,HMM 212容易包括各种其它的元件或功能。
在附图4的实施例中,HMM 212容易实施以包括任何所需数量的模型412,这些模型可以包括任何所要求的类型的信息。在附图5的实施例中,来自HMM 212的每个模型412可以对应于来自预先确定的音素集的不同的特定音素以用于识别器314(附图3)。
现在参考附图5,所示为根据本发明的一个实施例的附图2的字典214的方块图。在附图5的实施例中,字典214优选包括条目1(512(a))至条目N(512(d))。在变型实施例中,除了结合附图5的实施例讨论的那些元件或功能之外或作为它们的替换,字典214容易包括各种其它的元件或功能。
在附图5的实施例中,字典214容易实施以包括任何所需数量的条目512,这些条目可以包括任何所要求的信息。在附图5的实施例中,如上文参考附图3所讨论,来自字典214的每个条目512也可以包括来自预先确定的音素集的单个音素的对应的音素串。前述的音素串的单个音素优选形成字典214中的对应的字的发音的序列表示。字典条目512的一个实施例下文结合附图6进一步讨论。
现在参考附图6,所示为根据本发明的一个实施例的实例性附图5的字典条目512的附图。在变型实施例中,除了结合附图6的实施例讨论的那些元件或功能之外或作为它们的替换,本发明使用具有其它各种元件或功能的字典条目容易执行语音识别。
在附图6的实施例中,字典条目512可以包括将识别器314(附图3)设计成所识别的字典中的特定的命令610。在不同的实施例中,命令610可以是任何类型的说明或语言,包括句子、词组、命令、提问或根据适当的表示方案表示的字。此外,字典条目512可以包括表示命令610的序列听觉特征的音素串612。与命令610关联的音素串612可以包括来自与识别器314一起使用的预先确定的音素集的音素序列。在附图6的实施例中,前述的音素串可以包括音素串1(612(a))至音素串N(612(b))。每个可替换的音素串612可以表示由区域变化或发音变化引起的相同命令610的可替换的发音。下文参考附图7进一步讨论实施字典条目512的一种技术。
由于普通话汉语通常以汉字而不是罗马字母书写,因此通过利用标准的普通话汉语罗马化方案(一般称为“pinyin(拼音)”)可以表示音素集。还应该注意,在音素集中拼音“ü”表示为“yu”以便有利于计算机键盘使用。在变型的实施例中,本发明可以利用以各种不同的其它类型的罗马化方案表示的优化的普通话汉语音素集。
因为使用相对较小数量的音素,因此音素集可以提供用于精确地识别普通话汉语语音的有效和小型化的音素表示。在音素集中单个音素的数量减小极大地节省了在电子系统110中的处理资源和存储器。此外,总的音素的数量的减小实质上降低了与训练隐马尔可夫模型(HMM)212相关的负担。然而,在不同的变型的实施例中,可以实施本发明以包括各种不同的附加或不同的音素。
常规的普通话汉语语音识别系统通常利用以子音节方法实施的音素集,在这种子音节方法中每个音节表示为韵(rime)或半音节。相反,本发明的优化的普通话汉语音素集有利地利用语音学技术,在这种语音学技术中将音节进一步划分为由适当的辅音音素和元音音素的组合表示的语音学单元以给语音表示处理提供更大的粒度。此外,音素集表示普通话汉语的各种声音而不利用作为不同的音素的一部分的对应的音调信息。除了提供更大的灵活性之外,前述的语音学技术还具有在音素集610中要求的总的音素更少的附加优点。
根据对应的音素的特征可以将前述的普通话汉语音素集和对应的音位变体组织成各种语言类别。为了说明,下文在表1中给出一种这样的组织,表1包括在顶部的类别,下面有四列。在表1的左侧的两列是具有音位变体的音位变体列,该列映射成在表1的右侧上的两个音位列中的对应的音位。在表1中等效的音位变体在相同的水平行上示出(或者对于附加的音位变体音位映射在下面的不中断的水平行上)作为表1的对应的音位。
在表1的更左边上的音位变体列以前述的Pinyin罗马化格式表示。此外,在自左边的第二列中,表1也包括以根据由国际语音协会(International Phonetic Association(IPA))开发的系统的第二种罗马化方案格式表示的等效的音位变体列。关于国际语音协会的进一步的信息可以参见环球网WWW.arts.gla.ac.uk/IPA/fullchart.html。在变型的实施例中,音位变体也可以以除了在下面的表1中所示的方式之外的不同的方式组织。
此外,在表1的更右边上的音位变体列以前述的Pinyin罗马化格式表示。此外,在自右边的第二列中,表1也包括以前述的国际语音协会(IPA)的罗马化方案格式表示的等效音位变体列。在变型的实施例中,普通话汉语音素集的音位变体也可以以以除了在下面的表1中所示的方式之外的不同的方式组织。
表1:
辅音:
Pinyin IPA IPA Pinyin
b(begin) p p b
b(begin) p_v
p(begin) p_h p_h p
m(begin) m m m
f(begin) f f f
d(begin) t t d
d(begin) t_v
t(begin) t_h t_h t
l(begin) l l` l
l(begin) l`
l(begin) L
g(begin) k k g
g(begin) k_v
k(begin) k_h k_h k
h(begin) x x h
h(begin) x_v
j(begin) C ^C ^j
q(begin) C^_h C^_h q
x(begin) C C x
zh(begin) s^` s^` zh
zh(begin) t^
zh(begin) S^
ch(begin) s^`_h s^`_h ch
ch(begin) t^_h
ch(begin) S^_h
sh(begin) s ^s ^sh
sh(begin) S
sh(begin) s
r(begin) r^` r^` r
r(begin) z^`
r(begin) z
r(end) r^` r^` r
z(begin) t ^t ^z
z(begin) s^`
z(begin) S^
c(begin) t^_h t^_h c
s(begin) s s s
n(begin,end) n n n
n(begin,end) J
ng(end) N N ng
*注意:“begin(开始)”和“end(结尾)”描述了音位出现在Pinyin中的哪儿。例如,在Pinyin“ban”中,“b”是b(begin)和“n”是n(end)。
半元音:
Pinyin IPA IPA Pinyin
y j j y
w w w w
yu H H yu
元音:
Pinyin IPA IPA Pinyin
a(ba) A a a
a(ai,an) a
a(ian) E
a(yuan) E^
a(ao,ang) 6
a(angr) A~
o(bo) uo o o
o(uo) o
o(ao) U
e(ge,strd) 7 e e
e(ge,nstr) @
e(ei) e
e(ie) E_r
e(engr) @~
i i I i
i I
i(zhi) 1`
i(zi) 1
u(lu) u u u
u(lou) U
yu(qu) y yu yu
现在参考附图7,所示为根据本发明的一个实施例说明区域变化技术的附图810。在变型的实施例中,除了结合附图7的实施例讨论的那些技术或功能之外或作为它们的替换,本发明容易利用其它的各种技术或功能。
在许多语言中,根据多种不同的因素比如地理区域可能存在发音变化。例如,根据讲话者是来自北方地区(北方普通话汉语)还是中国南方(南方普通话汉语)口语普通话汉语可能具有明显的发音变化。前述的明显的发音变化可能被确定超过预先确定的变化阈值。为了提供稳健且精确的普通话汉语语音识别系统,附图的图810所示为可用于改善用于在发音方面存在明显的区域变化的识别精度的区域变化技术。
在附图7的实施例中,为了说明本发明的不同原理,图810所示为映射到在由语音识别引擎210所使用的词汇字典214(附图2)中的统一的字典条目512中的普通话汉语区域变化1(814)。此外,图810所示为映射到在由语音识别引擎210所使用的词汇字典214中的相同的字典条目512中的普通话汉语区域变化2(816)。
此外,图810所示为映射到在由语音识别引擎210所使用的词汇字典214中的相同的字典条目512中的普通话汉语区域变化3(818)。在附图7的实施例中,区域变化表示与语音识别引擎210一起使用的特定的字典条目512的不同的发音变化。
在某些实施例中,根据本发明,语音识别引擎210也访问专门设计用于对于特定的环境优化语音识别精度的词汇字典。例如,在某些实施例中,普通话汉语语音识别字典可以包括对应于不同的区域北方普通话汉语方言的北方普通话汉语条目512。
此外,在某些实施例中,普通话汉语语音识别字典214也可以包括对应于区域南方普通话汉语土话的南方普通话汉语条目512。前述的普通话汉语语音识别字典也可以包括专门设计成有利于识别精度或强调节省处理资源同时执行语音识别过程的条目512。
在本发明的某些实施例中,各种字典优化技术可以用于提供更加稳健且精确的普通话汉语语音识别过程。在一个实施例中,本发明可以合并包括任何适当的自由音位变体和音位变化。某些普通话汉语字或声音可以具有不是由于区域变化引起的可替换的发音。例如nei4、zhe4、shei2、han4、huo0可以具有如在下表II中所示的可替换的发音。
表II:
普通的—可替换的
na4~nei4
zhe4~zhei4
shui2~shei2
he2~han2
he2~huo2
根据本发明的某些实施例,在下表III中示出了前述的普通话汉语字的对应的字典条目512;
表III;
na4 na
na4 nei(可替换的发音)
zhe4 s^`e
zhe4 s^`ei(可替换的发音)
shui2 s w ei
shui2 s ei(可替换的发音)
he2 xe
he2 xan(可替换的发音)
he2 xe
he2 xwo(可替换的发音)
在某些实施例中,词汇字典214可以以不同的改进方式实施以处理有问题的南方和北方普通话汉语方言变化。例如,与在中国北方的相同的字或声音的发音相比,某些普通话汉语字或声音在中国南方不同地发音。对于某些字,最后的r(r^`)可能在中国北方发音,而对应的最后的r可能不在中国南方使用。
如下的表IV提供了包括在中国北方发音中的最后的r的某些普通话汉语字或发音的列表。
表IV:
南方——北方
shi4~shir4
bian1~bianr1
pian4~pianr4
ge1~ger1
dian3~dianr3
tian1~tianr1
gou3~gour3
ban4~banr4
qiu2~qiur2
wan2~wanr2
zhao1~zhaor1
根据本发明的某些实施例,用于与前述的北方-南方普通话汉语配对的相应的字典条目512在下表V中示出。本发明可以将北方-南方普通话汉语配对合并到单个对应的字或意思中。
表V:
shir4 s ^i
shir4 s ^ir(北方发音)
bianr1 pjan
bianr1 pjanr(北方发音)
ger1 ke
ger1 ker(北方发音)
dianr3 cltjan
dianr3 cltjanr(北方发音)
tianrl clthjan
tianrl clthjanr(北方发音)
gour3 cl k ow
gour3 cl k owr(北方发音)
banr4 cl pan
banr4 cl panr(北方发音)
wanr2 wan
wanr2 wanr(北方发音)
zhaor1 s^`aw
zhaor1 s^`awr(北方发音)
在本发明的某些实施例中,在实施词汇字典214时可以使用某些塞擦音(affricate)技术。例如,在中国南方,塞擦音s^`容易以更接近音位t^的音位发音。词汇字典214因此包括可替换的南方普通话汉语发音并将其与t^音素合并,以含盖北方和南方的普通话汉语发音。例如,字典214可以包括北方塞擦音变化“1an2_zhu4 sil 1ancl s^`u sil”和南方塞擦音变化“1an2_zhu4 sil 1 a n cl t^usil”。
此外,在中国南方,塞擦音s^容易以更接近音位s的音位发音。词汇字典214因此包括可替换的南方普通话汉语发音并将其与s音素合并,以含盖北方和南方的普通话汉语发音。例如,字典214可以包括北方塞擦音变化“shang4 s^a N”和南方塞擦音变化“shang4 s aN”。因此,如上文所讨论,在本发明的某些实施例中,各种不同的字典优化技术可以用于提供更加稳健且精确的普通话语音识别过程。
参考优选的实施例已经解释了本发明。根据本发明的公开其它的实施例对本领域的普通技术人员来说是显然的。例如,使用除了在上述的优选实施例中描述的结构和技术之外的结构和技术容易实施本发明。此外,本发明也可以与除了上文作为优选实施例描述的系统之外的系统一起有效地使用。因此,优选实施例的这些和其它变型希望都被仅由附加的权利要求所限定的本发明所涵盖。
机译: 字典管理系统,字典服务器,字典使用系统和字典管理方法
机译: 用于压缩和解压缩数据的方法和设备,通过该方法和设备,我们可以有效地使用多个压缩器,并且包括至少一个压缩器的解压缩器在字典中属于“ ”类型。
机译: 字典信息显示设备,字典信息显示方法,字典信息显示程序,字典信息显示系统,其服务器设备和终端设备