首页> 中国专利> 利用判定树生成拼写单词的发音和对其评分的方法和设备

利用判定树生成拼写单词的发音和对其评分的方法和设备

摘要

混合判定树包含一个关于拼写单词序列中的邻接字母及与此拼写单词序列相对应的音素序列中的邻接音素的是否问题网。混合判定树的叶节点提供关于哪一种标音概率最大的信息。利用混合树可以对多个可能发音中的每一个进行评分,并且这些评分可用来选择最佳发音,以及用来按概率排列发音。由此系统生成的发音可用于语音合成和语音识别应用中,也可应用词典学的应用中。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-24

    专利权有效期届满 IPC(主分类):G06F17/20 授权公告日:20030820 申请日:19990429

    专利权的终止

  • 2014-08-06

    专利权的转移 IPC(主分类):G06F17/20 变更前: 变更后: 登记生效日:20140714 申请日:19990429

    专利申请权、专利权的转移

  • 2003-08-20

    授权

    授权

  • 2001-08-01

    实质审查请求的生效

    实质审查请求的生效

  • 1999-11-03

    公开

    公开

说明书

本发明一般涉及语音处理。更具体地讲,本发明涉及生成拼写单词的发音系统。本发明可用于多种语境,包含语音识别,语音合成和词典学。

伴随有发音的拼写单词可出现于语音处理领域内的很多不同的语境中。在词典中的每一个单词的语音识别音标中在使用之前需要对识别器进行训练。传统的标音是由熟悉该某种语言的语音发音的细微差别的词典学家手工生成的。对词典中的每一个单词开发一个良好的标音是需要时间并且要求很高的水平。如果有一个能够根据单词的字母拼写生成其标音的可靠系统就不需要大量的这种劳动和专门技术。这种系统将把目前的识别系统扩展为可以识别像地名和人名这些在现有的词典中找不到的单词。

拼写单词也经常在语音合成领域中碰到。现在的语音合成器通过从词典中检索数字取样声音单元并将这些声音单元连接而形成句子就可将文本转换为语音。

正如上述各例所示,语音处理的语音识别和语音合成两个领域都会从可由拼写单词生成准确的发音的能力受益。然而,需要此种技术的并非只限于语音处理。如今词典学家已经完成多种主要世界语言的相当大型和准确的发音词典。但是,仍然存在成百上千种区域性语言还缺少良好的标音。由于迄今为止制作良好标音的工作主要是靠手工劳动,所以某些区域性语言可能需要多年才能得到标音,如果真的能够得到的话。如果能有一个良好的应用计算机来为标音准确度评分的技术,则标音过程就可以大大加速。这种评分系统将会利用现有的语言标音素材来标识标音原型中其发音受到怀疑的那些词条。这就会大大提高生成高质量标音的速度。

迄今为止将拼写单词变为发音标音的努力只是依赖字母本身。这种方式留有很大的开拓余地。比如,单纯字母发音生成器很难正确地发出单词“Bible”的发音。根据字母序列单纯字母发音系统会发成类似“Bib-l”的音,就像学习阅读的小学生可能发出的发音。通常的系统的缺点在于很多语言的发音规则所产生的固有的歧义。比如,英语具有几百条各种发音规则,使得按单词来解决这一问题很难并且在计算上耗费巨大。

本发明从另外一个角度来解决这一问题。本发明利用的一个专门构造的混合判定树既包含字母序列也包含音素序列的判定规则。更具体地讲,混合判定树包含位于该树的内节点上的一系列是否问题。这些问题中的一些牵涉拼写单词序列中的字母及其邻接字母;而这些问题中的另一些牵涉单词序列中的音素及其邻接音素。内节点最终引向的叶节点包含关于在对由字母序列定义的给定单词进行发音时该单词的哪一些发音最可能是正确的概率数据。

本发明的发音生成器利用这一混合判定树来为不同的候选发音方案评分,使其可以选择概率最大的候选方案作为给定的拼写单词的最佳发音。生成最佳发音最好是一个两阶段过程,在其第1阶段采用单纯字母树来生成多个发音候选方案。之后在第2阶段利用混合判定树为这些候选方案评分以便选择出最佳候选方案。

尽管混合判定树最好是用于两阶段发音生成器中,不过混合树在解决某些不要求单纯字母第1阶段处理的问题中也是有用的。比如,混合判定树可以用于对利用手工方式的语言学家所生成的发音进行评分。

为了更全面的理解本发明,其目的及优点,可参考下面的说明书及附图。

图1为说明本发明的各组成部分及步骤的框图;

图2为说明单纯字母树的树形图;

图3为说明根据本发明的混合树的树形图;

图4为说明用于生成根据本发明的混合树的当前优选系统的框图;

图5为说明通过对位过程生成训练数据的方法的流程图;

图6为说明在示范发音生成器中使用判定树的框图;

图7为说明应用吉尼(Gini)判别准则来评定在扩展节点过程中采用什么问题的示图;

图8为说明根据本发明的字母到声音的发音生成器的框图;以及

图9为说明字母-句法-语境-方言混合判定树的框图。

为说明本发明的原理,图1的实施例示出了一个拼写字母-发音生成器。下面将更全面地介绍,本发明的混合判定树,除了此处所说明的发音生成器之外,还可以应用于多种不同的应用中。选择发音生成器来说明是因为它可以突出混合判定树结构的很多方面及好处。

发音生成器采用两个阶段,第1阶段采用一组单纯字母判定树10,而第2阶段采用一组混合判定树12。输入序列14,比如字母序列B-I-B-L-E送入动态规划音素序列生成器16。序列生成器利用单纯字母树10来生成一个表示拼写单词输入序列的可能发音候选方案的发音列表18。

序列生成器依次检查序列中的每个字母,检查时应用与该字母相联系的判定树以便根据包含在单纯字母树中的概率数据选择一种音素发音。

最好是这一组单纯字母判定树包含字母表中每一个字母的判定树。图2示出字母E的单纯字母判定树的示例。判定树包括多个内节点(图中以椭圆表示)和多个叶节点(图中以矩形表示)。每个内节点用是否问题来扩展。是否问题是一种可回答“是”或“否”的问题。在单纯字母树中这些问题指向给定的字母(在这一场合为字母E)及输入序列中的其相邻字母。注意图2中每个内节点转移到左方或右方是根据对相关问题的回答是“是”还是“否”而定。

图2中所使用的缩写如下:问题中的数字,如“+1”或“-1”代表拼写中相对当前字母的位置。比如,“+1L=‘R’?”代表“当前字母(在这一场合为字母E)的后边是R吗?”。缩写CONS和VOW代表字母的类型,即辅音和元音。缺少相邻字母,即零字母,的情况用符号“-”代表,它在一些字母和和相应的音素发音对位时用作填充符或站位符。符号“#”代表单词边界。

叶节点中填充的是概率数据,这些概率数据将可能的音素发音与表示具体音素代表给定字母的正确发音的概率的数值联系起来。比如,符号“iy=>0.51”代表“此叶中的音素‘iy’的概率为0.51”。零音素,即默音,由符号“-”表示。

序列生成器16(图1)就是利用单纯字母判定树10来构造一个或多个发音假设方案,它们存储于列表18中。最好是每个发音都联系有一个数字评分,该评分是通过将利用单纯字母判定树10选择的各单个音素的概率评分结合起来而得到的。单词的发音可通过构造一个可能组合的矩阵,然后利用动态规划来选择n-最佳候选方案来评分。选择n-最佳候选方案的另外一种方法是可利用一种置换方法,即首先确认概率最大的单词候选方案,然后通过如下的迭代置换生成附加的候选方案。

首先选择具有最高概率评分的发音,其方法是将通过检验叶节点确认的最高评分音素的各相应评分相乘,然后利用这一选择作为概率最大候选方案或第1最佳单词候选方案。之后选择附加的(n-最佳)候选方案,方法是通过再一次检验叶节点中的音素数据来确认此音素,不是原来所选择的,而是与起初选择的音素差别最小的。然后用这一差别最小的音素置换起初选择的音素而生成第二最佳单词候选方案。上述过程可迭代重复,直到选择出所要求数目的n-最佳候选方案为止。列表18可按评分降序排序,于是通过单纯字母分析判断为最佳的发音就出现在此列表中成为第1个。

如上所述,单纯字母分析经常会产生糟糕的结果。这是因为单纯字母分析无法在每个字母处判断由后续的字母将生成什么音素。这样,单纯字母分析可生成在自然语音中实际上不会出现的高评分发音。比如,专有名词“Achilles”很可能产生一个对两个“ll”都读音的发音:ah-k-ih-l-l-iy-z。在自然语音中第2个“l”实际上是默音:ah-k-ih-l-iy-z。利用单纯字母树的序列生成器不具有筛选自然语音中永远不会出现的单词发音的机制。

此发音系统的第2阶段的目标是解决上述这一问题。一个混合树评分估计器20利用这一组混合判定树12来评定列表18中的每个发音的生命力。这个评分估计器的工作方式是顺序检查输入序列中的每个字母并同时由序列生成器16对每个字母赋予音素。

与单纯字母树集合类似,混合树集合对字母表中的每个字母有一个混合树。一个混合树的示例示于图3。与单纯字母树类似,混合树具有内节点和叶节点。图3中内节点以椭圆表示,叶节点以矩形表示。每个内节点填充有是否问题,而每个叶节点中填充的是概率数据。虽然混合树的树结构与单纯字母树的结构相似,但有一个重要的差别。混合树的内节点可包含不同的两类问题。内节点可包含关于序列中的给定字母及其相邻字母的问题,或可包含与该字母相联系的音素及与该序列相应的相邻音素的问题。所以说判定树是混合的就在于它包含混合类的问题。

在图3中所使用的缩写与在图2中所使用的类似,只是又增加了一些附加的缩写。符号L代表关于字母及其相邻字母的问题。符号P代表关于音素及其相邻音素的问题。比如,问题“+1L=‘D’?”表示“在+1位置的字母是否是‘D’?”。缩写CONS和SYL是音素类型,即辅音和音节。比如,问题“+1P=CONS?”表示“在+1位置的音素是否是辅音?”。叶节点中的数字给出音素的概率,与单纯字母树中的类似。

混合树评分估计器根据混合树问题并利用该混合树叶节点中的概率对列表18中的每个发音进行再评分。如需要,可将发音表与相应的评分一起存储成为列表22。如需要,可将此列表22存储成为降序排列,于是列出的第1个发音就是评分最高的。

在很多情况下在列表22中占据最高评分位置的发音与在列表18中占据最高评分位置的发音不同。这是因为利用混合树12的混合树评分估计器将不包含自相一致的音素序列发音或在自然语音中不会出现的发音筛选掉了。

如需要,选择器模块24可访问列表22以便检索列表中的一个或多个发音。通常选择器24可将带有最高评分的发音检索出来并可将其作为输出发音26而提供。

如上所述,图1中所示的发音生成器表示的只是应用本发明的混合树的一种可能的实施例。作为另一种实施例,在给定的单词序列的一个或多个发音已经存在的应用中动态规划音素序列生成器16及与其相关联的单纯字母判定树10可以省掉。在存在事先开发的发音词典时就可能碰到这种情况。在这种场合混合树评分估计器20,和与其相关联的混合判定树12一起,可用来对这一发音词典的词条进行评分,识别出具有低评分的词条,从而对正在构造中的词典的可疑词条进行标识。这样的系统,比如,可以与词典学家的生产工具结合起来。

从列表22中选出的一个输出发音或多个输出发音可用来形成语音识别和语音合成使用的发音词典。在语音识别的语境中,发音词典可在识别器训练阶段中使用为识别器词表中找不到的单词提供发音。在语音合成语境中,发音词典可用来生成用于连接读出的音素声音。此系统,比如,可用来增强电子邮件(E-mail)读出器或其他文本-语音应用的功能。

本发明的这一混合树评分系统可用于很多需要一个发音或一组可能发音的多种应用中。比如,在动态在线词典中用户打入一个单词,而系统就可以提供一个按概率排序的可能发音列表。此评分系统也可用作用户语言学习系统的反馈工具。具有语音合成功能的语言学习系统可用来显示一个拼写单词和分析企图读出该新语言中的单词的发音的人的发音,并且系统可为用户提供他或她对该单词的进行发音时的最可能和不可能的发音。

生成判定树

图4中示出生成单纯字母树和混合树的系统。在判定树生成系统的中心是树生成器40。树生成器利用的是可对系统开发人员事先提供的一组训练数据42进行操作的树生长算法。通常训练数据包括与单词的已知正确发音对应的字母音素对对准排列表。训练数据可通过图5所示的对准排列过程而生成。图5示出对例词BIBLE进行的对准排列过程。拼写单词44及其发音46送入到将拼写单词的字母和相应发音的音素对准排列的动态规划对准模块48。请注意在示出的示例中最后的E是默音。然后将字母音素对存储为数据42。

回过来看图4,其中的树生成器与3个附加组成部分:一组可能的是否问题50,一组用于为每个节点选择最佳问题或判断此节点是否应该是叶节点的规则52,以及用于防止过度训练的修剪方法53,一起协同工作。

这一组可能的是否问题可能包含字母问题54和音素问题56,这取决于正在生长的是单纯字母树还是混合树。当生长的是单纯字母树时,只使用字母问题54;而当生长的是混合树时,既可以使用字母问题54,也可以使用音素问题56。

用来选择最佳问题来填充现今的优选实施例的每个节点的规则是遵循Gini判别准则设计的。也可以使用其他的分裂准则代替之。要了解关于分裂准则更多的情况可参考Breiman,Friedman等人的“Classification and Regression Trees(分类和回归树)”。基本上,Gini判别准则是用来从一组可能的是否问题50中选择一个问题并应用可判断节点是叶节点的停止规则。Gini判别准则应用一种称为“不纯异物(impurity)”的概念。不纯异物永远为一非负数。它应用于节点使包含相等比份的所有可能范畴的节点具有最大不纯异物,只包含一种可能范畴的节点具有零不纯异物(最小可能值)。可满足上述条件的函数有好几个。它们决定于节点内每个范畴的计数,Gini不纯异物可定义如下。假设C是数据项可属于的类集合,而T是当前树节点,令f(1|T)是节点T中属于类1的训练数据项的比份,而f(2|T)是节点中属于类2的训练数据项的比份等等。于是有: >>i>>(>T>)>>=>>Σ>>j>,>k>∈>C>.>_>k>>>>f>>(>j>|>T>)>>f>>(>k>|>T>)>>=>>>1>∑>>j>>[>f>>(>j>|>T>)>>]>2>.> >为了以示例说明,假设系统为字母“E”生长一个树。在此树的给定节点T上,系统,比如,可以有10个示例说明“E”在单词中如何发音。在这些示例的5个中,“E”的发音是“iy”(在“cheeze”中“ee”的音);在这些示例的3个中,“E”的发音是“eh”(在“bed”中的“e”音);而在其余的2个示例中“E”为“-”(即如“maple”中的默音)。

假设此系统考虑两个可应用于10个示例的可能的是否问题Q1和且Q2。对Q1回答“是”的条目包含4个“iy”的示例和1个“-”示例(其余5个条目对Q1回答“否”)。对Q2回答“是”的条目包含3个“iy”的示例和3个“eh”示例(其余4个条目对Q2答“否”)。图6示意地比较了这两种情况。

Gini判别准则回答此系统对此节点应该选择哪一个问题,Q1还是Q2。选择正确问题的Gini判别准则是:求出的问题应是能使在从亲节点走向子节点时不纯异物的降低最大。这一不纯异物的降低ΔT定义为ΔI=i(T)-pyes*i(yes)-pno*i(no),其中的Pyes是走向“yes”子节点的条目的比份,而pno是走向“no”子节点的条目的比份。

对上述示例应用Gini判别准则: >>i>(>T>)>=>1>->>Σ>j>>>>[>f>(>j>/>T>]>>2>>=>1>->>0.5>2>>->>0.3>2>>->>>0>.>2>>2>>=>0.62> >于是对Q1得出ΔI为:

    i(T)-Pyes(Q1)=1-0.82-0.22=0.32

    i(T)-pno(Q1)=1-0.22-0.62=0.56于是,ΔI(Q1)=0.62-0.5*0.32-0.5*0.56=0.18。对Q2,有I(yes,Q2)=1-0.52-0.52=0.5,而(对)i(no,Q2)=(同样)=0.5。于是,ΔI(Q2)=0.6-(0.6)*(0.5)-(0.4)*(0.5)=0.12。在此场合,Q1给出最大的不纯异物的降低。将选择它代替Q2。规则集合52说明对节点而言最佳的问题是在由亲节点走向其子节点时可产生不纯异物最大降低的那个问题。

树生成器应用规则52来生长从集合50选择是否问题的判定树。此生成器将继续使树生长直到生长出最佳尺寸的树为止。规则52包含一组当树生长到预定尺寸时可使树的生长停止的停止规则。在此优选实施例中树生长所达到的尺寸大于所要求的极限尺寸。修剪方法53用于将树剪至所希望的尺寸。修剪方法可采用在上面援引的参考文献中所描述的Breiman方法。

于是树生成器生成在60中大致示出的单纯字母树,或生成在70中大致示出的混合树,这取决于可能的是否问题集合50是否只包含单纯字母问题还是混合有音素问题。训练数据42的语料库包括字母,音素对,如上所述。在生长单纯字母树时,只使用这些对的字母部分来扩展内节点。反之,在生长混合树时,训练数据的字母和音素部分都可用来扩展内节点。在两种情况下,这些对的音素部分都可用来填充叶节点。与叶节点中的这些音素数据相关联的概率数据是通过计数一给定的音素与一给定的字母在整个训练数据语料库中对准排列的次数而生成的。

由上述方法生成的字母-发音判定树可存储于存储器中以便应用于多种不同的语音处理的应用中。虽然这类应用种类繁多,但下面举出几个示例以便突出这些树的某些功能和优点。

图6示出利用单纯字母树和混合树两者从拼写单词字母序列生成发音的情况。虽然示出的实施例是同时应用单纯字母树和混合树两个部分,但其他的应用可只使用一种而不使用另一种。在示出的实施例中,单纯字母树集合存储于存储器80之内,而混合树存储于存储器82之内。在很多应用中,对字母表中的每一个字母都有一个树。动态规划序列生成器84对输入序列86进行操作以便根据单纯字母树80在88生成发音。实质上,输入序列中的每个字母都单独考虑,并且利用可应用的单纯字母树来为该字母选择概率最大的发音。如上面所解释过的,单纯字母树关于给定的字母及其相邻的字母要提问一系列的是否问题。在序列中的所有的字母都经过了考虑之后,就通过将由序列生成器选择的音素连接而生成最后得到的发音。

要改进发音可使用混合树集82。单纯字母树只针对字母提问,而混合树可提出关于字母的问题,也可以提出关于音素的问题。评分器90可从序列生成器84接受音素信息。在这方面,序列生成器84可利用单纯字母树80生成多个不同的发音,并根据其各自的概率评分将这些发音排序。发音的排序表可存储于92供评分器90访问。

评分器90接受供给序列生成器84的同一输入序列86作为输入。评分器90利用在被要求对音素问题作出反应时得自存储器92的数据将混合树82的问题应用于字母序列。在94处得到的输出通常是一个比在88处提供的发音更好的发音。其原因是混合树趋向于滤掉在自然语音中不会出现的发音。比如,专有名词Achilles很可能产生一个对两个“ll”都读音的发音:ah-k-ih-l-l-iy-z。在自然语音中第2个“l”实际上是默音:ah-k-ih-l-iy-z。

如需要,评分器90也可产生一个如在96处的n个可能发音的排序表。与每个发音相关联的评分表示赋予发音中的每个音素的单个概率的组合。这些评分本身可用于需要对不可靠的发音进行识别的应用中。比如,由一个语言学家小组提供的标音就可以利用混合树来快速地对任何有问题的发音进行识别。

字母-声音发音生成器

为说明本发明的原理,图8中的实施例示出一个两阶段的拼写字母-发音生成器。正如下面将更全面解释的那样,本发明的混合判定树方法,除了此处所说明的发音生成器以外,还可应用于多种不同的应用中。这一两阶段发音生成器是被选择用来说明的,因为它可以突出混合判定树结构的很多方面和长处。

这一两阶段发音生成器包含一个最好是应用一组字母-句法-语境-方言判定树110的第1阶段116和一个应用一组用来在音素级上检查输入序列114的音素-混合判定树112的第2阶段120。字母-句法-语境-方言判定树检查涉及拼写单词序列中的字母及其邻接字母(即字母相关问题);检查的其他问题是什么单词位于一个具体单词之前或之后(即语境相关问题);检查的另外的其他问题是句子中的单词是什么词类以及句子中的其他单词的句法关系(即句法相关问题);检查的进一步的另一个其他问题是要求以何种方言来发音。最好是由用户来选择将由方言选择装置150发音的方言。

本发明的另一种实施例包含使用字母相关问题和至少一个单词级特征(即句法相关问题或语境相关问题)。比如,一个实施例在第1阶段使用一组字母一句法判定树。另外一个实施例使用一组不检查输入序列的句法的字母-语境-方言判定树。

应当了解,本发明并不局限于句子中出现的单词,而是还包括显示句法的其他语言学结构,如切分的句子或词组。

一个输入序列114,如一个句子的字母序列,是送入到基于文本的发音生成器116。比如,输入序列114可以是如下的句子:“Did youknow who read the autobiography?”

句法115是输入到基于文本的发音生成器116的内容。这一输入内容为基于文本的发音生成器116提供正确通过字母-句法-语境-方言判定树110的信息。句法数据115的目标是输入序列114中的每个单词是什么词类。比如,在上述输入序列示例中的单词“read”将会由句法标识软件模块129标识为动词(与名词或形容词相对)。句法标识软件技术可以从如University Pennsylvania这样的机构的“Xtag”研究项目得到。此外,下面的参考文献讨论了句法标识软件技术:GeorgeFoster,“Statistical Lexical Disdmbiguation”,计算机科学硕士论文,McGill University,Montreal,Canada(November 11,1991)。

基于文本的发音生成器116使用判定树110来生成表示拼写单词输入序列可能发音候选方案的发音列表118。列表118的每个发音(例如发音A)表示输入序列114的一个发音,最好包含每个单词的重读。此外,每个单词的读出速率可在此优选实施例中判定。

句子速率计算软件模块152由基于文本的发音生成器116使用来判定每个单词应该以何种速度读出。比如,句子速率计算器152检查句子的语境以便判定是否句子中的某些单词应该以比正常的速率快或慢的速率读出。比如,一个在句尾带有惊叹号的句子产生表明在句尾前的预定数目的单词应该具有较正常持续时间为短的持续时间以便更好地传达惊叹陈述句的冲击力的速率数据。

基于文本的发音生成器116顺序检查序列中的每个字母及单词,应用与该字母或单词句法(或单词语境)相关联的判定树根据包含在判定树中的概率数据来选择该字母的发音。

最好是字母-句法-语境-方言判定树集合110包含字母表中每个字母和所涉及的语言的句法的判定树。

图9示出可使用于单词“READ”中的字母“E”的字母-句法-语境-方言判定树140的一个示例。此判定树包括单个内节点(在图这以椭圆表示)和多个叶节点(图中以矩形表示)。每个内节点填充有是否问题。是否问题是一种可回答“是”或“否”的问题。在字母-句法-语境-方言判定树140中这些问题指向:一个给定的字母(在这一场合为字母“E”)及输入序列中的其相邻字母;或句子中此单词的句法(即名词,动词等等);或句子的语境和方言。注意图9中每个内节点分支到左方或右方是根据对相关问题的回答是“是”还是“否”而定。

最好是第1个内节点的问题是关于读出所使用的方言的问题。内节点138就代表这样的问题。如果是要使用南方方言读出,则通过南方方言树139,它最后在叶节点生成更能代表南方方言的音素值。

图9中所使用的缩写如下:问题中的数字,如“+1”或“-1”代表拼写中相对当前字母的位置。符号L代表关于字母和其相邻字母的问题。比如,“-1L=‘R’or(或)‘L’?”代表“当前字母(在这一场合为字母E)的前边是L或R吗?”。缩写CONS和VOW代表字母的类型,即辅音和元音。符号“#”代表单词边界。项‘tag(i)’表示第i个单词的句法标识,其中i=0表示当前单词,i=-1表示前一个单词,i=+1表示后一个单词等等。这样,“tag(0)=PRES?”代表“当前单词是现在时的动词?”。

叶节点中填充的是概率数据,这些概率数据将可能的音素发音与表示具体音素代表给定字母的正确发音的概率的数值联系起来。零音素,即默音,由符号“-”表示。

比如,现在时动词“READ”和“LEAD”中的“E”在叶节点142由判定树140以概率1.0赋予其正确的发音“iy”。“READ”的过去时中的“E”(比如“Who read a book”)则在叶节点144以概率0.9被赋予发音“eh”。

判定树110(图8中的)最好是包含语境关联问题。比如,内节点的语境关联问题可以检查单词“you”前面是否是单词“did”。在这种语境中,“you”中的“y”在口语中通常是发“ja”的音。

本发明也生成指示韵律的数据以便传达读出一个句子时的重读,音调,钝音或停顿。句法关联问题有助于判定音素的重读、音调和钝音。比如,内节点141(图9中的)查询句子中的第1个单词是否是疑问代名词,如疑问句“who read a book?”中的“who”。由于在这个例子中在例句中的第1个单词是一个疑问代名词,于是就选择带有音素重读的叶节点144。叶节点146表示另外一种,音素非重读的选择。

作为另外一个例子,在疑问句中,句中最后一个单词的最后一个音节的音素经常具有一个音调符号以便更自然地传达出句子的疑问意思。再一个例子为包含能够容纳在读出一个句子时的自然停顿的本发明。本发明通过查询有关标点,如逗号和句号,的问题而可包含这种停顿。

于是基于文本的发音生成器116(图8)就可以利用判定树110来构造一个或多个发音假设方案存储于列表118中。最好是每个发音都联系有一个数字评分,该评分是通过将利用判定树110选择的各单个音素的概率评分结合起来而得到的。单词的发音可通过构造一个可能组合的矩阵,然后利用动态规划来选择n-最佳候选方案来评分。

选择n-最佳候选方案的另外一种方法是可利用一种置换方法,即首先确认概率最大的单词候选方案,然后通过如下的迭代置换生成附加的候选方案。首先选择具有最高概率评分的发音,其方法是将(通过检验叶节点确认的)最高评分音素的各相应评分相乘,然后利用这一选择作为概率最大候选方案或第1最佳单词候选方案。之后选择附加的(n-最佳)候选方案,方法是通过再一次检验叶节点中的音素数据来确认此音素,不是原来所选择的,而是与起初选择的音素差别最小的。然后用这一差别最小的音素置换起初选择的音素而生成第二最佳单词候选方案。上述过程可迭代重复,直到选择出所要求数目的n-最佳候选方案为止。列表118可按评分降序排序,于是通过单纯字母分析判断为最佳的发音就出现在此列表中成为第1个。

判定树110经常只能生成差强人意的结果。这是因为这些判定树无法在每个字母处判断由后续的字母将生成什么音素。这样,判定树110可生成在自然语音中实际上不会出现的高评分发音。比如,专有名词“Achilles”很可能产生一个对两个“ll”都读音的发音:ah-k-ih-l-l-iy-z。在自然语音中第2个“l”实际上是默音:ah-k-ih-l-iy-z。利用判定树110的发音生成器不具有筛选自然语音中永远不会出现的单词发音的机制。

此发音系统108的第2阶段120的目标是解决上述这一问题。一个音素混合树评分估计器120利用这一组音素混合判定树112来评定列表118中的每个发音的生命力。这个评分估计器120的工作方式是顺序检查输入序列114中的每个字母并同时由基于文本的发音生成器116对每个字母赋予音素。

音素混合树评分估计器120根据音素混合树问题112并利用该混合树叶节点中的概率对列表118中的每个发音进行再评分。如需要,可将此列表122存储成为降序排列,于是列出的第1个发音就是评分最高的。

在很多情况下在列表122中占据最高评分位置的发音与在列表118中占据最高评分位置的发音不同。这是因为利用音素混合树112的音素混合树评分估计器120将不包含自相一致的音素序列发音或在自然语音中不会出现的发音筛选掉了。

在此优选实施例中,音素混合树评分估计器120利用句子速率计算器152来确定列表122中的发音的速率数据。此外,估计器120利用允许提出有待检查的关于方言的问题和允许在叶节点以与上述方法类似的方式确定重读和其他韵律方面的音素混合树。

如需要,选择器模块124可访问列表1 22以检索列表中的一个或多个发音。通常选择器124可将带有最高评分的发音检索出来并可将其作为输出发音126而提供。

如上所述,图8中所示的发音生成器表示的只是应用本发明的混合树的一种可能的实施例。在另一种实施例中,从列表122中选出的一个输出发音或多个输出发音可用来形成语音识别和语音合成使用的发音词典。在语音识别的语境中,发音词典可在识别器训练阶段中使用为识别器词表中找不到的单词提供发音。在语音合成语境中,发音词典可用来生成用于连接读出的音素声音。此系统,比如,可用来增强电子邮件(E-mail)读出器或其他文本-语音应用的功能。

本发明的这一混合树评分系统(即字母,句法,语境和音素)可用于很多需要一个发音或一组可能发音的多种应用中。比如,在动态语言学习中用户打入一个句子,而系统就可以为该句子提供一个按概率排序的可能发音列表。此评分系统也可用作用户语言学习系统的反馈工具。具有语音合成功能的语言学习系统可用来显示一个拼写句子和分析企图读出该新语言中的句子的发音的人发音,并且系统可为用户提供他或她对该句子的进行发音时的最可能和不可能的发音。

虽然对本发明的描述是以其当前优选形式进行的,但应当了解此混合树发音系统可有多种应用。因此,可以不脱离下述的权利要求的精神而对本发明进行一定修改和改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号