首页> 中国专利> 用于从分布式词汇表中识别语音的方法

用于从分布式词汇表中识别语音的方法

摘要

在用于识别字的方法中,可预先确定的词汇表被划分成具有语音上相似的字的段。口头输入在第一识别步骤中被分配给所述段之一和在第二识别步骤中从所分配的段的词汇表中被确定。

著录项

  • 公开/公告号CN101057274A

    专利类型发明专利

  • 公开/公告日2007-10-17

    原文格式PDF

  • 申请/专利权人 西门子公司;

    申请/专利号CN200580039114.6

  • 发明设计人 N·孔斯特曼;

    申请日2005-10-04

  • 分类号G10L15/06;G10L15/08;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人刘春元

  • 地址 德国慕尼黑

  • 入库时间 2023-12-17 19:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-24

    未缴年费专利权终止 IPC(主分类):G10L15/06 授权公告日:20120627 终止日期:20161004 申请日:20051004

    专利权的终止

  • 2012-06-27

    授权

    授权

  • 2007-12-12

    实质审查的生效

    实质审查的生效

  • 2007-10-17

    公开

    公开

说明书

本发明涉及从可预先确定的词汇表中识别语音的方法和计算机程序产品。

能够从可预先确定的词汇表中识别各个字或者字串的语音识别系统通常被用于通过口头命令来操作电话设备或者汽车装备的非安全性相关的元件。其它的已知例子涉及通过进行手术的医生对手术显微镜的操作和对个人计算机的操作。

在操作自动导航系统时,可以通过语音输入告知例如所期望的目的地。对此公知两种方法,接下来简短地说明这两种方法。

按照第一种方法,多于70000个德国可能的目的地按照区域被归纳。因此总共产生大约1000个区域,这些区域分别通过大的中心地点来标记。因为从小到大的地点的分配并不唯一并且此外对于用户而言可能很难确定,所以各个地点被分配给多个区域。例如地点“Holzkirchen”不仅位于区域“München”而且也位于区域“BadTlz”。目的地的输入在用户对话中通过以下方式分两级进行,即用户首先说明在所期望的目的地附近的较大的城市。在必要时在从选择列表中选择后识别了目的区域之后,要求用户说出在目的区域之内的确切的目的地。然后根据识别假定(Erkennerhypothese),用户可以通过语音或者在键盘上确认所希望的输入。在DVD上,属于一个区域的导航数据存储在相关联的块中,由此能够大大加速对在DVD上的数据的查找过程。

在第二种方法的情况下,用户通过拼读(Anbuchstabieren)将目的地通知给导航系统。根据所识别的字母序列,通过导航系统所有地点的集合中确定其起始字母与所识别的字母序列相似的该地点。在选择列表中,地点按照相似性排列,被提供给用户以进一步选择。紧接着用户又可以通过语音输入或者通过键盘说明所期望的目的地。

第一种方法的缺点是,用户必须至少两次输入其目的地。此外,该方法与其它的舒适性丧失相联系,因为从小到大的地点的分配并不唯一并且此外在用户方面以地理基础知识为前提。在第二种方法的情况下,为了随后编制相应的选择列表,对于识别过程必须分别在所有可能的地点的完整列表内搜索。直到显示选择列表为止的装载时间和处理时间是非常时间紧凑的,因此该方法在用户处遇到小的接受性。

为此本发明所提出的任务是,说明一种用于从可预先确定的词汇表中识别语音的方法,通过该方法能够实现通过用户的舒适的和快速的应用。

根据本发明,该任务通过具有在权利要求1和权利要求12中所说明的特征的方法和计算机程序产品得以解决。本发明有利的改进方案在从属权利要求中说明。

根据本发明,在用于从可预先确定的词汇表中识别口头(gesprochen)输入的方法中,将可预先确定的词汇表分成多个具有语音上相似的字的段。在第一识别步骤中,口头输入被分配给所述段之一。在第二识别步骤中,从所分配的段的词汇表中确定口头输入。这具有的优点是,由用户仅仍需要用于确定其口头输入的输入。另外,在完整的词汇表中的搜索也不再需要,并且从而较小的时间紧凑性,因为该搜索局限于所分配的段。

根据本发明的改进方案,来自可预先确定的词汇表的字首先被分配给具有语音上相似的字的段。由此,以有利的方式提高系统的识别可靠性,原因在于字可以在不同的段被找到。

根据一个实施变型,可预先确定的词汇表根据所划分的具有语音上相似的字的段以块的方式被存储在存储器介质上,所述存储器介质例如可以被实施为DVD。这样具有有利的效果,即可以较快地执行对存储器介质(DVD)的读存取。

按照本发明的另一个有利的扩展方案,具有语音上相似的字的段分别通过代表项被标记。于是在第一识别步骤中,口头输入被分配给其代表项与口头输入最相似的段。因此确保了迅速地将口头输入分配给所述段之一。

口头输入可以是至少一个口述字或者各个口述字母。按照本发明的有利改进方案,为了将可预先确定的词汇表分成多个具有语音上相似的字的段,在第一步骤中,确定两个字在语音上的相似性的间隔尺度。然后,在第二步骤中,通过矢量量化算法根据间隔尺度将可预先确定的词汇表分成多个具有语音上相似的字的段。

通过矢量量化算法将多个高维数据矢量分配给几个离散的代表,所述代表被称为码本矢量。矢量量化算法的例子是所谓的k均值聚类(k-means Clustering),其中按照数据矢量到所分配的码本矢量的平方距离的和最小,分别将数据矢量分配给k个码本矢量中的一个。

用于确定两个词在语音上的相似性的距离尺度的一种可能性是,在第一步骤中,对分别一个测试表现确定所识别的字的具有所属的等级列表值的等级列表(Rangliste)。然后,在第二步骤中,通过为相应的测试表现对两个字的等级列表值的差求平均来确定两个字之间的间隔尺度。这仅仅是确定间隔尺度的一种可能的方法。

根据本发明的另一个扩展方案,通过确定两个字母的相似性的间隔尺度和针对两个字母序列的间隔尺度合计各个字母的间隔值,可以确定两个字在语音上的相似性的间隔尺度。然后,对于字母序列的给定的长度,矢量量化算法可以在第二步骤中根据间隔尺度和/或者总间隔尺度将可预先确定的词汇表分成多个具有语音上相似的字的段。

根据本发明的另一个有利的改进方案,在此可以分别针对字母序列的不同长度进行对可预先确定的词汇表的多种划分。由此获得的优点是,对于不同数量的口述字母分别存在与之匹配的对词汇表的划分并且因此加速搜索过程。

用于确定两个字的相似性的间隔尺度的另一种可能性例如是将Levenshtein间隔作为间隔尺度。

Levenshtein间隔是用于作为最小量的极微(atomar)变化的在两个字符串之间的区别的尺度,所述极微变化对于将第一字符串转化成第二字符串是必需的。极微变化例如是各个字母的插入、删除和置换。通常将成本分配给极微变化和因此通过合计各个成本而获得两个字符串的间隔或者相似性的尺度。

在执行根据本发明的计算机程序产品时,通过程序流程控制装置将可预先确定的词汇表分成多个具有语音上相似的字的段。在第一识别步骤中,将口头输入分配给所述段之一。最后在第二识别步骤中,从所分配的段的词汇表中确定口头输入。

接下来借助于实施例根据附图进一步说明本发明。示出:

图1示出划分成段的词汇表的示意图,

图2示出将词汇表分成具有所属的组中心的段的示意图。

在本实施例中描述本发明在自动导航系统中的实现,其中所期望的目的地可以通过口头输入被说明。导航数据在这个例子中位于DVD上。

图1示出在导航数据DVD上可能的存储器结构。语音上类似的导航数据(例如地点名或者街道名)在这被归纳成段,通过组中心被标记,被存储在DVD上。如果现在已将口头输入分配给组(Cluster)中心,那么可以很快地在所分配的段的所界定的存储区之内找到地点名,而不必为此搜遍整个DVD。

图2示例性地示出来自地点名列表201的片段,如所述片段可能被存储在导航数据DVD上。通过在步骤202中的聚类方法,从地点名列表中识别1000个组中心。在步骤203中又将来自地点名列表201的1000个地点名分配给所述组中心中的每一个。因此地点名列表被分成了1000个分别具有1000个地点名项的段,所述地点名列表在按照图1的存储器结构中可以被存储在存储器介质上。

在第一实施例中描述用于在导航系统中输入城市名的方法。为此首先将地点名列表以数据驱动方式(datengetrieben)划分成段。为此采用一种矢量量化方法,该矢量量化方法将来自地点名列表的所有地点名分配给有限数量的码本矢量(在这种情况下是所分配的地点名的形心(Zentroid))。为此需要一种间隔尺度,所述间隔尺度是两个地点名在语音上的相似性的尺度。这种间隔尺度例如可以以下面所描述的方式和方法确定。为了找到“München”和“Bremen”的在语音上的相似性的间隔尺度,首先为多个测试表现(Testuβerung)(例如“Münster”、“Bonn”、“Darmstadt”)确定这两个城市的等级列表值。紧接着,在所有的测试表现上对两个城市“München”和“Bremen”的等级列表值的差的绝对值求平均。该间隔尺度从现在起可以在使用矢量量化方法的情况下被用于将地点名列表划分成具有语音上相似的地点名的段。

如果现在例如确定组中心的数量为1000,那么可以将地点名列表划分成1000段。在确定了组中心之后,又将1000个地点名分配给每个组中心。这些相互重叠的段在DVD上分别作为块被存储。对口头输入的识别现在在内部分两级进行。在第一级中,语音识别系统将口头输入分配给其组中心与口头输入最相似的该段。在第二级中,所分配的在DVD上的段的地点名可以快速地被加载,因为所述地点名已经作为块被存储在DVD上。语音识别系统从地点名的该列表中识别所期望的目的地。

在第二实施例中,通过拼读将所期望的目的地通知给导航系统。为两个字母的间隔确定间隔值,使得产生间隔尺度,该间隔尺度取决于口述字母序列的长度。如果例如字母“AU”被识别,那么此外地点“Au”、“Aue”、“Augsburg”或者“Aurich”可能被分配给段。而如果字母“AUE”通过语音识别系统被识别,那么地点Aue、Augsburg或者Aurich被分配给这个段。根据字母“G”和“R”的所确定的间隔,Augsburg或者Aurich获得较高的等级列表值。对于字母序列的不同长度于是得出地点名列表到段的不同划分。在这个例子中,对于3、5和7个字母的字母序列长度,将地点名列表划分成具有语音上相似的字的段并且紧接着为三个字母序列长度的所确定的段又以块的方式被存储在导航数据DVD上。

在语音识别时,首先判断说出了多少个字母,并且根据其为字母序列长度确定段的最相似的组中心。然后从所分配的段的地点名列表中确定所期望的目的地。

本发明的应用不局限于在这所描述的实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号