首页> 中国专利> 用数字化语音中呈现的词来索引数字化语音的方法和装置

用数字化语音中呈现的词来索引数字化语音的方法和装置

摘要

用数字化语音中呈现的词索引数字化语音的方法,用在支持用户交互的模式的多模式设备上操作的多模式数字音频编辑器实现,该用户交互的模式包括话音模式和一种或多种非话音模式,该多模式数字音频编辑器操作地耦合于ASR引擎,包括:由多模式数字音频编辑器向ASR引擎提供用于识别的数字化语音;在多模式数字音频编辑器中从ASR引擎接收被识别的用户语音,该被识别的用户语音包括被识别词,还包括指示在数字化语音中何处开始呈现被识别词的信息;以及由多模式数字音频编辑器将与指示在数字化语音中何处开始呈现被识别词的信息相关联的被识别词插入语音识别语法中,该语音识别语法话音使能与所述多模式数字音频编辑器的用户接口命令。

著录项

  • 公开/公告号CN101271689A

    专利类型发明专利

  • 公开/公告日2008-09-24

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200810083001.1

  • 申请日2008-03-17

  • 分类号G10L15/00(20060101);G10L15/08(20060101);G10L15/22(20060101);G06F17/30(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人黄小临

  • 地址 美国纽约阿芒克

  • 入库时间 2023-12-17 20:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-06-27

    授权

    授权

  • 2009-10-28

    专利申请权、专利权的转移(专利申请权的转移) 变更前: 变更后: 登记生效日:20090925 申请日:20080317

    专利申请权、专利权的转移(专利申请权的转移)

  • 2008-11-19

    实质审查的生效

    实质审查的生效

  • 2008-09-24

    公开

    公开

说明书

技术领域

本发明的领域是数据处理,或更具体地,用于索引数字化语音的方法、装置和产品。

背景技术

通过键盘或触针(stylus)用运行在设备上的应用的用户交互已经变得越来越受限和麻烦,因为那些设备已经变得越来越小、越来越移动且越来越复杂。具体地,像移动电荷和PDA的小型手持设备具有许多功能,且具有足够的处理能力来通过多模式存取、即通过以非话音模式以及话音模式的交互来支持用户交互。支持多模式存取的设备组合在允许用户同时通过多个输入模式或通道用设备上的应用来交互的相同交互中的多个用户输入模式或通道。输入的方法包括语音识别、键盘、触摸屏、触针、鼠标、手写板等等。多模式输入通常使得更容易地使用自动化设备。

如果一人正在分析人类语音且感兴趣于音频数据中词的位置,用数字音频编辑器来分析音频数据是很乏味的。可以由通过用于在多模式浏览器上显示的网页服务器提供的多组标记文档来形成多模式数字音频编辑器,包括多模式数字音频编辑器。在本说明书中使用的作为术语的“多模式浏览器”通常意味着能够接收多模式输入且用多模式输出与用户交互的网页浏览器,其中多模式输入和输出的模式至少包括语音模式。多模式浏览器典型地使得网页用XHTML+Voice(‘X+V’)书写。X+V提供使得用户能够通过除了诸如键盘敲击和鼠标动作的传统输入手段以外的说话对话来与通常运行在服务器上的多模式数字音频编辑器交互的标记语言。视觉标记告知多模式浏览器用户界面的样子以及当用户敲击、指点或点击时其如何行动。类似地,话音标记告知多模式浏览器当用户对其说话时其做什么。对于视觉标记,多模式浏览器使用图形引擎;对于话音标记,多模式浏览器使用语音引擎。X+V通过集合XHTML(eXtensible Hypertext Markup Language扩展超文本标记语言)和由VoiceXML支持的语音识别词汇来添加对话交互到标准网页内容中。对于视觉标记,X+V包括XHTML标准。对于话音标记,X+V包括VoiceXML的子集。对于同步VoiceXML元素与相应的视觉界面元素,X+V使用事件。XHTML包括支持语音同步、语音对话、命令和控制以及语音语法的话音模块。话音处理器可以附于XHTML元素且响应具体事件。话音交互特征与XHTML集合,因此可以在XHTML内容中直接使用话音交互特征。

除了X+V以外,还可以用语音应用标签(‘SALT’)来实现多模式数字音频编辑器。SALT是由Salt Forum开发的标记语言。X+V和SALT都是用于创建使用话音输入/语音识别和话音输出/语音合成的应用的标记语言。SALT应用和X+V应用都使用底层语音识别和合成技术或“语音引擎”来进行识别和生成人类语音的工作。作为标记语言,X+V和SALT都提供用于使用应用的用户界面中的语音引擎的基于标记的编程环境。两种语言都具有指定语音识别引擎应该监听什么以及合成引擎应该“说”什么的语言元素、标记标签。但是X+V组合XHTML、VoiceXML和XML事件标准来创建多模式数字音频编辑器,SALT不提供标准视觉标记语言或事件模型。相反,它是用于指定能被嵌入其他环境中的话音交互的低级标签组。除了X+V和SALT以外,可以使用例如Java语音框架的JavaTM、C++且使用其他技术以及在其他环境中实现多模式数字音频编辑器。

当前的轻量话音解决方案需要开发者来建立语法和词典,来限制自动化语音识别(‘ASR’)引擎必须识别的可能的词量--作为用于增加准确度的手段。普遍的(pervasive)设备已经由于设备的形式因素而限制了交互和输入形态,而站式(kiosk)设备已经通过设计限制了交互和输入形态。在两种情况下,实现使用说话者独立的话音识别来增强与该设备的用户体验和交互。说话者独立的识别中的现有技术的状态允许写入一些复杂的话音应用,只要存在与每个可能的话音命令相关联的受限词汇。例如,如果提示用户说出城市名字,则系统能有良好的自信识别所说出的城市名字。

发明内容

描述了用数字化语音中呈现的词索引所述数字化语音的方法、装置和计算机程序产品,所述方法、装置和计算机程序产品用在多模式设备上操作的多模式数字音频编辑器实现,所述多模式数字音频编辑器支持与所述多模式数字音频编辑器的用户交互的多种模式,所述用户交互的多种模式包括话音模式和一种或多种非话音模式,所述多模式数字音频编辑器操作地耦合于ASR引擎,包括:由所述多模式数字音频编辑器向ASR引擎提供用于识别的数字化语音;在所述多模式数字音频编辑器中从所述ASR引擎接收被识别的用户语音,所述被识别的用户语音包括被识别词,还包括指示在所述数字化语音中何处开始呈现被识别词的信息;以及由所述多模式数字音频编辑器将与指示在所述数字化语音中何处开始呈现被识别词的所述信息相关联的被识别词插入语音识别语法中,所述语音识别语法话音使得用户与所述多模式数字音频编辑器的命令接口。

从附图中所示的本发明的示范实施例的随后的更具体的描述,本发明的前述和其他目的、特征和优点将变得清楚,在附图中,相同的附图标记通常标识本发明的示范实施例的相同部件。

附图说明

图1阐述了图示根据本发明的实施例的用于索引数字化语音的示范系统的网络图。

图2阐述了图示如树架构的示例语音识别语法的图表。

图3阐述了根据本发明的实施例的包括在索引数字化语音时可用于话音服务器的计算机例子在内的自动化计算机器的方块图。

图4阐述了根据本发明的实施例的用于索引数字化语音的示范装置的功能方块图。

图5阐述了根据本发明的实施例的包括在索引数字化语音时可用于多模式设备的计算机例子在内的自动化计算机器的方块图。

图6阐述了图示根据本发明的实施例的索引数字化语音的示范方法的流程图。

图7阐述了图示根据本发明的实施例的索引数字化语音的另一示范方法的流程图。

图8阐述了图示根据本发明的实施例的索引数字化语音的再一示范方法的流程图。

图9阐述了根据本发明的实施例的用数字化语音中呈现的词索引数字化语音的多模式数字音频编辑器的示范图形用户界面显示的图。

具体实施方式

从图1开始,参考附图描述根据本发明的实施例的用于索引数字化语音的示范方法、装置和产品。图1阐述了图示根据本发明的实施例的用于索引数字化语音的示范系统的网络图。用在多模式设备(152)上操作的多模式数字音频编辑器(195)来实现本例中的索引数字化语音。多模式数字音频编辑器是用于音频编辑、即用于操纵数字音频的计算机应用。在根据本应用的实施例的多模式数字音频编辑器中如此编辑的数字音频在本说明书中通常指的是“数字化语音”。根据本发明的实施例的典型数字化音频编辑器允许用户:

●从一个或多个输入中记录音频信号,数字化该音频信号,并用数字形式将它们存储到设备存储器中。

●编辑该数字音频,包括在音频时间线上更改任何声音的开始时间、停止时间和持续时间。

●混合多个声音源或音轨,以各种音量级别来组合它们,并为了立体信号而左右摇动(panning)成为一个或多个输出音轨。

●施加简单或高级效果或滤波器以改变音频。效果的例子包括压缩、扩展、镶边(flanging)、混响(reverb)、降噪、均衡和广泛种类的其他功能。

●通常在混合后回放数字化、记录的声音成为一个或多个输出,典型地扬声器、附加处理器、记录介质或视觉显示。

●从一种音频格式或编解码器转换成另一种,使文件格式、声音质量级别、压缩率等等不同。

根据本发明的实施例的可以被改进用于作为索引数字化语音的多模式数字音频编辑器而操作的现有数字音频编辑器的例子包括:

●来自Hlladay Audio的Audio DementiaTM

●来自GNU GPL名下分布的非盈利、资源组的AudacityTM,免费的数字音频编辑器,

●来自Adobe System的Adobe AuditionTM

●来自FlexiMusic的FlexiMusic Wave EditorTM

●来自Goldwave公司的GoldwaveTM

●来自Sonoma Wire Works的RiffWorksTM,以及

●本领域技术人员将知道的许多其他......。

多模式设备(152)是支持与多模式数字音频编辑器的用户交互的多种模式的自动化计算机器,与多模式数字音频编辑器的用户交互的多种模式包括与多模式数字音频编辑器的用户交互的话音模式和一种或多种非话音模式。在此用来自多模式设备的话音提示和响应(177)的音频输出和来自用户(128)的用于识别的语音的音频输入来呈现话音模式。由诸如在多模式设备(152)上的键盘和显示屏之类的输入/输出设备来呈现非话音模式。多模式数字音频编辑器(195)操作地耦合于语音引擎(148)中的自动语音识别(‘ASR’)引擎(150)。可以用如下更详细说明的应用编程接口(‘API’)、话音服务模块、或VOIP连接来实现这种操作的耦合。

图1的系统通常操作用于通过由多模式数字音频编辑器(195)向ASR引擎(150)提供用于识别的数字化语音来执行根据本发明的实施例的索引数字化语音。多模式数字化音频编辑器(195)从ASR引擎(150)接收包括被识别词(516)的被识别的用户语音(514)。来自ASR引擎的被识别的用户语音还包括信息(518),本例中称为“索引”,指示在数字化语音中何处开始呈现被识别词。多模式数字音频编辑器(195)将与指示在数字化语音中何处开始呈现被识别词的信息相关联的被识别词(516)插入语音识别语法(130)中。语音识别语法(130)话音使得用户与多模式数字音频编辑器的命令接口。根据本发明的实施例的典型的数字音频编辑器还视觉地显示具有被识别词作为在数字化语音中何处开始呈现被识别词的索引的数字化语音--如图9所示,并参考图6和7以下更详细说明的。

图1的系统包括两个语音识别语法(130、104)。语法(104)是由话音服务器(151)中的ASR引擎(150)用来识别将由多模式数字音频编辑器(195)插入语法(130)中的被识别词的语法。这种语音识别语法由语法规则构成。语法规则是建议ASR引擎或话音翻译器当前能够识别哪些词的语音识别语法的成分。以下语法,例如:

<grammar>

     <command>=[remind me to]call|phone|telephone<name>

          <when>;

     <name>=bob|martha|joe;

     <when>=today|this afternoon;

</grammar>

包含三个规则,分别命名为<command>、<name>和<when>。<command>规则中的元素<name>和<when>是名为<name>和<when>的规则的引用。这种规则引用要求必须由ASR引擎匹配所引用的规则以便匹配涉及的规则。在本例中,因此,必须由ASR引擎将<name>规则和<when>规则都匹配于用户发言的语音,以便匹配<command>规则。

多模式设备是自动化设备,即自动化计算机器或运行在自动化设备上的计算机程序,即能够从用户接受输入、键盘、鼠标、触针等等中的多于一种模式,包括语音输入--还显示输出、图形、语音等等中的多于一种模式。多模式设备通常能够从用户接受语音输入,数字化该语音并向用于识别的语音引擎提供数字化语音。例如,可以用本领域技术人员可能知道的硬件和软件的其他组合来实现多模式设备,如膝上话音使能的浏览器、手持机上话音浏览器、个人计算机上用Java实现的再现游戏。因为可以以标记语言(X+V、SALT)、面向对象语言(Java、C++)、过程语言(C编程语言)、和本领域技术人员可能知道的其他类型的计算机语言来实现多模式数字音频编辑器,因此本说明书使用术语“多模式数字音频编辑器”来指的是管理多于一个的用户输入模式和多于一个的向用户的输出模式的用于编辑数字音频的任何软件应用、面向服务器或面向客户端、瘦客户端(thin client)、肥客户端(thickclient)、独立应用,其中该模式至少包括视觉模式和语音模式。

图1的系统包括多个示例多模式设备:

●个人计算机(107),通过无线连接(120)耦合到数据通信网络(100)用于数据通信,

●个人数字助理(‘PDA’)(112),通过无线连接(114)耦合于数据通信网络(100)用于数据通信,

●移动电话(110),通过无线连接(116)耦合于数据通信网络(100)用于数据通信,以及

●膝上计算机(126),通过无线连接(118)耦合于数据通信网络(100)用于数据通信。

图1的系统中的示例多模式设备(152)的每个包括能够从用户(128)接受用于识别的语音(315)、能够数字化该语音并向用于识别的语音引擎提供数字化语音的麦克风、音频放大器、数模转换器和多模式数字音频编辑器。可以根据工业标准编解码器来数字化该语音,该工业标准编解码器包括但不限于用于如此的分布式语音识别(Distributed Speech Recognition)的那些。用于‘Coding/DECoding’(编码/解码)语音的方法被称为‘编解码器’。欧洲电信标准机构(‘ETSI’)提供各种编解码器,用于编码在DSR中使用的语音,该DSR包括例如ETSI ES 201 108 DSR前端编解码器、ETSI ES 202 050增强DSR前端编解码器、ETSI ES 202 211扩展DSR前端编解码器和ETSI ES202 212扩展增强DSR前端编解码器。在题为如下的诸如RFC3557标准中:

RTP Payload Format for European Telecommunications Standards

Institute(ETSI)European Standard ES 201108Distributed Speech

Recognition Encoding

和在题为如下的英特网草案中:

RTP Payload Formats for European Telecommunications

Standards Institute(ETSI)European Standard ES 202 050,ES 202

211,and ES 202 212 Distributed Speech Recognition Encoding,

IETF提供用于各种编解码器的标准RTP负载格式。因此,有必要注意,在关于编解码器、负载格式或分组架构的本发明中不存在限制。例如,可以用包括如下的任何编解码器来编码、即数字化根据本发明的实施例的用于自动语音识别的语音:

●AMR(Adaptive Multi-Rate Speech coder适应多速率语音编码器),

●ARDOR(Adaptive Rate-Distortion Optimized sound codeR适应速率分布优化声音编码器),

●Dolby Digital(A/52,AC3),

●DTS(DTS Coherent Acoustics),

●MP1(MPEG audio layer-1)

●MP2(MPEG audio layer-2)Layer 2 audio codec(MPEG-1,MPEG-2和non-ISO MPEG-2.5),

●MP3(MPEG audio layer-3)Layer 3 audio codec(MPEG-1,MPEG-2和non-ISO MPEG-2.5),

●Perceptual Audio Coding  (感知音频编码),

●FS-1015(LPC-10),

●FS-1016(CELP),

●G.728(ADPCM),

●G.729(CS-ACELP),

●GSM.

●HILN(MPEG-4参数音频编码),以及

●本领域技术人员知道的其他。

如所述,根据本发明的实施例的多模式设备能够向用于识别的语音引擎(153)提供数字化语音(510)。语音引擎是功能模块,典型地是软件模块,虽然其还可以包括进行识别和生成或‘合成’人类语音工作的具体硬件。语音引擎通过使用在本说明书中被称为ASR引擎的另一模块来实现语音识别,且语音引擎通过使用在本说明书中被称为文本到语音(‘TTS’)引擎的另一模块来进行语音合成。如图1所示,可以在多模式设备(107)本身中本地安装语音引擎(148),或可以相对于多模式设备通过话音服务器(151)中的数据通信网络(100)远程地安装语音引擎(153)。本身包含其自身的语音引擎的多模式设备被称为实现‘肥多模式客户端’或‘肥客户端’,因为肥多模式客户端设备本身包含进行语音识别和语音合成所需的所有功能性--通过API调用多模式设备本身中的语音识别和语音合成模块,而不需要通过网络发送语音识别的请求,也不需要通过网络从远程话音服务器接收合成的语音。不包含其自身语音引擎的多模式设备被称为‘瘦多模式客户端’或简称为‘瘦客户端’,因为瘦多模式客户端本身仅包含多模式数字音频编辑软件的相对瘦的层,该多模式数字音频编辑软件从来自瘦客户端通过网络远程定位的话音服务器获得语音识别和语音合成。为了便于说明,仅示出图1的系统中的多模式设备(152)的一个(107)具有语音引擎(148),但读者将认识到,任何多模式设备可以具有根据本发明的实施例的语音引擎。

以X+V部分或整体实现的多模式数字音频编辑器(195)可以通过VoiceXML翻译器向语音引擎提供用于识别的语音和用于语音合成的文本。VoiceXML翻译器是典型地以VoiceXML<form>元素的形式的、从多模式数字音频编辑器接受话音对话指令的计算机程序指令的软件模块。话音对话指令包括建议VoiceXML翻译器如何管理从用户输入的话音以及要被呈现给用户的话音提示和响应的话音提示一个或多个语法、数据输入元素、事件处理器等等。VoiceXML翻译器通过根据VoiceXML形式翻译算法(‘FIA’)顺序处理对话指令来管理这种对话。

正如语音引擎可以相对于任何具体多模式设备本地或远程地安装,因此VoiceXML翻译器也可以在多模式设备本身中本地安装,或VoiceXML可以通过话音服务器(151)中的数据通信网络(100)相对于多模式设备远程地安装。在肥客户端架构中,具有以X+V实现的多模式数字音频编辑器的多模式设备(152)包括其自身的语音引擎和其自身的VoiceXML翻译器两者。VoiceXML翻译器向用于向多模式数字音频编辑器提供语音识别和语音合成的多模式数字音频编辑器展示API。多模式数字音频编辑器通过API向VoiceXML翻译器提供对话指令、VoiceXML<form>元素、语法、输入元素、事件处理器等等,且VoiceXML翻译器表示多模式数字音频编辑器管理语音引擎。在肥客户端架构中,由多模式设备上的VoiceXML翻译器来翻译VoiceXML对话。在瘦客户端架构中,由从运行在多模式数字音频编辑器(195)的多模式设备(107)通过数据通信网络(100)远程定位的话音服务器(151)上的VoiceXML翻译器来翻译VoiceXML对话。

VoiceXML翻译器向语音引擎提供语法、用于识别的语音和用于语音合成的文本提示,且VoiceXML翻译器向多模式数字音频编辑器返回以被识别语音形式的语音引擎输出、语义翻译结果和用于话音提示的数字化语音。在瘦客户端架构中,从话音服务器(151)中的多模式客户端设备(107)远程定位VoiceXML翻译器,仍然在多模式设备中实现用于VoiceXML翻译器的API,同时该API被修改以在话音服务器上的VoiceXML翻译器之间通信话音对话指令、用于识别的语音和文本及话音提示。可以配置图1的系统中的示例多模式设备(152)的每个用于通过在多模式设备上安装并运行用根据本发明的在数字化语音中呈现的词索引数字化语音的多模式数字音频编辑器。这四个示例多模式设备(152)仅是为了说明,不是本发明的限制。能够从用户接受语音并向用于识别的ASR引擎提供数字化的语音的任何自动化计算机器可以被配置用作根据本发明的实施例的用于索引数字化语音的多模式设备。

图1的系统还包括通过有线连接(122)连接于数据通信网络(100)的话音服务器(151)。该话音服务器(151)是运行语音引擎(153)的计算机,该语音引擎(153)通过接受用于语音识别的请求并返回呈现被识别语音的文本来为多模式设备提供话音识别服务。话音服务器(151)还提供语音合成、文本到语音(‘TTS’)转换,用于对诸如X+V应用、SALT应用或Java话音应用之类的多模式数字音频编辑器中的用户输入的话音提示和话音响应(314)。

图1的系统包括连接多模式设备(152)和话音服务器(151)用于数据通信的数据通信网络(100)。根据本发明的实施例的用于索引数字化语音的数据通信网络是由用作用分组交换协议连接用于数据通信的数据通信路由器的多个计算机构成的数据通信网络。可以用光连接、有线连接或无线连接实现这种数据通信网络。这种数据通信网络可以包括内部网络、互联网、局域数据通信网络(‘LAN’)和广域数据通信网络(‘WAN’)。这种数据通信网络可以实现,例如:

●用EthernetTM协议或无线EthernetTM协议的链路层,

●用因特网协议(‘IP’)的数据通信网络层,

●用传输控制协议(‘TCP’)或用户数据报协议(‘UDP’)的传输层,

●用超文本传输协议(‘HTTP’)、会话开始协议(‘SIP’)、实时协议(‘RTP’)、分布式多模式同步协议(‘DMSP’)、无线访问协议(‘WAP’)、手持设备传输协议(‘HDTP’)、ITU协议如H.323的应用层,以及

●本领域技术人员知道的其他协议。

图1的系统包括网页服务器(147),其通过无线连接(123)连接到网络(100)然后到多模式设备(152)用于数据通信。网页服务器(147)可以是向客户端设备提供组成多模式数字音频编辑器的标记文档的任何服务器。网页服务器(147)典型地提供数据通信协议、HTTP、HDTP、WAP等等来提供这种标记文档。即,虽然术语‘网页’被用于描述通常在本说明书中的网页服务器,但是不存在多模式设备和网页服务器之间的数据通信仅对HTTP的限制。还可以以支持非语音显示元素、数据条目元素和语音标识要识别哪个语音和要读出哪个词的语音元素、语法、形式元素等等,包括例如X+V和SALT的任何标记语言来实现标记文档。当从网页服务器(147)接收到作为多模式数字音频编辑器的一部分的标记文档时,则多模式设备中的多模式数字音频编辑器可以提供使用多模式设备本身(107)中的VoiceXML翻译器和语音引擎(148)或提供使用从话音服务器(151)中的多模式设备远程定位的VoiceXML翻译器和语音引擎(153)。

在多模式设备(152)的配置中,构成图1中所示的示范系统的网页服务器(147)、话音服务器(151)和数据通信网络(100)是为了说明而不是限制。用于根据本发明的各个实施例的索引数字化语音的数据处理系统可以包括图1中未示出的本领域技术人员知道的附加的服务器、路由器、其他设备和对等架构。在这种数据处理系统中的数据通信网络可以支持除了上述那些以外的许多数据通信协议。可以在除了图1所示的那些以外的各种硬件平台上实现本发明的各种实施例。

为了进一步说明语音识别语法,图2阐述了图示如树架构的示例语音识别语法的图表。下列示例是可用于根据本发明的实施例的索引数字化语音的语法,其支持订购比萨(ordering pizza),其语法以Java语音语法格式(‘JSGF’)来表示:

order=[<polite_phrase>]<pizza_topping>pizza

pizza_topping=cheese|pepperoni|“italian sausage”

polite_phrase=[I][want]|[give][me]

图2的图表用将‘order(订购)’语法的元素映射到树架构中,同时‘order’元素(202)位于树根部。术语‘order’、‘pizza_topping(比萨_上部)’、和‘polite_phrase(礼貌_短语)’指定语法规则。在角括号<>中的语法元素、<polite_phrase>(204)和<pizza_topping>(206)参考语法规则,还被称为非末端,因为它们表示语法的树架构中的能够延伸到一分支节点或叶节点的分支节点。

‘末端元素’是语法的树架构的叶节点。‘pizza(比萨)’(208)是不可选的叶节点;如果要匹配‘order’语法,则词‘pizza’必须与用户发言相匹配。竖线‘|’指定作为替换的语法元素,使用其任何一个都将匹配语法元素。在规则<pizza_toppings>、‘cheese(奶酪)’(214)、‘pepperoni(意大利辣香肠)’(216)和‘italian sausage(意大利香肠)’(218)是不可选的、替换的末端元素。如果要匹配‘order’语法,则用户必须读出‘cheese’、‘pepperoni’或‘italian sausage’中的一个。

在方括号[]中的语法术语是可选的。[<polite_phrase>]中的方括号指定‘polite_phrase’规则作为语法树中的可选、非末端元素、分支节点。因此,方括号中的术语<polite_phrase>(204)规则是‘可选末端’,即本例子中形成两个可选替换的短语(210、212)的、语法树中的叶节点,其每个都是分别由如下两个可选的替换末端或叶节点构成:[I](220)[want](222)和[give](224)[me](226)。

可以用作为提供语音识别和语音合成的自动化计算机器的一个或多个话音服务器、计算机来实现瘦客户端架构中的根据本发明的实施例的索引数字化语音。因此,为了进一步说明,图3阐述了包括可用作根据本发明的实施例的索引数字化语音中的话音服务器(151)的计算机例子在内的自动化计算机器的方块图。图3的话音服务器(151)包括至少一个计算机处理器(156)或‘CPU’以及通过高速存储器总线(166)和总线适配器(158)而连接到处理器(156)和话音服务器的其他组件的随机存取存储器(168)(‘RAM’)。

被存储在RAM(168)中的是话音服务器应用(188),即能够操作在被配置用于进行根据本发明的实施例的字段语音识别的系统中的话音服务器的计算机程序指令模块。话音服务器应用(188)通过接受用于语音识别的请求并返回包括表示被识别语音的文本、用作对话中变量的文本和作为用于语义翻译的脚本的串表示的文本在内的语音识别结果,为多模式设备提供话音识别服务。话音服务器应用(188)还包括提供用于话音提示和对诸如X+V应用、SALT应用或Java语音应用之类的多模式数字音频编辑器中的用户输入的话音响应的文本到语音(‘TTS’)转换的计算机程序指令。可以通过向来自X+V客户端、SALT客户端、Java语音客户端或其他多模式客户端的HTTP请求提供响应,来实现话音服务器应用(188)作为以Java、C++或支持X+V、SALT、VoiceXML或其他多模式语言的另一语言实现的网页服务器。

可以通过向来自允许在多模式设备上的Java客户端应用的HTTP请求提供响应,来进一步实现话音服务器应用(188)作为运行在Java虚拟机(102)上并支持Java话音框架的Java服务器。还可以实现话音服务器应用(188)作为VoiceXML服务或SALT服务,在这种情况下,话音服务器(151)还将包括SALT翻译器(103)或VoiceXML翻译器。除了Java、VoiceXML和SALT以外,可以以本领域技术人员可能知道的其他方式以及本发明范围内的所有这种方式来实现支持自动语音识别的话音服务器应用。

本例中的话音服务器(151)包括语音引擎(153)。语音引擎是功能模块,典型地是软件模块,虽然它还可能包括进行识别和生成人类语音工作的具体硬件。语音引擎(153)包括用于语音识别的自动化语音识别(‘ASR’)引擎(150)和用于生成语音的文本到语音(‘TTS’)引擎(194)。语音引擎还包括语法(140)、词典(106)、和特定语言声学模型(108)。例如,具体语音声学模型(108)是将语音特征向量(‘SFV’)与实际上可行地表示人类语音中所有词的所有发音的音素相关联的数据结构、表或数据块。词典(106)是以文本形式的词与表示每个词的发音的音素的关联;词典有效地标识了能够由ASR引擎识别的词。还被存储在RAM(168)中的是文本到语音(‘TTS’)引擎(194),即接受文本作为输入并以数字编码语音的形式返回相同的文本、用于向多模式系统的用户提供作为提示的语音和响应的计算机程序指令模块。

语法(104)向ASR引擎(150)连通当前可以识别的词和词序列。为了精确理解,区分语法的目的和词典的目的。词典将ASR引擎能够识别的所有词与音素相关联。语法连通当前合格用于识别的词。当前合格用于识别的词集和能够识别的词集可以相同或可以不同;语法中的词集典型地是词典中的词的子集。

可以以由任何ASR引擎支持的任何格式、包括例如Java语音语法格式(‘JSGF’)、W3C语音识别语法规范(‘SRGS’)的格式、来自IETF的RFC2234的扩大的Backus-Naur格式(‘ABNF’)、以W3C的随机语言模型(N-Gram)规范中描述的随机语法的形式、和本领域技术人员可能知道的其他语法格式来表述用于根据本发明的实施例的索引数字化语音的语法。语法典型地操作为诸如VoiceXML<menu>或X+V<form>的对话的元素。可以在对话中线型表述语法的定义。或者,可以在分离的语法文档中外部实现语法,且可以用具有URI的对话来引用语法。下面是以JSFG表述的语法的例子:

<grammar scope=“dialog”><![CDATA[

     #JSGF V1.0;

     grammar command;

     <command>=[remind me to]call|phone|telephone<name><when>;

     <name>=bob|martha|joe|pete|chris|john|artoush;

     <when>=today |this afternoon|tomorrow|next week;

     ]]>

</gramme>

在本例中,名为<command>、<name>、和<when>的元素是语法的规则。规则是建议ASR引擎或话音翻译器当前可以识别哪个词的规则的规则名和扩展的组合。在本例中,扩展包括逻辑与和逻辑或,且竖线‘|’表示‘或’。ASR引擎或话音翻译器处理序列中的规则,首先<command>,然后<name>,然后<when>。<command>规则接受用于识别的‘call’或‘phone’或‘telephone’与、即逻辑与从<name>规则和<when>规则返回的任何。<name>规则接受‘bob’或‘martha’或‘joe’或‘pete’或‘chris’或‘john’或‘artoush’,<when>规则接受‘today’或‘this afternoon’或‘tomorrow’或‘next week’。命令语法整体上匹配如下发言,例如:

●“phone bob next week(下星期给bob打电话)”,

●“telephone martha this afternoon(今天下午给martha打电话)”,

●“remind me to call chris tomorrow(提醒我明天给chris打电话)”以及

●“remind me to phone pete today(提醒我今天给pete打电话)”。

本例中的话音服务器应用(188)被配置以从诸如从话音服务器通过网络远程定位的多模式数字音频编辑器的多模式客户端接收来自于用户的用于识别的数字化语音,并将该语音送往用于识别的ASR引擎。ASR引擎(150)是本例中还被存储在RAM中的计算机程序指令的模块。在进行自动化语音识别时,ASR引擎接收以至少一个数字化词的形式的用于识别的语音,并使用数字化词的频率分量来导出语音特征向量(‘SFV’)。可以用例如第一个十二或十三傅立叶或数字化语音采样的频域分量来定义SFV。ASR引擎可以使用SFV来从特定语言声学模型(108)推导处用于该词的音素。然后,ASR引擎使用音素来找到词典(106)中的词。

还被存储在RAM中的是VoiceXML翻译器(192),即处理VoiceXML语法的计算机程序指令模块。输入到VoiceXML翻译器(192)的VoiceXML可以起源于例如远程运行作为在多模式设备上的多模式数字音频编辑器的VoiceXML,或起源于运行作为在多模式设备上的多模式数字音频编辑器的SALT客户端,或起源于运行作为在多模式设备上远程的多模式数字音频编辑器的Java客户端应用。在本例中,VoiceXML翻译器(192)翻译并执行VoiceXML段,其表示从远程多模式设备接收的、并通过话音服务器应用(188)被提供给VoiceXML翻译器(192)的话音对话指令。

瘦客户端架构中的多模式数字音频编辑器(195)可以提供数据通信经过具有多模式数字音频编辑器(195)的网络向VoiceXML翻译器(149)提供话音对话指令、VoiceXML段、VoiceXML<form>元素等等。话音对话指令包括建议VoiceXML翻译器如何管理从用户输入的话音和向用户呈现的提示和响应的一个或多个语法、数据输入元素、事件处理器等等。VoiceXML翻译器通过根据VoiceXML形式翻译算法(‘FIA’)顺序处理对话指令来管理这种对话。VoiceXML翻译器翻译被多模式数字音频编辑器提供给VoiceXML翻译器的VoiceXML对话。

还被存储在RAM(168)中的是操作系统(154)。可用于根据本发明的实施例的话音服务器中的操作系统包括UNIXTM、LinuXTM、MicrosoftNTTM、AIXTM、IBM的i5/OSTM和本领域技术人员将知道的其他。RAM(168)中示出了图3的例子中的操作系统(154)、话音服务器应用(188)、VoiceXML翻译器(192)、ASR引擎(150)、JVM(102)和TTS引擎(194),但这种软件的许多组件还被存储在盘驱动器(170)上的非易失性存储器中。

图3的话音服务器(151)包括总线适配器(158),即包括用于高速总线、前端总线(162)、视频总线(164)和存储器总线(166)的驱动电子设备以及用于减慢扩展总线(slower expansion bus)(160)的驱动电子设备在内的计算机硬件组件。可用于根据本发明的实施例的话音服务器的总线适配器的例子包括Intel北桥、Intel存储控制器集线器、Intel南桥和Intel I/O控制器集线器。可用于根据本发明的实施例的话音服务器的扩展总线的例子包括工业标准架构(‘ISA’)总线和外围组件互连(‘PCI’)总线。

图3的话音服务器(151)包括提供扩展总线(160)和总线适配器(158)耦合于话音服务器(151)的处理器(156)和其他组件的盘驱动适配器(172)。盘驱动适配器(172)将非易失性数据存储器连接于以盘驱动器(170)形式的话音服务器(151)。可用于话音服务器的盘驱动适配器包括集成驱动电子设备(‘IDE’)适配器、小型计算机系统接口(‘SCSI’)适配器和本领域技术人员将知道的其他。另外,可以对于话音服务器实现非易失性计算机存储器作为本领域技术人员将知道的光盘驱动器、电可擦除可编程只读存储器(所谓‘EEPROM’或‘闪’存)、RAM驱动器等等。

图3的示例话音服务器包括一个或多个输入/输出(‘I/O’)适配器(178)。话音服务器中的I/O适配器通过例如用于控制到诸如计算机显示屏幕之类的显示设备的输出以及来自诸如键盘和鼠标的用户输入设备(181)的用户输入来实现面向用户的输入/输出的软件驱动器和计算机硬件。图3的示例话音服务器包括视频适配器(209),其是被特别指定用于到诸如显示屏或计算机监视器之类的显示设备(180)的图形输出的I/O适配器的例子。视频适配器(209)通过高速视频总线(164)、总线适配器(158)和也是高速总线的前端总线(162)被连接于处理器(156)。图3的示例话音服务器(151)包括用于与其他计算机(182)数据通信和与数据通信网络(100)数据通信的通信适配器(167)。可以通过RS-232连接,通过诸如通用串行总线(‘USB’)的外部总线、通过诸如IP数据通信网络的数据通信网络和本领域技术人员将知道的其他方式来连续执行这种数据通信。通信适配器实现硬件级的数据通信,通过该通信适配器,一个计算机直接或通过数据通信网络向另一个计算机发送数据通信。可用于根据本发明的实施例的索引数字化语音的通信适配器的例子包括用于有线呼叫连接的调制解调器、用于有线数据通信网络通信的以太网(IEEE802.3)、和用于无线数据通信网络通信的802.11适配器。

为了进一步说明图4阐述了在根据本发明的实施例的瘦客户端架构中用于索引数字化语音的示例这种的功能块图。图4的示例包括由VOIP连接(216)通过数据通信网络(100)连接用于数据通信的多模式设备(152)和话音服务器(151)。多模式数字音频编辑器(195)运行在多模式设备(152)上,话音服务器应用(188)运行在话音服务器(151)上。多模式数字音频编辑器(195)可以是在多模式浏览器(196)上、在执行在Java虚拟机上的Java话音应用上、在本领域技术人员可能知道的其他技术中实现的多模式数字音频编辑器上执行的X+V或SALT文档的集合或序列。图4的示例多模式设备还包括声卡(174),其是被特别指定用于从麦克风(176)接受模拟音频信号并将该音频模拟信号转换为数字形式用于被编解码器(183)进一步处理的I/O适配器的例子。

除了多模式服务器应用(188)以外,话音服务器(151)还具有安装在其上的语音引擎(153)、以及ASR引擎(150)、语法(104)、词典(106)、具体语音声学模型(108)和TTS引擎(194)、以及JVM(102)、和话音XML翻译器(192)。VoiceXML翻译器(192)翻译并执行从多模式数字音频编辑器接收并通过话音服务器应用(188)被通过到VoiceXML翻译器(192)的VoiceXML对话指令。被输入到VoiceXML翻译器(192)的VoiceXML可以起源于被实现作为远程运行在多模式设备(152)上的X+V客户端的多模式数字音频编辑器(195)。如上所述,还可以实现多模式数字音频编辑器(195)作为远程运行在多媒体设备(152)上的Java客户端应用、远程运行在多模式设备(152)上的SALT应用,和本领域技术人员可能知道的其他方式。

VOIP代表‘英特网协议上的话音’,即用于在基于IP的数据通信网络上路由语音的专业术语。语音数据流过通用分组交换数据通信网络,而不是传统的专用电路交互话音传输线路。用于在IP数据通信网络上承载话音信号的协议被统称为‘IP上话音’或‘VOIP’协议。VOIP流量可以被部署在IP数据通信网络、包括缺乏到达英特网其余部分的连接的数据通信网络上、例如在私有广建局域数据通信网络或‘LAN’上。

许多协议用于实现VOIP。两种最流行的VOIP是由IETF的会话开始协议(‘SIP’)和ITU的已知的‘H.232’协议来实现的。SIP客户端使用TCP和UDP端口5060来连接到SIP服务器。SIP本身被用于建立和拆除用于语音传输的呼叫。具有SIP的VOIP则使用RTP来传输实际编码的语音。类似地,H.323是来自定义协议以提供在任何分组数据通信网络上的音频-视觉通信会话的国际电信联盟的标准分支的伞形推荐(umbrella recommendation)。

图4的装置以类似于上述图3的系统的操作的方式而操作。多模式数字音频编辑器(195)是用户级别的、多模式的、客户侧计算机程序,其向用户(128)呈现话音接口,提供音频提示和响应(314),并接受用于识别的输入语音(315)。多模式数字音频编辑器(195)提供语音接口,通过该语音接口,用户可以通过麦克风(176)提供用于识别的口头语音并可以通过声卡(174)音频放大器(185)和编码器/解码器(‘编解码器’)(183),并向ASR引擎(150)提供用于识别的数字语音。然后,多模式数字音频编辑器(195)根据VOIP协议,对识别请求消息中的数字化语音进行分组,并通过网络(100)上的VOIP连接(216)向话音服务器(151)传输该语音。

话音服务器应用(188)通过接受对话指令、VoiceXML段并返回语音识别结果来为多模式识别提供话音识别服务,该语音识别结果包括表示被识别语音的文本、用作对话中变量值的文本和来自执行语义翻译脚本的输出以及话音提示。话音服务器应用(188)包括提供用于话音提示和话音响应的文本到语音(‘TTS’)转换的计算机程序指令,该话音提示和话音响应是对于用户在诸如X+V应用、SALT应用或Java语音应用之类的多模式数字音频编辑器中的输入。

话音服务器应用(188)从用户接收应用识别的语音,并通过API调用向VoiceXML翻译器(192)传递语音,该VoiceXML翻译器(192)轮流使用用于语音识别的ASR引擎(150)。该ASR引擎接收用于识别的数字化语音,使用数字化语音的频率分量来导出SFV,使用该SFV来从特定语言声学模型(108)推导出用于该词的音素,并使用该音素在词典(106)中找到该语音。然后ASR引擎比较作为在词典中的词而被找到的语音与语法(104)中的词,来确定由ASR引擎识别语音中的词还是短语。

图4的装置通常操作通过由多模式数字音频编辑器(195)向ASR引擎(150)提供用于识别的数字化语音(510),来执行根据本发明的索引数字化语音。多模式数字音频编辑器(195)从ASR引擎(150)接收包括被识别词(516)的被识别用户语音(514)。来自ASR引擎的被识别用户语音还包括信息(518),本例中被称为‘索引’,其指示在数字化语音中何处开始呈现被识别词。多模式数字音频编辑器(195)向语音识别语法(130)中插入与指示在数字化语音中何处开始呈现被识别词的信息相关联的被识别词(516)。语音识别语法(130)话音使得用户与多模式数字音频编辑器的命令接口。根据本发明的实施例的典型的数字音频编辑器还视觉地显示具有作为在数字化语音中何处开始呈现被识别词的索引的被识别词的数字化语音--如图9所示,且参考图6和7以下更详细说明。

改进本例中的ASR引擎(150),不仅用于从数字化用户语音(510)返回被识别用户语音(514),还当识别数字化语音中的词时、标识指示在数字化语音中何处开始呈现该词的信息(518)。由时域幅度值来标识数字化语音,该时域幅度值是由模数转换器从来自用户、即来自用户发言的模拟语音输入进行采样的,且根据编解码器而被组织成顺序集合成组帧。通过唯一的、基数帧(cardinal frame)标识号来顺序地表征每个帧,且每个帧包括相同的时域幅度采样数。然后,ASR引擎可以将包括词的数字化语音(510)转换到以时域幅度采样的帧中的一帧开始的频域--并通过用每帧中的幅度采样号乘以帧识别号中的一个来导出指示在数字化语音中何处开始呈现该词的索引值。可以通过快速傅立叶变换(‘FFT’)来进行向频域的转换。如此导出的索引值(518)是指示在数字化语音中何处开始呈现该词的信息的例子。

多模式数字音频编辑器(195)操作地耦合于ASR引擎(150)。在本例中,用VOIP连接(216),通过话音服务模块(130),然后通过话音服务器应用(188)或者取决于是以X+V还是Java还是SALT实现多模式数字音频编辑器的JVM(102)、VoiceXML翻译器(192)或SALT翻译器(103),来实现多模式数字音频编辑器和ASR引擎(150)之间的操作的耦合。话音服务模块(130)是功能性的瘦层,即由应用级程序在向话音服务器应用(188)提供对话指令和用于识别的语音时以及在响应中接收话音提示和其他响应时使用的API(316)的计算机程序指令的模块。在本例中,由多模式数字音频编辑器(195)、JVM(101)和多模式浏览器(196)来呈现应用级程序。

话音服务模块(130)通过多模式识别(152)和VoiceXML翻译器(192)之间的VOIP连接和话音服务器应用(188)来提供数据通信服务。API(316)是当VoiceXML翻译器被安装在肥客户端架构中的多模式设备上时由VoiceXML翻译器呈现给应用的相同API(图5中的316)。因此从调用API(316)的应用的角度来看,应用正直接调用VoiceXML翻译器。话音服务模块(130)的数据通信功能对调用API(316)的应用来说是透明的。在应用级,可以从多模式浏览器(196)发出对API(316)的调用,当用X+V实现多模式数字音频编辑器时,该多模式浏览器(196)提供用于多模式数字音频编辑器(195)的执行环境。并且可以从JVM(101)发出对API(316)的调用,当用Java实现多模式数字音频编辑器(195)时,该JVM(101)提供用于多模式数字音频编辑器(195)的执行环境。

通常用多模式设备、即自动化计算机器或计算机实现肥客户端架构中根据本发明的实施例的数字化语音。例如,在图1的系统中,实现多模式设备(152)到至少作为计算机的程度。因此,为了进一步说明,图5阐述包括在根据本发明的实施例的索引数字化语音时用作多模式设备(152)的计算机的例子在内的自动化计算机器的方框图。在实现图5所示的肥客户端架构的多模式设备中,多模式设备(152)没有到达包含VoiceXML翻译器和语音引擎在内的远程话音服务器的连接。在多模式设备本身中安装或嵌入了在根据本发明的实施例的索引数字化语音时用于语音合成和话音识别所需的所有组件。

图5的示例多模式设备(152)包括被架构且类似于话音服务器的并行组件操作的各个组件,其具有如参考图3所述的相同的附图标记:至少一个计算机处理器(156)、前端总线(162)、RAM(168)、高速存储器总线(166)、总线适配器(158)、视频适配器(209)、视频总线(164)、扩展总线(160)、通信适配器(167)、I/O适配器(178)、盘驱动适配器(172)、操作系统(154)、JVM(102)、VoiceXML翻译器(192)、语音引擎(153)等等。如图5中的系统一样,图3的多模式设备中的语音引起包括ASR引擎(150)、语法(104)、词典(106)、特定语言声学模型(108)和TTS引擎(194)。VoiceXML翻译器(192)通过根据VoiceXML形式翻译算法(‘FIA’)顺序处理对话指令来管理这种对话。

在本类实施例中的语音引擎(153)、肥客户端架构通常被实现作为在诸如手持设备、移动电话、PDA等等的小型因素设备中的嵌入式模块。用于根据本发明的实施例的索引数字化语音的嵌入式语音引擎的例子是IBM的嵌入式ViaVoice公司(Embedded ViaVoice Enterprise)。图5的示例多模式设备还包括声卡(174),其是被特别指定用于从麦克风(176)接受模拟音频信号并将该音频模拟信号转换成数字形式用于由编解码器(183)进一步处理的I/O适配器。声卡(174)通过扩展总线(160)、总线适配器(158)和前端总线(162)来连接到处理器(156)。

本例中还被存储在RAM(168)中的是多模式数字音频编辑器(195),即能够操作作为支持根据本发明的实施例的索引数字化语音的装置的多模式设备的计算机程序指令模块。多模式数字音频编辑器(195)通过从用户接受用于识别的语音并通过API调用向ASR引擎(150)发送用于识别的语音,来实现语音识别。多模式数字音频编辑器(195)通常通过向TTS引擎(194)发送将要用作对用户的提示的词来实现语音合成。作为肥客户端架构的例子,本例中的多模式数字音频编辑器(195)不通过网络向用于识别的话音服务器发送用于识别的语音,且本例中的多模式数字音频编辑器(195)不通过网络从话音服务器接收合成的语音、TTS提示和响应。在多模式设备(152)本身中以嵌入式的方式进行本例中的所有语法处理、话音识别和文本到语音转换。

更具体地,本例中的多模式数字音频编辑器(195)是提供语音接口的用户级的、多模式的、客户端侧的计算机程序,通过该语音接口,用户可以通过麦克风(176)提供用于识别的口头语音,通过声卡(174)的音频放大器(185)和编码器/解码器(‘编解码器’)(183)来数字化该语音,并向ASR引擎(150)提供用于识别的数字化语音。可以实现多模式数字音频编辑器(195)作为在多模式浏览器(196)或微浏览器中执行的X+V文档的集合或序列,该多模式浏览器(196)或微浏览器通过API(316)的调用将VoiceXML语法和数字化语音直接传递给嵌入式VoiceXML翻译器(192)用于处理。嵌入式VoiceXML翻译器(192)可以依次通过API调用直接向嵌入式ASR引擎(150)发出用于语音识别的请求。多模式数字音频编辑器(195)还可以通过API调用向嵌入式TTS引擎(194)提供语音合成、TTS转换用于对用户输入的话音提示和话音响应。

在另外一类示范实施例中,可以实现多模式数字音频编辑器(195)作为在Java虚拟机(102)上执行,并通过用于语音识别和语音合成服务的VoiceXML API(316)发出调用的Java话音应用。在另一示范实施例中,可以实现多模式数字音频编辑器(195)作为在多模式浏览器(196)或微浏览器上执行的SALT文档的集合或序列,该多模式浏览器(196)或微浏览器通过用于语音识别和语音合成服务的VoiceXML API(316)发出调用。除了X+V、SALT和Java实现以外,可以用本领域技术人员将知道的其他技术来实现多模式数字音频编辑器(195)。

图4的多模式设备通常操作以通过由多模式数字音频编辑器(195)向ASR引擎(150)提供用于识别的数字化语音(510)来执行根据本发明的实施例的索引数字化语音。多模式数字音频编辑器(195)从ASR引擎(150)接收包括被识别词(516)的被识别用户语音(514)。来自ASR引擎的被识别用户语音还包括本例中被称为‘索引’的信息(518),其指示在数字化语音中何处开始呈现被识别词。多模式数字音频编辑器(195)向语音识别语法(130)中插入与指示在数字化语音中何处开始呈现被识别词的信息相关联的被识别词(516)。语音识别语法(130)话音使能多模式数字音频编辑器的用户接口命令。根据本发明的典型的数字音频编辑器还视觉地显示具有作为在数字化语音中何处开始呈现被识别词的索引的被识别词的数字化语音--如图9所示,并参考图6和7更详细说明的。

本例中的ASR引擎(150)被改进不仅用于从数字化用户语音(510)返回被识别的用户语音(514),但当识别数字化语音中的词时,还标识指示在数字化语音中何处开始呈现该词的信息(518)。通过由模数转换器从来自用户、即来自用户发言的模拟语音输入中采样的时域幅度值来呈现数字化语音,并根据编解码器将其组织到顺序集合成组帧中。通过唯一的、基数帧标识号来顺序表征每个帧,且每个帧包含相同的时域幅度采样数。然后ASR引擎可以将包含词的数字化语音(510)转换到以时域幅度采样的帧中的一帧开始的频域--并通过用每帧中的幅度采样号乘以帧识别号中的一个来导出指示在数字化语音中何处开始呈现该词的索引值。可以通过快速傅立叶变换(‘FFT’)来进行向频域的转换。如此导出的索引值(518)是指示在数字化语音中何处开始呈现该词的信息的例子。

多模式数字音频编辑器(195)操作地耦合于ASR引擎(150)。在本例中,用取决于是以X+V还是Java还是SALT实现多模式数字音频编辑器的JVM(102)、VoiceXML翻译器(192)或SALT翻译器(103),来实现多模式数字音频编辑器和ASR引擎(150)之间的操作的耦合。当以X+V实现多模式数字音频编辑器(195)时,通过多模式浏览器(196)、然后通过VoiceXML翻译器来实现操作的耦合,该多模式浏览器(196)提供用于X+V应用的操作环境和翻译器,且VoiceXML翻译器将语法和用于识别的话音发言传递给ASR引擎。当以Java语音实现多模式数字音频编辑器(195)时,通过JVM(102)来实现操作的耦合,该JVM(102)提供用于Java应用的操作环境并向ASR引擎传递语法和用于识别的话音发言。当以SALT实现多模式数字音频编辑器(195)时,通过SALT翻译器(103)实现操作的耦合,该SALT翻译器(103)提供用于X+V应用的操作环境和翻译器并向ASR引擎传递语法和用于识别的话音发言。

运行在多模式设备(152)上的本例中的多模式数字音频编辑器(195)是所谓‘肥客户端架构’的例子,其中,该多模式设备(152)包含其自身VoiceXML翻译器(192)和其自身语音引擎(153)而没有到达包含远程VoiceXML翻译器或远程语音引起的远程话音服务器的网络或VOIP连接,所谓‘肥客户端架构’是因为用于处理用户和多模式数字编辑器之间的话音模式交互的所有功能性--以及用于用在根据本发明的实施例的数字化语音中呈现的词来索引数字化语音的所有功能性--都是在多模式设备本身上实现的。

为了进一步说明,图6阐述了图示根据本发明的实施例的索引数字化语音的示例方法的流程图。用多模式数字音频编辑器(195)来实现本例中的索引数字化语音。多模式数字音频编辑器(195)在多模式设备(图1上的152)上操作,该多模式设备(152)支持与多模式数字音频编辑器的多种用户交互模式,包括与多模式数字音频编辑器的用户交互的话音模式和一种或多种非话音模式。在本例中,用通过扩音器(177)的音频输出和通过麦克风(176)的音频输入来呈现这种交互的话音模式。通过用户输入设备(180、181),经由视觉显示设备、键盘和鼠标来呈现非话音模式。

多模式数字音频编辑器操作地耦合(524)于ASR引擎(150)。操作的耦合(524)向提供从多模式数字音频编辑器(195)到ASR引擎的数据通信路径(504)用于语音识别语法。操作的耦合(524)提供从ASR引擎(150)到多模式数字音频编辑器(195)的数据通信路径(506)用于被识别语音和语义翻译结果。当在肥客户端架构中实现多模式数字音频编辑器时,可以用JVM(图5上的102)、VoiceXML翻译器(图5上的192)或SALT翻译器(图3上的103)来实现操作的耦合。当在瘦客户端架构中实现多模式数字音频编辑器时,操作的耦合可以包括话音服务模块(图4上的130)和VOIP连接(图4上的216)。当以X+V实现多模式数字音频编辑器时,操作的耦合可以包括VoiceXML翻译器(图4上的192)。当以Java语音框架实现多模式数字音频编辑器时,操作的耦合可以包括Java语音API和JVM(图4上的101、102)。当以SALT实现多模式数字音频编辑器时,操作的耦合可以包括SALT翻译器(图4上的103)。

图6的方法包括由多模式数字音频编辑器(195)向ASR引擎(150)提供用于识别的数字化语音(510)。例如,数字化语音可以是由用户通过声卡上的模数转换器和编解码器而当前输入的流或先前记录的数字音频剪辑。多模式数字音频编辑器(195)还向ASR引擎(150)提供语音识别语法(104),其向ASR引擎标识在当前合格用于识别的数字化语音中的词。

在图6的方法中,ASR引擎识别(512)在数字化语音中的词(516),且ASR引擎还标识指示在数字化语音中何处开始呈现该词的信息。如下更详细地说明的,ASR引擎可以使用每帧中的帧号和幅度采样号,来计算指示在数字化语音中何处开始呈现该词的索引。因此,可以实现这种索引作为在数字化语音中何处开始呈现被识别词的在该数字化语音中的具体数字幅度采样的实际序列号,例如167243、298374或314325。ASR引擎向多模式数字音频编辑器(195)返回被识别的用户语音(514),包括被识别词(516)和作为指示在数字化语音中何处开始呈现该词的信息的索引值(518)。多模式数字音频编辑器(195)从ASR引擎(150)接收被识别用户语音(514),包括被识别词(516),还包括指示在数字化语音中何处开始呈现被识别词的信息(518)。

图6的方法还包括由多模式数字音频编辑器向语音识别语法(130)中插入(522)与指示在数字化语音中何处开始呈现被识别词的信息(518)相关联的被识别词(516),该语音识别语法话音使能多模式数字音频编辑器的用户接口命令(528)。话音使能的用户接口命令可以包括,例如,播放、暂停、停止、倒带,缩放等等。在图6的方法中,将该词插入(522)语音识别语法中包括将作为在语音识别语法中的不可选终端元素的被识别词与呈现数字化音频编辑器的用户接口命令的词相关联(526)。此处是具有与呈现多模式数字音频编辑器的用户接口命令的词相关联的不可选终端元素的语音识别语法的例子:

instruction=$command $word[to][$word]

command=play[from]|show |zoom |...

word=car{$.index=167243}|bomb{$.index=298374}|airplane

     {$.index=314325}|...

在该示例语法中,词“汽车”、“炸弹”和“飞机”是由ASR引擎识别并由多模式数字音频编辑器插入语音识别语法中的词,作为与呈现多模式数字音频编辑器的用户接口命令的下列词:“播放”和“示出”相关联的不可选终端语法元素。另外,在本例中,多模式数字音频编辑器已经插入了指示在数字化语音中何处分别开始每个被识别词的呈现的信息,作为不可选终端语法元素的部分,在本例中,如数字采样序列号167243、298374和314325。本例中的这些序列号或索引与在语义翻译脚本中的被识别词“汽车”、“炸弹”和“飞机”相关联,以便,当随后识别词“汽车”、“炸弹”和“飞机”作为用户接口命令的部分时,由ASR引擎返回语义翻译脚本的值、即数字化语音中何处开始该词的呈现的索引,作为识别结果的部分--建议多模式数字音频编辑器如何关联被识别词与在数字化语音的回放、编辑或显示中的具体位置。

图6的方法还包括视觉地显示(524)具有作为指示在数字化语音中何处开始呈现被识别词的索引的被识别词的数字化语音。下面参考图9说明数字化语音的视觉显示。

为了进一步说明,图7阐述图示根据本发明的实施例的索引数字语音的另一示范方法的流程图。图7的方法类似于图6的方法,包括提供(508)用于识别的数字化语音,接收(520)包括被识别词和指示在数字化语音中可出开始被识别词的呈现的信息的被识别用户语音,和向语音识别语法中插入(522)具有指示何处开始被识别词的呈现的信息的被识别词,其中语音识别语法其话音使能用户接口命令,所有用户接口命令都以类似于参考图6的方法上述的方式而运作。然而,在图7的方法中,标识(512)指示在数字化语音中何处开始呈现该词的信息包括将该数字化语音组织(702)到帧中成组的时域幅度采样的序列集合,其中由唯一且基数的帧标识号顺序表征每帧,每帧包括响应的时域幅度采样数。为了说明方便而示出出现在ASR引擎中的组织(702)步骤。但是,读者将认识到,还这种组织可以作为在声卡上的编解码器功能的部分进行,也可以以本领域技术人员可能知道的其他方式进行。

而且,在图7的方法中,标识(512)指示在数字化语音中何处开始呈现该词的信息包括将包括该词的数字化语音转换(704)到以时域幅度采样的帧中的一帧开始的频域。还在图7的方法中,标识(512)指示在数字化语音中何处开始呈现该词的信息还包括,通过用每帧中的幅度采样数乘以帧标识号之一来导出指示在数字化语音中何处开始呈现该词的索引值。该数字化语音是由时域数字幅度采样组成。例如,ASR引擎可以通过对由帧号标识的帧中的各个幅度的集合进行快速傅立叶变化(‘FFT’)将时域数字幅度采样转换到频域,其中帧号是唯一地标识每帧的基数。帧号是时域实体,因此通过用每帧中的幅度采样数乘以帧号来指定在被识别词的数字化语音中的位置作为基数采样号。由于其作为位置、即在数字化语音中何处开始呈现被识别词的位置的指示器的功能,在本说明书中有时将这种基数采样号称为“索引”或“索引值”。

为了进一步说明,图8阐述图示根据本发明的实施例的索引数字语音的另一示范方法的流程图。提供(508)用于识别的数字化语音,接收(520)包括被识别词和指示在数字化语音中何处开始呈现被识别词的信息的被识别用户语音,和向其话音使能用户接口命令的语音识别语法中插入(522)具有指示何处开始被识别词的呈现的信息的被识别词,所有这些以类似于上述参考图6的方法类似的方式运作。但是,在图8的方法中,使能(522)多模式数字音频编辑器的用户接口命令的语音识别语法话音包括由多模式数字音频编辑器向作为不可选终端语法元素的部分的语法插入指示在数字化语音中何处开始呈现被识别词的信息。此处是具有包含指示在数字化语音中何处开始呈现被识别词的信息在内的不可选终端元素的语音识别语法的例子:

instruction=$command $word[to][$word]

command=play[from]|show|zoom|...

word=car{$.index=167243}|bomb{$.index=298374}|airplane

      {$.index=314325}|...

在本示例语法中,词“汽车”、“炸弹”和“飞机”是由ASR引擎识别且由多模式数字音频编辑器插入语音识别语法中的词,作为与呈现多模式数字音频编辑器的用户接口命令的下列词:“播放”和“示出”相关联的不可选终端语法元素。另外,在本例中,多模式数字音频编辑器已经插入了指示在数字化语音中何处分别开始每个被识别词的呈现的信息,作为不可选终端语法元素的部分,在本例中,如数字采样序列号167243、298374和314325。本例中的这些序列号或索引与语义翻译脚本中的被识别词“汽车”、“炸弹”和“飞机”相关联,以便当随后识别词“汽车”、“炸弹”和“飞机”作为用户接口命令的部分时,由ASR引擎返回语义翻译脚本的值,即指示在数字化语音中何处开始呈现该词的索引,作为识别结果的部分--建议多模式数字音频编辑器如何管理被识别词与在数字化语音的回放、编辑或显示中的具体位置。如果没有在语法中的索引,多模式数字音频编辑器将需要使用被识别词来查找表或其他数据结构中的索引,这是比包括语法中的和识别结果中的索引费力得多的过程。

为了进一步说明,图9阐述了根据本发明的实施例的用数字化语音中呈现的词索引数字化语音的多模式数字音频编辑器的示范图形用户界面(‘GUI’)显示的图。在图9的例子中,多模式数字音频编辑器已经向ASR引擎提供了用于识别的数字化语音、记录的MP3剪辑,例如以及使能识别词“飞机”、“炸弹”、“汽车”、“地铁”、“爆炸”和“袭击”的语音识别语法。ASR引擎识别了词“炸弹”、“飞机”和“地铁”,并向多模式数字音频编辑器返回包括了被识别词以及指示在数字化语音中何处开始每个被识别词的呈现的信息在内的识别结果。该数字化语音包括被组织在顺序编号的帧中的数字幅度采样值。通过由ASR引擎用在数字化语音中发现了该词的帧的帧号和每帧的采样数而计算的顺序的、时域数字幅度采样号(‘索引值’),来呈现在数字化语音中何处开始每个被识别词的呈现的信息。

已经接收到被识别词和其索引值的多模式数字音频编辑器将与其索引值相关联的每个被识别词插入其话音使能多模式数字音频编辑器的用户接口命令的语音识别语法,诸如,该示例语法:

instruction=$command $word[to][$word]

command=play[from]|show|zoom|...

word=bomb{$.index=167243}|airplane{$.index=298374}|subway

      {$.index=314325}...

该示例语法使得多模式数字音频编辑器能够接受并进行如下的话音命令,例如:

“Zoom in on bomb,”

“Show airplane,”and

“Play from bomb to subway.”

(“放大炸弹”,

“示出飞机”,以及

“从炸弹播放到地铁”。)

除了话音控制以外,图9的示例GUI还包括通过键盘、鼠标或其他用户接口工具的操纵的视觉控制。这种视觉控制包括诸如倒带、播放、暂停、停止、快进等等之类的用户接口命令的GUI回放控制(712),以及用于数字化语音显示的视觉控制(720、732)。

图9的示例GUI显示还包括具有作为在数字化语音中何处开始每个被识别词的呈现的索引的被识别词的数字化语音的两个视觉显示(738、740):波形显示(738)和光谱显示(740)。波形显示(738)的水平轴表示时间,垂直轴表示波形幅度。在波形显示(738)上视觉地显示(724、726、728)词“炸弹”、“飞机”和“地铁”,作为在数字化语音中何处开始每个被识别词的呈现的索引,“炸弹”的左边缘(724)对准具有采样号167243(714)的索引、“飞机”的左边缘(726)对准具有采样号298374(716)的索引,且“地铁”的左边缘(724)对准具有采样号314325(718)的索引。

光谱显示(740)的水平轴表示时间,垂直轴表示频率。例如,在光谱显示上用颜色或用灰度级的强度来指示幅度或声音强度。在光谱显示(740)上视觉地显示(750、752、754)词“炸弹”、“飞机”和“地铁”作为在数字化语音中开始每个被识别词的呈现的索引,“炸弹”的左边缘(750)对准具有采样号167243(756)的索引,“飞机”的左边缘(752)对准具有采样号298374(758)的索引,且“地铁”的左边缘(754)对准具有采样号314325(760)的索引。

考虑上述说明,读者现在将认识到根据本发明的实施例的用在数字化语音中呈现的词来索引数字化语音的益处包括当分析人员有兴趣于在音频数据中具体词的位置时大大地简化了用数字音频编辑器分析人类语音的处理。在本领域技术人员将知道的其他益处中,典型的多模式数字音频编辑器有效地组合被识别文本与音频数据,以便音频编辑器能够用被识别词来注释音频数据的图形显示并用话音命令使能显示的操作。

在用于用在数字化语音中呈现的词索引数字化语音的全功能计算机系统的上下文中大量地描述了本发明的实施例。但是,本领域技术人员将认识到还可以在被安置在用于使用的计算机可读信号承载介质上的计算机程序产品中用任何何时的数据处理系统来实施本发明。这种信号承载介质可以是机器可读信息的传输介质或可记录介质,包括磁介质、光介质或其他何时的介质。可读介质的例子包括在硬盘驱动器中的磁盘或磁带、光驱动器的紧致盘、磁带和本领域技术人员将知道的其他。传输介质的例子包括用于话音通信的电话网络和数字数据通信网络,诸如,EthernetsTM和与英特网协议和万维网通信的网络。本领域技术人员将立即认识到,具有何时的编程部件的任何计算机系统都将能够执行在程序产品中实施的本发明的方法的步骤。本领域技术人员将立即认识到,虽然在本说明书中描述的一些示范实施例是面向在计算机硬件上安置并执行的软件的,但是,在本发明的范围内实施作为固件或作为硬件的替换实施例也是可行的。

从前述描述中将理解,可以在不脱离本发明的真实精神的情况下,在本发明的各种实施例中进行修改和改变。在本说明书中的描述是仅用于图示作用,且不构成限制含义。本发明的范围仅由所附权利要求的语言来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号