首页> 中国专利> 在车载语音识别系统与车外语音识别系统之间的通信系统和方法

在车载语音识别系统与车外语音识别系统之间的通信系统和方法

摘要

一种基于车辆的系统和方法,其用于接收语音输入并且确定是否使用车载资源或车辆外部的资源来执行语音识别分析。

著录项

  • 公开/公告号CN103038818A

    专利类型发明专利

  • 公开/公告日2013-04-10

    原文格式PDF

  • 申请/专利权人 本田技研工业株式会社;

    申请/专利号CN201180037444.7

  • 申请日2011-06-24

  • 分类号G10L15/30(20130101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人王茂华

  • 地址 日本东京都

  • 入库时间 2024-02-19 18:28:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-07

    未缴年费专利权终止 IPC(主分类):G10L15/30 专利号:ZL2011800374447 申请日:20110624 授权公告日:20161012

    专利权的终止

  • 2016-10-12

    授权

    授权

  • 2013-05-08

    实质审查的生效 IPC(主分类):G10L15/30 申请日:20110624

    实质审查的生效

  • 2013-04-10

    公开

    公开

说明书

相关申请

本发明涉及并且要求2010年6月24日递交的美国临时专利申 请61/358,407的优先权,通过引用的方式将该申请整体并入本文。

技术领域

实施方式涉及车辆通信系统和方法的领域。

背景技术

常规车辆采用可听(例如语音)命令来实现各种车辆特征。常 见问题在于由于车辆内的有限的处理能力,车载语音识别系统不如 车外语音识别系统那么健壮并且可能导致不准确的识别结果。但是, 采用车外语音识别系统可能导致长的响应时间。所需要的是一种用 于车辆的语音识别的系统和方法,当其负责车辆内的对时间敏感并 且对环境敏感的语音识别时提供健壮的语音识别。

发明内容

一种车辆内的基于计算机的方法包括步骤:接收第一语音输入; 确定对所述第一语音输入的语音识别处理应该由所述车辆中的基于 计算机的语音识别系统执行还是使用所述车辆外部的语音识别系统 执行;响应于所述语音识别处理将在所述车辆中执行的确定,对于 所述第一语音输入,执行所述车辆内的基于计算机的语音识别;以 及响应于所述语音识别处理应该在所述车辆的外部执行的确定,向 外部系统发送所述第一语音输入。

在说明书中描述的特征和优点不是包括一切的,并且具体而言, 考虑到附图、说明书和权利要求,许多附加特征和优点将对于本领 域的普通技术人员清楚。此外,应该注意到,说明书中使用的措词 原则上为了可读性和介绍的目的选择,而不是选择以界定或限制创 造性性的主题。

附图说明

图1是实施方式可以在其中操作的环境。

图2是根据一个实施方式的移动通信设备的更详细的说明。

图3是根据一个实施方式的车载系统的更详细的说明。

图4是根据一个实施方式的服务器设备的更详细的说明。

图5是用于说明根据一个实施方式的语音识别系统的操作的流 程图。

图6是用于说明根据一个实施方式的步骤504的操作的流程图。

图7是用于说明根据一个实施方式的步骤504的操作的流程图。

图8是根据一个实施方式响应于对于信息的用户命令/请求的系 统的说明。

具体实施方式

现在参考附图来描述实施方式,其中在附图中相同的附图标记 指示相同的或功能上类似的元件。并且在附图中,每个附图标记的 最左边的数字对应于在其中首次使用该附图标记的附图。

在说明书中对于“一个实施方式”或对于“实施方式”的参考 意味着结合实施方式描述的具体特征、结构或特性被包括在至少一 个实施方式中。在说明书在各种地方的出现的短语“在一个实施方 式中”或“实施方式”没有必要全部涉及相同的实施方式。

根据计算机内存中的数据比特上的操作的算法和符号表示给出 下文的详细描述的一些部分。这些算法描述和表示是数据处理领域 的熟练技术人员用于向本领域的其他技术人员最有效地传达他们的 工作的手段。在本文中以及通常,算法被认为是一种导致所希望的 结果的自一致的步骤(指令)序列。该步骤是需要物理量的物理操 作的步骤。这些物理量通常但不是必须采取能够被进行存储、传递、 组合、比较以及其他操作的光、电、磁信号的形式。有时候主要为 了普通使用的原因而将这些信号称为比特、值、元素、符号、字符、 项、数量等是方便的。此外,在不失一般性的前提下将需要物理量 的物理操作或变换或物理量的表示的特定步骤的配置称为模块或代 码设备也是方便的。

但是,全部这些以及类似的术语将要与合适的物理量相关联并 且仅仅是应用于这些量的便捷标记。要理解,除非从下文的讨论中 显而易见明确声明不是这样,否则贯穿说明书,利用诸如“处理” 或“计算”或“算”或“确定”或“显示”之类的术语的讨论涉及 这样一种计算机系统或类似的电子计算设备(如特定计算设备)的 动作和处理,其中该计算机系统或类似的电子计算设备用于操作被 表示为计算机系统的存储器、寄存器或其他此类的信息存储、传输 或显示设备中的物理、电子量。

本文的实施方式的特定方面包括以算法的形式描述的过程处理 步骤和指令。应该注意到,可以将本文的实施方式的过程步骤和指 令实现在软件、固件或硬件中,并且当实现在软件中时,可以被下 载到由各种操作系统使用的不同平台上或者从该不同平台操作该过 程步骤和指令。实施方式还可以在计算系统上执行的计算机程序产 品中。

本文的实施方式还涉及用于执行操作的装置。该装置可以具体 被构造为用于例如具体计算机的目的或者可以包括被存储在计算机 中的计算机程序选择性地激活或重配置的通用计算机。该计算机程 序可以被存储在计算机可读存储介质中,例如但不限于任意类型的 盘片,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、 随机访问存储器(RAM)、EPROM、EEPROM、磁或光卡、专用集 成电路(ASIC)或适用于存储电子信息并且被耦合到计算机系统总 线的任意类型的介质。存储器可以包括以上任意和/或可以存储信息/ 数据/程序的其他设备。此外,说明书中涉及的计算机可以包括单个 处理器或者可以是使用多个处理器设计以增加计算能力的架构。

本文给出的算法和显示不是固有地涉及任意具体计算机或其他 装置。各种通用系统可以与根据本文的教导的程序一起使用,或者 可以证明构造更专用的装置来执行该方法步骤是方便的。用于各种 这些系统的结构将从下文的说明变清楚。另外,没有参考任意具体 的编程语言来描述本文的实施方式。应该认识到,可以是由各种编 程语言来实现本文所述的实施方式的教导,并且提供对于具体语言 的下文的任意参考,以便本文的实施方式的允许和最佳模式的公开。

另外,原则上为了易读性和介绍性的目的选择说明书中使用的 措词,而不是为了界定或限制发明性的主题来选择在说明书中使用 的措词。因此,本文的实施方式的公开适用于说明而不是限制。

图1说明了用于各种实施方式的示例性操作系统100。操作系统 100可以包括车载系统102、可选择的无线移动通信设备104、用于 车载系统102与网络108之间的通信的可选择的通信链路105、用于 车载系统102与无线移动通信设备104之间的通信的可选择的短距 离通信链路106、无线移动通信设备104与网络108之间的可选择的 无线网络连接通信链路107以及处理设备,如被连接到网络108的 服务器110。本文所述的通信链路可以直接地或间接地连接两个设 备。

车载系统102和无线移动通信设备104可以经由使用例如蓝牙 ()技术的短距离通信技术或其他短距离通信技术(例如 通用串行总线(USB))的短距离通信链路106来彼此通信。车载 系统102和无线移动通信设备104可以经由短距离通信链路106彼 此连接或配对。

移动通信设备(MCD)102的示例例如包括蜂窝电话、个人数 字助理(PDA)、智能电话、膝上电脑或者具有处理器、通信能力 并且易于运输的其他设备。在普通意义上,MCD 104应用可以是车 辆特征和交互的较大套件的一部分。应用的示例包括可用于iPhoneTM (可从加利福尼亚库比蒂诺的Apple Computer商业上获得)的应用 或者用于运行AndroidTM(可从加利福尼亚山景城的Google Inc.商业 可得的)操作系统的电话的应用。

在备选实施方式中,不利用移动通信设备104,并且改为使用嵌 入在车辆中的通信设备,例如车辆嵌入式电话、无线网络卡或其他 设备(例如支持Wi-Fi的设备)。为了易于讨论,本文的描述关于 使用移动通信设备104的实施方式来描述实施方式的操作。但是, 这不适用于限制实施方式的范围,并且想到其他实施方式使用车载 系统102与网络108之间的其他通信系统进行操作,如上所述。

车载系统102可以向无线移动通信设备104发送信息。无线移 动通信设备104可以经由短距离通信链路106向车载系统102发送 信息。无线移动通信设备104可以存储从车载系统102接收的信息, 和/或经由网络108向远程处理设备(例如服务器110)提供该信息。

在一些实施方式中,车载系统102可以向无线移动通信设备104 提供信息。无线移动通信设备104可以使用该信息来获得来自网络 108和/或服务器110的附加信息。也可以响应于从车载系统102提 供关于无线移动通信设备104上的提示的信息,获得该附加信息。

网络108可以包括无线通信网络,例如蜂窝电话网络以及一个 或多个其他网络(例如互联网、公共交换电话网(PSTN)、分组交 换网络、帧中继网络、光纤网络和/或其他类型的网络)。

图2是无线移动通信设备104的示例性实施方式的功能方框图。 无线移动通信设备104可以包括处理器202、内存204、短距离通信 模块206、无线网络连接通信模块208、输入设备210、输出设备212 和存储器设备218。

处理器202可以包括用于解释并且执行存储在有形介质中的指 令的一个或多个常规处理器,有形介质例如内存204或存储器218 (可以是介质卡)、闪存(flash RAM)或其他有形介质。如本文所 使用的,内存204可以包括随机访问存储器(RAM)或另一类型的 动态存储器设备和/或只读存储器(ROM)或另一类型的静态存储器 设备,用于存储由处理器202执行的该信息和指令。RAM或另一类 型的动态存储器设备可以存储指令以及临时变量或在由处理器202 执行指令期间使用的其他中间信息。ROM或另一类型的静态存储器 设备可以存储用于处理器202的静态信息和指令。

短距离通信模块206可以包括用于经由诸如蓝牙的无线短距离 技术或诸如通用串行总线(USB)的其他短距离通信技术来发送和 接收信息的第一收发器。无线网络连接通信模块208可以包括用于 经由无线通信网络(包括但不限于蜂窝电话网络)来发送和接收信 息的第二收发器。

输入设备210可以包括硬键和/或软键、麦克风、触摸屏和/或其 他输入设备。输出设备212可以包括扬声器和/或显示器。

图3是车载系统102的一个示例性实施方式的功能方框图。车 载系统102可以包括处理器302、内存304、短距离通信模块306、 输入设备210、输出设备312、卫星通信模块316、存储器设备318 和语音识别模块320。

处理器302可以包括用于解释并且执行存储在有形介质中的指 令的一个或多个常规处理器,有形介质例如内存304、介质卡、闪存 (flash RAM)、或其他有形介质。内存304可以包括随机访问存储 器(RAM)或另一类型的动态存储器设备和/或只读存储器(ROM) 或另一类型的静态存储器设备,用于存储由处理器302执行的该信 息和指令。RAM或另一类型的动态存储器设备可以存储指令以及临 时变量或在由处理器302执行指令期间使用的其他信息。如上文所 述,ROM或另一类型的静态存储器设备可以存储用于处理器302的 静态信息和指令。

短距离通信模块306可以包括用于经由诸如蓝牙的无线短距离 技术或诸如通用串行总线(USB)、Wi-Fi等的其他短距离通信技术 来发送和接收信息的第一收发器。

输入设备310可以包括硬键和/或软键、麦克风、触摸屏和/或其 他输入设备。输出设备312可以包括扬声器和/或显示器。

在一些实施方式中,车载系统102的组件可以包括用于指导包 括车载系统120的车辆的用户到目的地的导航单元。即,车载系统 102的至少一些组件可以作为导航单元一起运行。当车载系统102 包括导航单元时,车载系统102可以包括用于与全球定位卫星通信 的卫星通信模块316。该导航单元还可以包括兴趣点(“POI”)数 据库。该数据库可以包括关于车辆的用户可能想要去旅行的任意地 方的信息。可以由类别(例如餐馆、购物、急救服务等)来安排POI。

语音识别模块320可以包括独立的处理器、内存和/或存储器, 或者可以使用车辆中的处理器302、内存304和存储器318中的一个 或多个。语音识别模块320可以存储一个或多个用户的语音简档 (voice profile),以允许其识别由一个或多个用户说出的指令、请 求和/或查询。

图4是服务器110的示例性实施方式的功能方框图。服务器110 可以包括处理器402、内存404、存储器设备406、网络连接通信模 块408、输入设备210、输出设备412、存储器设备418和语音识别 模块420。

处理器402可以包括用于解释并且执行存储在有形介质中的指 令的一个或多个常规处理器,有形介质例如内存404、介质卡、闪存 (flash RAM)或其他有形介质。如本文所使用的,内存404可以包 括随机接入存储器(RAM)或另一类型的动态存储器设备以及只读 存储器(ROM)或另一类型的静态存储器设备。RAM或另一类型的 动态存储器设备可以存储指令以及临时变量或在由处理器402执行 指令期间使用的其他中间信息。ROM或另一类型的静态存储器设备 可以存储用于处理器402的静态信息和指令。

语音识别模块420可以包括独立的处理器、内存和/或存储器, 或者可以使用处理器402、内存404和存储器414中的一个或多个。 语音识别模块420可以存储一个或多个用户的语音简档,以允许其 识别由一个或多个用户说出的指令、请求和/或查询。

网络连接通信模块408可以包括用于经由例如网络108或者其 他网络(如广域网、局域网、互联网等)的有线的或无线的通信网 络来发送和接收信息的收发器。

图5是用于说明根据一个实施方式的语音识别系统的操作的流 程图。由输入设备310接收502语音命令(VC)。一个示例是用户 例如通过按下车辆中的硬/软键并且随后说出命令、请求、查询等来 发起语音命令。为了容易讨论,命令被用作示例并且包括任意这样 的输入。语音命令可以被转换成并且作为数字表示来存储或者作为 模拟表示来存储。为了容易讨论,本文将讨论数字表示。车辆确定 语音识别是否应该由车辆的车载来完成,或者语音识别是否应该由 车外的语音识别模块420语音识别语音识别来完成(例如在服务器 110、820中)。车载或车外语音识别系统320、420的示例是可从坐 落于美国纽约州阿蒙克的IBM公司商业上获得的ViaVoice、可从坐 落于马萨诸塞州伯灵顿的Nuance通信商业上获得的Nuance语音识 别、以及可从坐落于华盛顿州贝尔维的VoiceBox技术商业上获得的 Voice Box语音识别。

处理器302从输入设备310接收输入信号并且识别请求的环境。 例如,环境可以基于按下的硬/软键(电话呼叫硬/软键或全球命令硬 /软键)和/或基于在输出设备312上显示的信息(例如导航、音频、 视频)。车载系统102确定504是否应该使用车载语音识别模块320 或外部语音识别模块420来完成语音识别。图6和7是如何完成这 一确定的示例。

图6是用于说明根据一个实施方式的步骤504的操作的流程图。 在该实施方式中,所确定的环境可用于确定604是否应该使用车载 语音识别模块320或外部语音识别模块420来执行语音识别(VR)。 例如在语音控制与显示器屏幕上的信息相关联的车辆中,如果显示 器屏幕显示播放音频盘片,例如CD或DVD,则车载系统确定语音 命令的环境与板上音频系统相关并且因此应该被在板上分析,因为 该分析将更加快速、更加可靠并且准确性通常高。

如果604初始决定是在板上执行语音识别,则语音命令(VC) 被输入606到车载语音识别模块320。车载语音识别模块320使用语 音识别技术分析语音命令。可以使用许多可能的语音识别技术。确 定置信度(confidence score)的一个示例在Jiang的“Confidence  measures for speech recognition:A survey”(2004年Speech  Communication)一文中阐述了,该文可从置信度 www.sciencedirect.com获得,通过参考的方式将其整体并入本文。

如果608由语音识别模块320确定的置信度大于第一阈值(T1), 则过程继续到步骤510,在步骤510中,可以将语音识别分析的结果 存储510在车辆中在与车辆的用户或驾驶员相关联的语音简档中(并 且可选择地被发送到服务器110以便存储在位于车辆外的语音简档 中)。此后,命令可以被执行534,或者可以向用户提供所请求的信 息。

如果608由语音识别模块320确定的置信度不超过第一阈值 (T1),则这表明板载语音识别模块不产生满意的结果,并且在该 实施方式中,向外部语音识别模块420发送该语音命令,其中外部 语音识别模块420可以具有更大的处理功率并且因此能够以更高的 置信度确定该语音命令的意义。该过程然后可以继续到下文所述的 步骤526。如下文参考步骤720所述,可以与语音命令一起发送附加 信息。

应该理解,第一阈值(T1)可以是许多阈值中的一个,其中每 个单独的阈值可以具有它自己的结果。例如,置信度可能太低以至 于系统将需要用户重复命令而不执行任意其他动作。

图7是用于说明根据一个实施方式的步骤504的操作的流程图。 图7中所示的步骤不是全部需要的并且不需要按照所示次序来完成。 它们可以与图6中所示的步骤相结合。车载系统102确定504应该 使用车载语音识别模块320还是外部语音识别模块420完成语音识 别。车载系统102接收语音命令(步骤502)。车载系统102确定命 令和/或语音的特性,例如语音类型、频率、速度、韵律、可理解性、 音调、音高、大小、方向、音量和/或持续时间。例如,该命令是否 小于大约5秒钟,该语音是女性还是男性的语音,或者说话者说话 是否快速。在图7中所示的实施方式中,使用大小作为示例并且在 下文将进一步描述大小。如果702命令的大小过大,例如其超过第 一大小因子S1,则车载系统102继续到步骤708。具有长的持续时 间的命令的一个示例是用户想要请求长文本消息的发送的命令。如 果702大小不太大,则车载系统102使用车载语音识别模块320来 确定置信度(CS)。如果704置信度不超过第一阈值(T1),则车 载系统102继续到步骤708。

如果置信度超过第一阈值(T1),则知道具有足够的信心来继 续该命令/请求。车载系统然后确定706是否应该在车辆内还是在车 辆外部执行所确定的命令/请求。例如在一些实施方式中,应该在车 辆内解释特定命令/请求,例如音频控制命令、外围控制命令、环境 命令(例如内部温度、风扇速度的修改)、静态数据、与急救相关 的请求(例如请求呼叫911或者用于关于最近的医院的信息的请求)、 (HFL)命令和地址条目。应该被外部地执行的命令 /请求的示例包括获取新闻或其他动态数据、发送电子邮件或文本消 息、购买活动的门票、进行预订、搜索兴趣点、或者获取天气信息 或实时交通信息。

如果706确定命令/请求是应该在车辆中执行的命令/请求,则过 程继续到如本文所述的步骤510。

如果706确定命令/请求不是应该在板上执行的命令,例如获得 实时交通信息或者关于餐馆的营业时间的细节,则车载系统102确 定708是否存在与车载系统102与服务器110之间的通信链路105、 106、107中的任意一个相关的任意连接性问题。如果708存在通信 问题,例如不能够准确地发送和接收数据,则车载系统102确定710 是否可以在车辆板载上执行所识别的命令。如果可以,则继续到步 骤510。如果710不可以在板上完成所识别的命令或者如果命令未 知,则如果命令未知(例如由于太大或者具有低的信心因子),则 车载系统102与用户通信712,以要求用户重复该语音命令。备选地, 可以发送712用于指示连接问题阻止命令被当前执行的错误消息。 在备选实施方式中,当连接性问题不再存在时,车载系统102存储 该语音命令并且向服务器110发送请求。

如果708不存在连接性问题,则车载系统发送语音命令并且可 以提供720可以由外部语音识别模块420使用的附加的与用户简档 相关的信息和/或车辆信息。下文更详细地描述在发送720中可以包 括的信息的类型。该过程然后继续到步骤526。

如果基于步骤504中的决定,语音识别将要在服务器中执行, 则外部语音识别模块420执行526接收命令的语音识别分析。服务 器中的外部语音识别模块420可以是更强大的分析引擎/模块,因为 处理器402可能更强大,在内存404和存储器414中可能存在更多 可用数据并且可以利用来自其他网络的附加资源。另外,可以使用 与该车辆相关联的多个用户简档辅助准确地解释该用户的命令/请 求,如下文所述的。如果528由外部语音识别模块420确定的置信 度超过第二阈值(T2,其可以与第一阈值T1不同),则可以将语音 识别的结果存储530在服务器110中,并且可以向该车辆发送该结 果,其中该结果也可以被存储510在该车辆中。车辆然后可以执行 534所识别的命令(或者发送所请求的信息)。存储在服务器和/或 车辆中的结果可用于向语音识别模块320、420提供反馈以改进未来 的性能。

如果528由外部语音识别模块420确定的置信度不超过第二阈 值(T2),则可以请求540用户重复该语音命令并且该过程在步骤 502处重复开始。

在另一个实施方式中,向车载语音识别模块320和外部语音识 别模块420都发送语音命令。由车载系统102收集结果,并且向传 送通信该结果。在语音识别的结果不同的情况中,则可以比较用于 每个情况的置信度的值,并且可以使用具有更高的置信度的结果。 备选地,可以使用默认值,其中使用外部语音识别模块420的结果, 因为假定外部语音识别模块420具有更多用于分析语音命令的资源 并且因此有可能更准确。在来自车载语音识别模块320的结果被传 送给用户或者在车载系统102接收到来自外部语音识别模块320的 结果之前执行该命令的情况中,车载系统可以忽略后一个结果,传 送该后一个结果给用户或者可以执行后一个命令。

如上所述,如果708不存在连接性问题,则车载系统发送语音 命令并且可以提供720可以由外部语音识别模块420使用的附加的 与用户简档相关的信息和/或车辆信息。当向外部语音识别模块420 发送语音命令时,当前实施方式提供附加信息,其中与当该附加信 息对于外部语音识别模块420不可用的情况相比,该附加信息可以 被该外部语音识别模块420使用以识别说话者并且更准确地识别语 音命令。

在一个实施方式中,外部语音识别模块420可以包括用于车辆 的用户简档。在备选实施方式中,可以存在多个与该车辆相关联的 用户简档,其中每个用户简档辅助外部语音识别模块420执行语音 命令的语音识别。简档可以例如包括信息,例如用户的口音、发音、 句子结构、话音训练数据、关于用户的意向的信息(例车辆的一个 用户可能频繁地在一个商店喝咖啡而另一个用户典型地去另一个商 店喝咖啡)。

在各种实施方式中,车载系统102通过(a)提供可用于辅助识 别正确的用户简档的信息720和/或(b)提供关于车辆模型和状态的 附加信息720来辅助外部语音识别模块420,该附加信息可用于在该 语音命令的同时提供车辆的声学模型。可以提供720的用于辅助外 部语音识别模块420识别正确的用户简档的信息包括:密钥卡识别 (当车辆具有多个密钥卡时)、当与车辆配对时的蜂窝电话号码或 电话号码、车辆/导航单元识别号码、用户信息(例如面部特征(使 用面部识别)和/或当驾驶时驾驶员对座位施加的重量(在具有不同 重量的驾驶员之间可以进行区分))、来自车辆中的GPS的车辆位 置信息——该位置可用于辅助识别具有与车辆相关联的简档的驾驶 员的习惯。例如驾驶员1工作在加利福尼亚州的托伦斯并且驾驶员2 工作在加利福尼亚州的阿纳海姆,当车辆的位置处于/靠近托伦斯时, 外部语音识别模块420可能能够使用位置信息来更准确地确定驾驶 员1是说话者并且因此当执行语音识别时应该使用与驾驶员1相关 联的简档。可以包括的附加信息的示例是:如果使用屏幕来说话或 选择时的用户的名称、车辆气候控制数据、速度数据、当日时间、 刹车形式、任意其他与车辆相关/由车辆生成的数据、车辆与正前方 的车辆之间的距离或者可能有助于外部语音识别模块420区分两个 驾驶员的意向并且因此更准确地识别将助于识别语音命令的具体用 户的其他车辆信息。除了语音命令之外,另外发送该信息,并且其 因此是对于语音命令的固有特性(例如语音命令的频率)的增补。

可以被外部语音识别模块420使用的附加信息涉及车辆的音响 效果。所提供720的信息可以包括车辆的模型、当尝试识别语音命 令时允许基于车辆来使用预先确定的声学模型的车辆识别号码/导航 识别号码。另外,速度、偏航、车辆位置(马路是否嘈杂?)、风 扇的状态(高、低、关闭)、乘客的数量、窗户的位置和/或当做出 语音命令时可以被外部语音识别模块420使用以调整声学模型以更 准确地反应在车辆中出现的条件的任意其他与车辆相关的/由车辆生 成的数据。该信息720还可以被车载语音识别模块320使用。

图8是根据一个实施方式用于响应于对于信息的用户命令/请求 的系统的说明。在该实施方式中,可以使用上述车辆语音识别/控制 系统和方法来辅助用户获取请求信息或者执行请求命令。图8是根 据一个实施方式的系统的说明。该系统包括车辆802,车辆802包括 板载语音识别(VR)系统804(类似于板是语音识别模块320)。 上文描述了该VR系统的示例。

可选择地,车辆802经由通信链路被无线耦合到导航服务器810。 导航服务器810可以可选择地包括或者直接或间接被耦合到交通数 据库812、兴趣点数据库814和/或地图数据库816。

车辆802和/或导航服务器810被耦合到语音识别服务器820。 语音识别服务器820可以被耦合到其他数据库、互联网络和/或耦合 到程序/应用。在一个实施方式中,用户可以对于用户希望使用语音 识别服务器820的应用824、网站822、数据库826设置偏好。示例 包括ESPN、Yelp、flixster、Open Table、Google、CNN、Yahoo等。 可以预先设置这些偏好或者可以使用语音识别服务器820设置/修改 这些偏好。

在一个实施方式中,用户请求信息或动作。例如,用户可能请 求“下午七点在好的日本餐厅预订四个人的位置”。将该口头请求 与附加信息720一起从车辆802发送到导航服务器810和/或语音识 别服务器820。所发送的附加信息720可以包括用户信息、车辆信息、 速度、位置、当日时间、计划路径信息以及根据本文所示实施方式 发送的信息。

语音识别服务器820接收语音信息/命令和附加信息并且执行如 上所述常规语音识别,以收集信息并且/或者执行所请求的命令。通 过发送位置、速度、当日时间和/或计划路径信息,车辆使得语音识 别服务器820或车辆802能够负责车辆的改变位置和行驶的方向。

例如,往南行驶的车辆中的用户将优选识别在行驶方向中的餐 厅而不是需要原路返回的餐厅。在一个实施方式中,可以由用户选 择该偏好。在一个实施方式中,语音识别服务器820或车辆还可以 基于例如被选择的路径,确定在具体时间上的估计位置。例如在以 上示例中,如果用户已选择目的地并且车辆具有路径,车辆然后可 以估计在预订时间(例如7:00pm)附加车辆的位置,以辅助语音识 别服务器确定选择哪个餐厅。在另一个示例中,语音识别服务器820 和/或车辆802可以使用路径信息和位置信息来选择信息,例如靠近 计划路径的餐厅。

在对用户的口头请求执行语音识别之后,语音识别服务器820 识别一个或多个信息源并且连接到这些源。在一个实施方式中,语 音识别服务器820使用上文所述的用户偏好信息。该语音识别系统 可以连接到互联网网站822、应用824和/或数据库826以获得该信 息。在上述示例中,语音识别系统可以连接到Yelp网站 (www.yelp.com)或类似的网站,以获得视情况与餐厅质量、营业 时间、可用性相关的信息。语音识别服务器820或在该示例中的外 部网站可以视情况连接到多个合适的网站,以便获得信息/执行由车 辆802中的用户说的命令。例如在以上示例中,在识别合适的餐厅 之后,外部语音识别服务器820可以连接到预订网站/服务(如Open  Table,www.opentable.com)以进行晚餐预订。

在获取请求信息之后,语音识别服务器820向车辆802回发该 信息,并且该信息/命令被提供给用户。可以由车辆802中的扬声器 口头地提供该信息,可以在车辆中的屏幕上向用户显示该信息,可 以发送文本消息或者可以使用另一个通信方法。在向用户提供信息 时,可以高亮和/或灰化特定信息,以提供关于该选择的信息。例如, 如果用户请求关于该区域中的好的日本餐厅的信息,则车辆可以显 示多个餐厅,同时高亮当前开门的那些餐厅或者灰化当前关门的那 些餐厅。

虽然已经说明并且描述了具体实施方式和应用,但是应该理解 实施方式不限于本文所述的精确构造和组件,并且在不脱离实施方 式的精神和范围的前提下,可以在本文的实施方式的方法和装置的 配置、操作和细节中做出各种修改、改变和变形。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号