首页> 中国专利> 提供改进的语音激活功能的方法和装置

提供改进的语音激活功能的方法和装置

摘要

本公开涉及提供改进的语音激活功能的方法和装置。具体公开了—种提供改进激活功能的方法、装置和计算机程序产品。从用于语音激活操作的姓名的集合提供语法,所述语法包括所述姓名和所述姓名的变形。在所述语法中将所述姓名和所述姓名的优选变形相关联。接收所述姓名的优选变形并将其用于执行任务。

著录项

  • 公开/公告号CN103428363A

    专利类型发明专利

  • 公开/公告日2013-12-04

    原文格式PDF

  • 申请/专利权人 纽昂斯通讯公司;

    申请/专利号CN201310343590.3

  • 发明设计人 张亚昕;鲍晴峰;

    申请日2013-05-08

  • 分类号

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人曹瑾

  • 地址 美国马萨诸塞州

  • 入库时间 2024-02-19 21:40:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-15

    授权

    授权

  • 2015-06-10

    实质审查的生效 IPC(主分类):H04M1/725 申请日:20130508

    实质审查的生效

  • 2013-12-04

    公开

    公开

说明书

技术领域

本公开涉及提供改进的语音激活功能的方法和装置

背景技术

蜂窝电话已经变得无处不在。蜂窝电话(也称为移动电话、便携电话和手 机)是—种在广阔地理区域周围移动时能够通过无线链路拨打和接听电话的设 备。蜂窝电话通过连接到移动电话运营商提供的蜂窝网络、允许接入到公共电 话网络来实现上述功能。除了电话,现代移动电话还支持各种其他业务,例如 文本消息、多媒体消息服务(MMS)、电子邮件、因特网接入、短距离无线通 信(红外、蓝牙)、商业应用、游戏和拍照。提供这些和更通用的计算能力的移 动电话通常称为智能手机。

蜂窝电话的—种典型用途是在配备有自动语音识别(ASR)的电话上拨打 电话。该特征有时称为语音激活名字拨号(VAND)。任何说出一个或多个词都 可以成为语音标签,并可用于拨叫联系人、发送文本消息或者打开应用。此外, 越来越多的车辆配备有免持语音标签自动操作,例如使用全球定位系统(GPS) 获得路径(direction)、拨打集成的移动电话或者选择播放的歌曲或者音乐家。

如上阐述的传统的机制具有各种缺陷。对于使用语音拨号特征的—般移动 电话用户,用户以系统无法识别的正常的口头方式说出一个人的姓名是普遍的。 例如,一个人在地址簿或者联系人列表中记为William Smith,而更通常地称他 为Bill Smith或者Billy Smith。当联系人列表项以将电子邮件的发送者列为 William Smith的电子邮件的方式查找时也会出现这种情况。用户可能说“拨叫 Billy Smith”而该项不是已知的。相应地,用户可感觉语音拨号没有正常工作并 停止使用语音拨号。一些用户可能从这些经验中学习并正确地说出输入到联系 人列表中的姓名,但这不能避免用户下次以正常方式使用他人的姓名并使得系 统再次不能识别该姓名的情况出现,这对于用户是不方便的。相同的概念也适 用于其它语音激活功能。用户可能从GPS设备请求“到Fenway的路径”并被提 供了两种选择,例如,Fenway公园,Boston,Ma或者Fenway花园,Boston MA。

当前描述的用于改进语音激活功能的方法和装置包括特定用户界面(UI) 设计,其目标为个人姓名或者功能的文本形式与其口头表述之间的区别。考虑 到ASR语法中所有这类口头表述为语音激活功能的用户带来更用户友好的体 验。对于特定方言(例如,中国话),由于语法输入和用户口头表达的不一致性, 用户使用语音激活功能时可能具有较差的体验。例如,对于具有三个字符(或 者三个音节)的姓名,人们倾向于在设备的地址薄中输入全名,而通常仅叫后 两个字(或两个音节)的名。因此,条目王大文(WangDaWen)简单地说成 大文(Da Wen)。然而,如果姓名具有两个字符,人们倾向于叫全名。条目李 伟(LiWei)说成LiWei。人们在叫他们的同事、同学和朋友的姓名时在姓前 带上前缀“老”或者“小”,这是非常普遍的。条目张亚新(Zhang Yaxin)叫为老 张(Lao Zhang),或者条目包清风(Bao Qingfeng)叫为小包(Xiao Bao)。

在提供改进的语音激活功能的方法的特定实施例中,该方法包括从姓名的 集合提供语法,所述语法包括姓名和姓名的变形。变形可以包括原姓名的缩减 版本,还包括带有特定前缀的姓名缩减版本。优选的姓名变形与所述语法中的 姓名相关联。所述方法还包括接收优选的姓名变形并使用与该变形关联的姓名 执行任务。

其他实施例包括其上具有提供改进语音激活功能的计算机可读代码的计算 机可读介质。计算机可读介质包括用于从姓名的集合提供语法的指令,所述语 法包括姓名和姓名的变形。变形可以包括原姓名的缩减版本,还包括带有特定 前缀的姓名缩减版本。优选的姓名变形在语法中与姓名关联。所述方法还包括 接收优选的姓名变形并使用与该变形相关联的姓名执行任务。

其他实施例包括被配置为处理如本发明实施例在此公开的全部方法操作的 计算机化的设备。在这些实施例中,计算机化的设备(例如,蜂窝电话)在连 接以下部件的互联机构中包括存储系统、处理器和通信接口。存储系统编码有 提供如此处所述的改进语音激活功能的处理,当在处理器上执行该处理时(例 如当运行时),该处理在蜂窝电话中如此处所述地操作以执行如此处作为本发明 实施例阐述的所有方法实施例和操作。因此,执行或者被编程以执行这里描述 的过程的任何计算机化的设备都是本发明的实施例。

这里公开的本发明实施例的其他布置包括执行方法实施例和上述概括并在 下文详细公开的操作的软件程序。更具体地,计算机程序产品是其上编码有当 在计算机化的设备中执行时提供这里描述的改进语音激活功能的关联操作的计 算机程序逻辑的计算机可读介质的实施例。当运行在至少一个具有计算系统的 处理器上时,计算机程序逻辑使得处理器执行这里本发明实施例指示的操作(例 如方法)。发明的这种布置通常作为软件、代码和/或置于或者编码在计算机可 读介质上的其他数据结构提供,计算机可读介质诸如是光学介质(例如 CD-ROM)、软盘或者硬盘,或者其它介质,例如一个或多个ROM或者RAM 中的固件或微代码,或者PROM芯片或者专用集成电路(ASIC)或者一个或 多个模块中的可下载软件图像,共享库等。软件或者固件或者其他这类配置可 以安装到计算机化的设备中以使得计算机化的设备中的一个或多个处理器执行 这里作为发明实施例阐述的技术。在计算机化的设备的集合中操作的软件过程, 例如在一组数据通信设备或者其他实体中,也能够提供发明的系统。发明的系 统能够在若干数据通信设备的许多软件过程之间分布,或者所有过程在小范围 的专用电脑上运行,或者仅在一个电脑上运行。

应当理解的是,发明的实施例可也严格地作为软件程序、软件和硬件实现, 或者单独作为硬件和/或电路实现,例如在数据通信设备中。发明的特征,如这 里所述,可以在数据通信设备和/或用于这种设备的软件系统中利用,所述数据 通信设备是例如Nuance Communications Inc.制造的数据通信设备。

本公开中讨论的每个不同的特征、技术、配置等能够独立运行或者组合运 行。相应地,本发明可以以许多不同方式实现和观察。并且,这里的发明内容 部分不会详细说明本公开或者请求保护的发明的每个实施例和/或越来越新颖 的方面。替代地,发明内容部分仅给出不同实施例的初步描述以及相对于传统 技术的新颖点。对于发明的额外的细节、元素、和/或可能的观点(变换),读 者应当关注下面进一步讨论的本公开的具体实施例部分和相应附图。

附图说明

如附图所示,从下面发明的优选实施例的更特别描述中前述内容是显而易 见的,在附图中,不同的图中类似的附图标记指示相同的部分。附图不一定需 要缩放,但重点在于示出发明的原理。

图1描述了根据本发明实施例的智能姓名拨号系统的框图;

图2A是示出了来自初始用户模型的语法的示例的表;

图2B是示出了来自根据本发明处理的初始用户模型的语法的表;

图3描述了用于根据本发明实施例提供智能姓名拨号的方法的特定实施例 的流程图。

具体实施方式

下面给出的实施例给出了使得本领域技术人员能够实现发明的必要信息并 且示出实施发明实施例的最佳模式。一旦阅读下面的描述以及附图,本领域技 术人员将理解发明的思想并识别出那些这里没有特别陈述的这些思想的应用。 应当理解的是,这些思想和应用都落入本公开和附图的范畴。

尽管关于蜂窝电话上的姓名拨号描述用于提供改进语音激活功能的系统, 描述的思想也适用于其他用途。其他用途包括但不限于:发送文本消息、请求 GPS路径等。现在参考图1,示出提供改进语音激活功能的系统10的特定实施 例。系统10包括与智能姓名拨号管理器16通信的语音识别元件14。智能姓名 拨号管理器与用户模型18和用户动作预测元件20通信。用户动作预测元件20 向通过向语音识别元件14提供输入来启动处理的用户12提供输出。

语音识别元件14接收口语命令作为输入并且将口语命令转换为文本串。该 文本串接着被转发到智能姓名拨号管理器16,在智能姓名拨号管理器16中对 命令进行进一步处理。

智能姓名拨号管理器模块16负责根据用户输入来更新用户模型18。智能 姓名拨号管理器模块16还更新用于语音识别的语法并将用户模型和用户输入 发送到用户动作预测模决20。

用户模型18用于顾客习惯和其他信息,包括用户何时拨叫该姓名,用户几 次拨叫该姓名,以及使用何种口头表述来拨叫该姓名。最初,用户模型将覆盖 所有可能的口头表述,之后,用户模型将根据用户输入持续更新。

用户动作预测模块20用于根据输入作出正确决定。用户动作预测模决20 将使用用户输入的统计信息并获得响应用户输入的最佳动作。一系列示例规则 将用于作出决定。

响应生成模块22将根据该动作生成对话框或者其他UI界面。对话框包括 选择对话框、拨号对话框和确认对话框中的一个或多个。选择对话框将示出匹 配请求联系人的联系人列表并将其呈现给用户(或者以可视形式,或者以音频 形式),使得用户从呈现的联系人列表中选择期望的联系人。拨号对话框将示出 正在被呼叫的哪个人。确认对话框示出呼叫过谁。

这里描述一个示例,其中智能电话的地址薄仅包含三个条目。应当理解, 这仅是用于阐述目的,并不意味着任何方式的限制。智能手机上的典型地址薄 或者联系人列表可包含数百个或者更多的姓名。

在本示例中,智能手机的地址薄包括以下三个条目:

WangDaWen王大文

WangLiTao王力涛

WangPei王佩

初始用户模型将生成包含这些姓名的变形的语法。在某些方言(例如中国 话)中,具有三个或更多个元素的姓名(例如,王大文)被简单叫为两个元素 (例如,大文)是普遍的。对于具有两个元素的姓名(例如,李伟)通常叫为 全名(例如,李伟)。人们还可称呼某人为“老”或者“小”并将其加到姓之前。不 称呼某人的全名(例如,张亚欣),而是可将其简单称为Lao Zhang(老张)或 者包清风可以称为Xiao Bao(小包)。在某人姓名的文本形式和称呼同一人(或 位置)的用户使用的口头表述之间存在不同之处。这一部分是由于条目获取自 可使用人们的正式姓名而不是更为通用的正式姓名的变形的电子邮件的联系人 列表。

现在参考图2A,给出三个姓名王大文、王力涛和王佩,通过包含下述元素 的初始用户模型生成语法:

王大文,老王,小王,大文

王力涛,老王,小王,力涛;

王佩,老王,小王

王大文也称为老王(老),小王(小)以及大文(三元素姓名的两元素变形)。 类似地,王力涛也称为老王(老),小王(小)以及力涛(三元素姓名的两元素 变形)。王佩也称为老王(老),小王(小)和王佩(两元素全名)。由此,初始 语法包括总共12个项。

在使用时,用户12可能会说“拨叫老王”。这被语音识别元件14接收并转 换成文本。将该文本提供给智能姓名发号管理器16。智能姓名拨号管理器16 将姓名“老王”转发到用户模型18中的语法。用户模型18返回三个可能拨叫的 姓名(王大文,王力涛,王佩)。将这三个可能的姓名匹配提供给用户拨叫预测 元件20,该用户拨叫预测元件确定用户必须选择三种可能之一。将该信息转发 到响应生成元件22,该响应生成元件22将向用户12提供选择三种可能之—进 行拨叫的通信。对于智能手机用户,当用户说出命令“拨叫老王”时,智能手机 将返回示出三个可能的老王选项的屏幕。用户可以接着说出期望的姓名(王大 文)。

用户12将选择三种可能之一(例如,王大文)并接入呼叫。该用户选择进 一步用于更新用户模型18,即,当用户提到老王时,用户想要的是王大文。用 户模型18中的语法被更新以使得王大文也被称为老王,而王大文的其他变形条 目(小王条目和大文条目)则从语法中移除。

当用户12可能说出“拨叫力涛”时进行类似的过程。“拨叫力涛”被语音识别 元件14接收并转换成文本。将该文本提供给智能姓名拨号管理器16。智能姓 名拨号管理器16将姓名“力涛”转发用户模型18中的语法。用户模型18返回 要拨叫的姓名(王力涛)。该姓名被提供给用户拨叫预测元件20,该用户拨叫 预测元件确定用户想要拨叫王力涛。将该信息转发到响应生成元件22,该响应 生成元件22将向用户12提供拨叫王力涛的通信。

该用户选择进一步用于更新用户模型18,即,当用户提到力涛时,用户想 要的是王力涛。用模型18中的语法被更新,以使得王力涛也被称为力涛,而 王力涛的其他变形条目(小王条目和老王条目)则从语法中移除。

对于第三个联系人,用户12可说出“拨叫小王”。“拨叫小王”被语音识别 元件14接收并转换成文本。该文本被提供给智能姓名拨号管理器16。智能姓 名拨号管理器16将姓名“小王”转发到用户模型18中的语法。用户模型18返回 拨叫的姓名(王佩)。该姓名被提供给用户拨叫预测元件20,该用户拨叫预测 元件确定用户想要拔叫王佩。该信息被转发到响应生成元件22,该响应生成元 件22将向用户12提供拨叫王佩的通信。

该用户选择进一步用于更新用户模型18,即,当用户提到小王时,用户想 要的是王佩。用于更新用户模型的规则考虑了多个因素,包括用户何时拨叫姓 名,用户多少次拨叫该姓名,以及使用哪个口头表述拨叫姓名。最初,用户模 型将覆盖所有可能的口头表述,之后,用户模型将根据用户输入持续更新。

如图2B所示,用户模型18中的语法被更新以使得王佩也称为小王,而王 佩的其他变形条目(小王条目和王佩条目)则从语法中移除。地址薄中的语法 项变为:

王大文,老王

王力涛,力涛

王佩,小王

通过自动移除冗余的初始语法项,全部的语法项从11项变为6项。如果地 址薄或联系人列表具有特定大小限制,那么这种方式可能具有其它的优点。下 次,如果用户说“拨叫老王”,系统将直接去拨叫王大文。

上面描述的例子也适用于其他语音激活功能,例如从GPS设备请求路径, 从音乐播放器请求特定音乐家的音乐,或者请求特定流派的音乐。

图3中描述了当前公开的方法100的特定实施例的流程图。矩形元件这里 表示“过程框”并表示计算机软件指令或者指令组。可选地,过程框表示由诸如 数字信号处理电路或者专用集成电路(ASIC)的功能等效电路执行的步骤。流 程图并没有描述任何特定编程语言的句型。而是,流程图示出了本领域技术人 员需要制造电路或者生成执行根据本发明需要的处理的计算机软件的功能信 息。应当注意,未示出许多例行程序元素,例如初始化循环和变量以及使用临 时变量。对于本领域技术人员来说,除非这里指出,所描述的步骤的特定顺序 仅是示例性的,并且可以在不脱离本发明精神的条件下进行变化。因此,除非 另有说明,下面描述的步骤是无序的,也就是说,如果可能,这些步骤可以按 任何方便或期望的顺序执行。

现在参考图3,示出提供语音激活姓名拨号服务的方法的特定实施例。方 法100开始于过程框102,其公开了从语音激活操作中使用的姓名的集合提供 语法,语法包括姓名和姓名的变形。如过程框104中所示,名字的变形包括由 两元素姓名和三元素姓名构成的组中之一的变形。如过程框106中所示,在特 定实施例中,姓名是中国方言。

例如,智能手机的地址薄中包含下述三个条目:

WangDaWen王大文

WangLiTao王力涛

WangPei王佩

给定三个姓名王大文、王力涛和王佩,通过包含下述元素的初始用户模型 生成语法:

王大文,老王,小王,大文

王力涛,老王,小王,力涛

王佩,老王,小王

过程框108记载了在语法中将姓名的一个优选变形与该姓名相关联。如过 程框110所示,在语法中使姓名的一个优选变形与该姓名相关联是基于用户输 入和用户历史。用户12可以说出“拨叫老王”,并且三种可能拨叫的姓名(王大 文、王力涛和王佩)被呈现给用户。基于用户历史和反馈,将姓名的一个优选 变形关联到姓名。

过程框112记载了接收姓名的优选变形,并使用与变形相关联的姓名来执 行任务。过程框114示出,其中的任务包括与另一个人或者应用通信。如过程 框116中所示,使用与变形相关联的姓名来执行任务包括:向用户提供对话框。 如过程框118中进一步示出的,对话框选自由选择对话框、拨叫对话框和确认 对话框构成的组。选择对话框将示出与请求的联系人相匹配的联系人列表,并 将其呈现给用户(或者以可视形式,或者以音频形式),使得用户从呈现的联系 人列表中选择期望的联系人。拨号对话框将示出正在呼叫的那个人。确认对话 框将示出呼叫过谁。参考前述示例,用户将从三种可能中选择—种(例如,王 大文)并接入呼叫。

处理继续进行到过程框126,其公开了修改语法以使得该姓名仅有一个姓 名变形。该用户选择进一步用于更新用户模型,在用户提到小王时,用户想要 呼叫的是王佩。用户模型18中的语法被更新以使得王佩也称为小王,而王佩的 其他变形条目(小王条目和王佩条目)从语法中移除。这导致节省语法和联系 人列表使用的存储空间,以使得额外的联系人能够被力入到现有联系人列表。

VAND是蜂窝电话上使用的最普通的特征之一。上述提供改进语音激活功 能的方面和装置增强了系统性能和用户体验,使得设备使用起来更简单和高效。 虽然关于蜂窝电话对其进行描述,应认识到其他用途(车载电话呼叫,或者使 用全球定位(GPS)系统,或者根据特定音乐家从音乐播放器中请求音乐,或 者从音乐播放器中请求特定类型的音乐)也能包含在本发明中。

对“一个微处理器”和“一个处理器”,或者“所述微处理器”和“所述处理器” 的引用,可理解为包括一个或多个可独立通信和/或在分布式环境中可通信的微 处理器,并且可被配置为通过有线或无线方式与其他处理器通信,其中,这种 一个或多个处理器可被配置为在一个或多个处理器控制的设备上操作,处理器 控制的设备是类似或者不同的设备。这种“微处理器”或者“处理器”的术语的使 用也因此被理解为包括中央处理单元、算术逻辑单元、专用集成电路(ASIC) 和/或任务引擎,这些例子被提供用于示例而非限制。

进一步地,对于存储器的提及,除非另有说明,可包括一个或多个处理器 可读和可接入存储元件和/或组件,其可以在处理器控制设备内部,处理器控制 设备外部,和/或可使用各种通信协议通过有线或无线网络接入,并且除非另有 说明,可被布置为包含外部和内部存储设备的组合,其中,这些存储没备可以 基于应用连续和/或分割。相应地,对于数据库的提及可理解为包括一个或多个 存储关联,其中这种提及可包括商业上可用的数据库产品(例如,SQL、 Informix、Oracle)以及专有数据库,并且还可以包括用于关联存储器(例如链 接、队列、图形、树)的其他结构,并且这些结构用于示例而非限制。

对于网络的引用,除非另有说明,可包括一个或多个内部网和/或因特网, 以及虚拟网络。根据以上内容,这里对微处理器指令或微处理器可执行指令的 引用可理解为包括可编程硬件。

除非另有说明,术语“基本上”的使用可理解为包含准确的关系、条件、布 置、朝向、和/或其他特性,并且其偏差,如本领域技术人员理解的,为这种偏 差不实质上影响公开的方法和系统的程度。

遍及本公开全文,使用冠词“a”或者“an”来修饰名词可理解为仅为了方便, 并且包括一个或多于一个修饰的名词,除非另有说明。

被描述和/或在附图另外示出的元件、组件、模块和/或部分关联、基于其他 物品和/或与其通信,可理解为以直接和/或间接方式关联、基于和/或与其通信, 除非另有描述。

虽然关于其特定实施例描述了方法和系统,但这不是限制性的。显然许多 变形和修改根据上述教导是显而易见的。本领域技术人员可做出细节、材料和 这里描述和示出的组件布置中的许多另外的变化。

已经描述了本发明的优选实施例,然而对于本领域技术人员来说显而易见 的是可以使用其他包含这些思想的实施例。此外,作为发明—部分的软件可以 包含在计算机程序产品中,所述计算机程序产品包括计算机可用介质。例如, 这类计算机可用介质可包括可读存储没备、例如硬盘驱动设备、CD-ROM、 DVD-ROM,或者其上存储有计算机可读程序代码段的计算机磁盘。计算机可 用介质也可以包括通信链路,光学、有线或者无线的,其上承载有程序代码段 作为数字或者模拟信号。相应地,认为本发明不应限于描述的实施例,而是应 当仅限于所附权利要求的精神和范畴。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号