首页> 中国专利> 用于已识别语音发起动作的视觉确认

用于已识别语音发起动作的视觉确认

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本文所述的技术提供了被配置成提供计算设备已识别到语音发起动作的指示的计算设备。在一个示例中，提供了一种用于由所述计算设备输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于显示的方法。该方法进一步包括由所述计算设备接收音频数据并由所述计算设备基于音频数据来确定语音发起动作。该方法还包括在接收到附加音频数据的同时且在基于所述音频数据来执行所述语音发起动作之前输出已更新的话音识别GUI以用于显示，在所述已更新的话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

著录项

公开/公告号CN105453025A

专利类型发明专利
公开/公告日2016-03-30

原文格式PDF
申请/专利权人谷歌公司;
展开▼

申请/专利号CN201480042936.9
发明设计人亚历山大·法贝格;彼得·恩古;
展开▼

申请日2014-06-19
分类号G06F3/16(20060101);G10L15/22(20060101);
代理机构11219 中原信达知识产权代理有限责任公司;
代理人周亚荣;安翔
地址美国加利福尼亚州
入库时间 2023-12-18 15:07:46

法律信息

法律状态公告日

法律状态信息

法律状态
2020-06-23

未缴年费专利权终止 IPC(主分类):G06F3/16 授权公告日:20181002 终止日期:20190619 申请日:20140619

专利权的终止
2018-10-02

授权

授权
2018-02-06

著录事项变更 IPC(主分类):G06F3/16 变更前: 变更后: 申请日:20140619

著录事项变更
2016-04-27

实质审查的生效 IPC(主分类):G06F3/16 申请日:20140619

实质审查的生效
2016-03-30

公开

公开

说明书

背景技术

某些计算设备(例如，移动电话、平板计算机、个人数字助理等)可以是语音激活的。可以借助于诸如人类语音的音频数据来控制语音激活计算设备。此类计算设备提供用以检测话音、确定检测到的话音所指示的动作、以及执行所指示动作的功能。例如，计算设备可接收与语音命令相对应的音频输入，该语音命令诸如“搜索”、“导航”、“播放”、“暂停”、“呼叫”等。在这种情况下，计算设备可使用话音识别技术来分析音频输入以确定命令且然后执行与命令相关联的动作(例如，提供搜索选项、执行地图应用、开始播放媒体文件、停止播放媒体文件、拨打电话等)。这样，语音激活计算设备可以为用户提供在不使用用户的手的情况下操作计算设备的一些特征的能力。

发明内容

在一个示例中，本公开针对一种用于由计算设备输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于显示的方法。该方法还包括由所述计算设备接收音频数据。该方法还包括由所述计算设备基于所述音频数据来确定语音发起动作。该方法还包括在接收到附加音频数据的同时且在基于所述音频数据来执行所述语音发起动作之前输出已更新话音识别GUI以用于显示，在所述已更新话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

在另一示例中，本公开针对一种计算设备，包括显示设备和一个或多个处理器。所述一个或多个处理器可操作输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于在所述显示设备处显示。所述一个或多个处理器可操作用于接收所述音频数据并基于所述音频数据来确定语音发起动作。所述一个或多个处理器还被配置成在接收到附加音频数据的同时且在基于所述音频数据来执行所述语音发起动作之前输出已更新话音识别GUI以用于显示，在所述已更新话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

在另一示例中，本公开针对一种用指令编码的计算机可读存储介质，所述指令当由计算设备的一个或多个处理器执行时使得所述一个或多个处理器输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于显示。所述指令还使得所述一个或多个处理器接收音频数据并基于所述音频数据来确定所述语音发起动作。所述指令还使得所述一个或多个处理器在接收到附加音频数据的同时且在基于所述音频数据来执行所述语音发起动作之前输出所述已更新话音识别GUI以用于显示，在所述已更新话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

在附图和以下描述中阐述了一个或多个示例的细节。根据本描述和附图以及根据权利要求，本公开的其它特征、对象、以及优点将变得显而易见。

附图说明

图1是图示出根据本公开的一个或多个方面的被配置成提供图形用户界面的示例性计算设备的概念图，所述图形用户界面提供已识别语音发起动作的视觉指示。

图2是图示出根据本公开的一个或多个方面的用于提供包括已识别语音发起动作的视觉指示的图形用户界面的示例计算设备的框图。

图3是图示出根据本公开的一个或多个技术的输出图形内容以用于在远程设备处显示的示例计算设备的框图。

图4A至4D是图示出根据本公开的一个或多个技术的用于导航示例的计算设备的示例图形用户界面(GUI)的屏幕快照。

图5A至5B是图示出根据本公开的一个或多个技术的用于媒体播放示例的计算设备的示例GUI的屏幕快照。

图6是图示出根据本公开的一个或多个技术的可以将元素变体成基于不同的语音发起动作的一系列示例视觉格式的概念图。

图7是图示出根据本公开的一个或多个技术的用于计算设备视觉地确认已识别语音发起动作的示例过程的流程图。

具体实施方式

一般地，本公开针对计算设备可用来提供基于接收到的音频数据确定的语音发起动作的视觉确认的技术。例如，在某些实施方式中，计算设备可以从音频输入设备(例如，麦克风)接收音频数据、转录音频数据(例如，话音)、确定音频数据是否包括语音发起动作的指示且如果是这样的话提供所指示动作的视觉确认。通过输出语音发起动作的视觉确认，计算设备因此可使得用户能够更容易地且快速地确定计算设备是否已经正确地识别并且将要执行语音发起动作。

在某些实施方式中，计算设备可通过改变与语音发起动作相对应的元素的视觉格式来提供已识别语音发起动作的视觉确认。例如，计算设备可以以第一视觉格式输出元素。响应于确定与特定语音发起动作相对应的接收到的音频数据的转录的一个或多个单词中的至少一个单词，计算设备可将元素的视觉格式更新成不同于第一视觉格式的第二视觉格式。因此，这些视觉格式之间的可观察差别可提供用户可用来视觉地确认语音发起动作已被计算设备识别且计算设备将执行语音发起动作的机制。该元素可以是例如一个或多个图形图标、图像、文本(基于例如，接收音频数据的转录)的单词或其任何组合。在某些示例中，所述元素是交互式用户界面元素。因此，根据本文所述的技术配置的计算设备可改变输出元素的视觉外观以指示计算设备已经识别到与由计算设备接收到的音频数据相关联的语音发起动作。

图1是图示出根据本公开的一个或多个方面的被配置成提供图形用户界面16的示例计算设备2的概念图，所述图形用户界面16提供已识别语音发起动作的视觉指示。计算设备2可以是移动设备或固定设备。例如，在图1的示例中，计算设备2被图示为诸如智能电话的移动电话。然而，在其它示例中，计算设备2可以是桌面型计算机、主机、平板计算机、个人数字助理(PDA)、膝上型计算机、便携式游戏设备、便携式媒体播放器、全球定位系统(GPS)设备、电子书阅读器、眼镜、手表、电视平台、汽车导航系统、可穿戴计算平台、或另一类型的计算设备。

如图1中所示，计算设备2包括用户界面设备(UID)4。计算设备2的UID4可充当用于计算设备2的输入设备或输出设备。可使用各种技术来实现UID4。例如，UID4可充当使用存在敏感输入显示器的输入设备，该存在敏感显示器诸如电阻触摸屏、表面声波触摸屏、电容触摸屏、投射式电容触摸屏、压力敏感屏幕、声学脉冲识别触摸屏、或另一存在敏感显示技术。UID4可充当使用任何一个或多个显示设备来充当输出(例如，显示)设备，所述显示设备诸如液晶显示器(LCD)、点矩阵显示器、发光二极管(LED)显示器、有机发光二级管(OLED)显示器、电子墨、或者能够向计算设备2的用户输出可见信息的类似单色或彩色显示器。

计算设备2的UID4可包括存在敏感显示器，其可从例如计算设备2的用户接收触觉输入。UID4可通过检测来自计算设备2的用户的一个或多个手势(例如，用户用手指或触针笔来触摸或指向UID4的一个或多个位置)来接收触觉输入的指示。UID4可例如在存在敏感显示器处向用户呈现输出。UID4可将输出呈现为可与由计算设备2提供的功能相关联的图形用户界面(例如，用户界面16)。例如，UID4可呈现在计算设备2处执行或者可被计算设备2访问的应用(例如，电子消息应用、导航应用、因特网浏览器应用、媒体播放器应用等)的各种用户界面。用户可与应用的相应用户界面相交互以使得计算设备2执行与功能相关的操作。

图1中所示的计算设备2的示例还包括麦克风12。麦克风12可以是计算设备2的一个或多个输入设备中的一个。麦克风12是用于接收诸如音频数据的听觉输入的设备。麦克风12可从用户接收包括话音的音频数据。麦克风12检测到音频并向计算设备2的其它组件提供相关音频数据以用于处理。除麦克风12之外，计算设备2还可包括其它输入设备。

例如，改变与语音命令(例如，“语音发起动作”)相对应的所转录的文本的一部分，使得与该语音命令相对应的所转录的文本的该部分的视觉外观不同于不与该语音命令相对应的所转录的文本的视觉外观。例如，计算设备2在麦克风12处接收音频数据。话音识别模块8可转录包括在音频数据中的话音，其可以是与接收到的音频数据实时地或者近实时地。计算设备2输出与所转录的话音相对应的非命令文本20以用于显示。响应于确定与命令相对应的被转录的话音的一部分，计算设备2可提供该话音部分被识别为语音命令的至少一个指示。在某些示例中，计算设备2可执行在语音发起动作中识别的动作。如本文所使用的“语音命令”也可称为“语音发起动作”。

为了指示计算设备2识别到音频数据内的语音发起动作，计算设备2可改变与该语音命令相对应的所转录的文本的一部分(例如，命令文本22)的视觉格式。在某些示例中，计算设备2可改变与该语音命令相对应的所转录的文本部分的视觉外观，使得该视觉外观不同于并不与语音命令相对应的所转录的文本的视觉外观。为了简单起见，与语音发起动作相关联或者被识别为语音发起动作的任何文本在本文中被称为“命令文本”。同样地，并未与语音发起动作相关联或者被识别为语音发起动作的任何文本在本文中被称为“非命令文本”。

与语音发起动作相关联的文本(例如，命令文本22)的字体、色彩、大小、或其它视觉特性可不同于与非命令话音相关联的文本(例如，非命令文本20)。在另一示例中，命令文本22可被以某种方式突出显示，而非命令文本20未被突出显示。UI设备4可改变文本的视觉格式的任何其它特性，使得转录命令文本22在视觉上不同于转录非命令文本20。在其它示例中，计算设备2可以使用对本文所述的命令文本22的视觉外观的改变或变更的任何组合来在视觉上将命令文本22与非命令文本20区别开。

在另一示例中，计算设备2可作为所转录的文本的替代或除所转录的文本之外还输出诸如图标24或其它图像的图形元素以用于显示。如本文所使用的术语“图形元素”是指在图形用户界面内显示的任何视觉元素，并且也可称为“用户界面元素”。该图形元素可以是指示动作计算设备2当前正在执行或者可执行的图标。在本示例中，当计算设备2识别到语音发起动作时，用户界面(“UI”)设备模块6使得图形元素24从第一视觉格式变成第二视觉格式，其指示计算设备2已经识别到语音发起动作。以第二视觉格式的图形元素24的图像可与语音发起动作相对应。例如，UI设备4可以以第一视觉格式显示图形元素24，而计算设备2正在接收音频数据。第一视觉格式可以是例如具有麦克风的图像的图标24。响应于确定音频数据包含请求到特定地址的路线指引的语音发起动作，例如，计算设备2使得图标24从第一视觉格式(例如，麦克风的图像)变成第二视觉格式(例如，指南针箭头的图像)。

在某些示例中，响应于识别到语音发起动作，计算设备2输出与语音发起动作相对应的新图形元素。例如，并非自动地采取与语音发起动作相关联的动作，本文所述的技术可使得计算设备2能够首先提供语音发起动作的指示。在某些示例中，根据本公开的各种技术，计算设备2可被配置成更新图形用户界面16，使得基于包括语音发起动作的已识别指示的音频数据以不同的视觉格式呈现元素。

除UI设备模块6之外，计算设备2还可包括话音识别模块8和语音激活模块10。模块6、8、和10可使用常驻于计算设备2中并在其上面执行的软件、硬件、固件或硬件、软件以及固件的混合体来执行所述的动作。计算设备2可用多个处理器来执行模块6、8、和10。计算设备2可将模块6、8、和10作为在底层硬件上执行的虚拟机执行。模块6、8、和10可作为操作系统、计算平台的一个或多个服务而执行。模块6、8、和10可作为诸如由基于云和/或集群的计算系统提供的一个或多个服务的一个或多个远程计算服务而执行。模块6、8、和10可以作为计算平台的应用层处的一个或多个可执行程序而执行。

计算设备2的话音识别模块8可从例如麦克风12接收音频数据的一个或多个指示。使用话音识别技术，话音识别模块8可分析并转录包括在音频数据中的话音。话音识别模块8可将被转录的话音提供给UI设备模块6。UI设备模块6可指令UID4输出诸如GUI16的非命令文本20的与被转录的话音有关的文本以用于显示。

计算设备2的语音激活模块10可从例如话音识别模块8接收来自在麦克风12处检测到的音频数据的被转录的话音的文本字符。语音激活模块10可分析所转录的文本以确定其是否包括激活语音发起动作的关键词或短语。一旦语音激活模块10识别到与语音发起动作相对应的单词或短语，则语音激活模块10使得UID4在用户界面16内以第二、不同视觉格式显示图形元素以指示语音发起动作已被成功地识别。例如，当语音激活模块10确定了与语音发起动作相对应的所转录的文本中的单词时，UID4将该单词的输出从第一视觉格式(其可以是与转录非命令文本20的其余部分相同的视觉格式)变成第二、不同视觉格式。例如，与语音发起动作相对应的关键词或短语的视觉特性风格不同于并不与语音发起动作相对应的其它单词，以指示计算设备2识别到语音发起动作。在另一示例中，当语音激活模块10识别到语音发起动作时，包括在GUI16中的图标或其它图像从一个视觉格式变体成另一视觉格式。

UI设备模块6可使得UID4呈现用户界面16。用户界面16包括在UID4的各种位置处显示的图形指示(例如，元素)。图1在用户界面16内将图标24图示为一个示例图形指示。图1还在用户界面16内将图形元素26、28以及40图示为图形指示的示例以用于选择选项或执行与在计算设备2处执行的应用相关的附加功能。UI模块6可接收将在用户界面16处以第一视觉格式显示的图形元素识别为与语音发起动作相对应或与之相关联的信息作为来自语音激活模块10的输入。响应于计算设备2将图形元素识别为与语音发起动作相关联，UI模块6可以更新用户界面16以将图形元素从第一视觉格式变成第二视觉格式。

UI设备模块6可充当计算设备2的各种组件之间的媒介以基于由UID4检测到的输入来进行确定并生成由UID4呈现的输出。例如，UI模块6接收音频数据的所转录的文本字符作为来自话音识别模块8的输入。UI模块6使得UID4在用户界面16处以第一视觉格式来显示所转录的文本字符。UI模块6接收将文本字符的至少一部分识别为与来自语音激活命令10的命令文本相对应的信息。基于该识别信息，UI模块6显示与以第二视觉格式的语音命令或另一图形元素相关联的文本，所述第二视觉格式不同于最初用来显示命令文本或图形元素的第一视觉格式。

例如，UI模块6接收将所转录的文本字符的一部分识别为与语音发起动作相对应的信息作为来自语音激活模块10的输入。响应于语音激活模块10确定该所转录的文本部分与语音发起动作相对应，UI模块6改变所转录的文本字符的一部分的视觉格式。也就是说，UI模块6响应于将图形元素识别为与语音发起动作相关联而将图形元素从第一视觉格式变成第二视觉格式。UI模块6可使得UID4呈现已更新用户界面16。例如，GUI16包括与语音命令相关的文本，命令文本22(即，“收听”)。响应于语音激活模块10确定“收听”与命令相对应，UI设备4将GUI16更新成以第二格式显示命令文本22，该第二格式不同于非命令文本20的其余部分的格式。

在图1的示例中，用户界面16分叉成两个区域：编辑区18-A和动作区18-B。编辑区18-A和动作区18-B可包括诸如所转录的文本、图像、对象、超链接、文本的字符、菜单、字段、虚拟按钮、虚拟键等图形元素。如本文所使用的任何上列图形元素可以是用户界面元素。图1示出了用于用户界面16的仅一个示例布局。可以有其中用户界面16在布局、区域数目、外观、格式、版本、色彩方案、或其它视觉特性中的一个或多个方面不同的其它示例。

编辑区18-A可以是被配置成接收输入或输出信息的UI设备4的区域。例如，计算设备2可接收话音识别模块8识别为话音的语音输入，并且编辑区18-A输出由语音输入有关的信息。例如，如图1中所示，用户界面16在编辑区18-A中显示非命令文本20。在其它示例中，编辑区18-A可更新以基于触摸或基于手势的输入为基础而显示的信息。

动作区18-B可以是被配置成接受来自用户的输入或者提供计算设备2在过去已采取、当前正在采取、或者将采取的动作的指示。在某些示例中，动作区18-B包括图形键盘，其包括被显示为键的图形元素。在某些示例中，在计算设备2处于话音识别模式的同时，动作区18-B将不包括图形键盘。

在图1的示例中，计算设备2输出用户界面16以用于显示，该用户界面16包括可以以指示计算设备2已识别到语音发起动作的视觉格式显示的至少一个图形元素。例如，UI设备模块6可生成用户界面16并在用户界面16中包括图形元素22和24。UI设备模块6可向UID4发送信息，该信息包括用于在UID4的存在敏感显示器5处显示用户界面16的指令。UID4可接收该信息并使得UID4的存在敏感显示器5呈现用户界面16，其包括可改变视觉格式以提供语音发起动作已被识别的指示的图形元素。

用户界面16包括在UID4的各种位置处显示的一个或多个图形元素。如图1的示例中所示，在编辑区18-A和动作区18-B中显示许多图形元素。在本示例中，计算设备2处于话音识别模式，意味着麦克风12被开启以接收音频输入且话音识别模块8被激活。语音激活模块10在话音识别模式下也可以是活动的以便检测语音发起动作。当计算设备2并未处于话音识别模式时，话音识别模块8和语音是被模块10可能不是活动的。为了指示计算设备2处于话音识别模块且正在收听，可在区域18-B中显示单词“正在收听……”。如图1中所示，图标24在麦克风的图像中。

图标24指示计算设备2处于话音识别模式(例如，可接收音频数据，诸如口语单词)。UID4在GUI16的动作区18-B中显示使得能够选择用户正在说出的语言的语言元素26，使得话音识别模块8可以用正确的语言来转录用户的话语。GUI16包括下拉菜单28以提供用以改变话音识别模块8用来转录音频数据的语言的选项。GUI16还包括虚拟按钮30以提供用以取消计算设备2的话音识别模式的选项。如图1中所示，视觉按钮30包括单词“完成”以指示其结束话音识别模式的目的。下拉菜单28和虚拟按钮30两者都可以是诸如触摸目标的用户交互式图形元素，其可以基于在UI设备4处接收到的输入而被触发、转换或者以其他方式与其相交互。例如，当用户正在说话时，用户可在虚拟按钮30的区域处或附近敲击用户界面16以使计算设备2从话音识别模式转换出来。

话音识别模块8可转录用户说出或者以其他方式输入到计算设备2中的单词。在一个示例中，用户说出“我想要收听爵士乐...”。直接地或间接地，麦克风12可提供与包含向话音识别模块8说出的单词的音频数据相关的信息。话音识别模块8可应用与所选语言(例如，英语，如语言元素26中所示)相对应的语言模型以转录音频数据。话音识别模块8可向UI设备4提供与转录相关的信息，该UI设备4进而又可在编辑区18-A中在用户界面16处输出非命令文本20的字符。

话音识别模块8可将所转录的文本提供给语音激活模块10。语音激活模块10可以回顾针语音发起动作的所转录的文本。在一个示例中，语音激活模块10可确定短语“我想要收听爵士乐”中的单词“收听”指示或描述语音发起动作。该单词与收听某种东西相对应，语音激活模块10可将其确定为意指收听音频文件。基于语句的场境，语音激活模块10确定用户想要收听爵士乐。因此，语音激活模块10可触发包括打开媒体播放器并使得媒体播放器播放爵士乐的动作。例如，计算设备2可播放存储在可被计算设备2访问的存储器设备上的被识别为爵士乐流派的唱片。

响应于识别到单词“收听”指示语音发起动作，语音激活模块10直接地或间接地为UID4提供将“收听”识别为与语音发起动作相对应的信息。UID4然后改变在用户界面16处显示的至少一个图形元素的视觉格式以指示语音发起动作已被识别。如图1的示例中所示，口语单词“收听”已被识别为语音命令。

图1图示出与单词“我想要”和“爵士乐”不同的视觉格式的文本“收听”相关的图形元素。图1图示出显示所转录的文本字符20和语音发起动作文本22(在本文中也称为“命令文本22”)的编辑区18-A。命令文本22是与被话音识别模块8转录且被语音激活模块10识别为语音命令的语音发起动作相对应的图形元素。命令文本22可在视觉上不同于文本字符20中的非命令文本。例如，图1将命令文本22(例如，“LISTENTO”)图示为用大写字母写且带下划线，而非命令文本20一般地是小写字母且不带下划线(例如，“我想要”和“爵士乐”)。

在另一示例中，图标24的视觉格式可在检测到语音发起动作时改变。在图1中，图标24在麦克风的图像中。图标24最初可具有此图像，因为计算设备2处于话音识别模式。响应于语音激活模块10确定音频数据包含语音发起动作，UID4可改变图标24的视觉格式。例如，UID4可将图标24变成具有与语音发起动作所请求的动作相关的视觉格式。在本示例中，图标24可从第一视觉格式(例如，麦克风)变成与语音发起动作相关的视觉格式(例如，用于播放媒体文件的播放图标)。在某些示例中，图标24可经历两个视觉格式之间的动画变化。

以这种方式，本公开的技术可使得计算设备2能够更新话音识别图形用户界面16，其中基于包括语音发起动作的已识别指示的音频数据而以不同的视觉格式呈现命令文本22和图标24中的一者或两者。本公开的技术可使得计算设备2能够提供语音发起动作已被识别并将要或正在被采取的指示。本技术可进一步使得用户能够验证或确认要采取的动作是用户利用其语音命令想要计算设备2采取的动作，或者在动作不正确的情况下或者由于任何其它原因而取消动作。配置有这些特征的计算设备2可以为用户提供语音发起动作正在或者可被实现的增加的置信度。这可改善用户对计算设备2及其话音识别特征的总体满意度。所述技术可用根据本公开的各种技术配置的计算设备的语音控制来改善用户的体验。

图2是图示出根据本公开的一个或多个方面的，用于提供包括已识别语音发起动作的视觉指示的图形用户界面的示例计算设备2的框图。下面在图1的背景内描述图2的计算设备2。图2图示出计算设备2的仅一个特定示例，并且在其它情况下可使用计算设备2的许多其它示例。计算设备2的其它示例可包括被包括在示例性计算设备2中的组件的子集，或者可包括图2中未示出的附加组件。

如图2的示例中所示，计算设备2包括用户界面设备4(“UID4”)、一个或多个处理器40、一个或多个输入设备42、一个或多个麦克风12、一个或多个通信单元44、一个或多个输出设备46、以及一个或多个存储设备48。计算设备2的存储设备48还包括UID模块6、话音识别模块8、语音激话模块10、应用模块14A-14N(统称为“应用模块14”)、语言数据库56、以及动作数据存储58。一个或多个通信信道50可将组件4、40、42、44、46、以及48中的每一个互连以用于组件间通信(在物理上、在通信上、和/或在操作上)。在某些示例中，通信信道50可包括系统总线、网络连接、进程间通信数据结构、或用于传递数据的任何其它技术。

计算设备2的一个或多个输入设备42可接收输入。输入的示例是触觉、运动、音频、以及视频输入。计算设备2的输入设备42在一个示例中包括存在敏感显示器5、触敏屏幕、鼠标、键盘、语音响应系统、摄像机、麦克风(诸如麦克风12)或用于检测来自人类或机器的输入的任何其它类型的设备。

计算设备2的一个或多个输出设备46可生成输出。输出的示例是触觉、音频、电磁、以及视频输出。在一个示例中，计算设备2的输出设备46包括存在敏感显示器、扬声器、阴极射线管(CRT)监视器、液晶显示器(LCD)、马达、致动器、电磁体、压电传感器、或用于向人类或机器生成输出的任何其它类型的设备。输出设备46可利用声卡或水平图形适配卡中的一个或多个来分别产生听觉或视觉输出。

计算设备2的一个或多个通信单元44可通过在一个或多个网络上发射和/或接收网络信号而经由一个或多个网络来与外部设备通信。通信单元44可连接到任何公共或私用通信网络。例如，计算设备2可使用通信单元44来在诸如蜂窝无线电网络的无线电网络上发射和/或接收无线电信号。同样地，通信单元44可在诸如全球定位系统(GPS)的全球导航卫星系统(GNNS)上发射和/或接收卫星信号。通信单元44的示例包括网络接口卡(例如，以太网卡)、光学收发器、射频收发器、GPS接收器、或可以发送或接收信息的任何其它类型的设备。通信单元44的其它示例可包括短波无线电、蜂窝式数据无线电、无线以太网无线电、以及通用串行总线(USB)控制器。

在某些示例中，计算设备2的UID4可包括输入设备42和/或输出设备46的功能。在图2的示例中，UID4可以是或者可包括存在敏感显示器5。在某些示例中，存在敏感显示器5可检测到在存在敏感显示器5处和/或附近的对象。作为一个示例范围，存在敏感显示器5可检测到在存在敏感显示器5的六厘米或少于六厘米内的诸如手指或触针笔的对象。存在敏感显示器5可确定在该处检测到对象的存在敏感显示器5的位置(例如，(x,y)坐标)。在另一示例范围中，存在敏感显示器5可检测到与存在敏感显示器5相距十五厘米或少于十五厘米的对象，并且其它范围也是可能的。存在敏感显示器5可确定由用户的手指使用电容、电感、和/或光学识别技术选择的屏幕的位置。在某些示例中，存在敏感显示器5使用如相对于输出设备46所述的触觉、音频、或视频刺激来向用户提供输出。在图2的示例中，UID4在UID4的存在敏感显示器5处呈现用户界面(诸如图1的用户界面16)。

虽然被图示为计算设备2的内部组件，但UID4还表示与计算设备2共享数据路径以用于发射和/或接收输入和输出的外部组件。例如，在一个示例中，UID4表示位于计算设备2的外包装内并被物理连接到该外包装的计算设备2的内置组件(例如，移动电话上的屏幕)。在另一示例中，UID4表示位于计算设备2的包装外面并在物理上与之分离的计算设备2的外部组件(例如，与平板计算机共享有线和/或无线数据路径的监视器、投影仪等)。

计算设备2内的一个或多个存储设备48可存储信息以便在计算设备2的操作期间处理(例如，计算设备2可将数据存储于在计算设备2处的执行期间被话音识别模块8和语音激活模块10访问的语音数据库56和动作数据存储58中)。在某些示例中，存储设备48充当临时存储器，意味着存储设备48未被用于长期存储。计算设备2上的存储设备48可作为易失性存储器被配置成用于信息的短期存储，并且因此如果被断电的话不保持存储内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、以及在本领域中已知的其它形式的易失性存储器。

在某些示例中，存储设备48还包括一个或多个计算机可读存储介质。存储设备48可被配置成存储比易失性存储器更大的信息量。存储设备48可进一步被作为非易失性存储器空间而配置成用于长期信息存储，并在通电/断电循环之后保持信息。非易失性存储器的示例包括磁性硬盘、光盘、软盘、闪速存储器、或各形式的电可编程存储器(EPROM)或电可擦可编程(EEPROM)存储器。存储设备48可存储与模块6、8、10、和14相关联的程序指令和/或数据。

一个或多个处理器40可在计算设备2内实现功能和/或执行指令。例如，计算设备2上的处理器40可接收并执行由存储设备60存储的执行UID模块6、话音识别模块8、语音激话模块10、以及应用模块14的功能的指令。由处理器40执行的这些指令可使得计算设备2在程序执行期间将信息存储在存储设备48内。处理器40可执行模块6、8、和10中的指令以使得UID4在计算设备2识别到语音发起动作时显示具有图形元素的用户界面16，该图形元素具有不同于先前视觉格式的视觉格式。也就是说，模块6、8、和10可被处理器40操作以执行各种动作，包括转录接收音频数据、针对语音发起动作而分析该音频数据、以及更新UID4的存在敏感显示器5以改变与语音发起动作相关联的图形元素的视觉格式。此外，UID模块6可被处理器40操作以执行各种动作，包括在UID4的存在敏感显示器5的位置处接收手势的指示并使得UID4在UID4的存在敏感显示器5处呈现用户界面14。

根据本公开的各方面，图2的计算设备2可在用户界面设备4处输出具有以第一视觉格式的至少一个元素的话音识别GUI。计算设备2的麦克风12接收音频数据。在基于音频数据来执行语音发起动作之前且在接收到附加音频数据的同时，UID4输出已更新话音识别GUI，其中以不同于第一视觉格式的第二视觉格式来呈现所述至少一个元素以提供已经识别到语音发起动作的指示。

计算设备2的话音识别模块8可从麦克风12接收例如在麦克风12处检测到的音频数据的一个或多个指示。一般地，麦克风12可提供所接收的音频数据或音频数据的指示，话音识别模块8可从麦克风12接收音频数据。话音识别模块8可确定与从麦克风12接收到的音频数据相对应的信息是否包括话音。使用话音识别技术，话音识别模块8可转录音频数据。如果音频数据确实包括话音，则话音识别模块8可使用语言数据库6来转录音频数据。

话音识别模块8还可确定音频数据是否包括特定用户的语音。在某些示例中，如果音频数据与人类语音相对应，则话音识别模块8确定语音是否属于计算设备2的前一用户。如果音频数据中的语音确实属于前一用户，则话音识别模块8可基于用户话音的某些特性来修改话音识别技术。这些特性可包括音调、重音、节奏、流畅、辅音、定音、共振、或话音的其它特性。考虑到关于用户话音的已知特性，话音识别模块8可改善转录用于该用户的音频数据的结果。

在其中计算设备2具有使用话音识别的多于一个用户的示例中，计算设备2可具有每个用户的简档。话音识别模块8可响应于从用户接收到附加语音输入而更新该用户的简档，以便将来改善用于该用户的话音识别。也就是说，话音识别模块8可适应于计算设备2的每个用户的特定特性。话音识别模块8可通过使用机器学习技术来适应于每个用户。话音识别模块8的这些语音识别特征对于计算设备2的每个用户而言可以是可选的。

在某些示例中，话音识别模块8转录由话音识别模块8直接地或间接地从麦克风12接收到的音频数据中的话音。话音识别模块8可向UI设备4提供与被转录的话音相关的文本数据。例如，话音识别模块8向UI设备4提供所转录的文本的字符。UI设备4可在用户界面16处输出在与被转录的话音相关的信息中识别的与被转录的话音相关的文本以用于显示。

计算设备2的语音激活模块10可从例如话音识别模块8接收来自在麦克风12处检测到的音频数据的被转录的话音的文本字符。语音激活模块10可分析所转录的文本或音频数据以确定其是否包括激活语音发起动作的关键词或短语。在某些示例中，语音激活模块10将来自音频数据的单词或短语与可以由语音激活来触发的动作列表相比较。例如，该动作列表可以是诸如运行、播放、关闭、打开、开始、电子邮件等的动词列表。语音激活模块10可使用动作数据存储58来确定单词或短语是否与动作相对应。也就是说，语音激活模块10可将来自音频数据的单词或短语与动作数据存储58相比较。动作数据存储58可包含与动作相关联的单词或短语的数据。

一旦语音发起模块10识别到激活语音发起动作的单词或短语，则语音激活模块10使得UID4在用户界面16内以第二、不同视觉格式显示图形元素以指示语音发起动作已被成功地识别。例如，当语音激活模块10确定了与语音发起动作相对应的所转录的文本中的单词时，UID4将该单词的输出从第一视觉格式(其可以是与所转录的文本的其余部分相同的视觉格式)变成第二、不同视觉格式。例如，与语音发起动作相关的关键词或短语立刻或者近似立刻地在转录的显示中采取不同风格以指示计算设备2识别到语音发起动作。在另一示例中，当计算设备2识别到语音发起动作时，图标或其它图像从一个视觉格式变体成另一视觉格式，这可以基于已识别的语音发起动作。

计算设备2可进一步包括一个或多个应用模块14-A至14-N。除在本公开中具体地描述的其它模块之外，应用模块14还可包括计算设备2可执行的任何其它应用。例如，应用模块14可包括web浏览器、媒体播放器、文件系统、地图程序、或计算设备2可包括的任何其它数目的应用或特征。

本文所述的技术可使得计算设备2能够在使用语音命令来控制计算设备2时改善用户的体验。例如，本公开的技术可使得计算设备2能够输出已准确地识别语音发起动作的视觉指示。例如，计算设备2以与并未与语音发起动作相关联的类似图形元素的视觉格式不同的视觉格式来输出与语音发起动作相关联的图形元素。此外，计算设备2指示语音发起动作已被识别，这可以为用户提供计算设备2可实现或者正在实现正确语音发起动作的增加的置信度。以第二视觉格式输出图形元素的计算设备2可改善用户对计算设备2及其话音识别特征的总体满意度。

本文所述的技术可进一步使得计算设备2能够为用户提供用以确认计算设备2是否正确地使用音频数据确定了动作的选项。在某些示例中，如果计算设备2接收到其并未正确地确定动作的指示，则其可取消动作。在另一示例中，计算设备2只有当接收到计算设备2正确地确定了动作的指示时才执行语音发起动作。本文所述的技术可改善计算设备2的性能和总体使用容易性。

图3是图示出根据本公开的一个或多个技术的，输出图形内容以用于在远程设备处显示的示例计算设备100的框图。图形内容一般地可包括可被输出以用于显示的任何视觉信息，诸如文本、图像、一组移动图像等。图3中所示的示例包括计算设备100、存在敏感显示器101、通信单元110、投影仪120、投影仪屏幕122、移动设备126、以及视觉显示设备130。虽然在图1和2中出于示例的目的被示为独立计算设备2，诸如计算设备100的计算设备一般地可以是任何组件或系统，其包括用于执行软件指令的处理器或其它适当计算环境，并且不需要包括例如存在敏感显示器。

如图3的示例中所示，计算设备100可以是包括如关于图2中的处理器40所述的功能的处理器。在此类示例中，可由可以是系统总线或其它适当连接的通信信道102A将计算设备100操作地耦合到存在敏感显示器101。如下面进一步描述的，还可由也可以是系统总线或其它适当连接的通信信道102B将计算设备100操作地耦合到通信单元110。虽然在图3作为示例单独地示出，但可由任何数目的一个或多个通信信道将计算设备100操作地耦合到存在敏感显示器101和通信单元110。

在诸如先前在图1至2中用计算设备2图示出的其它示例中，计算设备可以是指诸如移动电话(包括智能电话)、膝上型计算机等的便携式或移动设备。在某些示例中，计算设备可以是桌面型计算机、平板计算机、智能电视平台、照相机、个人数字助理(PDA)、服务器、主机等。

存在敏感显示器101(诸如图1中所示的用户界面设备4的示例)可包括显示设备103和存在敏感输入设备105。显示设备103可例如从计算设备100接收数据并显示与该数据相关联的图形内容。在某些示例中，存在敏感输入设备105可使用电容、电感、和/或光学识别技术来确定存在敏感显示器101处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并使用通信信道102将此类用户输入的指示发送到计算设备100。在某些示例中，存在敏感输入设备105可在物理上位于显示设备103的顶部上，使得当用户将输入单元定位于由显示设备103显示的图形元素上时，在该处存在敏感输入设备105与在该处显示图形元素的显示设备103的位置相对应。在其它示例中，存在敏感输入设备105可在物理上与显示设备103分开定位，并且存在敏感输入设备105的位置可与显示设备103的位置相对应，使得可以在存在敏感输入设备105处进行输入以用于与在显示设备103的对应位置处显示的图形元素相交互。

如图3中所示，计算设备100还可包括通信单元110和/或与之操作地耦合。通信单元110可包括如图2中所述的一个或多个通信单元44的功能。通信单元110的示例可包括网络接口卡、以太网卡、光学收发器、射频收发器、或可以发送和接收信息的任何其它类型的设备。此类通信单元的其它示例可包括蓝牙、3G、以及Wi-Fi无线电、通用串行总线(USB)接口等。计算设备100还可包括一个或多个其它设备和/或与一个或多个其它设备操作地耦合，所述一个或多个其他设备例如诸如图1和2中所示的那些的输入设备、输出设备、存储器、存储设备等。

图3还图示出投影仪120和投影仪屏幕122。投影设备的其它此类示例可包括电子白板、全息显示设备、以及用于显示图形内容的任何其它适当设备。投影仪120和投影仪屏幕122可包括使得各设备能够与计算设备100通信的一个或多个通信单元。在某些示例中，一个或多个通信单元可使得能够实现投影仪120与投影仪屏幕122之间的通信。投影仪120可从计算设备100接收包括图形内容的数据。投影仪120响应于接收到数据而可将图形内容投射到投影仪屏幕122上。在某些示例中，投影仪120可使用光学识别或其它适当技术来确定投影仪屏幕处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并使用一个或多个通信单元将此类用户输入的指示发送到计算设备100。在此类示例中，投影仪屏幕122可以是不必要的，并且投影仪120可将图形内容投射在任何适当介质上，并使用光学识别或其它此类适当技术来检测一个或多个用户输入。

在某些示例中，投影仪屏幕122可包括存在敏感显示器124。存在敏感显示器124可包括如在本公开中描述的UI设备4的功能的子集或所有功能。在某些示例中，存在敏感显示器124可包括附加功能。投影仪屏幕122(例如，电子白板)可从计算设备100接收数据并显示图形内容。在某些示例中，存在敏感显示器124可使用电容、电感、和/或光学识别技术来确定投影仪屏幕122处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并使用一个或多个通信单元将此类用户输入的指示发送到计算设备100。

图3还图示出移动设备126和视觉显示设备130。移动设备126和视觉显示设备130可每个都包括计算和连接能力。移动设备126的示例可包括电子阅读器设备、可转换笔记本设备、混合式平板设备等。视觉显示设备130的示例可包括诸如电视、计算机监视器等的其它半固定设备。如图3中所示，移动设备126可包括存在敏感显示器128。视觉显示设备130可包括存在敏感显示器132。存在敏感显示器128、132可包括如在本公开中所述的存在敏感显示器4的功能的子集或所有功能。在某些示例中，存在敏感显示器128、132可包括附加功能。在任何情况下，存在敏感显示器132例如可从计算设备100接收数据并显示图形内容。在某些示例中，存在敏感显示器132可使用电容、电感、和/或光学识别技术来确定投影仪屏幕处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并使用一个或多个通信单元将此类用户输入的指示发送到计算设备100。

如上所述，在某些示例中，计算设备100可输出图形内容以用于在被系统总线或其它适当通信信道耦合到计算设备100的存在敏感显示器101处显示。计算设备100还可输出图形内容以用于在诸如投影仪120、投影仪屏幕122、移动设备126、以及视觉显示设备130的一个或多个远程设备处显示。例如，根据本公开的技术，计算设备100可执行一个或多个指令以生成和/或修改图形内容。计算设备100可向计算设备100的通信单元(诸如通信单元110)输出包括图形内容的数据。通信单元110可将数据发送到诸如投影仪120、投影仪屏幕122、移动设备126、和/或视觉显示设备130的远程设备中的一个或多个。这样，计算设备100可输出图形内容以用于在远程设备中的一个或多个处显示。在某些示例中，远程设备中的一个或多个可在被包括在相应远程设备中和/或被操作地耦合到相应远程设备的存在敏感显示器处输出图形内容。

在某些示例中，计算设备100可不在被操作地耦合到计算设备100的存在敏感显示器101处输出图形内容。在其它示例中，计算设备100可输出图形内容以用于在被通信信道102A耦合到计算设备100的存在敏感显示器101和一个或多个远程设备二者处显示。在此类示例中，可基本上同时地在每个相应设备处显示图形内容。例如，将包括图形内容的数据发送到远程设备的通信时延可能引入一定的延迟。在某些示例中，由计算设备100生成并被输出以用于在存在敏感显示器101处显示的图形内容可与被输出以用于在一个或多个远程设备处显示的图形内容不同。

计算设备100可使用任何适当的通信技术来发送和接收数据。例如，可使用网络链路112A将计算设备100操作地耦合到外部网络114。可由各网络链路112B、112C、以及112D中的一个将图3中所图示的每个远程设备操作地耦合到网络外部网络114。外部网络114可包括网络集线器、网络交换机、网络路由器等，其被操作地互耦合从而提供计算设备100与图3中所图示的远程设备之间的信息交换。在某些示例中，网络链路112A至112D可以是以太网、ATM或其它网络连接。此类连接可以是无线和/或有线连接。

在某些示例中，可使用直接设备通信118将计算设备1000操作耦合到包括在图3中的远程设备中的一个或多个。直接设备通信118可包括计算设备100通过其直接地与远程设备使用有线或无线通信发送和接收数据的通信。也就是说，在直接设备通信118的某些示例中，由计算设备100发送的数据在被在远程设备处接收到之前可不被一个或多个附加设备转送，并且反之亦然。直接设备通信118的示例可包括蓝牙、近场通信、通用串行总线、Wi-Fi、红外等。可由通信链路116A至116D将图3中所图示的远程设备中的一个或多个与计算设备100操作地耦合。在某些示例中，通信链路116A至116D可以是使用蓝牙、近场通信、通用串行总线、红外等的连接。此类连接可以是无线和/或有线连接。

根据本公开的技术，计算设备100可使用外部网络114被操作地耦合到视觉显示设备130。计算设备100可输出图形键盘以用于在存在敏感显示器132处显示。例如，计算设备100可向通信单元110发送包括图形键盘的表示的数据。通信单元110可使用外部网络114向视觉显示设备130发送包括图形键盘的表示的数据。视觉显示设备130响应于使用外部网络114接收到数据而可使得存在敏感显示器132输出图形键盘。响应于用户在存在敏感显示器132处(例如，在输出图形键盘的存在敏感显示器132的区域处)执行手势，视觉显示设备130可使用外部网络114来向计算设备100发送手势的指示。通信单元110可接收手势的指示，并将该指示发送到计算设备100。

响应于接收到包括在音频数据中的话音，计算设备100可将话音转录成文本。计算设备100可使得诸如存在敏感输入显示器105、投影仪120、存在敏感显示器128、或存在敏感显示器132的显示设备中的一个以第一视觉格式输出图形元素，其可包括所转录的文本的至少一部分。计算设备100可确定话音包括语音发起动作，并使得显示设备105、120、128、或132中的一个输出与语音发起动作相关的图形元素。可以以不同于第一视觉格式的第二视觉格式来输出图形元素，以指示计算设备100已检测到语音发起动作。计算设备100可执行语音发起动作。

图4A至4D是图示出根据本公开的一个或多个技术的用于导航示例的计算设备的示例图形用户界面(GUI)的屏幕快照。图4A至4D的计算设备200可以是如上文关于图1至3所讨论的包括移动计算设备的任何计算设备。此外，计算设备200可被配置成包括本文所述特征和技术的任何子集以及附加特征和技术。图4A至4D包括可以具有不同视觉格式的图形元素204-A至204-C(统称为“图形元素204”)。

图4A描绘了具有图形用户界面(GUI)202并操作其中计算设备200可接收音频数据的状态的计算设备200。例如，诸如图1和2的麦克风12的麦克风可被初始化且能够检测包括话音的音频数据。GUI202可以是话音识别GUI。GUI202包括图形元素202和204-A。图形元素202是文本且表达“现在说话”，其可指示计算设备200能够接收音频数据。图形元素204-A是表示麦克风的图标。因此，图形元素204-A可指示计算设备200能够执行记录音频数据的动作。

图4B图示出计算设备200响应于在图4A中接收到音频数据而输出GUI206。GUI206包括图形元素204-A、208、以及210。在本示例中，计算设备200已使用例如话音识别模块8和语言数据库56来转录所接收的音频数据。如麦克风图标204—A所指示的，计算设备200可能仍在在接收附加音频数据。所转录的音频数据在图形元素208中输出为文本并包括单词“我想要导航至”。图形元素210可进一步指示计算设备200可能仍在接收附加音频数据或者话音识别模块8可能仍在转录所接收的音频数据。

GUI206包括以第一视觉格式的图形元素208。也就是说，图形元素208包括具有特定字体、大小、色彩、位置等的文本。单词“导航至”被包括作为图形元素208的一部分并以第一视觉格式呈现。同样地，GUI206包括以第一视觉格式的图形元素204-A。图形元素204-A的第一视觉格式是包括麦克风的图像的图标。图形元素204-A可指示计算设备200正在或者将要执行的动作。

图4C描绘了计算设备200输出已更新的GUI212。已更新的GUI212包括图形元素204-B、208、210、以及214。在本示例中，语音激话模块10可能已分析所转录的音频数据并识别到语音发起动作。例如，语音激活模块10可能将图形元素208中所示的所转录的文本中的一个或多个单词或短语与动作数据存储58相比较。在本示例中，语音激活模块10确定短语“导航至”与语音发起动作指令相对应。响应于检测到动作指令，语音激活模块10可能已命令UID模块6在例如存在敏感显示器5处输出已更新GUI212。

已更新的GUI212包括具有第二视觉格式的已更新的图形元素204-B。图形元素204-B是描绘箭头的图像的图标，其可与计算设备200的导航特征相关联。相反地，图形元素204-A是描绘麦克风的图标。因此，图形元素204-B具有第二视觉格式，而图形元素204-A具有第一视觉格式。图形元素204-B的图标指示计算设备200可执行语音发起动作，诸如执行导航功能。

同样地，已更新的GUI202还包括已更新的图形元素214。图形元素214包括具有除在GUI206中的之外的第二视觉格式的单词“导航至”。在GUI202中，图形元素214的第二视觉格式包括由单词周围的彩色或阴影形状提供的突出显示和单词的加粗。在其它示例中，可将“导航至”的包括大小、色彩、字体、风格、位置等的其它特性或视觉方面从第一视觉格式变成第二视觉格式图形元素214提供计算设备200已经识别到音频数据中的语音发起动作的指示。在某些示例中，GUI212提供指示计算设备2在执行该语音发起动作之前需要确认的指示的附加图形元素。

在图4D中，计算设备200自从显示GUI212以来已继续接收并转录音频数据。计算设备200输出已更新的GUI216。GUI216包括图形元素204-C、208、214、218、220、以及222。图形元素204-C已经重新采取第一视觉格式，即麦克风的图像，因为计算设备200已执行语音发起动作并在继续检测音频数据。

计算设备200在图4D中接收到并转录附加单词“Starbucks”。总而言之，在本示例中，计算设备200已检测到并转录句子“我想要导航至Starbucks”。语音激活模块10可能已确定“Starbucks”是说话者(例如，用户)希望导航到的地点。计算设备200已执行语音发起动作识别的动作，导航到Starbucks。因此，计算设备200已执行导航应用并执行对Starbucks的搜索。在一个示例中，计算设备200使用上下文信息来确定语音发起动作是什么和如何执行该动作。例如，计算设备200可能已使用计算设备200的当前位置来在基于其集中对本地Starbucks位置的搜索。

图形元素208可包括所转录的文本的仅一部分，以便在GUI216中可包括表示语音发起动作的图形元素，即图形元素214。GUI216包括示出Starbucks位置的地图图形元素220。图形元素22可包括Starbucks位置的交互式列表。

以这种方式，可更新图形元素204-B和214以指示计算设备200已经识别语音发起动作并可执行语音发起动作。根据本文所述的技术配置的计算设备200可为用户提供经由语音命令来与计算设备200相交互的改善体验。

图5A至5B是图示出根据本公开的一个或多个技术的用于媒体播放示例的计算设备的示例GUI的屏幕快照。图5A和5B的计算设备200可以是如上文关于图1至4D所讨论的包括移动计算设备的任何计算设备。此外，计算设备200可被配置成包括本文所述特征和技术的任何子集以及附加特征和技术。

图5A图示出计算设备200输出包括图形元素242、244、246、和248的GUI240。图形元素244与话音识别模块8转录的文本“我想要...”相对应，并以第一视觉格式呈现。图形元素246是被识别为语音发起动作“收听”的语音激活模块10的短语的文本，并以第二视觉格式呈现，该第二视觉格式不同于图形元素244的第一视觉格式。语音发起动作可能例如正在播放媒体文件。图形元素242-A是诸如具有播放按钮的外观的可表示语音发起动作的图标。图形元素242-A表示播放按钮，因为语音激活模块10已确定计算设备200接收到用以播放包括音频分量的媒体的语音指令。图形元素248提供计算设备200可能仍在接收、转录、或分析音频数据的指示。

图5B图示出计算设备200输出包括图形元素242-B、244、246、和248的GUI250。图形元素242-B具有与麦克风的图像相对应的视觉格式，以指示计算设备200能够接收音频数据。图形元素242-B不再具有与语音发起动作相对应的视觉格式，亦即播放按钮的图像，因为计算设备200已执行与语音发起动作相关的动作，其可以是语音发起动作。

语音激活模块10已确定语音发起动作“收听”适用于单词“杀手”，其可以是乐队。计算设备200可以已确定诸如视频或音频播放器的用以播放包括音频分量的媒体文件的应用。计算设备200还可以已确定满足要求(满足“杀手”要求)的媒体文件，所述媒体文件诸如存储在可通过诸如因特网的网络访问的本地存储设备(诸如图2的存储设备48)上的音乐文件。计算设备200已执行了执行应用以播放此类文件的任务。该应用可以是例如媒体播放器应用，其指令UID4输出GUI250，GUI250包括与用于媒体播放器应用的播放列表相关的图形元素252。

图6是图示出根据本公开的一个或多个技术的，元素可以基于不同的语音发起动作而变体的一系列示例视觉格式的概念图。该元素可以是诸如图4A—至4D、5A和5B的图形元素204和242的图形元素。该元素可改变由图像300-1至300-4、302-1至302-5、304-1至304-5、以及306-1至306-5所表示的视觉格式。

图像300-1表示麦克风，并且可以是用户界面元素的第一视觉格式。当该元素具有图像300-1的视觉格式时，诸如计算设备2之类的计算设备可以能够从诸如麦克风12的输入设备接收音频数据。响应于计算设备200确定已接收到与用以播放媒体文件的命令相对应的语音发起动作，元素的视觉格式可从图像300-1变体成图像302-1。在某些示例中，图像300-1变形成图像302-1，其可以是动画。例如，图像300-1变成图像302-1，并且在这样做时，该元素采取中间图形300-2、300-3、以及300-4。

同样地，响应于计算设备2确定在其开始播放之后已经接收到用以停止播放媒体文件的语音发起动作，计算设备2可使得元素的视觉格式从图像302-1变成图像304-1，即与停止相对应的图像。图像302-1可随着其变体成图像304-1而采取中间图像302-2、302-3、302-4、以及302-5。

同样地，响应于计算设备2确定在其开始播放之后已经接收到用以暂停播放媒体文件的语音发起动作，计算设备2可使得元素的视觉格式从图像304-1变成图像306-1，即与暂停相对应的图像。图像304-1可随着其变体成图像306-1而采取中间图像304-2、304-3、304-4以及304-5。

此外，响应于计算设备2确定未接收到附加语音发起动作已达预定时间段，计算设备2可使得该元素的视觉格式从图像306-1变回图像300-1，即与音频记录相对应的图像。图像306-1可随着其变体成图像300-1而采取中间图像306-2、306-3、306-4、以及306-5。在其它示例中，该元素可变体或改变成具有不同图像的其它视觉格式。

图7是图示出根据本公开的一个或多个技术的用于计算设备在视觉上确认已识别的语音发起动作的示例过程500的流程图。将依据图1和2的执行过程500的计算设备2来讨论过程500。然而，诸如图3、4A至4D、5A、以及5D的计算设备100或200的任何计算设备可执行过程500。

过程500包括由计算设备2输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)(诸如GUI16或202)以用于显示(510)。该元素可以是例如图标或文本。第一视觉格式可以是第一图像(诸如麦克风图像300-1)或一个或多个单词(诸如非命令文本208)。

过程500进一步包括由计算设备2接收音频数据(520)。例如，麦克风12检测到环境噪声。过程500可进一步包括由计算设备基于音频数据来确定语音发起动作(530)。例如话音识别模块8可根据音频数据来确定语音发起动作。语音发起动作的示例可包括发送文本消息、收听音乐、获得路线指引、呼叫企业、呼叫联系人、发送电子邮件、观看地图、去到网站、写笔记、重播最后一个号码、打开应用、呼叫语音邮箱、阅读约会、查询电话状态、搜索web、检查信号强度、检查网络、检查电池、或任何其它动作。

过程500可进一步包括计算设备2转录音频数据并在接收附加音频数据的同时且在基于该音频数据来执行语音发起动作之前输出已更新的话音识别GUI以用于显示，在该已更新的话音识别GUI中，以不同于第一视觉格式的第二视觉格式显示所述至少一个元素，以指示已经识别到该语音发起动作，诸如图4C中所示的图形元素214(540)。

在某些示例中，输出话音识别GUI进一步包括输出所转录的音频数据的一部分，并且其中，输出已更新的话音识别GUI进一步包括裁剪所转录的音频数据的至少一部分，使得与语音发起动作相关的所转录的音频数据的一个或多个单词被显示。在计算设备2具有相对小屏幕的某些示例中，所显示的所转录的文本可更多地集中于与语音发起动作相对应的单词。

过程500进一步包括在基于音频数据来执行语音发起动作之前且在接收附加音频数据的同时输出诸如GUI212的已更新的话音识别GUI，其中以不同于第一视觉格式的第二视觉格式来呈现所述至少一个元素以提供已经识别到语音发起动作的指示。在某些示例中，在图像、色彩、字体、大小、突出显示、风格、以及位置方面，第二视觉格式不同于第一视觉格式。

过程500还可包括计算设备2分析音频数据以确定语音发起动作。计算设备2可分析音频数据的转录以至少部分地基于所转录的音频数据的单词或短语与动作的数据库的比较来确定语音发起动作。计算设备可在所转录的音频数据中寻找关键词。例如，计算设备2可检测到音频数据的转录中的至少一个动词，并将该至少一个动词与动词集合相比较，其中，该动词集合中的每个动词与语音发起动作相对应。例如，该动词集合可包括“收听”和“播放”，其两者都可与语音发起动作相关以播放具有音频分量的媒体文件。

在某些示例中，计算设备2确定计算设备2的场境，诸如计算设备2的当前位置、计算设备2当前或最近正在执行什么应用、日间时、发布语音命令的用户的身份、或任何其它上下文信息。计算设备2可使用上下文信息来至少部分地确定语音发起动作。在某些示例中，计算设备2在确定语音发起动作之前捕捉到更多音频数据。如果后续单词改变语音发起动作的意义，则计算设备2可更新元素的视觉格式以反映新意义。在某些示例中，计算设备2可使用场境来进行后续判定，诸如要针对连锁饭店的哪个位置获得路线指引。

在某些示例中，所述至少一个元素的第一视觉格式具有表示话音识别模式的图像，并且其中，所述至少一个元素的第二视觉格式具有表示语音发起动作的图像。例如，图6中所表示的元素可具有表示话音识别模式(例如，麦克风)的第一视觉格式300-1和表示语音发起动作(例如，播放媒体文件)的第二视觉格式302-1。在某些示例中，表示话音识别模式的图像变体成表示语音发起动作的图像。在其它示例中，具有第一视觉格式的任何元素可变体成第二视觉格式。

计算设备2实际上可基于音频数据来执行语音发起动作。也就是说，响应于计算设备2确定语音发起动作将获得到地址的路线指引，计算设备2执行诸如执行地图应用并搜索路线指引的任务。计算设备2可确定已识别的语音发起动作正确的置信度阈值。如果用于特定语音发起动作的置信度水平在置信度阈值以下，则计算设备2可在继续进行执行语音发起动作之前请求用户确认。

在某些示例中，计算设备2仅响应于接收到确认语音发起动作正确的指示而执行语音发起动作。例如，计算设备2可在计算设备2执行动作之前输出提示以用于显示，该提示请求已识别的语音发起动作正确的反馈。在某些情况下，计算设备2更新话音识别GUI，使得响应于接收到取消输入的指示或者响应于在预定时间段内未接收到已识别的语音发起动作正确的反馈而以第一视觉格式呈现该元素。在某些示例中，话音识别GUI包括用于取消语音发起动作的交互式图形元素。

条款1.一种方法，包括：由计算设备输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于显示；由所述计算设备接收音频数据；由所述计算设备基于所述音频数据来确定语音发起动作；以及在接收到附加音频数据的同时并且在基于所述音频数据来执行所述语音发起动作之前，输出已更新的话音识别GUI以用于显示，在所述已更新的话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

条款2.根据条款1所述的方法，进一步包括：由所述计算设备基于所述音频数据来确定转录；识别与所述语音发起动作相关联的所述转录的一个或多个单词，其中，所述至少一个元素包括所述一个或多个单词的至少一部分；以及由所述计算设备在输出所述已更新的话音识别GUI之前输出不包括所述一个或多个单词的转录的一部分以用于以所述第一视觉格式显示。

条款3.根据条款1至2中的任一项所述的方法，其中，在图像、色彩、字体、大小、突出显示、风格、以及位置中的一个或多个方面，所述第二视觉格式不同于所述第一视觉格式。

条款4.根据条款1至3中的任一项所述的方法，由所述计算设备来确定所述音频数据的转录，其中：输出所述话音识别GUI进一步包括输出所述转录的至少一部分，以及输出所述已更新的话音识别GUI进一步包括裁剪被输出的所述转录的所述至少一部分，使得与所述语音发起动作相关的所述转录的所述一个或多个单词被显示。

条款5.根据条款1至3中的任一项所述的方法，其中，所述至少一个元素的所述第一视觉格式包括表示所述计算设备的所述话音识别模式的图像，以及其中，所述至少一个元素的所述第二视觉格式包括表示所述语音发起动作的图像。

条款6.根据条款5所述的方法，其中，表示所述话音识别模式的所述图像响应于基于所述音频数据确定所述语音发起动作而变体成表示所述语音发起动作的图像。

条款7.根据条款1至6中的任一项的方法，进一步包括：响应于基于所述音频数据而确定所述语音发起动作，由所述计算设备来执行所述语音发起动作。

条款8.根据条款7所述的方法，其中，执行所述语音发起动作进一步响应于由所述计算设备接收到确认所述语音发起动作正确的指示。

条款9.根据条款1至8中的任一项所述的方法，进一步包括由所述计算设备且至少部分地基于所述音频数据来确定所述语音发起动作。

条款10.根据条款9所述的方法，其中，确定所述语音发起动作进一步包括至少部分地基于以所述音频数据为基础的转录的单词或短语与动作的预配置的集合的比较来确定所述语音发起动作。

条款11.根据条款9至10中所述的任一项的方法，其中，确定所述语音发起动作进一步包括：由所述计算设备来识别所述转录中的至少一个动词；以及将所述至少一个动词与来自动词集合的一个或多个动词相比较，所述动词集合中的每个动词与于来自多个动作的至少一个动作相对应。

条款12.根据条款9至11中的任一项所述的方法，其中，确定所述语音发起动作进一步包括：由所述计算设备至少部分地基于来自所述计算设备的数据来确定场境；以及由所述计算设备至少部分地基于场境来确定所述语音发起动作。

条款13.根据条款9至12中的任一项所述的方法，进一步包括：响应于接收到取消输入的指示，由所述计算设备来输出所述至少一个元素以用于以所述第一视觉格式来显示。

条款14.一种计算设备，包括：显示设备；以及一个或多个处理器，所述一个或多个处理器可操作以：输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于在所述显示设备处显示；接收音频数据；基于所述音频数据来确定语音发起动作；以及在接收到附加音频数据的同时并且在基于所述音频数据来执行所述语音发起动作之前，输出已更新的话音识别GUI以用于显示，在所述已更新的话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

条款15.根据条款14所述的计算设备，其中，所述一个或多个处理器进一步可操作以：基于所述音频数据来确定转录；识别所述转录的与所述语音发起动作相关联的一个或多个单词，其中，所述至少一个元素包括所述一个或多个单词的至少一部分；以及在输出所述已更新的话音识别GUI之前输出所述转录的不包括所述一个或多个单词的一部分以用于以所述第一视觉格式显示。

条款16.根据条款14至15中的任一项所述的计算设备，其中，所述至少一个元素的所述第一视觉格式具有表示所述计算设备的所述话音识别模式的图像，并且其中，所述至少一个元素的所述第二视觉格式具有表示所述语音发起动作的图像，并且其中，表示所述语音识别模式的所述图像变体成表示所述语音发起动作的所述图像。

条款17.根据条款14至16中的任一项所述的计算设备，其中，所述一个或多个处理器进一步可操作以响应于基于所述音频数据确定所述语音发起动作而执行所述语音发起动作。

条款18.一种被用指令编码的计算机可读存储介质，所述指令在由计算设备的一个或多个处理器执行时使得所述一个或多个处理器：输出具有以第一视觉格式的至少一个元素的话音识别图形用户界面(GUI)以用于显示；接收音频数据；基于所述音频数据来确定所述语音发起动作；以及在接收到附加音频数据的同时并且在基于所述音频数据来执行所述语音发起动作之前，输出已更新的话音识别GUI以用于显示，在所述已更新的话音识别GUI中以不同于所述第一视觉格式的第二视觉格式来显示所述至少一个元素，以指示所述语音发起动作已被识别。

条款19.根据条款18的计算机可读存储介质，其中，所述指令进一步使得所述一个或多个处理器基于所述音频数据来确定转录；识别所述转录的与所述语音发起动作相关联的一个或多个单词，其中，所述至少一个元素包括所述一个或多个单词的至少一部分；以及在输出所述已更新的话音识别GUI之前输出所述转录的不包括所述一个或多个单词的一部分以用于以所述第一视觉格式显示。

条款20.根据条款18至19中的任一项所述的计算机可读存储介质，其中，所述至少一个元素的所述第一视觉格式包括表示所述计算设备的所述话音识别模式的图像，其中，所述至少一个元素的所述第二视觉格式包括表示所述语音发起动作的图像，并且其中，表示所述语音识别模式的所述图像响应于基于所述音频数据来确定所述语音发起动作而变体成表示所述语音发起动作的所述图像。

条款21.一种计算设备，所述计算设备包括至少一个处理器和至少一个模块，所述至少一个模块可被所述至少一个处理器操作以执行条款1至13的方法中的任一方法。

条款22.一种计算设备，所述计算设备包括用于执行条款1至13的方法中的任一方法的装置。

条款23.一种包括指令的计算机可读存储介质，所述指令在由计算设备的至少一个处理器执行时将所述计算设备配置成执行条款1至13的方法中的任一方法。

在一个或多个示例中，可用硬件、软件、固件、或其任何组合来实现所述功能。如果用软件实现，则可将该功能存储为一个或多个指令或代码，或者在计算机可读介质上或者通过该计算机可读介质传送，并且被基于硬件的处理单元执行。计算机可读介质可包括计算机可读存储介质，其与诸如数据存储介质的有形介质或者包括促进例如根据通信协议将计算机程序从一地转移到另一地的任何介质的通信介质相对应。以这种方式，计算机可读介质一般地可与下述相对应：(1)有形计算机可读存储介质，其是非临时的，或者(2)通信介质，诸如信号或载波。数据存储介质可以是可以被一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中所述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包括计算机可读介质。

以示例而非限制的方式，此类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘储存器、磁盘储存器、或其它磁存储器件、闪速存储器、或者可以用来以指令或数据结构的形式存储所期望的程序代码且可以被计算机访问的任何其它介质。并且，将任何连接适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、扭绞线对、数字订户线(DSL)、或诸如红外、无线电、以及微波的无线技术从网站、服务器或其它远程源发射指令，则在介质的定义中包括同轴电缆、光纤电缆、扭绞线对、DSL、或者诸如红外、无线电、和微波的无线技术。然而，应理解的是计算机可读存储介质和数据存储介质不包括连接、载波、信号、或其它暂时介质，而是替代地针对非暂时、有形存储介质。如本文所使用的碟和盘包括紧凑式盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘，其中，碟通常磁性地再现数据，而盘通常用激光而光学地来再现数据。以上的组合也应被包括在计算机可读介质的范围内。

指令被一个或多个处理器执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等价集成或分立逻辑电路。因此，如本文所使用的术语“处理器”可指任何前述结构或适合于实现本文所述技术的任何其它结构。另外，在某些方面，可在专用硬件和/或软件模块内提供本文所述功能。并且，所述技术可完全用一个或多个电路或逻辑元件来实现。

本公开的技术可在多种设备或装置中实现，包括无线手机、集成电路(IC)或组IC集(例如，芯片组)。在本公开中描述了各种组件、模块、或单元以强调被配置成实现公开技术的设备的功能方面，但不一定要求用不同的硬件单元来实现。相反地，如上所述，可将各种单元组合在硬件单元中，或者用许多互操作硬件单元来提供，硬件单元包括如上所述的一个或多个处理器，与适当的软件和/或固件相结合。

在本公开中已描述了各种实施例。这些及其它实施例在以下权利要求的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于已识别语音发起动作的视觉确认 [P] . 中国专利： CN105453025B . 2018.10.02
2. 用于已识别语音发起动作的视觉确认 [P] . 中国专利： CN105453025A . 2016-03-30
3. Visual confirmation for a recognized voice-initiated action [P] . 美国专利： US9575720B2 . 2017-02-21

机译：视觉确认已识别的语音启动动作
4. Visual confirmation for a recognized voice-initiated action [P] . AU2014296734B2 . 2016-12-01

机译：视觉确认已识别的语音启动动作
5. Visual confirmation for a recognized voice-initiated action [P] . AU2014296734A1 . 2015-12-24

机译：视觉确认已识别的语音启动动作