首页> 中国专利> 使用话音验证的装置存取

使用话音验证的装置存取

摘要

一种装置可经配置以从用户接收语音输入。所述语音输入可包含用于存取所述装置的受限特征的命令。可将所述语音输入与所述用户的话音的声纹(例如,文本独立声纹)进行比较以向所述装置验证所述用户。响应于向所述装置的成功验证所述用户,允许所述用户存取所述受限特征,而无需所述用户执行额外验证步骤或再次说出所述命令。如果未向所述装置成功地验证所述用户,则可通过所述装置请求额外验证步骤(例如,请求密码)。

著录项

  • 公开/公告号CN103477342A

    专利类型发明专利

  • 公开/公告日2013-12-25

    原文格式PDF

  • 申请/专利权人 苹果公司;

    申请/专利号CN201280014565.4

  • 发明设计人 亚当·J·奇也;

    申请日2012-03-20

  • 分类号G06F21/30(20130101);G10L17/00(20130101);

  • 代理机构11287 北京律盟知识产权代理有限责任公司;

  • 代理人林斯凯

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 22:44:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-15

    授权

    授权

  • 2014-01-22

    实质审查的生效 IPC(主分类):G06F21/30 申请日:20120320

    实质审查的生效

  • 2013-12-25

    公开

    公开

说明书

技术领域

本发明大体涉及用于控制对电子装置的特征的用户存取的技术。

背景技术

许多现今的计算机和其它电子装置包含允许用户锁定计算机或装置以免被他人存 取的特征。所述装置中的一些提供用于通过装置的图形用户接口解锁被锁定的装置的机 构。举例来说,所述图形用户接口可提供允许用户输入验证信息(例如密码或代码)的机 构。

一些计算机和其它电子装置可提供话音命令特征。举例来说,装置的用户可将话音 命令说出到耦合到所述装置的麦克风中。当所述话音命令由装置接收时,所述装置可辨 识并执行所述话音命令。

发明内容

一种装置可经配置以从用户接收语音输入。所述语音输入可包含用于存取所述装置 的受限特征的命令。可将所述语音输入与所述用户的话音的声纹(例如,文本独立声纹) 进行比较以向所述装置验证所述用户。响应于所述用户向所述装置的成功验证,允许所 述用户存取所述受限特征,而无需所述用户执行额外验证步骤或再次说出所述命令。如 果并未向所述装置成功地验证所述用户,则可通过所述装置请求额外验证步骤(例如,请 求密码)。

在一些实施方案中,可针对装置的授权用户产生声纹。举例来说,可在用户将话音 命令说出到装置中时收集用户的话音的一个或一个以上样本。可基于所述一个或一个以 上话音样本产生声纹。可在所述装置上在本地或通过网络声纹服务(例如,网络服务器) 产生声纹。所述声纹可与在所述装置上运行或由网络服务托管的文本独立话音验证过程 一起使用以向所述装置验证所述用户。

可实施本说明书中描述的标的物的特定实施例以认识到以下优点中的一者或一者 以上。装置可包含用于存取已锁定装置的更为用户友好的验证过程。可在处理话音命令 的同时验证用户的话音;不需要单独验证步骤。装置可在用户将话音命令说出到装置中 的同时产生声纹;不需要单独扬声器辨识训练步骤。下文揭示的话音验证特征可提供对 装置的任何/所有特征的快速且安全的话音控制存取。

根据一些实施例,一种方法包含在装置处接收语音输入。所述语音输入包含与所述 装置的受限特征相关联的命令。所述方法还包含比较所述语音输入与所述装置的授权用 户的声纹,以及基于所述比较的结果,确定所述语音输入是由所述授权用户说出。所述 方法进一步包含根据所述命令提供对所述装置的所述受限特征的存取。所述方法是由所 述装置的一个或一个以上处理器执行。

根据一些实施例,一种方法包含在装置处接收语音输入。所述语音输入包含与所述 装置的特征相关联的命令。所述方法还包含基于所述语音输入产生文本独立声纹;以及 根据所述命令提供对所述装置的所述特征的存取。所述方法是由所述装置的一个或一个 以上处理器执行。

根据一些实施例,一种方法包含在装置处接收语音输入。所述语音输入包含与所述 装置的特征相关联的命令,且基于所述语音输入产生话音样本。所述方法还包含将所述 话音样本发射到声纹服务以用于基于所述话音样本产生声纹;以及根据所述命令提供对 所述装置的所述特征的存取。所述方法是由所述装置的一个或一个以上处理器执行。

根据一些实施例,一种电子装置包含一个或一个以上处理器、存储器,和一个或一 个以上程序;所述一个或一个以上程序存储在所述存储器中且经配置以由所述一个或一 个以上处理器执行,且所述一个或一个以上程序包含用于执行上文描述的方法中的任一 者的操作的指令。根据一些实施例,一种计算机可读存储媒体具有存储在其中的指令, 所述指令在由电子装置执行时致使所述装置执行上文描述的方法中的任一者的操作。根 据一些实施例,一种电子装置包含用于执行上文描述的方法中的任一者的操作的构件。 根据一些实施例,一种供用于电子装置中的信息处理设备包含用于执行上文描述的方法 中的任一者的操作的构件。

根据一些实施例,一种电子装置包含经配置以接收语音输入的语音接收单元。所述 语音输入包含与所述电子装置的受限特征相关联的命令。所述电子装置还包含耦合到所 述语音接收单元的处理单元。所述处理单元经配置以:比较所述语音输入与所述电子装 置的授权用户的声纹;基于所述比较的结果,确定所述语音输入是由所述授权用户说 出;;以及根据所述命令提供对所述电子装置的所述受限特征的存取。

根据一些实施例,一种电子装置包含经配置以接收语音输入的语音接收单元,所述 语音输入包含与所述电子装置的特征相关联的命令。所述电子装置还包含耦合到所述语 音接收单元的处理单元。所述处理单元经配置以:基于所述语音输入产生文本独立声纹; 以及根据所述命令提供对所述电子装置的所述特征的存取。

根据一些实施例,一种电子装置包含经配置以接收语音输入的语音接收单元。所述 语音输入包含与所述电子装置的特征相关联的命令。所述电子装置还包含耦合到所述语 音接收单元的处理单元。所述处理单元经配置以:基于所述语音输入产生话音样本;将 所述话音样本发射到声纹服务以用于基于所述话音样本产生声纹;以及根据所述命令提 供对所述电子装置的所述特征的存取。

以下随附图式及描述中阐述一个或一个以上实施方案的细节。其它特征、方面和潜 在优点将从所述描述和图式以及从权利要求书而显而易见。

附图说明

图1说明经配置用于处理话音命令的实例装置。

图2是用于产生声纹的实例过程的流程图。

图3说明可经配置用于话音验证的实例已锁定装置。

图4是用于话音验证的实例过程的流程图。

图5是实例网络操作环境的框图。

图6是图1到4的移动装置的实例实施方案的框图。

图7说明根据一些实施例的电子装置的功能框图。

图8说明根据一些实施例的电子装置的功能框图。

图9说明根据一些实施例的电子装置的功能框图。

具体实施方式

话音命令

图1说明经配置用于处理话音命令的实例装置100。举例来说,装置100可为移动 装置,例如手机、智能电话、电子平板电脑、电视系统、个人数据助理、膝上型电脑或 任何其它移动装置。装置100可为桌上型计算机或可需要用户向装置100验证所述用户 的任何其它装置。在一些实施方案中,装置100可接收语音输入,基于所述语音输入确 定命令,且执行所述命令。举例来说,用户可通过压下按钮102并保持来激活装置100 的话音控制特征。当被激活时,所述话音控制特征可在触敏式显示器104上显示例如如 图1中所显示的话音控制图形用户接口。用户可通过按压菜单栏114中显示的取消按钮 106来取消所述话音控制特征。

在一些实施方案中,当激活话音控制特征时,装置100可通过麦克风108从用户接 收语音输入。在一些实施方案中,可将语音输入翻译成表示所述语音输入中说出的词的 文本。举例来说,可对所述语音输入执行语音辨识分析或建模(例如,隐式马尔可夫建模 (HMM)、动态时间规整(DTW),等)以产生表示所述语音输入的内容的文本。

在一些实施方案中,可分析从语音输入产生的文本以确定用以调用装置100的特征 的命令。举例来说,如果所述文本包含字“呼叫”,则装置100可确定用户想要进行电 话呼叫,且可调用电话应用程序。如果所述文本包含字“播放”,则装置100可确定用 户想要播放存储在装置100上的媒体,且可调用媒体播放器以播放内容,例如音乐或电 影。

在一些实施方案中,装置100的话音控制特征可提供反馈到用户以指示装置100确 定命令的成功或失败。举例来说,所述反馈(例如,音频、视觉的、振动)可向用户指示 将在装置上执行什么命令、装置100是否基于语音输入成功地确定命令,和/或命令是否 由装置100成功地执行。举例来说,由装置产生的话音可告知用户将由所述装置执行什 么命令。

在一些实施方案中,装置100的话音控制特征仅当所述装置处于解锁状态时(例如, 当已验证存取所述装置的用户时)才可被存取。

声纹产生

图2是用于产生声纹的实例过程200的流程图。在一些实施方案中,装置100可经 配置以基于装置100所接收的语音输入来产生用户的声纹。举例来说,装置100可在用 户正与装置100的话音控制特征交互时收集所述用户的话音的一个或一个以上样本。在 一些实施方案中,装置100可在文本独立话音验证过程中使用所述声纹来向装置100验 证用户。

在一些实施方案中,产生声纹仅在装置100处于解锁状态时才可加以执行。举例来 说,产生声纹仅在已向装置100验证提供语音输入的用户为装置100的拥有者或授权用 户时才可加以执行,以防止基于未授权用户或入侵者的话音产生声纹。

在步骤202,获得语音输入。在一些实施方案中,装置100可经配置以通过耦合到 装置100的麦克风102接收语音输入。麦克风102可从所述语音输入产生音频数据。在 一些实施方案中,装置100可经配置以从所述音频数据收集一个或一个以上话音样本, 且将所述话音样本发射到远程声纹服务。

在步骤204,产生声纹。举例来说,可对所述一个或一个以上话音样本进行分析和/ 或建模以基于关于用户的声道的独特信息和用户的说话模式的行为来产生装置100的授 权用户的声纹。在一些实施方案中,可在装置100处产生声纹。举例来说,可由装置100 处理音频数据以产生声纹,可使用所述声纹在扬声器验证期间辨识授权用户的话音。在 一些实施方案中,可在远程或网络连接的服务处产生声纹。举例来说,装置100可经配 置以从音频数据收集一个或一个以上话音样本,且将所述话音样本发射到图5的声纹服 务508。举例来说,可随时间推移而从多个语音输入收集话音样本,且可将所述话音样 本分批地发射到声纹服务508。例如,可在装置100闲置或正经历低资源使用率时的周 期期间将话音样本批次发射到声纹服务508。声纹服务508可经配置以基于从装置100 接收的所述样本产生声纹(例如,文本独立声纹)。声纹服务508可将所产生的声纹发射 到装置100以由装置100在使用扬声器辨识分析验证用户时使用。

在一些实施方案中,装置100或远程声纹服务508可包含声纹模块,所述声纹模块 可以文本独立方式学习人的话音的“签名”或“纹”。举例来说,可构建用户各种音素 的发音中存在的频谱特征的特性的统计模型,以区分不同用户的话音的话音特性。举例 来说,可采用基于向量量化(VQ)码簿的技术来产生声纹。举例来说,可使用基于遍历性 HMM的方法来产生声纹,所述基于遍历性HMM的方法分析状态之间的随机马尔可夫 转变,以构建话音特性(例如,发声、沉默、停止突发、鼻音/流音、摩擦音,等)的习得 模型。在一些实施方案中,可使用两遍次扬声器辨识方法,其首先从来自语音输入的音 频数据中明确地确定音素或音素类,且接着通过针对每一辨识出的音素类别的匹配的加 权组合来执行扬声器验证。

上文所描述的文本独立扬声器验证过程可提供话音验证,而不需要特定通行短语 (passphrase)或特定字用于话音验证。相比之下,文本相依性扬声器验证过程常常需要特 定通行短语或单字话语来执行扬声器辨识,且因此,常常需要要求用户说出特定字或短 语的单独验证步骤(例如,问答步骤)。文本独立验证过程并不需要单独的问答验证步骤。

在一些实施方案中,一旦产生声纹,即可将声纹存储在装置100处。举例来说,如 果装置100产生声纹,则可将所述声纹存储在存储器或耦合到装置100的非易失性存储 装置(例如,硬盘驱动器)中。如果声纹是通过网络服务器(例如,通过声纹服务508)产生, 则装置100可接收网络产生的声纹,且将所述声纹存储在存储器或非易失性存储装置中。 网络服务器还可存储其产生的声纹。

在步骤206,基于语音输入确定命令。在一些实施方案中,可处理所述语音输入以 确定对应于所述声纹的命令。举例来说,可使用语音到文本处理将语音输入翻译成文本, 且可分析所述文本以使用语音辨识处理识别命令。举例来说,一旦将语音输入翻译成文 本,则可将所述语音输入的文本同与装置100已知的命令相关联的文本进行比较,以确 定所述语音输入文本中的任一者是否对应(例如,匹配)于所述命令文本。如果在所述语 音输入中发现文本对应性(完全或部分),则装置100可执行对应于所述命令文本(对应于 所述语音输入文本)的命令。

在一些实施方案中,可在产生声纹的同时确定命令。举例来说,一旦语音输入由装 置100接收到,则可处理所述语音输入以(例如,并行地处理)产生声纹并确定话音命令。 因此,可使用单个语音输入来产生声纹并发出话音命令。

在步骤208,执行所述命令。举例来说,一旦基于语音输入确定了命令,即可由装 置400执行所述命令。

安全特征

图3说明可经配置用于话音验证的实例已锁定装置100。举例来说,可锁定(例如, 在需要验证用户的状态中)装置100以防止对存储在装置100上的特征(例如,整个装置、 个别应用程序,等)或信息的未授权存取。在一些实施方案中,可锁定装置100的个别特 征。举例来说,装置100的个别特征可能需要验证用户,然后装置100才允许存取所述 特征。装置可能要求验证用户以确保存取所述装置的用户为所述装置的拥有者或授权用 户。

在一些实施方案中,装置100可能需要用户验证用户为装置100的授权用户,然后 才准予存取装置100或装置100的个别特征。举例来说,触敏式显示器104可显示用户 接口,所述用户接口允许用户键入密码以解锁装置100。用户可使用触敏式小键盘302 键入密码(例如,四个数字、字、字符序列)以致使装置100解锁。其它用户验证和装置 解锁机制(例如,话音验证、面部辨识、指纹辨识)也是可能的。

在一些实施方案中,当未验证用户(例如,尚未被验证的用户)尝试存取装置100的 特征或提供输入到装置100时,可执行用户的验证。举例来说,当用户尝试进行电话呼 叫、存取密码锁定装置上的电子邮件应用程序、地址簿或日历时,可向所述用户呈现图 3的用户接口以允许所述用户键入密码、代码或其它用户验证输入。在一些实施方案中, 如果用户键入装置100已知的密码或代码,则所述用户可得以验证,且装置100和/或装 置100的特征可被解锁。如果用户键入装置100所未知的密码或代码,则所述用户不能 被验证,且装置100和/或装置100的特征可保持锁定。在一些实施方案中,装置100 可经配置以如参考图4所描述而执行用户的话音验证。

话音验证

图4是用于话音验证的实例过程400的流程图。举例来说,可当在已锁定装置处接 收到语音输入时通过对所述语音输入执行扬声器辨识分析来执行用户的话音验证。可使 用如上所述的文本独立话音验证技术来执行用户的验证。

本文所述的话音验证特征可允许对装置100的所有特征和存储在装置100上的所有 数据的快速且安全的存取。举例来说,这些话音验证特征可使得装置100的用户能够以 安全方式存取装置100上的特征和信息,而无需在每次用户尝试存取装置100时都键入 密码。在没有这些话音验证特征的情况下,对装置的用户存取可由于单独的验证步骤而 减缓,存储在装置上的敏感或私人用户数据可被装置的未授权用户或入侵者存取,或用 户可使用装置的话音控制特征进行存取的功能性可能不得不仅限于例如非私人、非敏感 的信息和命令。

在步骤402,获得语音输入。举例来说,已锁定装置100的用户可按压按钮102并 保持以激活装置100的话音控制特征,甚至当装置100锁定时也是如此。在一些实施方 案中,装置100可在激活装置100的话音控制特征时通过麦克风108接收语音输入。

在步骤404,使用所述语音输入执行用户验证。在一些实施方案中,语音输入可用 以使用扬声器辨识分析向装置100验证用户。举例来说,如果装置100被锁定,则可使 用扬声器辨识分析来分析语音输入的话音,以确定发出语音输入的用户是否为装置100 的授权用户。举例来说,可将语音输入中的话音的话音特性与存储在装置100上或通过 网络服务存储的授权用户的声纹的话音特性进行比较。如果所述话音可匹配声纹,则用 户可被验证为装置100的授权用户。如果话音不能匹配所述声纹,则用户将不被验证为 装置100的授权用户。如果不能基于语音输入向装置100验证用户,则可向用户呈现(例 如,以听觉方式和/或视觉方式、振动)错误消息。举例来说,如果不能基于语音输入验 证用户,则装置100可用通过扬声器110或扩音器112呈现的声音(例如,警报或合成话 音消息)或由振动源提供的振动向所述用户通知验证错误。装置100可通过在触摸接口 104上呈现提示用户提供额外验证信息(例如,密码、代码、触摸模式,等)的提示而呈 现视觉错误。

在步骤406,可基于所述语音输入确定命令。如上所述,可将语音输入翻译成文本, 且可处理所述文本以确定所述语音输入中呈现的命令。在一些实施方案中,可在处理语 音输入以确定所述语音输入中的命令的同时基于所述语音输入验证用户。即,用户可提 交单个语音输入到装置100,且可处理所述单语音输入以验证用户且确定用户希望装置 执行哪一命令。

在步骤408,可在验证话音时执行所述命令。在一些实施方案中,如果语音输入中 的用户话音可匹配授权用户的声纹,则可验证用户的话音,且装置可执行所确定的命令。 在一些实施方案中,装置100可在装置100被锁定的同时执行所确定的命令。举例来说, 装置100可在装置100执行所述命令的同时保持锁定,使得由装置100接收的额外话音 (或非话音)输入将需要验证提供此类输入的用户。在一些实施方案中,已锁定装置100 可响应于使用上文所描述的话音验证过程向已锁定装置100验证用户而被解锁。举例来 说,当用户的话音被验证为属于装置100的授权用户时,已锁定装置100可被解锁,使 得后续输入或命令不需要额外验证。

在一些实施方案中,可使用其它生物统计数据(例如,不同于用户的话音)来向装置 验证用户或确认话音验证的结果以提供成功话音验证的更多信心。举例来说,移动装置 100的前置相机116可用以收集用户面部的图像,所述图像可用以基于面部辨识分析辨 识装置的授权用户。作为另一实例,触敏显示器104或按钮120可经配置以收集用户的 指纹数据,且所述指纹数据可用以向装置验证用户。

在一些实施方案中,使用其它类型的生物统计数据来验证用户可被动地执行。举例 来说,可在用户以非验证特定方式与装置交互的同时执行用户的验证。举例来说,可在 用户触摸触敏显示器以与音乐播放器对象124交互时验证用户的指纹。举例来说,前置 相机116可在用户与装置100的视频聊天特征交互时收集用户面部的图像。前置相机116 可在用户正以其它方式操作装置100(例如网络浏览)的同时收集图像以用于面部辨识分 析和验证。可使用所收集的图像来使用面部辨识分析验证用户。在一些实施方案中,可 收集生物统计数据的组合以用以在用户尝试存取装置100时验证用户。举例来说,扬声 器辨识、面部辨识、指纹匹配或其它生物统计数据的组合可用以向装置100验证用户。

实例网络操作环境

图5是实例网络操作环境500的框图。在图5中,移动装置502a和502b各自可表 示移动装置100。移动装置502a和502b可在数据通信中例如经由一个或一个以上有线 和/或无线网络510进行通信。举例来说,无线网络512(例如,蜂窝式网络)可通过使用 网关516与例如因特网等广域网(WAN)514通信。同样,例如802.1lg无线接入装置等 接入装置518可提供对广域网514的通信接入。在一些实施方案中,可经由无线网络512 和接入装置518建立话音和数据通信两者。举例来说,移动装置502a可经由无线网络 512、网关516和广域网514(例如,使用TCP/IP或UDP协议)进行和接收电话呼叫(例如, 使用VoIP协议)、发送和接收电子邮件消息(例如,使用POP3协议),以及检索电子文档 和/或流,例如网页、照片和视频。同样,在一些实施方案中,移动装置502b可经由接 入装置518和广域网514进行和接收电话呼叫、发送和接收电子邮件消息,以及检索电 子文档。在一些实施方案中,移动装置502a或502b可使用一个或一个以上电缆物理地 连接到接入装置518,且接入装置518可为个人计算机。在此配置中,移动装置502a或 502b可称为“系连”装置。

移动装置502a和502b还可通过其它构件建立通信。举例来说,无线装置502a可 经由无线网络512与其它无线装置(例如,其它移动装置502a或502b、手机,等)通信。 同样,移动装置502a和502b可通过使用一个或一个以上通信子系统(例如BluetoothTM通信装置)建立点对点通信520(例如个人局域网)。还可实施其它通信协议和拓扑。

移动装置502a或502b可例如经由一个或一个以上有线和/或无线网络510与一个或 一个以上服务530、540、550、560、570和580通信。举例来说,导航服务530可将导 航信息(例如,地图信息、位置信息、路线信息,和其它信息)提供到移动装置502a或502b。 移动装置502b的用户可调用地图功能性,且可请求并接收用于特定位置的地图。

消息接发服务540可例如提供电子邮件和/或其它消息接发服务。媒体服务550可例 如提供对媒体文件(例如歌曲文件、音频书籍、电影文件、视频片段,和其它媒体数据) 的存取。在一些实施方案中,单独的音频和视频服务(未图示)可提供对相应类型的媒体 文件的存取。同步服务560可例如执行同步服务(例如,使文件同步)。激活服务570可 例如执行激活过程以用于激活移动装置502a或502b。

声纹服务580可例如产生可用以验证移动装置502a或502b的用户的声纹。举例来 说,声纹服务580可从移动装置502a或502b接收用户的话音的样本,且基于所述话音 样本产生声纹。移动装置502a或502b可例如在用户正与移动装置502a或502b的各种 话音特征(例如,话音控件、电话、录音机,等)交互时收集所述话音样本。一旦声纹服 务580已产生用户的声纹,则声纹服务580可将所述声纹发射到移动装置502a或502b。 一旦在移动装置502a或502b处接收到所述声纹,即可由所述移动装置使用所述声纹来 基于用户的话音验证用户。由声纹服务580产生的声纹可例如为文本独立声纹。

还可提供其它服务,包含软件更新服务,所述软件更新服务自动地确定是否存在用 于移动装置502a或502b上的软件的软件更新,接着在软件更新可手动或自动地解压缩 和/或安装的情况下将所述软件更新下载到移动装置502a或502b。

移动装置502a或502b还可经由一个或一个以上有线和/或无线网络510存取其它数 据和内容。举例来说,可通过移动装置502a或502b接入内容发布者,例如新闻站点、 RSS源、网络站点、博客、社交网络站点、开发人员网络,等。可通过调用移动装置502a 或502b的网络浏览功能或应用程序(例如,浏览器)来提供此类接入。

实例行动装置架构

图6是图1到4的移动装置100的实例实施方案的框图600。移动装置100可包含 存储器接口602、一个或一个以上数据处理器、图像处理器和/或中央处理单元604,以 及外围装置接口606。存储器接口602、所述一个或一个以上处理器604和/或外围装置 接口606可为单独组件,或可集成在一个或一个以上集成电路中。移动装置100中的各 种组件可通过一个或一个以上通信总线或信号线而耦合。

传感器、装置和子系统可耦合到外围装置接口606以促进多个功能性。举例来说, 运动传感器610、光传感器612和接近度传感器614可耦合到外围装置接口606以促进 定向、发光和接近度功能。其它传感器616(例如定位系统(例如,GPS接收器)、温度传 感器、生物统计传感器,或其它感测装置)还可连接到外围装置接口606以促进相关功能 性。

相机子系统620和光学传感器622(例如,电荷耦合装置(CCD)或互补金属氧化物半 导体(CMOS)光学传感器)可用以促进相机功能,例如记录照片和视频片段。相机子系统 620和光学传感器622可用以收集在验证用户(例如通过执行面部辨识分析)期间将使用 的用户图像。

可经由一个或一个以上无线通信子系统624促进通信功能,所述一个或一个以上无 线通信子系统624可包含射频接收器和发射器和/或光学(例如,红外线)接收器和发射器。 通信子系统624的特定设计和实施方案可取决于移动装置100既定经由其操作的通信网 络。举例来说,移动装置100可包含经设计以经由GSM网络、GPRS网络、EDGE网络、 Wi-Fi或WiMax网络和BluetoothTM网络操作的通信子系统624。明确地说,无线通信子 系统624可包含托管协议,使得装置100可配置为用于其它无线装置的基站。

音频子系统626可耦合到扬声器628和麦克风630以促进话音允用功能,例如扬声 器辨识、话音复制、数字记录和电话功能。音频子系统626可经配置以促进处理话音命 令、声纹产生和话音验证,如上文参考图1到4所描述。

I/O子系统640可包含触摸屏控制器642和/或其它输入控制器644。触摸屏控制器 642可耦合到触摸屏646。触摸屏646和触摸屏控制器642可例如使用多个触敏技术(包 含但不限于电容性、电阻性、红外线和表面声波技术)以及用于确定与触摸屏646接触的 一个或一个以上点的其它接近度传感器阵列或其它元件中的任一者来检测接触和移动 或其中断。

其它输入控制器644可耦合到其它输入/控制装置648,例如一个或一个以上按钮、 摇臂开关、拇指旋轮、红外线端口、USB端口和/或例如手写笔等指针装置。所述一个 或一个以上按钮(未图示)可包含用于扬声器628和/或麦克风630的音量控制的上/下按 钮。

在一个实施方案中,按压按钮历时第一持续时间可解开触摸屏646的锁定;且按压 按钮历时比第一持续时间长的第二持续时间可接通或断开移动装置100的电力。按压按 钮历时第三持续时间可激活话音控制或话音命令模块,所述话音控制或话音命令模块使 得用户能够说出命令到麦克风630中以致使所述装置执行所说出的命令。用户可自定义 所述按钮中的一者或一者以上的功能性。举例来说,触摸屏646还可用以实施虚拟或软 按钮和/或键盘。

在一些实施方案中,移动装置100可呈现所记录的音频和/或视频文件,例如MP3、 AAC和MPEG文件。在一些实施方案中,移动装置100可包含例如iPodTM等MP3播放 器的功能性。因此,移动装置100可包含与iPod兼容的36接脚连接器。还可使用其它 输入/输出和控制装置。

存储器接口602可耦合到存储器650。存储器650可包含高速随机存取存储器和/ 或非易失性存储器,例如一个或一个以上磁盘存储装置、一个或一个以上光学存储装置, 和/或闪存存储器(例如,NAND、NOR)。存储器650可存储操作系统652,例如Darwin、 RTXC、LINUX、UNIX、OS X、WINDOWS或例如VxWorks等嵌入式操作系统。

操作系统652可包含用于处置基本系统服务和用于执行硬件相依性任务的指令。在 一些实施方案中,操作系统652可为内核(例如,UNIX内核)。在一些实施方案中,操 作系统652可包含用于执行话音验证的指令。举例来说,操作系统652可实施如参考图 1到4描述的安全锁定和话音验证特征。操作系统352可实施参考图1到4描述的声纹 和话音验证特征。

存储器650还可存储通信指令654以促进与一个或一个以上额外装置、一个或一个 以上计算机和/或一个或一个以上服务器的通信。存储器650可包含:图形用户接口指令 656以促进图解用户接口处理;传感器处理指令658以促进传感器相关处理和功能;电 话指令660以促进电话相关过程和功能;电子消息接发指令662以促进电子消息接发相 关过程和功能;网络浏览指令664以促进网络浏览相关过程和功能;媒体处理指令666 以促进媒体处理相关过程和功能;GPS/导航指令668以促进GPS和导航相关过程和指 令;和/或相机指令670以促进相机相关过程和功能。

存储器650可存储其它软件指令672以促进其它过程和功能,例如如参考图1到4 描述的安全和/或验证过程和功能。举例来说,软件指令可包含用于在每应用程序或每特 征基础上执行话音验证和用于允许用户配置装置100上可用的每一应用程序或特征的验 证要求的指令。

存储器650还可存储其它软件指令(未图示),例如用以促进网络视频相关过程和功 能的网络视频指令;和/或用以促进网络购物相关过程和功能的网络购物指令。在一些实 施方案中,媒体处理指令666划分成音频处理指令和视频处理指令以分别促进音频处理 相关过程和功能以及视频处理相关过程和功能。激活记录和国际移动设备身份(IMEI) 674或类似硬件识别符还可存储在存储器650中。

以上识别的指令和应用程序中的每一者可对应于用于执行一个或一个以上上文所 描述的功能的一组指令。这些指令不需要实施为单独的软件程序、程序或模块。存储器 650可包含额外指令或更少指令。此外,移动装置100的各种功能可实施在硬件和/或软 件中,包含实施在一个或一个以上信号处理和/或专用集成电路中。

根据一些实施例,图7展示根据如上所述的本发明的原理而配置的电子装置700的 功能框图。所述装置的功能块可由硬件、软件或硬件与软件的组合来实施以执行本发明 的原理。所属领域的技术人员应理解,图7中所描述的功能块可加以组合或分离成子块 以实施如上所述的本发明的原理。因此,本文的描述可支持任何可能组合或分离或本文 所述的功能块的进一步定义。

如图7中所示,电子装置700包含经配置以接收语音输入的语音接收单元702。语 音输入包含与电子装置700的受限特征相关联的命令。电子装置700还包含耦合到所述 语音接收单元702的处理单元706。在一些实施例中,处理单元706包含比较单元708、 确定单元710、存取提供单元712、存取拒绝单元714、语音处理单元716,和接收单元 718。

处理单元706经配置以:比较语音输入与电子装置700的授权用户的声纹(例如,利 用比较单元708);基于所述比较的结果,确定所述语音输入是由授权用户说出(例如, 利用确定单元710);以及根据所述命令提供对电子装置700的受限特征的存取(例如, 利用存取提供单元712)。

在一些实施例中,处理单元706经配置以:基于所述比较的结果,确定所述语音输 入不是由授权用户说出(例如,利用确定单元710);以及拒绝对电子装置700的受限特 征的存取(例如,利用存取拒绝单元714)。

在一些实施例中,处理单元706经配置以:在比较所述语音输入与电子装置700的 授权用户的声纹的同时处理所述语音输入以确定所述命令(例如,利用语音处理单元 716)。

在一些实施例中,处理单元706经配置以:通过电子装置700的网络接口从声纹服 务接收声纹(例如,利用接收单元718)。

在一些实施例中,电子装置700为移动装置。在一些实施例中,移动装置为手持式 装置。

在一些实施例中,所述声纹为文本独立声纹。

根据一些实施例,图8展示根据如上所述的本发明的原理而配置的电子装置800的 功能框图。所述装置的功能块可由硬件、软件或硬件与软件的组合来实施以执行本发明 的原理。所属领域的技术人员应理解,图8中所描述的功能块可加以组合或分离成子块 以实施如上所述的本发明的原理。因此,本文的描述可支持任何可能组合或分离或本文 所述的功能块的进一步定义。

如图8中所示,电子装置800包含经配置以接收语音输入的语音接收单元802。所 述语音输入包含与电子装置800的特征相关联的命令。电子装置800还包含耦合到所述 语音接收单元802的处理单元806。在一些实施例中,处理单元806包含产生单元808、 存取提供单元810、语音处理单元812、话音样本产生单元814、话音样本存储单元816, 和声纹产生单元818。

所述处理单元806经配置以:基于所述语音输入产生文本独立声纹(例如,利用产生 单元808);以及根据所述命令提供对所述电子装置800的特征的存取(例如,利用存取 提供单元810)。

在一些实施例中,处理单元806经配置以:在基于所述语音输入的话音产生文本独 立声纹的同时处理所述语音输入以确定所述命令(例如,利用语音处理单元812)。

在一些实施例中,处理单元806经配置以:基于所述语音输入产生话音样本(例如, 利用话音样本产生单元814);将所述话音样本存储在电子装置800上(例如,利用话音 样本存储单元816);以及基于所述话音样本产生文本独立声纹(例如,利用声纹产生单 元818)。

根据一些实施例,图9展示根据如上所述的本发明的原理而配置的电子装置900的 功能框图。所述装置的功能块可由硬件、软件或硬件与软件的组合来实施以执行本发明 的原理。所属领域的技术人员应理解,图9中所描述的功能块可加以组合或分离成子块 以实施如上所述的本发明的原理。因此,本文的描述可支持任何可能组合或分离或本文 所述的功能块的进一步定义。

如图9中所示,电子装置900包含经配置以接收语音输入的语音接收单元902。所 述语音输入包含与电子装置900的特征相关联的命令。电子装置900还包含耦合到所述 语音接收单元902的处理单元906。在一些实施例中,处理单元906包含话音样本产生 单元908、话音样本发射单元910、存取提供单元912、话音样本存储单元914,和接收 单元916。

所述处理单元经配置以:基于所述语音输入产生话音样本(例如,利用话音样本产生 单元908);将所述话音样本发射到声纹服务以用于基于所述话音样本产生声纹(例如, 利用话音样本发射单元910);以及根据所述命令提供对电子装置900的特征的存取(例 如,利用存取提供单元912)。

在一些实施例中,处理单元906经配置以:基于语音输入产生话音样本(例如,利用 话音样本产生单元908);将所述话音样本存储在电子装置900上(例如,利用话音样本 存储单元914);以及将所存储的话音样本发射到声纹服务以用于基于所述话音样本产生 声纹(例如,利用话音样本发射单元910)。

在一些实施例中,处理单元906经配置以:通过电子装置900的网络接口从声纹服 务接收文本独立声纹(例如,利用接收单元916)。

在一些实施例中,在基于语音输入确定命令的同时产生话音样本。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号