首页> 中国专利> 终端设备的语音交互方法和使用该方法的终端设备

终端设备的语音交互方法和使用该方法的终端设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供了一种终端设备的语音交互方法和使用该方法的终端设备，所述终端设备包括位于操作系统和应用程序之间的中间层，所述语音交互方法包括：由中间层接收用户从语音输入设备输入的语音指令的语音信息，并将接收的语音信息转换为文本信息；对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息，并根据操作信息得到对终端设备的指令；根据对终端设备的指令调用终端设备的底层API，并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。

著录项

公开/公告号CN104050966A

专利类型发明专利
公开/公告日2014-09-17

原文格式PDF
申请/专利权人百度国际科技(深圳)有限公司;
展开▼

申请/专利号CN201310078337.X
发明设计人张肖男;陈龙;
展开▼

申请日2013-03-12
分类号G10L15/26(20060101);G10L15/28(20130101);
代理机构11286 北京铭硕知识产权代理有限公司;
代理人韩明星;罗延红
地址 518057 广东省深圳市南山区高新中二道5号生产力大楼D单元三层301
入库时间 2023-12-17 01:19:50

法律信息

法律状态公告日

法律状态信息

法律状态
2019-01-01

授权

授权
2014-10-22

实质审查的生效 IPC(主分类):G10L15/26 申请日:20130312

实质审查的生效
2014-09-17

公开

公开

说明书

技术领域

本发明涉及语音识别控制技术，更具体地说，涉及一种利用位于终端设备的操作系统和应用程序之间的中间层来实现对于终端设备的语音交互的方法及其终端设备。

背景技术

在当前的终端设备中，语音识别已经成为了一种常用技术。传统的语音输入设备大多以接收被动的语音信号为主，通过其与移动设备的连接，使用者可以方便地接收到来自手机的来电信号并进行信号的传输。而随着现代技术的发展，人们的交流方式和行为越来越不集中于电话和短信。尤其是随着 3G网络和智能手机的普及，使得人们的交流方式更加的多样化，而目前的语音输入设备(例如，带有话筒的耳机)在与诸如智能手机的终端设备的结合上，并没有很好的满足人们在移动过程中进行信息传递的需求。

另外，现有的基于语音识别来控制终端设备的技术通常需要专门为语音交互的应用程序开发与该语音交互应用程序与其它应用程序的接口，因此只能实现对固定的应用程序的调用和控制。这对终端设备的语音交互带来了很多的不方便。例如，苹果公司的iOS系统上的siri语音助手仅能实现对诸如短信息、邮件等固定的应用程序的调用，而无法实现与用户自行安装的应用程序的交互。

发明内容

本发明的目的在于，不需要针对终端设备的硬件以及终端设备上的应用程序做任何的修改，仅通过采用运行在终端设备的操作系统之上的中间层来完全屏蔽设备上的应用程序和语音输入设备之间的联系，从而能够直接通过语音来控制现有的终端设备(如手机、平板、车载GPS等)的各种功能或者与终端设备的所有可用应用程序进行交互。

根据本发明的一方面，提供了一种用于终端设备的语音交互方法，所述终端设备包括位于操作系统和应用程序之间的中间层，所述语音交互方法包括：(a)由中间层接收用户从语音输入设备输入的语音指令的语音信息，并将接收的语音信息转换为文本信息；(b)对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息，并根据操作信息得到对终端设备的指令；(c)根据对终端设备的指令调用终端设备的底层API，并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。

根据本发明的一方面，语音交互方法还包括：(d)如果应用程序在执行操作之后返回了文本信息，则将返回的文本信息转换为语音信息，并将语音信息提供给语音输出设备。

根据本发明的一方面，语音交互方法的步骤(c)还包括：将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。

根据本发明的一方面，语音输入设备和语音输出设备集成在与终端设备连接的蓝牙耳机中。

根据本发明的一方面，中间层屏蔽语音输入设备与应用程序之间的联系。

根据本发明的另一方面，还提供了一种用于语音交互的终端设备，所述终端设备包括位于操作系统和应用程序之间的中间层模块，所述中间层模块包括：语音识别模块，接收用户从语音输入设备输入的语音指令的语音信息，并将接收的语音信息转换为文本信息；语义分析模块，对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息，并根据操作信息得到对终端设备的指令；语音控制模块，根据对终端设备的指令调用终端设备的底层API，并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。

根据本发明的另一方面，所述中间层模块还包括：语音转换模块，如果应用程序在执行操作之后返回了文本信息，则将返回的文本信息转换为语音信息，并将语音信息提供给语音输出设备。

根据本发明的另一方面，语音控制模块还将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。

根据本发明的另一方面，语音输入设备和语音输出设备集成在与终端设备连接的蓝牙耳机中。

根据本发明的另一方面，所述中间层模块屏蔽语音输入设备与应用程序之间的联系。

附图说明

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本发明实施例的终端设备的系统架构示意图；

图2是示出根据本发明实施例的图1中的中间层模块的详细配置示意图；

图3是示出根据本发明实施例的语音交互方法的流程图。

具体实施方式

下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解，而这些描述将被认为仅为示例性的。因此，本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外，为了清晰和简洁，可省略对公知功能和构造的描述。

图1是示出本发明实施例的终端设备的系统架构示意图。

如图1所示，根据本发明实施例的终端设备100的系统架构包括：操作系统110、中间层120和应用程序130。

终端设备100可通过诸如带有话筒的蓝牙耳机的语音输入设备来接收用户的语音信号。在接收到语音信号输入之后，终端设备100的操作系统110 控制相应的模块将语音信号转换为在数字化的语音信息，并将语音信息提供给位于操作系统110和应用程序130之间的中间层120。中间层120集成在操作系统110的底层功能中，其可以完全屏蔽应用程序与语音输入设备之间的联系，并可以模拟用户的操作和应用交互。中间层120对接收到的语音信息进行语音识别，从而将接收到的语音信息转换为文本信息。接下来，中间层120对文本信息进行自然语言处理和语义理解，从文本信息中得到用户用语音表达的操作信息和实体信息。例如，如果从用户接收到的语音信息中识别出用户发出了语音指令“跟小李发短息，说我晚上不回家吃饭了”，则通过自然语言处理，中间层120可得到如下信息“启动短信模块，给收件人‘小李’发短信，短信内容为：我晚上不回家吃饭了”。这里，“启动短信模块” 可表示操作信息，收件人‘小李’以及短信内容“我晚上不回家吃饭了”可表示实体信息。当然，中间层120还可以通过扩展处理的模块，进行更多的底层设备应用的控制，例如，可阅读未读邮件、查看天气信息等。

接下来，中间层120根据操作信息所涉及到的应用程序来调用终端设备 100中相应的底层API接口，并将操作信息和实体信息提供给终端设备100 的应用程序130。或者，中间层120可将得到的操作信息和实体信息转换为用于模拟用户行为的操作的指令，从而对终端设备100的其它功能进行控制或者对终端设备100进行相应的操作。例如，可将“提高音量”的语音指令转换为用户对音量+键的行为操作的指令。通过以上处理，可以实现对终端设备100上的不同应用程序或其它基本功能的控制。

另外，如果应用程序130在运行的过程中返回了与用户进行交互的交互信息，则中间层120将返回的交互信息转换为语音，并将转换的语音提供给操作系统110，并由操作系统110的相应模块将转换后的语音提供到声音输出设备。例如，操作系统110的蓝牙耳机模块可将转换的语音发送给蓝牙耳机，从而用户可听到返回的交互信息。

下面将参照图2来详细说明根据本发明实施例的图1中的中间层120模块的详细配置。

如图2所示，中间层模块120包括语音识别模块121、语义分析模块122、语音控制模块123以及语音转换模块124。当然，以上的模块可以划分为更多的模块或者组合为更少的模块。

当接收到语音信息时，语音识别模块121将用户语音转换为文本信息。可采用现有的任何语音识别技术来将语音转换为文本信息。可选地，语音识别模块121可控制终端设备100与用户进行二次交互确认来降低误识别带来的错误指令。

接下来，语义分析模块122分析文本信息，从而将文本信息翻译为操作信息和实体信息。具体地，语义分析模块122对文本信息进行分词和词性标注，通过词条的特征信息和规则，先将文本信息划分为操作信息部分和实体信息部分。然后，语义分析模块122将操作信息部分解码翻译为对于终端设备100的操作指令。

语音控制模块123根据语义分析模块122翻译的操作指令来调用底层 API，从而打开与操作指令相应的应用程序。或者，语音控制模块123根据翻译的操作指令来模拟用户操作行为，从而对终端设备100进行模拟的操作。

另外，如果应用程序130返回了文字信息，则语音转换模块124将返回的文字信息转换为语音信息，并通过调用操作系统110的相应模块来将转换的语音信息提供给语音输出设备。例如，操作系统110可通过调用蓝牙模块将转换后的语音信息提供给蓝牙耳机。

下面将结合具体示例来说明以上的中间层120的操作。例如，如果用户在开车的过程中收到新浪微博发来的微博的通知。这时候，操作系统110将通知以声音和画面的形式发送给用户，以提醒用户。这种提醒的方式在大多数终端设备中已经实现。

用户在得到提醒之后决定查看这条微博并进行反馈。此时，用户通过蓝牙耳机上的话筒发出语音指令“查看通知信息”。中间层120在接收到该语音信息之后，语音识别模块121对这条语音信息进行识别，从而得到“查看通知信息”的文本信息。接下来，语义分析模块122使用分词标注来对文本信息进行分析。例如，分词标注能够识别出动词“查看”和动词的受体“通知信息”，同时根据上一次发生信息交互的应用程序(即，新浪微博)，语义分析模块122可以判断出用户的需求是“查看”[动作]“新浪微博”[应用程序]的 “通知信息”[客体]。然后，语音控制模块123调用终端设备100的操作系统底层的API打开新浪微博。这样，用户可在终端设备上查看刚刚接收到的新浪微博的通知信息。

可选地，语音转换模块124还可从应用程序得到通知信息的文本信息，并将文本信息转换为语音信息，并通过操作系统110的负责蓝牙耳机的模块将语音信息发送到蓝牙耳机。这样，用户可从蓝牙耳机中听到自己想要查看的通知信息，而不用自己主动在终端上查看通知信息。与当前已经存在的语音助手类的应用程序最大的区别是不需要对当前存在的应用程序做接口调用，直接从底层就可以和其他应用进行交互，具有很大的扩展性。

下面将参照图3对根据本发明实施例的语音交互方法的流程进行说明。

首先，在步骤S301，由位于操作系统110和应用程序130之间的中间层 120来接收用户从语音输入设备输入的语音指令的语音信息。

接下来，在步骤S303，中间层120将接收的语音信息转换为文本信息。然后，在步骤S305，中间层120对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息，并根据操作信息得到对终端设备的指令。

接下来，在步骤S307，中间层120根据对终端设备的指令调用终端设备的底层API以操作相关的应用程序，并将操作信息和实体信息提供给相应的应用程序。或者，中间层120还可将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。

可选地，如果应用程序在执行操作之后返回了文本信息，则在步骤S309 中间层120将返回的文本信息转换为语音信息，并将语音信息提供给语音输出设备。

通过本发明，用户可以借用语音输入设备控制移动设备的应用程序，满足在移动过程中不适合查看手机屏幕时的使用场景。除此之外，对于无法正常使用一些设备的盲人，也提供了一种仅仅通过语音的方式和设备进行交互的方法。另外，本发明的技术方案不仅扩充了目前终端设备的语音交互功能，由于终端设备可通过中间层对语音指令进行转码，因此，可利用语音对运行在终端设备上的各种应用程序和功能进行控制和交互。

根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带)；光学介质(例如CD-ROM和DVD)；磁光介质(例如，光盘)；以及特别配制用于存储并执行程序指令的硬件装置(例如，只读存储器 (ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。

尽管已经参照本发明的示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 终端设备的语音交互方法和使用该方法的终端设备 [P] . 中国专利： CN104050966B . 2019.01.01
2. 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备 [P] . 中国专利： CN109195016B . 2020.12.15
3. INFORMATION ACQUIRING METHOD AND INFORMATION GATHERING METHOD USING PORTABLE TERMINAL DEVICE, AND INFORMATION ACQUISITION SYSTEM USING PORTABLE TERMINAL DEVICE AND INFORMATION GATHERING SYSTEM USING PORTABLE TERMINAL DEVICE [P] . 日本专利： JP2002230393A . 2002-08-16

机译：使用便携式终端设备的信息获取方法和信息收集方法，以及使用便携式终端设备的信息获取系统和使用便携式终端设备的信息收集系统
4. Among the vast number of video information broadcast in one direction, a terminal device capable of displaying an operator's desired viewing at a higher speed using a cache, a reproduction method used in the terminal device, and a recording medium (TERMINAL APPARATUS AND METHOD FOR) ACHIEVING INTERACTIVE OPE RATIONS BY DISPLAYING A DESIRED PIECE OF IMAGE INFORMATION AT HIGH SPEED USING CACHE MEMORIES OUT OF A LARGE AMOUNT OF IMAGE INFORMATION SENT IN A ONE-WAY DIRECTION) [P] . 韩国专利： KR19980019191A . 1998-06-05

机译：在一个方向上广播的大量视频信息中，一种能够使用高速缓存显示操作员期望观看的终端设备，该终端设备中使用的再现方法以及记录介质（终端设备和方法）通过使用单向发送的大量图像信息中的缓存存储，以高速显示所需的图像信息片段来实现交互操作）
5. WEBSITE INTERACTION METHOD UTILIZED BY TERMINAL DEVICE, METHOD OF PROVIDING NETWORK SERVICE TO TERMINAL DEVICE, AND COMPUTER PROGRAM PRODUCT UTILIZED BY TERMINAL DEVICE TO INTERACT WITH WEBSITE [P] . 世界知识产权组织专利： WO2017219358A1 . 2017-12-28

机译：终端设备使用的网站交互方法，为终端设备提供网络服务的方法以及终端设备使用的计算机程序产品与网站进行交互