首页> 中国专利> 声音和击键数据的输入设备,具有该设备的发音识别系统和声音识别输入设备

声音和击键数据的输入设备,具有该设备的发音识别系统和声音识别输入设备

摘要

公开一种具有一个用于传输击键和声音数据两者至一个计算机的接口控制器的输入设备。该计算机能够将数据分离以供单独处理,并且包括用于声音或语音识别的发音处理。该输入设备可以是一个声音识别键盘,其中声音识别处理对于键盘是局部的及该键盘可以远程地控制多媒体电子设备。对输入设备的口述命令可以启动对因特网的访问。本发明还考虑各方法,用于通过单个接口提供击键和声音输入信号至计算机系统以供声音或语音识别之用,用于将口述词转换为文本,用于提供从连至因特网的计算机中对因特网的访问,或者使用口述命令远程地控制至少一个电子设备。

著录项

  • 公开/公告号CN1451156A

    专利类型发明专利

  • 公开/公告日2003-10-22

    原文格式PDF

  • 申请/专利权人 美蓓亚株式会社;

    申请/专利号CN01809495.3

  • 发明设计人 小拉利·R·迪恩;

    申请日2001-06-22

  • 分类号G10L21/00;

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人李强

  • 地址 日本长野

  • 入库时间 2023-12-17 15:01:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-08-13

    未缴年费专利权终止 IPC(主分类):G10L21/00 授权公告日:20060118 终止日期:20130622 申请日:20010622

    专利权的终止

  • 2006-01-18

    授权

    授权

  • 2003-12-31

    实质审查的生效

    实质审查的生效

  • 2003-10-22

    公开

    公开

说明书

技术领域

本发明涉及与电子设备接口的输入设备。本发明更具体地涉及计算机键盘、声音和语音识别系统及电子设备的控制系统。

背景技术

现有技术中知道,声音检测能力能够与键盘结合起来。例如,授予Whelpley,Jr.的美国专利号5,659,665(“Whelpley’665专利”)公开了一种插入于键盘和计算机系统之间数据电缆处的外部设备。该外部设备通过将声音信号转换为送至计算机的键盘端口的击键数据而为计算机增加声音识别能力,同时允许键盘本身上生成的普通信号照常通过外部设备送至计算机。由Whelpley‘665专利所公开的声音识别系统是自包含的,即声音输入和声音识别硬件被包括于外部设备内,而声音输入信号的处理也如此。声音命令从不传输至计算机,而只传输与它们对应的键盘数据,及计算机处理时间并不用于执行声音识别功能。

Whelpley‘665专利还公开了一个实施例,其中声音识别设备被包含于键盘外壳内。类似于外部实施例,该设备通过将声音信号转换为键盘数据并且将数据插入至来自键盘的数据流中而起作用。Whelpley‘665专利中公开的该组合有效地掩盖了声音识别功能而使它对计算机是透明的。因此,声音信号从不在键盘电缆上传输。

所有只“模仿”键盘操作的现有技术设备例如Whelpley‘665专利中所公开的设备的功能都严格地限制于键盘输入和能够由击键组合所执行的命令。这是一个严重的缺点,因为如果没有一个直接连至计算机并且独立于声音识别系统的冗余的话筒/扬声器组合,则计算机不可能完成对声音信号本身的操作。

声音识别是一种发展的技术。当今的实施可能或是一个被设计为准确地识别具体用户声音的“依赖于声音的”系统,或是一个被设计为准确地识别任何声音的“独立于声音的”系统。该领域中的进步已经减少在将语音译为击键时由于个别发音、说话习惯和重音的差别而引起的不准确性。由于声音识别的任何自包含实施会被限制于它内部的硬件,在技术发展中要升级很可能是昂贵的。

此外,由于需要“训练”现有声音识别系统以便准确地辨明具体用户的声音,各功能例如基本文本输入被显著地复杂化了。授予Galvin的美国专利号5,874,939(“Galvin’939专利”)公开了一种带有一个方便于训练的显示器的声音识别键盘。由于口述词被该系统译为文本,用户能够在显示器上检查它们的准确性,并且以此方式不断改进该系统的准确性。

如同Whelpley‘665专利,Galvin‘939专利中公开的声音识别系统是自包含的,并且不传输声音数据给计算机。其结果是,训练过程只需被限制于一个对于键盘是局部的接口中,按照所公开内容,它或是稀少或是昂贵的,并且还有问题,即需要在它所连接的计算机上既提供键盘又提供显示器。

虽然Whelpley‘665专利和Galvin‘939专利所公开的自包含方案试图通过将语音处理限制于一个与计算机系统隔离的外在处理器内以便改进系统效率,它们可能适用于较旧的计算机系统,但它们在现有计算机系统和可用的高位率接口的实用中不够灵活,并且与其他声音相关技术不兼容。

发明内容

需要一种能够通过相同接口同时传输声音和键盘信号至计算机的费用低廉的设备。还需要一种能够既模仿键盘信号又支持其他声音处理功能例如数字电话和远程设备控制的发音识别系统。在键盘的外部环境中需要这些功能。还需要一种发音识别系统,取决于应用要求,它能够或从键盘内或与计算机系统一起发挥作用。

本发明涉及把来自计算机键盘和其他外围接口例如话筒或电话手机的击键数据与声音数据集合于一个发音识别系统中,用于文本输入、控制电子设备和访问因特网。

本发明的一个实施例是提供一种输入设备例如一个普通计算机键盘,它适合于与其接口控制器共享声音信号输入和允许这些信号通过携带击键数据的同一条电缆被传输至计算机系统。

通过使用一个足够高的位率的键盘接口控制器例如通用串联总线(“USB”)控制器以及一个连至控制器的用于将例如来自话筒的模拟声音信号转换为数字信号的声音处理器,能够在单条电缆上将键盘和声音信号两者传输至计算机。以此方式,USB键盘成为一个声音信号进入和出自计算机的通道。如此操作,它能够补充或替代当今计算机系统中用于处理声音的现有外部设备例如声音卡。

一个声音输出设备例如扬声器与声音处理器连接后允许进行与电信应用兼容的双向声音传输。存储器被加入声音处理器后,将输入设备的功能扩展为声音传信、声音标记识别和声音识别。

为达到本发明的各个目的,提供一种用于计算机系统的输入设备,它包括一个提供用于计算机系统中的通信信号的接口控制器;以及一个连至接口控制器的击键输入装置;以及一个连至接口控制器的声音输入装置,该击键输入装置和声音输入装置共享该接口控制器以便传输键盘和声音数据至计算机。

本发明的另一个实施例是一个声音识别系统,其中一个使用单个输入设备接收声音和键盘信息的计算机应用声音识别技术来处理声音输入信号,以便作为文本加以输出,或者执行相应的操作指令。如上所述,输入设备可以是一个键盘例如USB键盘,及一个声音处理器可以被插入于其中以便接纳模拟声音输入信号。存储器可以被加入至输入设备中,或被加入至计算机中以便于声音标记识别。能够在输入设备与计算机之间采用信号的加密步骤以便防止对接口的窥探。还能使用与计算机平行的输入设备,或是在系统中分摊计算负荷或是加强声音识别功能的准确度,从而完成声音识别。

此处提供的又一种声音识别系统包括:一个具有一个连至输入处理装置和输出装置的声音识别装置的计算机系统;以及一个具有击键输入装置和声音输入装置的用于传输声音和击键信号的输入设备,它连至并且共享至少一个连至计算机的输入处理装置的接口控制器,其中该声音识别装置处理所述声音信号并且生成输出信号至输出装置。

在又一个实施例中,声音识别设备被包括入一个键盘中,它具有一个能够传输数据至计算机以及传输输入信号至一个或多个外部设备的发信装置。根据此实施例的典型处理操作采用一个与计算机接口的USB技术,例如用于控制电视机的红外(IR)或用于无绳电话等的射频(RF)传输。用于执行语音识别的必要部件被包括于键盘内以便用于将语音转换为文本,再通过键盘接口传输至计算机,还用于提供声音操作的远程控制,以便用于任何兼容电子设备。

还提供一种计算机系统所用声音识别键盘,用于生成击键输入信号和操作指令,以便控制至少一个电子设备,包括:一个用于传输两种类型的信号的发信装置,其中第一种类型适合于传输给计算机系统及第二种类型适合于传输给至少一个电子设备;以及多个连至发信装置的键,用于提供击键输入信号给发信装置以便通过它进行传输;以及一个声音输入装置;以及一个连至声音输入装置以便将口述词转换为操作指令从而通过信号装置进行传输的声音识别装置。

需要至少一个声音输入设备来提供声音输入信号至键盘以及声音处理电路中以便进行信号处理和声音识别。如同以前的实施例,存储器的增加、加密电路和键盘的声音输出装置能够实现声音标记比较和双向声音通信,从而保证数字电话系统和声音数据输入。

在另一个实施例中,提供一个输入设备例如一个键盘,当连至一个配置为访问因特网的计算机时,它能够在接收具体口述命令后启动对因特网的访问。

提供了一种声音识别输入设备,用于从被配置为连至因特网的计算机中使用声音访问因特网,包括:一个声音输入装置;以及一个声音识别装置,用于识别口述命令,其中至少一个命令被定义为启动对因特网的访问;以及一个信号装置,用于启动对命令的执行。

本发明还考虑到各种方法,用于通过单个接口提供击键和声音输入信号给计算机系统,将口述词转换为文本,从一个连至因特网的计算机访问因特网,及使用一个口述命令来远程地控制至少一个电子设备。

参照附图阅读以下说明,将能清楚地理解本发明的以上和其他特征、方面和优点,其中相同参考数字标示相同元件。

附图说明

本发明通过例子进行阐述,但不限于附图中所阐述内容,其中相同参考数字标示相同的或对应的部件。图中:

图1是根据本发明的输入设备的框图说明;

图2是根据本发明的UBS键盘中的集成式语音输入设备实施例的框图;

图3是根据本发明的连至一个具有声音识别装置的计算机系统的输入设备的一个实施例的框图;

图4是根据本发明的连至一个还连至外部服务的计算机系统的输入设备的一个实施例的框图;

图5是本发明一个实施例的框图,其中集成式输入设备是一个具有远程控制能力的声音识别键盘;及

图6是连至一个对因特网进行访问的计算机的本发明实施例的框图。    

具体实施方式

现在参照图1,其中显示一个根据本发明的一般以数字10标示的语音输入设备的优选实施例的电气框图。语音输入设备10的方框11被图示。一个计算机系统一般由数字20所标示。计算机20具有一个输入处理器21,它连至语音输入设备10的接口控制器12以供双向通信之用。接口控制器12被连接以便自击键输入设备13和声音输入设备17接收信号。

一个声音处理器14连接于声音输入设备17与接口控制器12之间。声音处理器14与接口控制器12之间存在一个双向连接。接口控制器12和声音处理器14可以被合并为单个芯片。其功能是相同的。声音输出设备18和存储器16连至声音处理器14。可以理解,虽然声音输入设备17和声音输出设备18被显示于具有方框11的图1中,但它们可以放在方框之外而不影响本发明的功能或实质。

在操作中,从声音输入设备17接收的信号被声音处理器14实现数字化,且声音数据被送至接口控制器12。接口控制器12将声音数据与从击键输入设备13中接收的击键数据合并,并且将它们作为单个数据信号传输至计算机系统20的输入处理器21中。在包括USB的本设备中,键盘和话筒使用两个不同的USB端点作为复合USB设备,所以键盘数据和声音数据不一定要是同时的。声音数据可以或是等时的或是非等时的。如果数据是等时的,它将在USB总线上具有优于所有其他类型数据的优先级。音频数据可能也是非等时的及模仿另一个USB设备。无论使用何种接口方法,声音数据和击键数据可以被同时传输,或者一次传输一个或另一个。声音数据和击键数据通过单条电缆被传输至计算机系统。

类似地,包含声音数据的、由接口控制器12从计算机20接收的信号被送至声音处理器以供转换为适用于声音输出设备18的模拟信号。在最简单的情况下,声音处理器用作一个输入信号用的模数转换器(ADC)和一个声音数据输出信号用的数模转换器。

从声音输入设备17接收的信号可以为任何类型的发音识别进行处理,例如用于将人类语音译为文本的语音识别及用于将人类语音处理为命令或完成证实操作的声音识别。

存储器16可以包含一个声音标记样本或声音识别数据,允许声音处理器14完成来自声音输入设备17的声音信号的声音标记比较或者在其上完成声音识别功能。

图2是类似于图1中的本发明的电气框图,其中语音输入设备10是基于USB键盘的。一个USB键盘的标准部件按照普通方式进行安排,包括一个连至击键输入设备13和信号LED 15和具有USB输出设备19的接口控制器12。

有若干种类的数个USB设备。一个USB键盘本身属于人接口设备(HID)一类。其他种类包括音频设备、通信设备、显示设备和海量存储设备等种类。音频设备种类已经为USB话筒定义了一个设备描述符。使用USB音频设备种类描述符是一个用于支持USB话筒的标准方式,及要求一个支持等时传输的全速的每秒12兆位USB接口芯片。这类芯片比低速芯片更为昂贵,但它能够保证与更大范围的USB系统的话筒驱动器的兼容性。然而,因为本发明考虑等时和非等时数据两种传输方式,任何接口都能够由这些USB设备种类替代而不必改变其基本功能。

本发明为USB键盘增加一个连至接口控制器12和连至分别由话筒和扬声器代表的声音输入设备17和声音输出设备18的声音处理器14。该声音输入设备17可以是一个板上话筒(即与键盘集成的话筒)或一个插入插座的话筒。存储器16也可连至声音处理器14。

语音输入设备10的操作类似于图1中描述的设备,其中接口控制器12将自击键输入设备13接收的数据与自声音输入设备17接收的声音数据合并,并且由声音处理器14实现数字化。数字信号进入接口控制器12,它用作一个USB处理器,用于将这些信号分组。根据与任何具有类似的USB接口的计算机系统兼容的标准USB技术,所得信号通过USB电缆19被作为声音分组进行传输。这些分组的一个可能格式是16位8KHz PCM的USB话筒音频数据格式;然而,有许多其他可能的音频格式。通过USB电缆19进入的声音信号被接口控制器12引入声音处理器14以便通过声音输出设备18输出。声音处理器14和接口控制器12可以被合并为单个芯片而不影响功能。LED15通常用作键盘指示灯,例如Num Lock或Caps Lock,但也同样能用于标示声音输入设备10的其他方面的功能。

在此配置中,声音输入设备10正好用作一个标准USB键盘,也能用作一个声音信号的双向通道而不必向符合USB标准的计算机增加附加接口。此外,声音输入设备17和声音输出设备18能够被合并为一个接收机单元而用作电话手机。将存储器16加至声音处理器14,能够进一步允许该系统检查用户身份,或通过将一个输入信号与存于存储器16内的信号进行比较而将对于声音输入设备10的访问限制于具体的授权用户。也可能在此配置中为声音处理器14增加任何发音识别功能而仍然保留单个输入设备的雅致。

现在参照图3,其中显示一个采用输入设备10的发音识别系统的优选实施例的框图,其中计算机系统20具有一个连至发音子系统装置22的输入处理器21,而发音子系统装置22又连至一个输出装置23。输入设备10具有与图1中相同的基本部件,并且类似地进行操作以便通过单个接口向计算机系统20提供送至输入处理器21的击键和声音数据。声音数据被输入处理器21分离出来以便传输至发音子系统装置22。根据此实施例,发音子系统装置可以包括计算机系统的本国语处理装置,用于执行具有一组指令形式的软件,或者它可以包含专用硬件或两者的组合。

输出装置23可以提供发音子系统装置22的直接输出信号,例如被转换为显示于一个监视器上的文本的口述词,或者它可以是更间接地提供给字处理器和输出给打印机的声音口授。如同先前实施例,输入设备10的接口控制器12可以适合于根据USB技术生成信号。类似地,声音处理器14可以连接于声音输入设备17和接口控制器12之间以便提供模数转换操作。能够提供声音输出设备18,其中声音处理器14将通过接口控制器12接收的数字声音信号转换为适合于输出至扬声器的模拟信号。

如同先前实施例,声音处理器14的功能不限于信号模式转换。增加存储器16能够允许将声音处理操作局限于输入设备10,例如声音标记比较和语音识别。声音标记比较能够用于将输入声音信号与记录于存储器16中的声音标记内容进行比较。通过处理器14的局部发音识别操作能够与发音子系统装置22一起使用,其中输入设备10用作计算机系统20的一个协处理器。

被显示于输出装置23上的用户接口可以是基于Windows的,也可由其中显示声音命令的下拉式菜单所驱动。因此,用户不必记住系统能够识别的命令。此方案能够使发音识别系统更加用户友好。当然,任何显示接口都能使用,或者接口可以被剪裁以便完成具体功能而不改变本发明的功能。

图4阐述图3的发音识别系统的一个修改实施例,其中被图示的具有方框11的输入设备10具有接口控制器12,它被连接以便自击键输入设备13接收击键数据和被连接以便发送和自所述声音处理器接收声音输入信号。接口控制器12将数字声音信号分组以便通过一条电缆发送它们至计算机系统20。声音输入设备17和声音输出设备18相应地通过接口控制器12和相同电缆自声音处理器14发送模拟声音数据至计算机系统20及自它接收数据。如同先前实施例,声音处理器14使用存储器16存储用于声音标记比较和声音识别的数据。

在本实施例中,信号加密装置19已经被加入至输入设备10中以便将输入设备10与计算机系统20之间传输的数据加密/解码。类似地,由于同样原因,加密装置25已经被加入至计算机系统20中。加密装置19和25可以是任何在软件控制下的已知类型的加密电路或处理器。加密装置19可以与接口控制器12组合,从而使用接口控制器12将数据既分组又加密。

在计算机系统20中,输入处理器自输入设备10中接收声音和键盘数据,并且发送声音信号至声音识别装置22。存储器24被显示为连至用作它的存储电路的发音子系统装置22。输出装置23可以是计算机系统20的一个显示装置,用于显示发音子系统装置22的输出内容。I/O控制器26被显示于此实施例中,用作计算机系统20与计算机系统20之外的数据源例如因特网连接、电话服务和外围设备之间的网关接口。

在此配置中,声音输入设备17和声音输出设备18可以被合并为一个接收机单元,应用于在线电话系统中。在此方面,允许通过因特网供应商传输声音(VOIP)。此外,能够使用一个接口卡例如局域网(LAN)卡来完成I/O控制器26的功能。

在此实施例中,发音识别系统用于提供自输入设备10至计算机系统20的声音和击键信号的通信的安全装置。任何窥探接口控制器12与输入处理器21之间接口的尝试会遇到加密装置19、25操作的阻止。

现在参照图5,图中显示根据本发明的实施例的框图,其中输入设备是一个声音识别键盘10。声音识别键盘10的方框由11图解地表示,它内部具有用于自击键输入设备13和声音处理器14接收数据的接口控制器12。声音处理器14自声音输入设备17接收声音信号及连至存储器16。

声音处理器14自声音输入设备17接收作为声音信号的输入语音,将口述词转换为适合于通过接口控制器12传输至计算机系统20或电子设备30的命令。接口控制器12将来自击键输入设备13和声音处理器14的数据合并,并且选择性地传输它们至计算机系统20和电子设备30。

根据此实施例,声音识别键盘10可以用作一个普通键盘,具有一个用于提供击键数据至计算机系统20的接口例如USB。然而,来自击键输入设备的输入可以是控制数据,并且可以进一步被送至一个电子设备例如DVD或CD播放机、立体声播放机、VCR、机顶盒或电视机,接口控制器12配备有一个接口,例如与被控制的设备30兼容的射频(RF)或红外(IR)接口,或一条USB电缆。

附加地,通过声音输入设备17接收的口述命令被处理为它们的对应的击键数据并且被送至接口控制器12。接口控制器处理来自声音处理器14的翻译的输入信号,犹如来自击键输入设备13的数据,通过一个计算机接口例如一个USB接口或一个通过任何其他所需合适的接口链接至计算机系统20或链接至电子设备30的一个RF或IR链路传输数据。因此,口述命令能够远程地控制任何类型的多媒体电子设备例如DVD或CD播放机、立体声播放机、VCR、机顶盒或电视机。

这些可能的键盘命令和输入信号是所有可能的声音命令和输入信号的一个子集。键盘始终具有一个建立的有限数量的键和键组合,而声音命令和输入信号在物理上是无限的。存在上千个声音命令,而键盘输入信号通常被限制为数百个代码。

本发明的一个关键特征是通过USB电缆发送声音分组,而不是将声音命令译为键盘代码及然后通过电缆发送键盘代码。声音命令集不限于过去的键盘代码。所支持的声音命令的数量只由系统存储器和事先记录的命令数量所限制。声音命令的数量能够无限制地增长,因为事先记录的声音命令能够通过因特网下载新代码而得到更新。当用户访问由具体网站所支持的网站声音命令时,一个声音命令的单独集合能够被自动地下载。

图6显示本发明的一个选代实施例,它用于提供声音访问给因特网。在此实施例中,输入设备10具有连至声音处理器14的接口控制器12,而声音处理器14又连至存储器16和声音输入设备17,如方框11中所图示地表示的。在此实施例中,口述命令被声音处理器14转换为相应的数据,并且通过一个接口被发送至计算机系统20。计算机系统20被配置为连至因特网。因此能够由声音激励对因特网的访问。输入设备10可以是一个具有声音启动因特网访问的键盘,用于替代或补充键盘上的热键。此实施例允许声音命令被转换为被计算机系统20认识的命令,以便用于在因特网上漫游。能够使用本发明实施例访问计算机的万维网。

本发明还考虑一种为声音和击键数据使用单个接口的方法。计算机将合并的信号分离为一个数字声音信号分量和一个击键信号分量,以供单独处理。能够实现声音标记比较。本发明包括使用声音命令启动因特网访问的方法。这类声音命令可以被输入至键盘中。也考虑一种用于自具有口述命令的键盘远程地控制电子设备的方法。

虽然已经参照优选实施例描述了本发明,但业内人员明显地知道,能够在不背离本发明的实质和范围的情况下考虑变动和修改。优选实施例的附图和描述只是用作例子而不是用于限制本发明的范围,且所有这类变动和修改都属于本发明的精神和范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号