首页> 中国专利> 语音识别设备、语音识别方法、以及用于识别语音的程序

语音识别设备、语音识别方法、以及用于识别语音的程序

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

[要解决的问题]在语音识别设备中，提供语音识别方法以及用于识别语音的程序，来执行具有高精确度的语音识别。[解决方法]当其中将多个用于接收的电话号码分配给呼叫的相应内容的呼叫接收单元(11)从呼叫方接收呼叫时，呼叫语音信号输入装置(12)输入呼叫的呼叫语音信号，以及接收电话号码输入装置(13)输入呼叫的接收电话号码。然后，语音修正装置(14)根据接收电话号码执行针对呼叫语音信号的语音修正处理，以及语音识别装置(17)根据接收电话号码执行针对呼叫语音信号的语音识别处理。

著录项

公开/公告号CN101379550A

专利类型发明专利
公开/公告日2009-03-04

原文格式PDF
申请/专利权人日本电气株式会社;
展开▼

申请/专利号CN200780004694.4
发明设计人中泽聪;佐藤研治;池田崇博;坂尾要祐;
展开▼

申请日2007-01-31
分类号G10L15/06;G10L15/00;G10L15/20;
代理机构中科专利商标代理有限责任公司;
代理人朱进桂
地址日本东京都
入库时间 2023-12-17 21:36:28

法律信息

法律状态公告日

法律状态信息

法律状态
2012-06-27

授权

授权
2009-04-29

实质审查的生效

实质审查的生效
2009-03-04

公开

公开

说明书

技术领域

本发明涉及语音识别设备、语音识别方法、以及用于识别语音的程序，更具体地，涉及用于执行适合关于电话呼叫语音的内容的语音识别过程、语音识别方法、以及用于识别语音的程序。

背景技术

近年来，使用在电话的自动应答和呼叫日志中的语音识别技术已广泛应用在呼叫中心等处。一般地，语音识别技术是基于电话的语音提取预先登记的词，以及自动地将该词转换为字符信息的技术。在该技术中，准备表示具有频率等的每个语音的最小识别单元的声音模型、将语音组合定义为词的识别字典、以及示出词和表达之间连接关系的语言模型，以及参照其执行语音识别。

在语音识别技术中，预先准备与要识别的语音信号的特征、类型和环境相对应的声音模型、识别字典以及语言模型可以有效地降低错误识别并且提高识别准确度。作为使用这种语音识别技术的示例，专利文件1公开了呼叫内容详写系统，其中针对电话的传输侧信道和接收侧信道独立地准备在语音识别中要使用的基本数据，从而执行适合相应信道的语音识别；专利文件2公开了用于根据电话的呼叫方号码选择在语音识别中使用的语音字典的通信设备。

专利文件1：日本待审专利公开号No.2005-123869

专利文件2：日本待审专利公开号No.2005-125031

发明内容

然而，在专利文件1中公开的系统只在传输侧和接收侧单独地执行语音识别，以及对于接收侧的语音(来自呼叫方未指定号码的语音)，不执行适合其特征的语音识别。即使将专利文件1的这种系统应用在呼叫中心等的自动应答或呼叫日志，也不能期望提高语音识别的准确度，因为不执行与用户语音相对应的语音识别。

在专利文件2中描述的通信设备中，需要预先准备根据电话的呼叫方号码的用于预测呼叫内容的信息，此外，存在如下缺点：如果被呼叫方设置阻止呼叫方号码，则不能执行语音识别。

本发明旨在提供呼叫中心等工作中使用的语音识别设备、语音识别方法以及程序，用于在改进现有技术缺陷的基础上识别语音，其中以高精确度执行语音识别，而不需要呼叫的呼叫方信息。

为了实现上述目标，本发明的语音识别设备包括：呼叫接收单元，用于接收向多个用于接收的电话号码做出的呼叫；呼叫语音信号输入装置，用于输入所接收呼叫的呼叫语音信号；接收电话号码输入装置，用于输入与输入呼叫语音信号相关的、用于接收的电话号码，作为呼叫的接收电话号码；语音识别信息存储装置，用于存储用于语音识别的语音识别信息，其中，将语音识别为与用于接收的电话号码相对应的语言信息；语音识别信息选择装置，用于从所存储的语音识别信息中选择与接收电话号码相对应的语音识别信息；以及语音识别装置，用于使用所选择的语音识别信息，将输入至呼叫语音信号输入装置的呼叫语音信号识别为语言信息，以及指定语音内容。

根据这种语音识别设备，根据要接收的呼叫内容(例如针对要处理的相应内容或针对相应的呼叫区域)提供多个用于接收的电话号码，以及针对所接收呼叫的语音信号，执行与呼叫的接收电话号码(即，对其做出呼叫的用于接收的电话号码)相对应的语音识别，从而可以执行与呼叫内容相对应的高精度语音识别，以及可以精确地指定语音内容。

语音识别信息可以是以下至少一个：示出语音和词汇的对应关系的识别字典、以语音的最小识别单位来代表声音特征的声音模型、代表词的连接关系的语言模型、以及指示语音识别过程的信息或识别参数。在这种情况下，通过使呼叫语音信号和识别字典、声音模型、以及其语言模型相互关联，执行语音识别。

此外，本发明的语音识别设备包括呼叫接收单元，用于接收向多个用于接收的电话号码做出的呼叫；呼叫语音信号输入装置，用于输入所接收呼叫的呼叫语音信号；接收电话号码输入装置，用于输入与输入呼叫语音信号相关的、用于接收的电话号码，作为呼叫的接收电话号码；修正内容信息存储装置，用于存储指示与用于接收的电话号码相对应的语音信号修正的内容的修正内容信息；修正内容信息选择装置，用于选择与呼叫的接收电话号码相对应的修正内容信息；语音修正装置，用于执行通过所选择的、与输入至所述呼叫语音信号输入装置的呼叫语音信号有关的修正内容信息所指示的语音修正过程；以及语音识别装置，用于将语音修正装置修正的呼叫语音信号识别为语言信息，以及指定语音内容。

相应地，可以针对呼叫语音信号执行与呼叫的内容相对应的语音修正过程。语音修正过程的示例包括噪声去除过程以及信号失真修正过程、压缩后的语音修正过程等，其中通过这种语音修正过程将与语音识别不相关的声音从呼叫语音信号中去除。因而，呼叫语音信号与发话人的声音语音信号(即原始语音信号)更加接近，可以正确地执行语音识别，以及增强语音识别的精确度。

根据本发明的语音识别方法包括：接收向多个用于接收的电话号码做出呼叫的呼叫接收步骤；输入所接收呼叫的呼叫语音信号的呼叫语音信号输入步骤；输入与输入呼叫语音信号相关的、用于接收的电话号码，作为呼叫的接收电话号码的接收电话号码输入步骤；根据呼叫的接收电话号码，选择用于其中将语音识别为语言信息的语音识别的识别信息选择步骤；以及通过使用所选择的语音识别过程信息，将在呼叫语音信号输入步骤中输入的呼叫语音信号识别为语言信息，以及指定语音内容的语音识别步骤。

根据这种语音识别方法，根据要接收的呼叫内容(例如针对要处理的相应内容或针对相应的呼叫区域)提供多个接收的电话号码，以及在所接收呼叫的语音信号上执行与呼叫的接收电话号码(即，对其做出呼叫的用于接收的电话号码)相对应的语音识别，从而可以执行与呼叫内容相对应的高精度语音识别，以及可以精确地指定语音内容。

在上述语音识别方法中，语音识别信息可以是以下至少一个：示出语音和词汇对应关系的识别字典、以语音的最小识别单位来代表声音特征的声音模型、代表词的连接关系的语言模型、以及指示语音识别过程的信息或识别参数。

此外，本发明的语音识别方法包括：接收向多个用于接收的电话号码做出呼叫的呼叫接收步骤；输入所接收呼叫的呼叫语音信号的呼叫语音信号输入步骤；输入与输入呼叫语音信号相关的、用于接收的电话号码作为呼叫的接收电话号码的接收电话号码输入步骤；根据呼叫的接收电话号码，从预先存储的与用于接收的电话号码相对应的修正内容信息中选择指示语音信号修正内容的修正内容信息的修正内容信息选择步骤；与在呼叫语音信号输入步骤中输入的呼叫语音信号有关的执行所选择的修正内容信息指示的语音修正过程的语音修正步骤；以及将在语音修正步骤中修正的语音信号识别为语言信息、并指定语音内容的语音识别步骤。

相应地，可以在呼叫语音信号上执行与呼叫的内容相对应的语音修正过程。语音修正过程的示例包括噪声去除过程以及信号失真修正过程、压缩后的语音修正过程等，其中通过这种语音修正过程将与语音识别不相关的声音从呼叫语音信号中去除。因而，呼叫语音信号与发话人的声音语音信号(即原始语音信号)更加接近，可以正确地执行语音识别，以及增强语音识别的精确度。

本发明的识别语音程序使计算机执行接收向多个用于接收的电话号码做出呼叫的呼叫接收过程；输入所接收呼叫的呼叫语音信号的呼叫语音信号输入过程；将输入与输入呼叫语音信号相关的、用于接收的电话号码作为呼叫的接收电话号码的接收电话号码输入过程；根据呼叫的接收电话号码，选择用于将语音识别为语言信息的语音识别信息的识别信息选择步骤；以及通过利用所选择的语音识别信息，将在呼叫语音信号输入过程中输入的呼叫语音信号识别为语言信息，以及指定语音内容的语音识别过程。

根据识别语音的这种程序，提供与呼叫内容相对应的多个用于接收的电话号码，以及通过使用与呼叫的接收电话号码(即，对其做出呼叫的用于接收的电话号码)相对应的语音识别信息，识别相关呼叫的语音信号，从而可以执行与呼叫内容相对应的高精度语音识别，以及可以精确地指定语音内容。

语音识别信息可以是以下至少一个：示出语音和词汇对应的识别字典、以语音的最小识别单位来代表声音特征的声音模型、代表词的连接关系的语言模型、以及指示语音识别过程的信息或识别参数。

此外，本发明的用于识别语音的程序使计算机执行接收向多个用于接收的电话号码做出呼叫的呼叫接收过程；输入所接收呼叫的呼叫语音信号的呼叫语音信号输入过程；输入与输入呼叫语音信号相关的、用于接收的电话号码作为呼叫的接收电话号码的接收电话号码输入过程；根据呼叫的接收电话号码，从针对用于接收的相应电话号码预先定义的修正内容信息中选择指示语音信号修正内容的修正内容信息的语音修正选择过程；根据所选择的修正内容信息，修正在呼叫语音输入过程中输入的呼叫语音信号的语音修正过程；以及将在语音修正过程中修正的语音信号识别为语言信息，以及指定语音内容的语音识别过程。

本发明如上配置并运行，由此可以针对所接收呼叫的语音信号执行与呼叫内容相对应的语音识别过程，结果，可以高效地执行具有很少错误识别以及高精度的语音识别。

具体实施方式

将参照附图描述本发明的一个示例性实施例。

图1是示出示例性实施例配置的概述的功能框图。

图1中示出的语音识别设备1是用于识别来自外界的呼叫语音以及指定语音内容的装置。语音识别设备1与公共通信网络2相连，以及通过以下装置配置：呼叫接收单元11、呼叫语音信号输入装置12、接收电话号码输入装置13、语音修正装置14、用于预处理的模块存储单元15、语音修正过程选择装置16、语音识别装置17、识别字典、模型以及参数存储单元18、语音识别过程选择装置19、以及识别结果输出装置20。

呼叫接收单元11，其中多个用于接收的电话号码分配用于接收向用于接收的相应电话号码做出的呼叫。专用分支交换、VoIP(基于IP的语音技术)服务器等用于呼叫接收单元11。

在呼叫中心的一般工作中，根据要处理的工作和呼叫区域，分配不同的电话号码，以对用户做出响应，从而达到提高应答电话的效率的目的。根据示例性实施例，针对其提供的多个用于接收的电话号码，要响应的内容针对相应电话号码而不同。

呼叫语音信号输入装置12输入呼叫的呼叫语音信号，在呼叫接收单元11处接收到的呼叫中，要针对所述呼叫的呼叫语音信号执行语音识别。接收电话号码输入装置13将作为与呼叫语音信号输入装置12输入的呼叫语音信号相关的呼叫的目的地的用于接收的电话号码输入作为呼叫的接收电话号码。即，输入呼叫语音信号输入装置12中的呼叫语音信号与接收电话号码输入装置13中的接收电话号码输入相对应。

上述呼叫语音信号输入装置12和接收电话号码输入装置13可以具有编程以由计算机执行的功能内容。

语音修正装置14针对由呼叫语音信号输入装置12输入的呼叫语音信号执行诸如噪声去除的语音修正处理，作为语音识别的预处理。由于发话人周围的噪声、编码过程中的失真、便携电话语音压缩所造成的语音降级等，所以针对来自电话线路上的语音信号，执行语音识别比较困难。因而，修正呼叫语音信号从而使能执行正确的语音识别。

语音修正过程选择装置16从用作用于预处理的模块存储单元15中存储的修正内容信息的预处理模块中，选择适合的预处理模块来修正其相应的声音质量根据诸如便携式电话、PHS终端等的电话类型和呼叫区域等的不同而改变的呼叫语音。语音修正装置14通过使用语音修正过程选择装置16选择的预处理模块修正呼叫语音信号。

用于预处理的模块存储单元15用作修正内容信息存储装置，用于存储针对根据应用和目的的用于接收的相应电话号码而准备的多个预处理模块。语音修正过程选择装置16用作修正内容信息选择装置，用于根据接收电话号码输入装置13输入的接收电话号码选择预处理模块。该预处理模块用于传统语音处理技术中，以及可以是用于噪声去除过程的模块、用于语音信号失真修正的模块、用于压缩后的语音修正的模块等。

作为修正呼叫语音信号的特定示例，存在用于接收的电话号码是免费号码的情况。利用该免费号码，可以指定允许呼入的被叫方电话的类型，因而，通过提前准备为相应的电话类型(例如为陆地电话线路和便携式电话线路)而设置的预处理模块，以及将相应的预处理模块与电话号码相对应，从而用于便携式电话线路的预处理模块与来自便携式电话的呼入呼叫所被允许的电话号码相对应，以及用于卫星电话线路的预处理模块与来自卫星电话的呼入呼叫所被允许的电话号码相对应，可以针对接收呼叫的相应电话号码选择预处理模块。

另一个示例是接收的电话号码国外和国内不同的情况。由于电话线路的类型和信号编码方法根据国家而不同，所以准备为相应国家设置的预处理模块以适应这样的情况，以及使每个预处理模块与电话号码相对应。针对以国外电话号码接收的呼叫，选择针对相对应国家设置的预处理模块，以及针对以国内电话号码接收的呼叫，选择针对国内而设置的预处理模块。

因而，在示例性实施例中，由于接收电话的语音特性因为相应的接收电话号码而不同，所以选择与特性相对应的预处理模块。此外，可以准备公共预处理模块，以响应以下情况：呼叫的语音信号特性在与多个用于接收的电话号码相对应的呼叫中不会彼此不同。此外，可以选择多个预处理模块，以及在这种情况下，针对相应的接收电话号码也可提前定义处理顺序，从而语音修正装置14以所定义的顺序执行该过程。如果预处理没有必要，则语音修正装置14可以不执行预处理。

如上所述，在示例性实施例中，从为用于接收的相应电话号码而准备的多个预处理模块中选择与呼叫的接收电话号码相对应的预处理模块，以及通过使用所选择的预处理模块修正呼叫语音信号。凭此，语音修正装置 14针对呼叫语音信号执行对针对相应接收电话号码定义的内容的语音修正处理。

用作修正内容信息的预处理模块可以具有其被编程的内容，以及语音修正装置14和语音修正过程选择装置16可以具有编程由计算机执行的功能内容。

图1中示出的语音识别装置17针对呼叫语音信号执行语音识别过程。识别字典、模型、以及参数存储装置18用作语音识别信息存储装置，用于根据目的和应用存储多个识别字典、声音模型、语言模型、识别参数等作为准备用于接收的相应电话号码的语音识别信息。语音识别过程选择装置19用作语音识别信息选择装置，用于根据接收电话号码输入装置13输入的接收电话号码，在语音识别装置17中选择在语音识别过程中使用的识别字典、声音模型、语言模型、识别参数等。

即，语音识别装置17使用根据呼叫的接收电话号码所选择的识别字典、声音模型、语言模型、识别参数等，来执行与声音质量相对应的语音识别，所述声音质量依据诸如便携式电话和PHS终端的电话类型、呼叫区域、取决于要处理的内容和呼叫区域而不同的所使用的词汇量等而有很大不同。

示出语音和词汇的对应的识别字典、以语音的最小识别单位来代表声音特征的声音模型、代表词的连接关系的语言模型、以及指示语音识别过程的信息或识别参数在传统的语音识别技术中所使用。之后可以将识别字典、声音模型、语言模型、识别参数等统称为语音识别资源。

针对呼叫语音信号执行语音识别过程的特定示例包括以下情况：要处理的工作内容、产品等针对用于接收的相应电话号码而不同。在这种情况下，由于在呼叫中所使用的词针对用于接收的相应电话号码是不同的，所以针对与呼叫内容相对应的用于接收的相应电话号码准备识别字典和语言模型。例如，即使词是相同的，依据工作要列入优先的词表达方式也会不同，即，词在一个工作中可以kana表示，但在另一个工作中可以kanji 表示，或者数字在一个工作中可以中文数字表示，但在另一个工作中可以阿拉伯数字表示，因而，针对用于接收的相应电话号码，准备具有要列入优先的不同词表达方式的识别字典，以及从中选择相应的识别字典。

另一种示例是以下情况：利用其指定了呼叫侧的电话的类型和呼叫区域的电话号码(例如免费号码)是用于接收的电话号码。在这种情况下，针对用于接收的相应电话号码，选择适合的语音识别资源，诸如与电话类型相对应的声音模型、识别字典和与呼叫区域相对应的语言模型等。

另一个示例是以下情况：针对用于接收的相应电话号码，呼叫重要性的等级是不相同的。对于用于接收进行重要对话的呼叫的电话号码，例如通过在较大范围内执行搜索过程，选择用于提高认证精确度的识别参数，或选择所调整的识别字典和语言模型，从而不会将指定词错误地识别为不同的词并将其忽略。

因此，在示例性实施例中，由于接收呼叫的内容针对用于接收的相应电话号码而不同，所以选择与其相对应的语音识别资源。此外，当多个用于接收的电话号码中的呼叫的声音质量和所用词汇量不存在不同时，可以准备公共语音识别资源。在图2的表中示出分配给每个用于接收的电话号码的背景信息，以及如上描述的与其相对应的要选择的项目。

语音识别装置17和语音识别过程选择装置19可以具有编程以由计算机执行的功能内容。

图1中示出的识别结果输出装置20以适合应用和目的的格式输出通过语音识别设备17获得的识别结果。在这种情况下，将时间信息等与识别结果一起输出，从而可以建立原始呼叫语音信号和识别结果之间的对应关系(如必要)。

接下来，将参照附图在以下描述示例性实施例的处理操作。同时也将说明和描述本发明的语音识别方法。

图3是根据本发明示例性实施例的示出语音识别设备的处理操作的流程图。

首先，当在呼叫接收单元11处接收到来自用户的呼叫时(呼叫接收步骤)，通过呼叫语音信号输入装置12和接收电话号码输入装置13输入所接收呼叫的呼叫语音信号以及利用其接收相关呼叫的呼叫的接收电话号码(图3：步骤S1，呼叫语音信号输入步骤、接收电话号码输入步骤)。

通过语音修正过程选择装置16确定分配给所输入的接收电话号码的预处理模块是否出现在用于预处理的模块存储单元15中(图3：步骤S2，修正内容信息选择步骤)，以及如果与接收电话号码相对应的预处理模块出现，则将相关预处理模块应用到呼叫语音信号，以及执行语音修正处理 (图3：步骤S3，语音修正步骤)。如果与接收电话号码相对应的预处理模块没有出现，则不执行针对呼叫语音信号的语音修正处理(图3：步骤 S2中的否)。

之后，通过语音识别过程选择装置19从存储在识别字典、模型、参数存储单元18的资源中，选择分配给所输入的接收电话号码的语音识别资源(图3：步骤S4，识别信息选择步骤)，以及通过语音识别装置17针对呼叫语音信号执行使用所选择的语音识别资源的语音识别过程(图3：步骤S5，语音识别过程)。

识别结果输出装置20以适合目的的格式输出在语音识别装置17中获得的识别结果(图3：步骤S6)。将时间信息等与识别结果一起输出，从而可以建立原始呼叫语音信号和识别结果之间的对应关系(如必要)。

如上所述，可以将示例性实施例应用于在呼叫中心执行的自动应答、呼叫排序以及呼叫日志创建等中使用的呼叫语音识别，其中，在要响应的一个位置修正向多个电话号码(包括分机号码)做出的呼叫。此外，由于与要响应的内容或呼叫区域相对应而准备不同的电话号码，所以当呼叫方给服务于该目的的电话号码打电话时，可以针对呼叫语音执行与相关电话号码相对应的语音识别过程。

附图说明

图1是示出了本发明的一个示例性实施例配置概述的功能框图。

图2是示出了根据图1中示出的示例性实施例的针对用于接收的相应电话号码要分配的背景信息、以及与其相对应的要选择/调整的项目的表。

图3是示出了图1中示出的示例性实施例的处理操作的流程图。

符号描述

1 语音识别设备

2 公共通信网络

11 呼叫接收单元11

12 呼叫语音信号输入装置

13 接收电话号码输入装置

14 语音修正装置

15 用于预处理的模块存储单元

16 语音修正过程选择装置

17 语音识别装置

18 识别字典、模型以及参数存储单元

19 语音识别过程选择装置

20 识别结果输出装置

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音识别设备、语音识别方法、以及用于识别语音的程序 [P] . 中国专利： CN101379550A . 2009-03-04
2. 语音识别方法、语音识别系统和语音识别设备 [P] . 中国专利： CN104485106B . 2018.08.28
3. VOICE RECOGNITION METHOD, VOICE RECOGNITION DEVICE, DEVICE HAVING VOICE RECOGNITION DEVICE, STORAGE MEDIUM STORING PROGRAM FOR PERFORMING VOICE RECOGNITION METHOD, AND METHOD FOR GENERATING CONVERSION MODEL [P] . 韩国专利： KR20180012639A . 2018-02-06

机译：语音识别方法，语音识别设备，具有语音识别设备的设备，用于执行语音识别方法的存储介质存储程序以及用于生成转换模型的方法
4. VOICE RECOGNITION DEVICE, DICTIONARY PREPARATION DEVICE, VOICE RECOGNITION SYSTEM, METHOD FOR RECOGNIZING VOICE, METHOD FOR PREPARING DICTIONARY, VOICE RECOGNITION PROGRAM, DICTIONARY PREPARATION PROGRAM, COMPUTER- READABLE RECORDING MEDIUM WITH VOICE RECOGNITION PROGRAM RECORDED THEREON, AND COMPUTER-READABLE RECORDING MEDIUM WITH DICTIONARY PREPARATION PROGRAM RECORDED THEREON [P] . 日本专利： JP2003337595A . 2003-11-28

机译：语音识别设备，词典准备设备，语音识别系统，语音识别方法，语音词典的准备方法，语音识别程序，词典的准备程序，带语音记录的计算机可读记录介质，带有语音记录的可录制记录介质和语音记录记录的准备程序
5. Speech pattern model learning device, speech pattern model learning method, computer readable recording medium recording speech pattern model learning program, speech recognition device, speech recognition method, and computer readable recording medium recording speech recognition program [P] . 日本专利： JP4004716B2 . 2007-11-07

机译：语音模式模型学习设备，语音模式模型学习方法，记录语音模式模型学习程序的计算机可读记录介质，语音识别设备，语音识别方法和记录语音识别程序的计算机可读记录介质