首页> 中国专利> 语音识别设备、语音识别方法、以及用于识别语音的程序

语音识别设备、语音识别方法、以及用于识别语音的程序

摘要

[要解决的问题]在语音识别设备中,提供语音识别方法以及用于识别语音的程序,来执行具有高精确度的语音识别。[解决方法]当其中将多个用于接收的电话号码分配给呼叫的相应内容的呼叫接收单元(11)从呼叫方接收呼叫时,呼叫语音信号输入装置(12)输入呼叫的呼叫语音信号,以及接收电话号码输入装置(13)输入呼叫的接收电话号码。然后,语音修正装置(14)根据接收电话号码执行针对呼叫语音信号的语音修正处理,以及语音识别装置(17)根据接收电话号码执行针对呼叫语音信号的语音识别处理。

著录项

  • 公开/公告号CN101379550A

    专利类型发明专利

  • 公开/公告日2009-03-04

    原文格式PDF

  • 申请/专利权人 日本电气株式会社;

    申请/专利号CN200780004694.4

  • 申请日2007-01-31

  • 分类号G10L15/06;G10L15/00;G10L15/20;

  • 代理机构中科专利商标代理有限责任公司;

  • 代理人朱进桂

  • 地址 日本东京都

  • 入库时间 2023-12-17 21:36:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-06-27

    授权

    授权

  • 2009-04-29

    实质审查的生效

    实质审查的生效

  • 2009-03-04

    公开

    公开

说明书

技术领域

本发明涉及语音识别设备、语音识别方法、以及用于识别语音的程序, 更具体地,涉及用于执行适合关于电话呼叫语音的内容的语音识别过程、 语音识别方法、以及用于识别语音的程序。

背景技术

近年来,使用在电话的自动应答和呼叫日志中的语音识别技术已广泛 应用在呼叫中心等处。一般地,语音识别技术是基于电话的语音提取预先 登记的词,以及自动地将该词转换为字符信息的技术。在该技术中,准备 表示具有频率等的每个语音的最小识别单元的声音模型、将语音组合定义 为词的识别字典、以及示出词和表达之间连接关系的语言模型,以及参照 其执行语音识别。

在语音识别技术中,预先准备与要识别的语音信号的特征、类型和环 境相对应的声音模型、识别字典以及语言模型可以有效地降低错误识别并 且提高识别准确度。作为使用这种语音识别技术的示例,专利文件1公开 了呼叫内容详写系统,其中针对电话的传输侧信道和接收侧信道独立地准 备在语音识别中要使用的基本数据,从而执行适合相应信道的语音识别; 专利文件2公开了用于根据电话的呼叫方号码选择在语音识别中使用的语 音字典的通信设备。

专利文件1:日本待审专利公开号No.2005-123869

专利文件2:日本待审专利公开号No.2005-125031

发明内容

然而,在专利文件1中公开的系统只在传输侧和接收侧单独地执行语 音识别,以及对于接收侧的语音(来自呼叫方未指定号码的语音),不执 行适合其特征的语音识别。即使将专利文件1的这种系统应用在呼叫中心 等的自动应答或呼叫日志,也不能期望提高语音识别的准确度,因为不执 行与用户语音相对应的语音识别。

在专利文件2中描述的通信设备中,需要预先准备根据电话的呼叫方 号码的用于预测呼叫内容的信息,此外,存在如下缺点:如果被呼叫方设 置阻止呼叫方号码,则不能执行语音识别。

本发明旨在提供呼叫中心等工作中使用的语音识别设备、语音识别方 法以及程序,用于在改进现有技术缺陷的基础上识别语音,其中以高精确 度执行语音识别,而不需要呼叫的呼叫方信息。

为了实现上述目标,本发明的语音识别设备包括:呼叫接收单元,用 于接收向多个用于接收的电话号码做出的呼叫;呼叫语音信号输入装置, 用于输入所接收呼叫的呼叫语音信号;接收电话号码输入装置,用于输入 与输入呼叫语音信号相关的、用于接收的电话号码,作为呼叫的接收电话 号码;语音识别信息存储装置,用于存储用于语音识别的语音识别信息, 其中,将语音识别为与用于接收的电话号码相对应的语言信息;语音识别 信息选择装置,用于从所存储的语音识别信息中选择与接收电话号码相对 应的语音识别信息;以及语音识别装置,用于使用所选择的语音识别信息, 将输入至呼叫语音信号输入装置的呼叫语音信号识别为语言信息,以及指 定语音内容。

根据这种语音识别设备,根据要接收的呼叫内容(例如针对要处理的 相应内容或针对相应的呼叫区域)提供多个用于接收的电话号码,以及针 对所接收呼叫的语音信号,执行与呼叫的接收电话号码(即,对其做出呼 叫的用于接收的电话号码)相对应的语音识别,从而可以执行与呼叫内容 相对应的高精度语音识别,以及可以精确地指定语音内容。

语音识别信息可以是以下至少一个:示出语音和词汇的对应关系的识 别字典、以语音的最小识别单位来代表声音特征的声音模型、代表词的连 接关系的语言模型、以及指示语音识别过程的信息或识别参数。在这种情 况下,通过使呼叫语音信号和识别字典、声音模型、以及其语言模型相互 关联,执行语音识别。

此外,本发明的语音识别设备包括呼叫接收单元,用于接收向多个用 于接收的电话号码做出的呼叫;呼叫语音信号输入装置,用于输入所接收 呼叫的呼叫语音信号;接收电话号码输入装置,用于输入与输入呼叫语音 信号相关的、用于接收的电话号码,作为呼叫的接收电话号码;修正内容 信息存储装置,用于存储指示与用于接收的电话号码相对应的语音信号修 正的内容的修正内容信息;修正内容信息选择装置,用于选择与呼叫的接 收电话号码相对应的修正内容信息;语音修正装置,用于执行通过所选择 的、与输入至所述呼叫语音信号输入装置的呼叫语音信号有关的修正内容 信息所指示的语音修正过程;以及语音识别装置,用于将语音修正装置修 正的呼叫语音信号识别为语言信息,以及指定语音内容。

相应地,可以针对呼叫语音信号执行与呼叫的内容相对应的语音修正 过程。语音修正过程的示例包括噪声去除过程以及信号失真修正过程、压 缩后的语音修正过程等,其中通过这种语音修正过程将与语音识别不相关 的声音从呼叫语音信号中去除。因而,呼叫语音信号与发话人的声音语音 信号(即原始语音信号)更加接近,可以正确地执行语音识别,以及增强 语音识别的精确度。

根据本发明的语音识别方法包括:接收向多个用于接收的电话号码做 出呼叫的呼叫接收步骤;输入所接收呼叫的呼叫语音信号的呼叫语音信号 输入步骤;输入与输入呼叫语音信号相关的、用于接收的电话号码,作为 呼叫的接收电话号码的接收电话号码输入步骤;根据呼叫的接收电话号 码,选择用于其中将语音识别为语言信息的语音识别的识别信息选择步 骤;以及通过使用所选择的语音识别过程信息,将在呼叫语音信号输入步 骤中输入的呼叫语音信号识别为语言信息,以及指定语音内容的语音识别 步骤。

根据这种语音识别方法,根据要接收的呼叫内容(例如针对要处理的 相应内容或针对相应的呼叫区域)提供多个接收的电话号码,以及在所接 收呼叫的语音信号上执行与呼叫的接收电话号码(即,对其做出呼叫的用 于接收的电话号码)相对应的语音识别,从而可以执行与呼叫内容相对应 的高精度语音识别,以及可以精确地指定语音内容。

在上述语音识别方法中,语音识别信息可以是以下至少一个:示出语 音和词汇对应关系的识别字典、以语音的最小识别单位来代表声音特征的 声音模型、代表词的连接关系的语言模型、以及指示语音识别过程的信息 或识别参数。

此外,本发明的语音识别方法包括:接收向多个用于接收的电话号码 做出呼叫的呼叫接收步骤;输入所接收呼叫的呼叫语音信号的呼叫语音信 号输入步骤;输入与输入呼叫语音信号相关的、用于接收的电话号码作为 呼叫的接收电话号码的接收电话号码输入步骤;根据呼叫的接收电话号 码,从预先存储的与用于接收的电话号码相对应的修正内容信息中选择指 示语音信号修正内容的修正内容信息的修正内容信息选择步骤;与在呼叫 语音信号输入步骤中输入的呼叫语音信号有关的执行所选择的修正内容 信息指示的语音修正过程的语音修正步骤;以及将在语音修正步骤中修正 的语音信号识别为语言信息、并指定语音内容的语音识别步骤。

相应地,可以在呼叫语音信号上执行与呼叫的内容相对应的语音修正 过程。语音修正过程的示例包括噪声去除过程以及信号失真修正过程、压 缩后的语音修正过程等,其中通过这种语音修正过程将与语音识别不相关 的声音从呼叫语音信号中去除。因而,呼叫语音信号与发话人的声音语音 信号(即原始语音信号)更加接近,可以正确地执行语音识别,以及增强 语音识别的精确度。

本发明的识别语音程序使计算机执行接收向多个用于接收的电话号 码做出呼叫的呼叫接收过程;输入所接收呼叫的呼叫语音信号的呼叫语音 信号输入过程;将输入与输入呼叫语音信号相关的、用于接收的电话号码 作为呼叫的接收电话号码的接收电话号码输入过程;根据呼叫的接收电话 号码,选择用于将语音识别为语言信息的语音识别信息的识别信息选择步 骤;以及通过利用所选择的语音识别信息,将在呼叫语音信号输入过程中 输入的呼叫语音信号识别为语言信息,以及指定语音内容的语音识别过 程。

根据识别语音的这种程序,提供与呼叫内容相对应的多个用于接收的 电话号码,以及通过使用与呼叫的接收电话号码(即,对其做出呼叫的用 于接收的电话号码)相对应的语音识别信息,识别相关呼叫的语音信号, 从而可以执行与呼叫内容相对应的高精度语音识别,以及可以精确地指定 语音内容。

语音识别信息可以是以下至少一个:示出语音和词汇对应的识别字 典、以语音的最小识别单位来代表声音特征的声音模型、代表词的连接关 系的语言模型、以及指示语音识别过程的信息或识别参数。

此外,本发明的用于识别语音的程序使计算机执行接收向多个用于接 收的电话号码做出呼叫的呼叫接收过程;输入所接收呼叫的呼叫语音信号 的呼叫语音信号输入过程;输入与输入呼叫语音信号相关的、用于接收的 电话号码作为呼叫的接收电话号码的接收电话号码输入过程;根据呼叫的 接收电话号码,从针对用于接收的相应电话号码预先定义的修正内容信息 中选择指示语音信号修正内容的修正内容信息的语音修正选择过程;根据 所选择的修正内容信息,修正在呼叫语音输入过程中输入的呼叫语音信号 的语音修正过程;以及将在语音修正过程中修正的语音信号识别为语言信 息,以及指定语音内容的语音识别过程。

相应地,可以针对呼叫语音信号执行与呼叫的内容相对应的语音修正 过程。语音修正过程的示例包括噪声去除过程以及信号失真修正过程、压 缩后的语音修正过程等,其中通过这种语音修正过程将与语音识别不相关 的声音从呼叫语音信号中去除。因而,呼叫语音信号与发话人的声音语音 信号(即原始语音信号)更加接近,可以正确地执行语音识别,以及增强 语音识别的精确度。

本发明如上配置并运行,由此可以针对所接收呼叫的语音信号执行与 呼叫内容相对应的语音识别过程,结果,可以高效地执行具有很少错误识 别以及高精度的语音识别。

具体实施方式

将参照附图描述本发明的一个示例性实施例。

图1是示出示例性实施例配置的概述的功能框图。

图1中示出的语音识别设备1是用于识别来自外界的呼叫语音以及指 定语音内容的装置。语音识别设备1与公共通信网络2相连,以及通过以 下装置配置:呼叫接收单元11、呼叫语音信号输入装置12、接收电话号 码输入装置13、语音修正装置14、用于预处理的模块存储单元15、语音 修正过程选择装置16、语音识别装置17、识别字典、模型以及参数存储 单元18、语音识别过程选择装置19、以及识别结果输出装置20。

呼叫接收单元11,其中多个用于接收的电话号码分配用于接收向用于 接收的相应电话号码做出的呼叫。专用分支交换、VoIP(基于IP的语音 技术)服务器等用于呼叫接收单元11。

在呼叫中心的一般工作中,根据要处理的工作和呼叫区域,分配不同 的电话号码,以对用户做出响应,从而达到提高应答电话的效率的目的。 根据示例性实施例,针对其提供的多个用于接收的电话号码,要响应的内 容针对相应电话号码而不同。

呼叫语音信号输入装置12输入呼叫的呼叫语音信号,在呼叫接收单 元11处接收到的呼叫中,要针对所述呼叫的呼叫语音信号执行语音识别。 接收电话号码输入装置13将作为与呼叫语音信号输入装置12输入的呼叫 语音信号相关的呼叫的目的地的用于接收的电话号码输入作为呼叫的接 收电话号码。即,输入呼叫语音信号输入装置12中的呼叫语音信号与接 收电话号码输入装置13中的接收电话号码输入相对应。

上述呼叫语音信号输入装置12和接收电话号码输入装置13可以具有 编程以由计算机执行的功能内容。

语音修正装置14针对由呼叫语音信号输入装置12输入的呼叫语音信 号执行诸如噪声去除的语音修正处理,作为语音识别的预处理。由于发话 人周围的噪声、编码过程中的失真、便携电话语音压缩所造成的语音降级 等,所以针对来自电话线路上的语音信号,执行语音识别比较困难。因而, 修正呼叫语音信号从而使能执行正确的语音识别。

语音修正过程选择装置16从用作用于预处理的模块存储单元15中存 储的修正内容信息的预处理模块中,选择适合的预处理模块来修正其相应 的声音质量根据诸如便携式电话、PHS终端等的电话类型和呼叫区域等的 不同而改变的呼叫语音。语音修正装置14通过使用语音修正过程选择装 置16选择的预处理模块修正呼叫语音信号。

用于预处理的模块存储单元15用作修正内容信息存储装置,用于存 储针对根据应用和目的的用于接收的相应电话号码而准备的多个预处理 模块。语音修正过程选择装置16用作修正内容信息选择装置,用于根据 接收电话号码输入装置13输入的接收电话号码选择预处理模块。该预处 理模块用于传统语音处理技术中,以及可以是用于噪声去除过程的模块、 用于语音信号失真修正的模块、用于压缩后的语音修正的模块等。

作为修正呼叫语音信号的特定示例,存在用于接收的电话号码是免费 号码的情况。利用该免费号码,可以指定允许呼入的被叫方电话的类型, 因而,通过提前准备为相应的电话类型(例如为陆地电话线路和便携式电 话线路)而设置的预处理模块,以及将相应的预处理模块与电话号码相对 应,从而用于便携式电话线路的预处理模块与来自便携式电话的呼入呼叫 所被允许的电话号码相对应,以及用于卫星电话线路的预处理模块与来自 卫星电话的呼入呼叫所被允许的电话号码相对应,可以针对接收呼叫的相 应电话号码选择预处理模块。

另一个示例是接收的电话号码国外和国内不同的情况。由于电话线路 的类型和信号编码方法根据国家而不同,所以准备为相应国家设置的预处 理模块以适应这样的情况,以及使每个预处理模块与电话号码相对应。针 对以国外电话号码接收的呼叫,选择针对相对应国家设置的预处理模块, 以及针对以国内电话号码接收的呼叫,选择针对国内而设置的预处理模 块。

因而,在示例性实施例中,由于接收电话的语音特性因为相应的接收 电话号码而不同,所以选择与特性相对应的预处理模块。此外,可以准备 公共预处理模块,以响应以下情况:呼叫的语音信号特性在与多个用于接 收的电话号码相对应的呼叫中不会彼此不同。此外,可以选择多个预处理 模块,以及在这种情况下,针对相应的接收电话号码也可提前定义处理顺 序,从而语音修正装置14以所定义的顺序执行该过程。如果预处理没有 必要,则语音修正装置14可以不执行预处理。

如上所述,在示例性实施例中,从为用于接收的相应电话号码而准备 的多个预处理模块中选择与呼叫的接收电话号码相对应的预处理模块,以 及通过使用所选择的预处理模块修正呼叫语音信号。凭此,语音修正装置 14针对呼叫语音信号执行对针对相应接收电话号码定义的内容的语音修 正处理。

用作修正内容信息的预处理模块可以具有其被编程的内容,以及语音 修正装置14和语音修正过程选择装置16可以具有编程由计算机执行的功 能内容。

图1中示出的语音识别装置17针对呼叫语音信号执行语音识别过程。 识别字典、模型、以及参数存储装置18用作语音识别信息存储装置,用 于根据目的和应用存储多个识别字典、声音模型、语言模型、识别参数等 作为准备用于接收的相应电话号码的语音识别信息。语音识别过程选择装 置19用作语音识别信息选择装置,用于根据接收电话号码输入装置13输 入的接收电话号码,在语音识别装置17中选择在语音识别过程中使用的 识别字典、声音模型、语言模型、识别参数等。

即,语音识别装置17使用根据呼叫的接收电话号码所选择的识别字 典、声音模型、语言模型、识别参数等,来执行与声音质量相对应的语音 识别,所述声音质量依据诸如便携式电话和PHS终端的电话类型、呼叫区 域、取决于要处理的内容和呼叫区域而不同的所使用的词汇量等而有很大 不同。

示出语音和词汇的对应的识别字典、以语音的最小识别单位来代表声 音特征的声音模型、代表词的连接关系的语言模型、以及指示语音识别过 程的信息或识别参数在传统的语音识别技术中所使用。之后可以将识别字 典、声音模型、语言模型、识别参数等统称为语音识别资源。

针对呼叫语音信号执行语音识别过程的特定示例包括以下情况:要处 理的工作内容、产品等针对用于接收的相应电话号码而不同。在这种情况 下,由于在呼叫中所使用的词针对用于接收的相应电话号码是不同的,所 以针对与呼叫内容相对应的用于接收的相应电话号码准备识别字典和语 言模型。例如,即使词是相同的,依据工作要列入优先的词表达方式也会 不同,即,词在一个工作中可以kana表示,但在另一个工作中可以kanji 表示,或者数字在一个工作中可以中文数字表示,但在另一个工作中可以 阿拉伯数字表示,因而,针对用于接收的相应电话号码,准备具有要列入 优先的不同词表达方式的识别字典,以及从中选择相应的识别字典。

另一种示例是以下情况:利用其指定了呼叫侧的电话的类型和呼叫区 域的电话号码(例如免费号码)是用于接收的电话号码。在这种情况下, 针对用于接收的相应电话号码,选择适合的语音识别资源,诸如与电话类 型相对应的声音模型、识别字典和与呼叫区域相对应的语言模型等。

另一个示例是以下情况:针对用于接收的相应电话号码,呼叫重要性 的等级是不相同的。对于用于接收进行重要对话的呼叫的电话号码,例如 通过在较大范围内执行搜索过程,选择用于提高认证精确度的识别参数, 或选择所调整的识别字典和语言模型,从而不会将指定词错误地识别为不 同的词并将其忽略。

因此,在示例性实施例中,由于接收呼叫的内容针对用于接收的相应 电话号码而不同,所以选择与其相对应的语音识别资源。此外,当多个用 于接收的电话号码中的呼叫的声音质量和所用词汇量不存在不同时,可以 准备公共语音识别资源。在图2的表中示出分配给每个用于接收的电话号 码的背景信息,以及如上描述的与其相对应的要选择的项目。

语音识别装置17和语音识别过程选择装置19可以具有编程以由计算 机执行的功能内容。

图1中示出的识别结果输出装置20以适合应用和目的的格式输出通 过语音识别设备17获得的识别结果。在这种情况下,将时间信息等与识 别结果一起输出,从而可以建立原始呼叫语音信号和识别结果之间的对应 关系(如必要)。

接下来,将参照附图在以下描述示例性实施例的处理操作。同时也将 说明和描述本发明的语音识别方法。

图3是根据本发明示例性实施例的示出语音识别设备的处理操作的流 程图。

首先,当在呼叫接收单元11处接收到来自用户的呼叫时(呼叫接收 步骤),通过呼叫语音信号输入装置12和接收电话号码输入装置13输入 所接收呼叫的呼叫语音信号以及利用其接收相关呼叫的呼叫的接收电话 号码(图3:步骤S1,呼叫语音信号输入步骤、接收电话号码输入步骤)。

通过语音修正过程选择装置16确定分配给所输入的接收电话号码的 预处理模块是否出现在用于预处理的模块存储单元15中(图3:步骤S2, 修正内容信息选择步骤),以及如果与接收电话号码相对应的预处理模块 出现,则将相关预处理模块应用到呼叫语音信号,以及执行语音修正处理 (图3:步骤S3,语音修正步骤)。如果与接收电话号码相对应的预处理 模块没有出现,则不执行针对呼叫语音信号的语音修正处理(图3:步骤 S2中的否)。

之后,通过语音识别过程选择装置19从存储在识别字典、模型、参 数存储单元18的资源中,选择分配给所输入的接收电话号码的语音识别 资源(图3:步骤S4,识别信息选择步骤),以及通过语音识别装置17针 对呼叫语音信号执行使用所选择的语音识别资源的语音识别过程(图3: 步骤S5,语音识别过程)。

识别结果输出装置20以适合目的的格式输出在语音识别装置17中获 得的识别结果(图3:步骤S6)。将时间信息等与识别结果一起输出,从 而可以建立原始呼叫语音信号和识别结果之间的对应关系(如必要)。

如上所述,可以将示例性实施例应用于在呼叫中心执行的自动应答、 呼叫排序以及呼叫日志创建等中使用的呼叫语音识别,其中,在要响应的 一个位置修正向多个电话号码(包括分机号码)做出的呼叫。此外,由于 与要响应的内容或呼叫区域相对应而准备不同的电话号码,所以当呼叫方 给服务于该目的的电话号码打电话时,可以针对呼叫语音执行与相关电话 号码相对应的语音识别过程。

附图说明

图1是示出了本发明的一个示例性实施例配置概述的功能框图。

图2是示出了根据图1中示出的示例性实施例的针对用于接收的相应 电话号码要分配的背景信息、以及与其相对应的要选择/调整的项目的表。

图3是示出了图1中示出的示例性实施例的处理操作的流程图。

符号描述

1    语音识别设备

2    公共通信网络

11   呼叫接收单元11

12   呼叫语音信号输入装置

13   接收电话号码输入装置

14   语音修正装置

15   用于预处理的模块存储单元

16   语音修正过程选择装置

17  语音识别装置

18  识别字典、模型以及参数存储单元

19  语音识别过程选择装置

20  识别结果输出装置

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号