首页> 中国专利> 声音识别服务器、电话机、声音识别系统以及声音识别方法

声音识别服务器、电话机、声音识别系统以及声音识别方法

摘要

本发明提供声音识别服务器、电话机、声音识别系统以及声音识别方法。声音识别服务器(200)具备:声音接收部(202),其接收来自电话机(100)的声音;模型存储部(208),其存储用于将声音接收部(202)所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定部(204),其判定电话机(100)的当前呼出号码以及其它号码;模型选择部(206),其根据当前呼出号码以及其它号码选择模型存储部(208)中存储的声学模型,且根据当前呼出号码选择模型存储部(208)中存储的语言模型;和声音识别部(210),其根据模型选择部(206)所选择的声学模型以及语言模型,将声音接收部(202)所接收的声音转换为字符。

著录项

  • 公开/公告号CN101794577A

    专利类型发明专利

  • 公开/公告日2010-08-04

    原文格式PDF

  • 申请/专利权人 株式会社NTT都科摩;

    申请/专利号CN201010108535.2

  • 发明设计人 张志鹏;古川博崇;

    申请日2010-01-29

  • 分类号G10L15/28;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人黄纶伟

  • 地址 日本东京都

  • 入库时间 2023-12-18 00:31:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-22

    未缴年费专利权终止 IPC(主分类):G10L15/28 授权公告日:20121003 终止日期:20160129 申请日:20100129

    专利权的终止

  • 2012-10-03

    授权

    授权

  • 2010-09-22

    实质审查的生效 IPC(主分类):G10L15/28 申请日:20100129

    实质审查的生效

  • 2010-08-04

    公开

    公开

说明书

技术领域

本发明涉及声音识别服务器、电话机、声音识别系统以及声音识别方法。

背景技术

以往,例如专利文献1所公开的那样公知有如下的技术:在对用户发出的声音进行声音识别的情况下,根据电话号码来切换声音识别用的词典。另外,例如非专利文献1所公开的那样,开展了可以在一台终端利用多个电话号码及邮件地址的服务(所谓二合一(2in1)服务)。

【专利文献1】日本特开2000-10590号公报

【非专利文献1】2in1サ一ビスのシズテム開発(二合一服务的系统开发),NTT DoCoMoテクニカル·ジヤ一ナル,vol.15No.3,P11-19

在采用了上述现有技术的服务中,当在相同的终端使用多个号码、并针对各个号码准备不同的语言模型及声学模型时,存在以下问题。即,尽管来自相同终端的发声通常是同一用户的声音,但是针对各个不同号码按照不同的模型来进行声音识别,并且对各个不同的模型单独地进行更新,从而有可能使模型的精度变低,声音识别的性能降低。

发明内容

因此,本发明是鉴于上述问题而完成的,其目的在于,提供声音识别服务器、电话机、声音识别系统以及声音识别方法,它们能在一台终端中利用多个电话号码的服务中可提高模型的精度、提高声音识别性能。

为了解决上述课题,本发明的声音识别服务器与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别服务器具备:声音接收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。

另外,本发明的电话机与将声音转换为字符的声音识别服务器连接,且能在一台终端中利用多个电话号码,该电话机具备:声音发送单元,其将来自用户的声音发送至上述声音识别服务器;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器。

另外,本发明的声音识别系统具有能在一台终端中利用多个电话号码的电话机、以及将来自上述电话机的声音转换为字符的声音识别服务器,其中,上述电话机具备:声音发送单元,其将来自用户的声音发送至上述声音识别服务器;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器,上述声音识别服务器具备:声音接收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。

另外,本发明的声音识别方法应用于声音识别服务器中,该声音识别服务器与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别方法的特征在于,具有以下步骤:模型存储步骤,上述声音识别服务器的模型存储单元存储用于将来自上述电话机的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;声音接收步骤,上述声音识别服务器的声音接收单元接收来自上述电话机的声音;号码判定步骤,上述声音识别服务器的号码判定单元判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择步骤,上述声音识别服务器的模型选择单元根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和声音识别步骤,上述声音识别服务器的声音识别单元根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。

此时,在本发明的声音识别服务器中优选,上述模型存储单元存储对于一个电话机所能利用的全部电话号码通用的声学模型,上述模型选择单元也根据上述一个电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。

根据本发明的声音识别服务器、电话机、声音识别系统以及声音识别方法,声音识别服务器的模型选择单元根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机中的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然变低,但在本发明中,可以对来自新号码的声音使用与现有号码对应的声学模型,所以提高了对来自新号码的声音的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器的模型存储单元中的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,因此本发明的声音识别服务器的模型选择单元仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。

另外,本发明的声音识别服务器优选还具有声学模型更新单元,其利用来自上述一个电话机的全部声音来更新上述通用的声学模型。

利用来自一个电话机的全部声音来更新通用的声学模型,由此能够高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。

另外,本发明的声音识别服务器优选还具有语言模型更新单元,其利用对来自上述一个电话机的全部声音中的、针对每个上述电话号码的声音的识别结果,更新每个相应电话号码的语言模型。

利用针对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。

另外,本发明的声音识别服务器还具有数据存储单元,其将上述一个电话机可利用的上述多个电话号码、与该电话机的用户识别信息相关联地存储,上述模型选择单元可根据上述当前呼出号码以及上述其它号码来选择上述数据存储单元所存储的用户识别信息,且根据该选择的用户识别信息来选择上述模型存储单元所存储的声学模型。

在此情况下,模型选择单元可针对每个用户选择不同的声学模型。

另外,本发明的声音识别服务器还具有对应关系控制单元,其在上述数据存储单元所存储的上述多个电话号码与上述用户识别信息之间的对应关系中进行追加、变更或删除的处理。

在此情况下,可以控制电话号码与用户之间的对应关系。

另外,在本发明的声音识别服务器中,上述声音接收单元还接收为了上述模型选择单元选择上述声学模型以及上述语言模型而参照的模式识别信息,上述模型选择单元可根据上述模式识别信息来选择上述声学模型以及上述语言模型。

在此情况下,模型选择单元可选择与模式相符的声学模型以及语言模型。

另外,在本发明的声音识别服务器中,在上述声音接收单元接收了多个上述模式识别信息的情况下,上述模型选择单元可根据优先级高的模式识别信息来选择上述声学模型以及上述语言模型。

在此情况下,模型选择单元可以进一步考虑模式的优先级来选择与模式相符的声学模型以及语言模型。

另外,在本发明的声音识别服务器中,上述声音接收单元还接收上述电话机的用户属性信息,上述模型选择单元可进一步参照上述属性信息来选择上述声学模型以及上述语言模型。

在此情况下,模型选择单元可以进一步参照用户属性信息来选择与用户属性信息相符的声学模型以及语言模型。

另外,本发明的电话机能在一台终端中利用多个电话号码,该电话机具备:声音输入单元,其输入来自用户的声音;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型存储单元,其存储用于将上述声音输入单元所输入的声音转换为字符的声学模型以及语言模型;模型选择单元,其根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音输入单元所输入的声音转换为字符。

此时,在本发明的电话机中优选,上述模型存储单元存储对于该电话机可利用的全部电话号码通用的声学模型,上述模型选择单元也根据该电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。

在本发明的电话机中,电话机的模型选择单元根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机中的声音识别为前提。即,虽然电话号码不同但用户是同一个,所以可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因而导致对新号码的声音识别性能必然降低,但在本发明中,对来自新号码的声音使用与现有号码对应的声学模型,所以可以提高对来自新号码的声音的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器的模型存储单元中的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本发明的电话机的模型选择部仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。

另外,本发明的电话机优选还具有声学模型更新单元,其利用来自上述用户的全部声音来更新上述通用的声学模型。

利用来自用户的全部声音来更新通用的声学模型,由此能够高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。

另外,本发明的电话机优选还具有语言模型更新单元,其利用对来自上述用户的全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话号码的语言模型。

利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。

根据本发明,可以提供声音识别服务器、电话机、声音识别系统以及声音识别方法,它们能够在可在一台终端中利用多个电话号码的服务中提高模型精度、提高声音识别性能。

附图说明

图1是第1实施方式的声音识别系统1的结构概要图。

图2是第1实施方式的声音识别系统1的结构概要图。

图3是电话机100以及声音识别服务器200的硬件结构图。

图4是示出电话机100的功能结构的结构概要图。

图5是示出声音识别服务器200的功能结构的结构概要图。

图6是示出声音识别系统1所进行的动作的流程图。

图7是用于详细说明图6的步骤S 104中的声学模型选择处理的图。

图8是用于详细说明图6的步骤S105中的语言模型选择处理的图。

图9是第2实施方式的声音识别服务器250的结构概要图。

图10中图10(A)是示出在号码转换数据存储部214中将电话号码与用户ID关联存储的一例的图。图10(B)是示出在模型存储部208中将用户ID与声学模型关联存储的一例的图。

图11是用于详细说明号码控制部218所进行的各个处理的流程图。

图12是示出号码控制部218所进行的新追加处理前后的状态的图。

图13是示出号码控制部218所进行的删除处理前后的状态的图。

图14是示出号码控制部218所进行的变更处理前后的状态的图。

图15是第3实施方式的声音识别服务器260的结构概要图。

图16是第4实施方式的声音识别系统2以及电话机150的结构概要图。

符号说明

1,2-声音识别系统,100,150-电话机,102-声音输入部,104-声音发送部,106-号码检知部,108-号码通知部,110-模型选择部,112-模型存储部,114-声音识别部,116-模型更新部,200,250,260-声音识别服务器,202-声音接收部,204-号码判定部,206-模型选择部,208-模型存储部,210声音识别部,212模型更新部,214-号码转换数据存储部,216号码转换部,218-号码控制部,220-模式识别信息接收部,300-通信网络,400-订户信息控制装置。

具体实施方式

以下,参照附图对本发明的声音识别服务器、电话机、声音识别系统以及声音识别方法的优选实施方式进行详细说明。此外,在附图说明中对同一要素标注同一符号,并省略重复的说明。

<第1实施方式>

(声音识别系统1的总体结构)

首先,参照图1以及图2说明本发明第1实施方式的声音识别系统1的总体结构。图1以及图2是声音识别系统1的结构概要图。如图1所示,声音识别系统1由电话机100和声音识别服务器200构成,电话机100和声音识别服务器200通过通信网络300相互连接。电话机100是可在一台终端中利用多个电话号码及邮件地址(在日本称为“二合一服务”)的移动电话机。声音识别服务器200是将来自电话机100的声音转换为字符、并将结果发送至电话机100的服务器装置。另外,如图2所示,声音识别系统1可构成为还具有订户信息控制装置400。订户信息控制装置400对所谓的“二合一服务”中的订户信息进行控制以及管理。

(电话机100的结构)

对电话机100进行详细说明。图3是电话机100的硬件结构图。如图3所示,电话机100物理上构成为具备:CPU 11、作为主存储装置的ROM 12以及RAM 13、操作按钮等输入设备14、LCD或有机EL显示器等输出设备15、与声音识别服务器200之间进行数据收发的通信模块16以及存储设备等辅助存储装置17。后述的电话机100的各个功能通过如下的方式来实现:通过在CPU 11、ROM 12、RAM 13等硬件上读入规定的软件,基于CPU 11的控制使输入设备14、输出设备15、通信模块16进行工作,并且对主存储装置12、13或辅助存储装置17中的数据进行读出以及写入。

图4是示出电话机100的功能结构的结构概要图。如图4所示,电话机100构成为在功能上具备:声音输入部102、声音发送部104(相当于权利要求中的“声音发送单元”)、号码检知部106(相当于权利要求中的“号码检知单元”)以及号码通知部108(相当于权利要求中的“号码通知单元”)。

声音输入部102输入用户发出的声音。声音发送部104将声音输入部102所输入的声音发送至声音识别服务器200。虽未图示,但还设置有从声音输入部102所输入的声音中提取声音特征量的单元,声音发送部104可将该声音特征量数据发送至声音识别服务器200。声音发送部104例如可由图3所示的通信模块16构成。

号码检知部106检知当前呼出号码以及其它号码。当前呼出号码是电话机100的当前的呼出电话号码。其它号码是在电话机100可利用的多个电话号码中的、除当前呼出号码以外的电话号码。号码通知部108将号码检知部106所检知的当前呼出号码以及其它号码通知给声音识别服务器200。号码通知部108可由例如图3所示的通信模块16构成。

如图1以及图4所示,电话机100可构成为将声音(声音特征量数据)以及号码信息直接发送至声音识别服务器200,如图2所示,电话机100可构成为将声音(声音特征量数据)以及号码信息经由订户信息控制装置400发送给声音识别服务器200。在后者的情况下,虽未图示,但可以在订户信息控制装置400中设置与号码检知部106以及号码通知部108相当的单元。

(声音识别服务器200的结构)

接着,对声音识别服务器200进行详细说明。图3是声音识别服务器200的硬件结构图。如图3所示,声音识别服务器200物理上构成为包含如下单元的通常计算机系统:CPU 21、ROM 22和RAM 23等主存储装置;键盘以及鼠标等输入设备24;显示器等输出设备25;与电话机100之间进行数据收发的通信模块26;以及硬盘等辅助存储装置27等。后述的声音识别服务器200的各个功能通过以下方式来实现:通过在CPU21、ROM 22、RAM 23等硬件上读入预定的计算机软件,基于CPU 21的控制,使输入设备24、输出设备25、通信模块26进行工作,并且对主存储装置22、23及辅助存储装置27中的数据进行读出以及写入。

图5是示出声音识别服务器200的功能结构的结构概要图。如图5所示,声音识别服务器200构成为在功能上具备:声音接收部202(相当于权利要求中的“声音接收单元”)、号码判定部204(相当于权利要求中的“号码判定单元”)、模型选择部206(相当于权利要求中的“模型选择单元”)、模型存储部208(相当于权利要求中的“模型存储单元”)、声音识别部210(相当于权利要求中的“声音识别单元”)以及模型更新部212(相当于权利要求中的“声学模型更新单元”以及“语言模型更新单元”)。

声音接收部202从电话机100接收电话机100的用户所发出的声音或其特征量数据。或者,在如图2所示将声音识别系统1构成为包含订户信息控制装置400的情况下,声音接收部202可经由订户信息控制装置400接收来自电话机100的声音或其特征量数据。声音接收部202可由例如图3所示的通信模块26构成。声音接收部202将所接收的声音或其特征量数据输出至声音识别部210以及模型更新部212。

号码判定部204根据来自电话机100的号码通知部108的通知,判定电话机100的当前呼出号码以及其它号码。或者,在如图2所示将声音识别系统1构成为包含订户信息控制装置400的情况下,图5虽未图示,但也可以是,号码判定部204从订户信息控制装置400接收对当前呼出号码以及其它号码的通知,并根据该通知来判定电话机100的当前呼出号码以及其它号码。号码判定部204将已判定的当前呼出号码以及其它号码输出至模型选择部206。

模型选择部206根据号码判定部204所判定的当前呼出号码以及其它号码来选择存储在模型存储部208中的声学模型,且根据当前呼出号码来选择存储在模型存储部208中的语言模型。模型存储部208存储有用于将声音接收部202接收到的声音转换为字符的一个以上声学模型以及一个以上语言模型。模型存储部208存储对于一个电话机可利用的全部电话号码通用的声学模型,模型选择部206也根据一个电话机中任意的当前呼出号码以及其它号码来选择上述通用的声学模型。此外,在后述的“声音识别系统1的动作”中参照图7以及图8来详细说明与模型选择部206以及模型存储部208相关联的处理。模型选择部206将所选择的声学模型以及语言模型输出至声音识别部210。

声音识别部210根据模型选择部206所选择的声学模型以及语言模型,将声音接收部202所接收的声音转换为字符。声音识别的方法本身是例如下述参考文献1所公开的公知技术,所以这里省略说明。声音识别部210将进行了声音识别处理的结果向电话机100发送。电话机100接收该结果并向用户显示。另外,声音识别部210将声音识别结果输出至模型更新部212。

参考文献1:音声認識システム(声音识别系统),ISBN/ASIN:4274132285,武田一哉,欧姆公司(オ一ム社)

模型更新部212利用声音接收部202所接收的来自电话机100的声音、以及从声音识别部210输入的声音识别结果作为学习对象,更新存储在模型存储部208中的声学模型以及语言模型。模型更新部212利用来自电话机100的全部声音以及来自声音识别部210的全部声音识别结果作为学习对象,更新一个电话机中通用的声学模型。即,例如电话机100可利用的电话号码是A以及B的情况下,模型更新部212利用在电话号码A以及B下发出的全部声音以及该声音的全部识别结果作为学习对象,更新电话机100中的电话号码A以及B通用的声学模型。

另一方面,模型更新部212利用来自声音识别部210的全部声音识别结果中的、依据每个电话号码而区分的声音识别结果,来更新每个相应电话号码的语言模型。即,例如电话机100可利用的电话号码是A以及B的情况下,模型更新部212利用针对电话号码A下发出的声音的识别结果(即,字符)作为学习对象,更新用于电话机100的电话号码A的语言模型。另外,在此情况下,模型更新部212利用针对电话号码B下发出的声音的识别结果为学习对象,更新用于电话机100的电话号码B的语言模型。

作为模型更新方法、即声学模型以及语言模型中的各参数更新方法,举出了例如基于下式(1)的更新方法。

μ=μ0w+(1-w)X   ...(1)

在上述式(1)中,μ是更新后的参数,μ0是更新前的参数,w是更新中的预定权重,X是输入声音的平均值。此外,模型更新的方法本身例如是下述参考文献2所公开的公知技术,所以这里省略说明。

参考文献2:確率モデルによる音声認識のための話者適応化技術、電字子情報通信学会論文誌D-II(用于概率模型的声音识别的说话者适应化技术,电子信息通信学会论文集D-II)vol.J87-D-II,no.2,pp.371-386(2004-2)

(声音识别系统1的动作)

接着,参照图6来说明声音识别系统1所进行的动作(权利要求中的“声音识别方法”)。图6是示出声音识别系统1所进行的动作的流程图。此外,在以下的说明中为了便于说明而假定以下的事项。即,在电话机100中可以利用电话号码A以及B的多个电话号码,其中,当前呼出号码是电话号码A,其它号码是电话号码B。另外,不用说声音识别服务器200的模型存储部208存储用于将来自电话机100的声音转换为字符的声学模型以及语言模型,另外还存储用于对来自声音识别系统1内存在的电话机100以外的其它电话机(未图示)的声音进行识别的声学模型以及语言模型。

首先,声音识别服务器200的声音接收部202从电话机100直接或经由订户信息控制装置400,接收电话机100的用户所发出的声音或其特征量数据。另外,声音识别服务器200的号码判定部204从电话机100或订户信息控制装置400接收对当前呼出号码以及其它号码的通知(步骤S101,相当于权利要求中的“声音接收步骤”)。

接着,声音识别服务器200的号码判定部204根据步骤S101的号码通知来判定电话机100的当前呼出号码以及其它号码。根据上述假定,号码判定部204判定当前呼出号码是A、其它号码是B(步骤S102以及步骤S103,相当于权利要求中的“号码判定步骤”)。

接着,声音识别服务器200的模型选择部206根据在步骤S102以及步骤S103中判定的当前呼出号码以及其它号码,选择模型存储部208所存储的、用于识别来自电话机100的声音的声学模型。另外,模型选择部206根据当前呼出号码,选择模型存储部208中存储的、用于识别来自电话机100的声音的语言模型(步骤S104以及步骤S105,相当于权利要求中的“模型选择步骤”)。

进一步参照图7来说明步骤S104的声学模型选择处理。模型存储部208存储如图7所示的表。图7中,将包含电话机100的声音识别系统1内的全部电话机可利用的电话号码(A、B、C、D、E等)、和用于将各个电话号码中发出的声音转换为字符的声学模型(MAB、MC、MDE等)相关联地进行存储。即,可以采用声学模型MAB对电话号码A中发出的声音进行声音识别,可以采用声学模型MC对电话号码C中发出的声音进行声音识别。另外,图7中,在一个框内记载的电话号码表示一台电话机可利用的电话号码。即,电话号码A和B是电话机100可利用的号码,电话号码C是电话机100以外的另一个电话机(未图示)可利用的号码,电话号码D和E是电话机100以外的再一个电话机(未图示)可利用的号码。模型选择部206参照这样的表来选择声学模型。即,模型选择部206从图7的表的左列检索与电话机100的当前呼出号码以及其它号码相当的电话号码A以及B,并选择与电话号码A以及B相关联地存储的声学模型MAB。另外,此例为当前呼出号码是A、其它号码是B时的例子,相反,在当前呼出号码是B、其它号码是A时也可进行同样的选择。即,模型存储部208存储对于一个电话机可利用的全部电话号码通用的声学模型,模型选择部206也根据该一个电话机中任意的当前呼出号码以及其它号码选择上述通用的声学模型。

进一步参照图8来说明步骤S105的语言模型选择处理。模型存储部208存储如图8所示的表。图8中,将包含电话机100的声音识别系统1内的全部电话机可利用的电话号码(A、B、C、D、E等)、与用于将各个电话号码中发出的声音转换为字符的语言模型(LA、LB、LC、LD、LE等)相关联地进行存储。即,可采用语言模型LA对电话号码A中发出的声音进行声音识别,可采用语言模型LC对电话号码C中发出的声音进行声音识别。模型选择部206参照这样的表来选择语言模型。即,模型选择部206从图8中表的左列检索与电话机100的当前呼出号码相当的电话号码A,选择与电话号码A相关联地存储的语言模型LA。另外,此例为当前呼出号码是A、其它号码是B时的例子,相反,在当前呼出号码是B、其它号码是A时,模型选择部206从图8中表的左列检索与电话机100的当前呼出号码相当的电话号码B,选择与电话号码B相关联地存储的语言模型LB。即,模型存储部208针对一个电话机可利用的全部电话号码分别存储不同的语言模型,模型选择部206针对每个电话号码来选择不同的语言模型。

返回图6的流程图,继步骤S104以及步骤S105的模型选择步骤之后,声音识别服务器200的声音识别部210根据模型选择部206所选择的声学模型以及语言模型,将声音接收部202所接收的声音转换为字符。根据上述假定,声音识别部210基于声学模型MAB以及语言模型LA对来自电话机100的声音进行识别处理(步骤S106,相当于权利要求中的“声音识别步骤”)。

接着,声音识别服务器200的模型更新部212利用声音接收部202所接收的来自电话机100的声音、以及从声音识别部210输入的声音识别结果作为学习对象,更新模型存储部208所存储的声学模型以及语言模型。根据上述假定,模型更新部212利用电话号码A以及B发出的全部声音以及该声音的全部识别结果作为学习对象,更新电话机100中的电话号码A以及B通用的声学模型MAB。此外,因为在上述假定中当前呼出号码是A,所以利用在该电话号码A中发出的声音以及该声音的识别结果作为学习对象,来更新通用的声学模型MAB,但与其不同,在当前呼出号码是B的情况下,利用在该电话号码B中发出的声音以及该声音的识别结果作为学习对象,来更新通用的声学模型MAB。总之,根据呼出号码A中的发声以及呼出号码B中的发声双方来更新通用的声学模型MAB。另一方面,模型更新部212利用针对来自电话机100的全部声音中的、依据每个电话号码而区分的声音的识别结果(即,字符)作为学习对象,更新该每个电话号码的语言模型。根据上述假定,模型更新部212利用针对作为当前呼出号码的电话号码A中发出的声音的识别结果作为学习对象,更新用于电话机100的电话号码A的语言模型LA。总之,语言模型针对每个呼出号码来进行更新(步骤S107)。

最后,在电话机100侧接收步骤S106中的声音识别结果,然后显示给用户(步骤S108)。

(第1实施方式的作用以及效果等)

接着,对第1实施方式的作用以及效果进行说明。根据第1实施方式,声音识别服务器200的模型选择部206根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本实施方式以一个用户在一台终端中利用多个电话号码的电话机100中的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此,可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到了良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然降低,但在本实施方式中,可对新号码的声音使用与现有号码对应的声学模型,所以提高了对来自新号码的声音的识别精度。另外,通过使用通用的声学模型,可以减少要存储在声音识别服务器200的模型存储部208中的声学模型的数量,由此能够减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本实施方式的声音识别服务器200的模型选择部206仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。

另外,通过利用来自一个电话机100的全部声音来更新通用的声学模型,可以高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。

另外,通过利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,可以在每个电话号码的话题不同的情况下,专门针对该话题来更新语言模型。

<第2实施方式>

接着,对本发明的第2实施方式进行说明。此外,省略与上述已说明的第1实施方式重复部分的说明,并以与第1实施方式的不同点为中心进行说明。

图9是第2实施方式的声音识别服务器250的结构概要图。与第1实施方式中的声音识别服务器200相比,声音识别服务器250还具备:号码转换数据存储部214(相当于权利要求中的“数据存储单元”)、号码转换部216(相当于权利要求中的“模型选择单元”)以及号码控制部218(相当于权利要求中的“对应关系控制单元”)。

号码转换数据存储部214将一个电话机可利用的多个电话号码与该电话机的用户识别信息相关联地存储。具体地说,号码转换数据存储部214存储如图10(A)所示的表。在图10(A)中,包含电话机100的声音识别系统1内的全部电话机可利用的电话号码(A、B、C、D、E等)、与作为利用各个电话号码的用户的识别信息的用户ID被相关联地存储。即,如图10(A)所示,电话号码A、B被用户ID为AB的用户所利用,电话号码C被用户ID为CC的用户所利用,电话号码D、E被用户ID为DE的用户所利用。

返回图9,号码判定部204根据来自电话机100或订户信息控制装置400的号码通知来判定电话机100的当前呼出号码以及其它号码,将该结果输出至号码转换部216。

号码转换部216根据号码判定部204所判定的当前呼出号码以及其它号码,选择存储在号码转换数据存储部214中的用户ID。例如在电话机100可利用的电话号码是A以及B的情况下,号码转换部216参照号码转换数据存储部214,选择AB的用户ID。号码转换部216将所选择的用户ID通知给模型选择部206。

模型选择部206根据号码转换部216所选择的用户ID来选择模型存储部208中存储的声学模型。模型存储部208存储有如图10(B)所示的表。在图10(B)中,相关联地存储有包含电话机100的声音识别系统1内的全部电话机的用户识别信息即用户ID(AB、CC、DE等)、和在与各个用户ID关联地进行声音识别时采用的声学模型(MAB、MC、MDE等)。即,在用户ID为AB的情况下可采用声学模型MAB进行声音识别,在用户ID为CC的情况下可采用声学模型MC进行声音识别,在用户ID为DE的情况下可采用声学模型MDE进行声音识别。模型选择部206参照这样的表来选择声学模型。即,模型选择部206在号码转换部216所选择的用户ID为AB的情况下选择声学模型MAB,在号码转换部216所选择的用户ID为CC的情况下选择声学模型MC,在号码转换部216所选择的用户ID为DE的情况下选择声学模型MDE。即,模型存储部208针对每个用户存储不同的声学模型,模式选释部206与当前呼出号码以及其它号码无关地,以用户为基准来选择声学模型。以上,说明了声学模型的选择处理,但关于语言模型,也可以与用户ID无关、如第1实施方式所说明的那样,以电话号码为基准进行选择。

返回图9,号码控制部218在号码转换数据存储部214所存储的电话号码与用户ID之间的对应关系(参照图10(A))中,进行追加、变更或删除的各种处理。图11是示出其处理步骤的流程图。如图11所示,号码控制部218首先接收控制信号、号码数据以及用户ID数据(步骤S201),接着判定该接收的控制信号的种类(步骤S202)。此外,步骤S201中的控制信号、号码数据以及用户ID数据可以从订户信息控制装置400接收,或者从电话机100或未图示的其它装置接收。

在步骤S202的判定结果是新追加的情况下(步骤S202:是)进行新追加处理(步骤S203)。图12(A)示出现有的表,图12(B)示出进行了新追加处理后的表。如图12所示,新追加了电话号码F、和与其对应的用户ID即FF。

另一方面,在步骤S202的判定结果不是新追加的情况下(步骤S202:否),首先,在掌握了处理对象之后、即掌握了从现有的表中对哪个号码数据进行删除或变更处理之后(步骤S204),再次判定在步骤S201中接收的控制信号的种类(步骤S205)。

在步骤S205的判定结果是删除的情况下(步骤S205:是),进行删除处理(步骤S206)。图13(A)示出现有的表,图13(B)示出进行了删除处理之后的表。如图13所示,删除了电话号码D和E、以及与它们相对应的用户ID即DE。

另一方面,在步骤S205的判定结果是不删除的情况下(步骤S202:否),判定步骤S201中接收到的控制信号是否表示变更(步骤S207)。

在步骤S207的判定结果是变更的情况下(步骤S207:是)进行变更处理(步骤S208)。图14(A)示出现有的表,图14(B)示出进行了变更处理之后的表。如图14所示,与电话号码C对应的用户ID在变更前是CC,但在变更后成为FF。

另一方面,在步骤S207的判定结果不是变更的情况下(步骤S207:否),直接结束处理。

根据以上所说明的第2实施方式,模型选择部206可以针对每个用户选择不同的声学模型。另外,还可以控制电话号码与用户之间的对应关系。

<第3实施方式>

接着,对本发明的第3实施方式进行说明。此外,省略与上述已说明的第1实施方式重复部分的说明,并重点说明与第1实施方式的不同点。

图15是第3实施方式的声音识别服务器260的结构概要图。与第1实施方式中的声音识别服务器200相比,声音识别服务器260还具有模式识别信息接收部220(相当于权利要求中的“声音接收单元”)。模式识别信息接收部220接收模式识别信息。模式识别信息是模型选择部206为了选择声学模型以及语言模型而参照的信息。模式识别信息所表示的模式例如有确定电话机100可利用的电话号码的情况。作为其一例,在电话机100可利用的电话号码是A以及B的情况下,第1模式表示电话号码A,第2模式表示电话号码B。另外,第3模式表示电话号码A以及B双方。并且模式识别信息表示任意的模式,模式识别信息接收部220从电话机100接收这样的模式识别信息,并向模型选择部206输出。此外,图15示出了模式识别信息接收部220从电话机100接收模式识别信息的例子,但不限于此,也可以是,还存在存储模式识别信息的其它装置(未图示),模式识别信息接收部220从该装置接收模式识别信息。

模型选择部206根据从模式识别信息接收部220输入的模式识别信息,选择模型存储部208所存储的声学模型以及语言模型。例如,在模式识别信息表示上述第3模式的情况下,模型选择部206从模型存储部208中选择对于电话号码A以及B通用的声学模型以及语言模型。此外,在模型存储部208中预先存储有对于电话号码A以及B通用的声学模型以及语言模型。另外,所谓对于电话号码A以及B通用的声学模型以及语言模型,是指在对电话号码A的发声进行声音识别、以及对电话号码B的发声进行声音识别中都能够使用的声学模型以及语言模型,或者将电话号码A中的发声、电话号码B中的发声、以及它们的声音识别结果用作学习对象进行更新的声学模型以及语言模型。另外,在例如模式识别信息表示上述第1模式的情况下,模型选择部206从模型存储部208中选择专门针对电话号码A的声学模型以及语言模型。

以上,对第3实施方式的模式识别信息接收部220以及模型选择部206的基本功能进行了说明,但本发明的第3实施方式不限于此。例如,还可以构成为,在模式识别信息接收部220接收到了多个模式识别信息的情况下,模型选择部206基于优先级高的模式识别信息来选择声学模型以及语言模型。在此情况下,模式识别信息接收部220还可以接收表示优先级的信息。另外,还可以构成为,模式识别信息接收部220除了接收模式识别信息之外,还接收电话机100的用户的属性信息,模型选择部206进一步参照该属性信息来选择声学模型以及语言模型。所谓用户的属性信息是指与用户有关的信息,例如表示年龄、性别,兴趣、职业等的信息。

根据以上所说明的第3实施方式,模型选择部206可以选择与模式相符的声学模型以及语言模型。另外,模型选择部206可以在进一步考虑了模式的优先级之后,选择与模式相符的声学模型以及语言模型。另外,模型选择部206可进一步参照用户属性信息来选择与用户属性信息相符的声学模型以及语言模型。

<第4实施方式>

接着,对本发明的第4实施方式进行说明。此外,省略与上述所说明的第1实施方式重复部分的说明,重点说明与第1实施方式的不同点。

图16是第4实施方式的声音识别系统2以及电话机150的结构概要图。与第1实施方式中的声音识别系统1相比,在声音识别系统2中不存在声音识别服务器,取而代之由电话机150来进行声音识别处理。

如图16所示,在电话机150中,作为功能结构要素具备:声音输入部102(相当于权利要求中的“声音输入单元”)、号码检知部106(相当于权利要求中的“号码检知单元”)、模型选择部110(相当于权利要求中的“模型选择单元”)、模型存储部112(相当于权利要求中的“模型存储单元”)、声音识别部114(相当于权利要求中的“声音识别单元”)以及模型更新部116(相当于权利要求中的“声学模型更新单元”以及“语言模型更新单元”)。

用户所发出的声音被输入声音输入部102,并被输出至声音识别部114以及模型更新部116。虽未图示,但可以进一步设置从输入至声音输入部102的声音中提取声音特征量的单元,并将该声音特征量数据输出至声音识别部114以及模型更新部116。

号码检知部106检知当前呼出号码以及其它号码,并输出至模型选择部110。

模型选择部110根据号码检知部106所检知的当前呼出号码以及其它号码来选择存储在模型存储部112中的声学模型,且根据当前呼出号码来选择存储在模型存储部112中的语言模型。模型存储部112存储用于将声音输入部102所接收的声音转换为字符的声学模型以及语言模型。模型存储部112存储对于该电话机150可利用的全部电话号码通用的声学模型,模型选择部110也根据该电话机150中任意的当前呼出号码以及其它号码来选择上述通用的声学模型。模型选择部110将所选择的声学模型以及语言模型输出至声音识别部114。

声音识别部114根据模型选择部110所选择的声学模型以及语言模型,将来自声音输入部102的声音转换为字符。声音识别部114向用户显示进行过声音识别处理后的结果,并且输出至模型更新部116。

模型更新部116利用来自声音输入部102的声音、以及从声音识别部114输入的声音识别结果作为学习对象,更新模型存储部112所存储的声学模型以及语言模型。模型更新部116利用来自声音输入部102的全部声音、以及来自声音识别部114的全部声音识别结果作为学习对象,更新电话机150中的通用声学模型。即,例如在电话机150可利用的电话号码是A以及B的情况下,模型更新部116利用电话号码A以及B下发出的全部声音以及该声音的识别结果作为学习对象,更新对于电话机150中的电话号码A以及B通用的声学模型。

另一方面,模型更新部116利用来自声音识别部114的全部声音识别结果中的、依据每个电话号码而区分的声音识别结果,来更新每个相应电话号码的语言模型。即,例如在电话机150可利用的电话号码是A以及B的情况下,模型更新部116利用针对电话号码A下发出的声音的识别结果(即,字符)作为学习对象,更新用于电话机150的电话号码A的语言模型。另外,在此情况下,模型更新部116利用针对电话号码B下发出的声音的识别结果作为学习对象,更新用于电话机150的电话号码B的语言模型。

根据以上所说明的第4实施方式,电话机150的模型选择部110根据当前呼出号码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机150中的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型,尤其在对同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然将低,但在本发明中,对来自新号码的声音使用与现有号码对应的声学模型,因此可以提高对来自新号码的声音的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器200的模型存储部112内的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本发明的电话机150的模型选择部110仅根据当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。

另外,利用来自用户的全部声音来更新通用的声学模型,由此能够高精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。

另外,利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。

以上,对本发明的优选实施方式进行了说明,但不言而喻,本发明不限于上述实施方式。

例如,可采用SIM卡(Subscriber Identity Module Card:用户识别模块卡)中的IMSI(International Mobile Subscriber Identity:国际移动用户识别)码,来取代上述实施方式中的电话号码。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号