首页> 中国专利> 语音识别装置、语音识别系统以及语音识别方法

语音识别装置、语音识别系统以及语音识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

语音信号处理部(21)将车辆中就座于多个语音识别对象座位的多个搭乘者的说话语音分离成每个搭乘者的说话语音。语音识别部(22)对由语音信号处理部(21)分离得到的每个搭乘者的说话语音进行语音识别，并且计算出语音识别分值。分值利用判定部(23)使用每个搭乘者的语音识别分值，判定每个搭乘者的语音识别结果中采用与哪个搭乘者相对应的语音识别结果。

著录项

公开/公告号CN112823387A

专利类型发明专利
公开/公告日2021-05-18

原文格式PDF
申请/专利权人三菱电机株式会社;
展开▼

申请/专利号CN201880098611.0
发明设计人马场直哉;小路悠介;
展开▼

申请日2018-10-15
分类号G10L15/28(20130101);
代理机构31100 上海专利商标事务所有限公司;
代理人邓晔;宋俊寅
地址日本东京
入库时间 2023-06-19 11:00:24

说明书

技术领域

本发明涉及语音识别装置、语音识别系统以及语音识别方法。

背景技术

以往开发了一种以语音来操作车辆内的信息设备的语音识别装置。下面，将车辆中作为语音识别对象的座位称为“语音识别对象座位”。另外，将就坐于语音识别对象座位的搭乘者中说出操作用的语音的搭乘者称为“说话者”。再者，将面向语音识别装置的说话者的语音称为“说话语音”。

由于车辆内会产生乘客彼此的对话、车辆行驶噪声、或者车载设备的导航语音等各种各样的噪音，因此，语音识别装置有时会因该噪音而误识别出说话语音。因而，专利文献1中所记载的语音识别装置基于声音数据检测出语音输入开始时刻和语音输入结束时刻，基于拍摄搭乘者而得到的图像数据来判断从语音输入开始时刻到语音输入结束时刻为止的期间是否是搭乘者说话的说话区间。由此，抑制上述语音识别装置对搭乘者未说话的语音进行的误识别。

现有技术文献

专利文献

专利文献1：日本专利特开2007－199552号公报

发明内容

发明所要解决的技术问题

此处，假定将上述专利文献1中所记载的语音识别装置应用于存在多个搭乘者的车辆的示例。在该示例中，在某搭乘者说话的区间内其他搭乘者做出打哈欠等近似于说话的嘴部动作的情况下，即使是打哈欠等的该其他搭乘者没有说话的情况下，上述语音识别装置也会误判断成说话，从而发生将上述某搭乘者的说话语音误识别成该其他搭乘者的说话语音的情况。如上所述，在对搭乘于车辆的多个搭乘者发出的语音进行识别的语音识别装置中，即使如专利文献1那样使用声音数据和摄像头的拍摄图像，也存在发生误识别的问题。

本发明正是为了解决上述问题而完成的，其目的在于，在多个搭乘者利用的语音识别装置中抑制对其他搭乘者所说出的语音进行误识别。

解决技术问题所采用的技术方案

本发明所涉及的语音识别装置包括：语音信号处理部，该语音信号处理部将车辆中就坐于多个语音识别对象座位的多个搭乘者的说话语音分离成每个搭乘者的说话语音；语音识别部，该语音识别部对由语音信号处理部所分离的每个搭乘者的说话语音进行语音识别，并且计算出语音识别分值；以及分值利用判定部，该分值利用判定部使用每个搭乘者的语音识别分值，判定每个搭乘者的语音识别结果中采用与哪个搭乘者相对应的语音识别结果。

发明效果

根据本发明，在多个搭乘者利用的语音识别装置中，能够抑制对其他搭乘者说话的语音进行误识别。

附图说明

图1是表示实施方式1所涉及的具备语音识别装置的信息设备的结构例的框图。

图2A是用于辅助理解实施方式1所涉及的语音识别装置的参考例，是表示车辆内的状况的一个示例的图。

图2B是表示图2A的状况下的、利用参考例的语音识别装置所得出的处理结果的图。

图3A是表示实施方式1的车辆内的状况的一个示例的图。

图3B是表示图3A的状况下的、实施方式1所涉及的语音识别装置所得出的处理结果的图。

图4A是表示实施方式1的车辆内的状况的一个示例的图。

图4B是表示图4A的状况下的、实施方式1所涉及的语音识别装置所得出的处理结果的图。

图5A是表示实施方式1的车辆内的状况的一个示例的图。

图5B是表示图5A的状况下的、实施方式1所涉及的语音识别装置所得出的处理结果的图。

图6是表示实施方式1所涉及的语音识别装置的动作例的流程图。

图7是表示实施方式2所涉及的具备语音识别装置的信息设备的结构例的框图。

图8是表示图3A的状况下的、实施方式2所涉及的语音识别装置所得出的处理结果的图。

图9是表示图4A的状况下的、实施方式2所涉及的语音识别装置所得出的处理结果的图。

图10是表示图5A的状况下的、实施方式2所涉及的语音识别装置所得出的处理结果的图。

图11是表示实施方式2所涉及的语音识别装置的动作例的流程图。

图12是表示实施方式2的语音识别装置的变形例的框图。

图13是表示实施方式3所涉及的具备语音识别装置的信息设备的结构例的框图。

图14是表示实施方式3所涉及的语音识别装置的动作例的流程图。

图15是表示实施方式3所涉及的语音识别装置所得出的处理结果的图。

图16是表示实施方式4所涉及的具备语音识别装置的信息设备的结构例的框图。

图17是表示实施方式4所涉及的语音识别装置的动作例的流程图。

图18是表示实施方式4所涉及的语音识别装置所得出的处理结果的图。

图19A是表示各个实施方式所涉及的语音识别装置的硬件结构例的图。

图19B是表示各个实施方式所涉及的语音识别装置的硬件结构的其他示例的图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对本发明的实施方式进行说明。

实施方式1

图1是表示实施方式1所涉及的具备语音识别装置20的信息设备10的结构例的框图。信息设备10例如是车辆用的导航系统、包含驾驶员用的仪表显示器在内的整合式驾驶室系统、PC(Personal Computer：个人计算机)、平板PC、或者智能手机等便携信息终端。该信息设备10具备集音装置11及语音识别装置20。

另外，下面以识别日语的语音识别装置20为例进行说明，但是并未限定语音识别装置20作为识别对象的语言为日语。

语音识别装置20具备语音信号处理部21、语音识别部22、分值利用判定部23、对话管理数据库24(下面称为“对话管理DB24”)、以及响应决定部25。另外，语音识别装置20连接有集音装置11。

集音装置11由N个(N为2以上的整数)麦克风11－1～11－N来构成。另外，集音装置11可以是以规定间隔配置了无指向性的麦克风11－1～11－N的阵列麦克风。另外，也可以在车辆的各个语音识别对象座位前配置指向性的麦克风11－1～11－N。如上所述，只要是能够对就坐于语音识别对象座位的所有搭乘者所说出的语音进行集音的位置，无所谓集音装置11的配置场所。

在实施方式1中，以麦克风11－1～11－N为阵列麦克风为前提，对语音识别装置20进行说明。该集音装置11输出与由麦克风11－1～11－N所集音到的语音相对应的模拟信号(下面称为“语音信号”)A1～AN。即，语音信号A1～AN与麦克风11－1～11－N一一对应。

语音信号处理部21首先对集音装置11输出的模拟语音信号A1～AN进行模数转换(下面称为“AD转换”)，使其成为数字语音信号D1～DN。接着，语音信号处理部21从语音信号D1～DN仅分离出就坐于各个语音识别对象座位的说话者的说话语音即语音信号d1～dM。另外，M为N以下的整数，例如对应于语音识别对象座位的座位数。下面，详细说明从语音识别信号D1～DN分离出语音信号d1～dM的语音信号处理。

语音信号处理部21将语音信号D1～DN中与不同于说话语音的声音相对应的分量(下面称为“噪音分量”)除去。另外，语音信号处理部21具有M个第1～第M处理部21－1～21－M，该第1～第M处理部21－1～21－M输出仅提取出了就坐于各个语音识别对象座位的说话者的声音的M个语音信号d1～dM，从而使语音识别部22能够独立地对各个搭乘者的说话语音进行语音识别。

噪声分量例如包含有与因车辆行驶而产生的噪音相对应的分量、以及与由搭乘者中不同于说话者的搭乘者说话的语音相对应的分量等。语音信号处理部21中除去噪声分量，能够使用波束成形法、二进制掩模法或者谱减法等公知的各种方法。因此，省略语音信号处理部21中除去噪声的详细说明。

另外，在语音信号处理部21使用独立分量分析等盲语音分离技术的情况下，语音信号处理部21具有1个第一处理部21－1，第一处理部21－1从语音信号D1～DN分离出语音信号d1～dM。但是，由于使用盲语音分离技术的情况下需要多个声源数量(即说话者数量)，因此，需利用后述的摄像头12及图像分析部26来检测搭乘者数量及说话者数量并通知给语音信号处理部21。

语音识别部22首先检测出语音信号处理部21所输出的语音信号d1～dM中与说话语音相对应的语音区间(下面称为“说话区间”)。接着，语音识别部22对于该说话区间提取出语音识别用的特征量，使用该特征量来执行语音识别。另外，语音识别部22具有M个第一～第M识别部22－1～22－M，从而能够独立地对各个搭乘者的说话语音进行语音识别。第一～第M识别部22－1～22－M将从语音信号d1～dM检测到的说话区间的语音识别结果、表示语音识别结果的可靠度的语音识别分值、以及说话区间的起始时刻和结束时刻输出到分值利用判定部23。

语音识别部22的语音识别处理中，能够使用HMM(Hidden Markov Model：隐马尔可夫模型)等公知的各种方法。因此，省略对于语音识别部22的语音识别处理的详细说明。另外，语音识别部22所计算出的语音识别分值可以是考虑了音响模型的输出概率和语言模型的输出概率这两者的值，也可以仅是音响模型的输出概率的音响分值。

分值利用判定部23首先判定语音识别部22输出的语音识别结果中在规定时间内(例如1秒以内)是否存在相同的语音识别结果。该规定时间是通过使某搭乘者的说话语音与其他搭乘者的说话语音重叠从而能够反映于该其他搭乘者的语音识别结果的时间，并被预先提供至分值利用判定部23。在规定时间内存在相同的语音识别结果的情况下，分值利用判定部23参照分别与该相同的语音识别结果相对应的语音识别分值，采用最佳分值的语音识别结果。非最佳分值的语音识别结果被舍弃。另一方面，在规定时间内存在不同的语音识别结果的情况下，分值利用判定部23采用各个不同的语音识别结果。

另外，也考虑多个说话者同时说出相同的说话内容的情况。因而，分值利用判定部23也可设置语音识别分值的阈值，判定为与具有该阈值以上的语音识别分值的语音识别结果相对应的搭乘者在说话，并采用该语音识别结果。另外，分值利用判定部23也可以针对每个识别对象语来变更该阈值。另外，分值利用判定部23首先进行语音识别分值的阈值判定，在所有上述相同的语音识别结果的语音识别分值均小于阈值的情况下，可以仅采用最佳分值的语音识别结果。

对话管理DB24中定义了语音识别结果与信息设备10要执行的功能之间的对应关系，来作为数据库。例如针对“降低空调的风量”这样的语音识别结果，定义“降低空调的风量一个等级”这样的功能。另外，对话管理DB24中可以定义表示功能是否依赖于说话者的信息。

响应决定部25参照对话管理DB24，决定与分值利用判定部23所采用的语音识别结果相对应的功能。另外，在分值利用判定部23采用了多个相同的语音识别结果的情况下，若功能不依赖于说话者，则响应决定部25仅决定具有最佳语音识别分值的语音识别结果、即与可靠度最高的语音识别结果相对应的功能。响应决定部25将所决定的功能输出至信息设备10。信息设备10执行响应决定部25所输出的功能。信息设备10也可从扬声器输出与在功能执行时向搭乘者通知该功能执行的响应语音等。

此处，对依赖于说话者的功能例和不依赖于说话者的功能例进行说明。

例如涉及空调的操作，由于能够对于每个座位设定不同的风量及温度，因此，即使是相同的语音识别结果，也需对每个说话者执行功能。更具体而言，第一搭乘者1和第二搭乘者2的说话语音的语音识别结果是“降低空调的温度”，设为两者的语音识别结果的语音识别分值在阈值以上。在此情况下，响应决定部25判定为与语音识别结果“降低空调的温度”相对应的功能“降低空调的风量一个等级”依赖于说话者，对第一搭乘者1和第二搭乘者2执行降低空调的温度的功能。

另一方面，与目标地检索及音乐重放等不依赖于说话者而是所有搭乘者共通的功能相关地，在语音识别结果相同的情况下，无需对每个说话者执行功能。因此，存在多个相同的语音识别结果且与该语音识别结果相对应的功能不依赖于说话者的情况下，响应决定部25决定仅与最佳分值的语音识别结果相对应的功能。更具体而言，第一搭乘者1和第二搭乘者2的说话语音的语音识别结果是“打开音乐”，设为两者的语音识别结果的语音识别分值在阈值以上。在此情况下，响应决定部25判定为与语音识别结果“打开音乐”相对应的功能“重放音乐”不依赖于说话者，执行与第一搭乘者1的语音识别结果及第二搭乘者2的语音识别结果中语音识别分值更高一方相对应的功能。

接着，说明语音识别装置20的动作的具体示例。

首先，使用图2A及图2B，说明用于辅助理解实施方式1所涉及的语音识别装置20的参考例。在图2A中，在车辆中设置有参考例的信息设备10A和语音识别装置20A。参考例的语音识别装置20A设为与先前说明的专利文献1所记载的语音识别装置相当。图2B是表示图2A的状况下的、利用参考例的语音识别装置20所得出的处理结果的图。

图2A中，第一～第四搭乘者1～4这4个人就坐于语音识别装置20A的语音识别对象座位。第一搭乘者1说出了“降低空调的风量”。第二搭乘者2和第四搭乘者4未说话。第三搭乘者3在第一搭乘者1说话的过程中偶尔打哈欠。语音识别装置20A使用语音信号来检测说话区间，并且使用摄像头的拍摄图像来判定该话说区间是否在适当的说话区间(即、为说话或为未说话)。在该状况下，语音识别装置20A应该仅输出第一搭乘者1的语音识别结果“降低空调的风量”。然而，语音识别装置20A不仅对第一搭乘者1，还对第二搭乘者2、第三搭乘者3及第四搭乘者4进行语音识别，因此，如图2B所示，对于第二搭乘者2和第三搭乘者3也会发生错误地误检测出语音的情况。对于第二搭乘者2，语音识别装置20A使用摄像头的拍摄图像来判定第二搭乘者2是否在说话，由此，能够判定第二搭乘者2未说话，舍弃语音识别结果“降低空调的风量”。另一方面，在第三搭乘者3偶尔打哈欠且嘴型近似于说话的情况下，即使语音识别装置20A使用摄像头的拍摄图像来判定第三搭乘者3是否在说话，也会发生误判定为正在说话的情况。于是，第三搭乘者3正在说出“降低空调的风量”这样的误识别发生。在此情况下，信息设备10A根据语音识别装置20A的语音识别结果，会发生“降低左前方座位和左后方座位的空调的风量”这样的错误响应。

图3A是表示实施方式1的车辆内的状况的一个示例的图。图3B是表示图3A的状况下的、实施方式1所涉及的语音识别装置20所得出的处理结果的图。图3A中，与图2A同样地，第一搭乘者1说出了“降低空调的风量”。第二搭乘者2和第四搭乘者4未说话。第三搭乘者3在第一搭乘者1说话的过程中偶尔打哈欠。在语音信号处理部21无法完全从语音信号d2、d3分离出第一搭乘者1的说话语音的情况下，第一搭乘者1的说话语音残留于第二搭乘者2的语音信号d2和第三搭乘者3的语音信号d3中。在此情况下，语音识别部22从第一～第三搭乘者1～3的语音信号d1～d3中检测出说话区间，并识别出“降低空调的风量”这样的语音。但是，由于语音信号处理部21根据第二搭乘者2的语音信号d2和第三搭乘者3的语音信号d3而使第一搭乘者1的说话语音风量衰减，因此，与语音信号d2、d3相对应的语音识别分值变得低于说话语音被强调的语音信号d1的语音识别分值。分值利用判定部23比较与针对第一～第三搭乘者1～3的相同的语音识别结果相对应的语音识别分值，且仅采用与最佳语音识别分值相对应的第一搭乘者1的语音识别结果。另外，由于第二搭乘者2和第三搭乘者3的语音识别结果不是最佳语音识别分值，因此，分值利用判定部23舍弃判定为未说话的语音识别结果。由此，语音识别装置20能够舍弃与第三搭乘者3相对应的不需要的语音识别结果，适当地采用仅与第一搭乘者1相对应的语音识别结果。在此情况下，信息设备10根据语音识别装置20的语音识别结果，能够进行“降低左前方座位的空调的风量”这样的正确响应。

图4A是表示实施方式1的车辆内的状况的一个示例的图。图4B是表示图4A的状况下的、实施方式1所涉及的语音识别装置20所得出的处理结果的图。在图4A的示例中，第一搭乘者1说出“降低空调的风量”，此时，第二搭乘者2说出“打开音乐”。第三搭乘者3在第一搭乘者1和第二搭乘者2的说话的过程中打哈欠。第四搭乘者4未说话。即使在第三搭乘者3未说话的状态下，语音识别部22对第一搭乘者1和第三搭乘者3识别“降低空调的风量”这样的语音。但是，分值利用判定部23采用语音识别分值最佳的第一搭乘者1的语音识别结果，舍弃第三搭乘者3的语音识别结果。另一方面，第二搭乘者2说出的“打开音乐”这样的语音识别结果与第一搭乘者1及第三搭乘者3的语音识别结果不同，因此，分值利用判定部23采用第二搭乘者2的语音识别结果，而不进行语音识别分值的比较。在此情况下，信息设备10根据语音识别装置20的语音识别结果，能够进行“降低左前方座位的空调的风量”及“重放音乐”这样的正确响应。

图5A是表示实施方式1的车辆内的状况的一个示例的图。图5B是表示图5A的状况下的、实施方式1所涉及的语音识别装置20所得出的处理结果的图。图5A中，第一搭乘者1与第二搭乘者2几乎同时说出“降低空调的风量”，在说话过程中第三搭乘者3打哈欠。第四搭乘者4未说话。第三搭乘者3在第一搭乘者1和第二搭乘者2说话过程中打哈欠。第四搭乘者4未说话。即使在第三搭乘者3未说话的状态下，语音识别部22对第一搭乘者1、第三搭乘者3及第三搭乘者3识别“降低空调的风量”这样的语音。在该示例中，分值利用判定部23比较语音识别分值的阈值“5000”和与第一～第三搭乘者1～3的相同的语音识别结果相对应的语音识别分值。而且，分值利用判定部23采用具有阈值“5000”以上的语音识别分值的第一搭乘者1和第二搭乘者2的语音识别结果。另一方面，分值利用判定部23舍弃具有小于阈值“5000”的语音识别分值的第三搭乘者3的语音识别结果。在此情况下，信息设备10根据语音识别装置20的语音识别结果，能够进行“降低前方座位的空调的风量”这样的正确响应。

接着，说明语音识别装置20的动作例。

图6是示出实施方式1所涉及的语音识别装置20的动作例的流程图。语音识别装置20例如在信息设备10动作期间，反复图6的流程图所示的动作。

步骤ST001中，语音信号处理部21对集音装置11输出的语音信号A1～AN进行AD转换，作为语音信号D1～DN。

步骤ST002中，语音信号处理部21对语音信号D1～DN进行除去噪声分量的语音信号处理，作为分离了就坐于语音识别对象座位的每个搭乘者的说话内容后的语音信号d1～dM。例如如图3A所示那样，在第一～第四搭乘者1～4这4个人就坐于车辆的情况下，语音信号处理部21输出强调了第一搭乘者1的方向的语音信号d1、强调了第二搭乘者2的方向的语音信号d2、强调了第三搭乘者3的方向的语音信号d3、以及强调了第四搭乘者4的方向的语音信号d4。

步骤ST003中，语音识别部22使用语音信号d1～dM，对每个搭乘者检测出说话区间。步骤ST004中，语音识别部22使用语音信号d1～dM，提取出与所检测出的说话区间相对应的语音的特征量，执行语音识别，并计算出语音识别分值。

另外，图6的示例中，关于步骤ST003中未检测出说话区间的搭乘者，语音识别部22及分值利用判定部23不执行步骤ST004之后的处理。

步骤ST005中，分值利用判定部23将语音识别部22所输出的语音识别结果的语音识别分值和阈值进行比较，对于与语音识别分值在阈值以上的语音识别结果相对应的搭乘者判定为正在说话，将该语音识别结果输出至分值利用判定部23(步骤ST005“是”)。另一方面，分值利用判定部23对于与语音识别分值小于阈值的语音识别结果相对应的搭乘者判定为未说话(步骤ST005“否”)。

步骤ST006中，分值利用判定部23对与被判定为正在说话的搭乘者相对应的语音识别结果中、在规定时间内是否存在多个相同的语音识别结果进行判定。在判定为规定时间内存在多个相同的语音识别结果的情况下(步骤ST006“是”)，分值利用判定部23采用多个相同的语音识别结果中具有最佳分值的语音识别结果(步骤ST007“是”)。步骤ST008中，响应决定部25参照对话管理DB24，决定与分值利用判定部23所采用的语音识别结果相对应的功能。另一方面，分值利用判定部23舍弃多个相同的语音识别结果中具有最佳分值的语音识别结果以外的语音识别结果(步骤ST007“否”)。

与被判定为正在说话的搭乘者相对应的语音识别结果在规定时间内为1个的情况、或者在规定时间内虽存在多个但却不相同的情况下(步骤ST006“否”)，处理前进至步骤ST008。步骤ST008中，响应决定部25参照对话管理DB24，决定与分值利用判定部23所采用的语音识别结果相对应的功能。

另外，图6中，分值利用判定部23在步骤ST005中执行阈值判定，但是也可以不执行。另外，分值利用判定部23在步骤ST007中采用具有最佳分值的语音识别结果，但是也可以采用具有阈值以上的语音识别分值的语音识别结果。而且，响应决定部25在步骤ST008中决定与语音识别结果相对应的功能时，也可考虑功能是否依赖于说话者。

如上所述，实施方式1所涉及的语音识别装置20包括语音信号处理部21、语音识别部22、分值利用判定部23。语音信号处理部21将车辆中就座于多个语音识别对象座位的多个搭乘者的说话语音分离成每个搭乘者的说话语音。语音识别部22对由语音信号处理部21分离得到的每个搭乘者的说话语音进行语音识别，并且计算出语音识别分值。分值利用判定部23使用每个搭乘者的语音识别分值，判定每个搭乘者的语音识别结果中采用与哪个搭乘者相对应的语音识别结果。通过该结构，在多个搭乘者利用的语音识别装置20中，能够抑制对其他搭乘者说话的语音进行误识别。

另外，实施方式1所涉及的语音识别装置20包括对话管理DB24、响应决定部25。对话管理DB24是定义了语音识别结果与应执行的功能之间的对应关系的数据库。响应决定部25参照对话管理DB24，决定与分值利用判定部23所采用的语音识别结果相对应的功能。通过该结构，在多个搭乘者利用语音进行操作的信息设备10中，能够抑制对其他搭乘者说话的语音进行错误的功能执行。

另外，实施方式1中示出了语音识别装置20具备对话管理DB24及响应决定部25的示例，但是信息设备10也可以具备对话管理DB24及响应决定部25。在此情况下，分值利用判定部23将所采用的语音识别结果输出至信息设备10的响应决定部25。

实施方式2

图7是表示实施方式2所涉及的具备语音识别装置20的信息设备10的结构例的框图。实施方式2所涉及的信息设备10是对图1所示的实施方式1的信息设备10追加了摄像头12后的结构。另外，实施方式2所涉及的语音识别装置20是对图1所示的实施方式1的语音识别装置20追加了图像分析部26及图像利用判定部27后的结构。对于图7中与图1相同或相当的部分，标注相同的标号并省略说明。

摄像头12拍摄车厢内。摄像头12例如由红外线摄像头或可见光摄像头来构成，至少具有可拍摄包含就坐于语音识别对象座位的搭乘者的脸在内的范围的视角。另外，摄像头12为了拍摄就坐于各个语音识别对象座位的所有搭乘者的脸，可以由多个摄像头构成。

图像分析部26以30FPS(Frame Per Second：每秒帧数)等规定周期，获取摄像头12所拍摄的图像数据，从图像数据提取出与脸有关的特征量即脸特征量。脸特征量是上唇和下唇的坐标值、以及嘴部张开程度等。另外，语音识别部26具有M个第一～第M分析部26－1～26－M，从而能够独立地提取出各个搭乘者的脸特征量。第一～第M分析部26－1～26－M将各个搭乘者的脸特征量和提取出脸特征量的时刻(下面称为“脸特征量提取时刻”)输出到图像利用判定部27。

图像利用判定部27使用语音识别部22输出的说话区间的起始时刻及结束时刻、以及图像分析部26输出的脸特征量和脸特征量提取时刻，来提取出与说话区间相对应的脸特征量。然后，图像利用判定部27根据与说话区间相对应的脸特征量来判定搭乘者是否正在说话。另外，图像利用判定部27具有M个第一～第M判定部27－1～27－M，从而能够独立地判定各个搭乘者有无说话。例如，第一判定部27－1使用第一识别部22－1输出的第一搭乘者1的说话区间的起始时刻及结束时刻、以及第一分析部26－1输出的第一搭乘者1的脸特征量和脸特征量提取时刻，提取出与第一搭乘者1的说话区间相对应的脸特征量并判定是否说话。第一～第M判定部27－1～27－M将利用了图像的各个搭乘者的说话判定结果、语音识别结果、语音识别结果的语音识别分值输出至分值利用判定部23B。

另外，图像利用判定部27将脸特征量中所包含的嘴部张开程度等数值化，可以通过将数值化后的嘴部张开程度等与预先决定的阈值进行比较，由此来判定是否正在说话。另外，通过使用了学习用图像的机械学习等来事先制作说话模型和非说话模型，图像利用判定部27可以使用这些模型来判定是否正在说话。另外，图像利用判定部27在使用模型进行判定的情况下，可以计算出表示判定的可靠度的判定分值。

此处，图像利用判定部27仅针对语音识别部22检测出说话区间的搭乘者，判定是否正在说话。例如，如图3A所示的状况下，第一～第三识别部22－1～22－3针对第一～第三搭乘者1～3检测出说话区间，因此，第一～第三判定部27－1～27－3判定第一～第三搭乘者1～3是否正在说话。与此相对地，由于第四识别部22－4针对第四搭乘者并未检测出说话区间，因此，第四判定部27－4不进行第四搭乘者4是否正在说话的判定。

分值利用判定部23B与实施方式1的分值利用判定部23同样地动作。但是，分值利用判定部23B使用被图像利用判定部27判定为正在说话的搭乘者的语音识别结果、以及该语音识别结果的语音识别分值，判定采用哪个语音识别结果。

接着，说明语音识别装置20的动作的具体示例。

图8是表示图3A的状况下的、实施方式2所涉及的语音识别装置20所得出的处理结果的图。图像利用判定部27针对由语音识别部22检测出说话区间的第一～第三搭乘者1～3，判定是否正在说话。第一搭乘者1说出了“降低空调的风量”，因此，利用图像利用判定部27判定为说话。第二搭乘者2未开口，因此，利用图像利用判定部27判定为未说话。第三搭乘者3打哈欠或者进行近似于说话的嘴部动作，因此，利用图像利用判定部27误判定为说话。分值利用判定部23B针对由图像利用判定部27判定为说话的第一搭乘者1及第三搭乘者3，比较与相同的语音识别结果相对应的语音识别分值，仅采用与最佳语音识别分值相对应的第一搭乘者1的语音识别结果。

图9是表示图4A的状况下的、实施方式2所涉及的语音识别装置20所得出的处理结果的图。图像利用判定部27针对由语音识别部22检测出说话区间的第一～第三搭乘者1～3，判定是否正在说话。第一搭乘者1说出了“降低空调的风量”，因此，利用图像利用判定部27判定为说话。第二搭乘者2说出“打开音乐”，因此，利用图像利用判定部27判定为说话。第三搭乘者3打哈欠或者进行近似于说话的嘴部动作，因此，利用图像利用判定部27误判定为说话。分值利用判定部23B将与针对由图像利用判定部27判定为说话的第一搭乘者1及第三搭乘者3的相同的语音识别结果相对应的语音识别分值进行比较，并且仅采用与最佳语音识别分值相对应的第一搭乘者1的语音识别结果。另一方面，第二搭乘者2说出的“打开音乐”这样的语音识别结果与第一搭乘者1及第三搭乘者3的语音识别结果不同，因此，分值利用判定部23B采用第二搭乘者2的语音识别结果，而不进行语音识别分值的比较。

图10是表示图5A的状况下的、实施方式2所涉及的语音识别装置20所得出的处理结果的图。图像利用判定部27针对由语音识别部22检测出说话区间的第一～第三搭乘者1～3，判定是否正在说话。第一搭乘者1及第二搭乘者2说出了“降低空调的风量”，因此，利用图像利用判定部27判定为说话。第三搭乘者3打哈欠或者进行近似于说话的嘴部动作，因此，利用图像利用判定部27误判定为说话。在该示例中，分值利用判定部23B比较语音识别分值的阈值“5000”和与第一～第三搭乘者1～3的相同的语音识别结果相对应的语音识别分值。然后，分值利用判定部23B采用具有阈值“5000”以上的语音识别分值的第一搭乘者1和第二搭乘者2的语音识别结果。

接着，说明语音识别装置20的动作例。

图11是示出实施方式2所涉及的语音识别装置20的动作例的流程图。语音识别装置20例如在信息设备10动作期间，反复图11的流程图所示的动作。图11的步骤ST001～ST004是与实施方式1中的图6的步骤ST001～ST004相同的动作，因此省略说明。

步骤ST011中，图像分析部26以规定周期从摄像头12获取图像数据。步骤ST012中，图像分析部26从所获取的图像数据提取出就坐于语音识别对象座位的每个搭乘者的脸特征量，将脸特征量和脸特征量提取时刻输出至图像利用判定部27。

步骤ST013中，图像利用判定部27使用语音识别部22输出的说话区间的起始时刻及结束时刻、以及图像分析部26输出的脸特征量和脸特征量提取时刻，提取出与说话区间相对应的脸特征量。然后，针对检测出说话区间且在该说话区间中进行了近似于说话的嘴部动作的搭乘者，图像利用判定部27判定为正在说话(步骤ST013“是”)。另一方面，针对未检测出说话区间、或者虽检测出说话区间但在该说话区间中没有进行近似于说话的嘴部动作的搭乘者，图像利用判定部27判定为未说话(步骤ST013“否”)。

步骤ST006～ST008中，分值利用判定部23B对与由图像利用判定部27判定为正在说话的搭乘者相对应的语音识别结果中、在规定时间内是否存在多个相同的语音识别结果进行判定。另外，分值利用判定部23B所进行的步骤ST006～ST008的动作是与实施方式1中图6的步骤ST006～ST008相同的动作，因此省略说明。

如上所述，实施方式2所涉及的语音识别装置20包括图像分析部26、图像利用判定部27。图像分析部26使用拍摄了多个搭乘者的图像，计算出每个搭乘者的脸特征量。图像利用判定部27使用从每个搭乘者的说话语音的起始时刻到结束时刻为止的脸特征量，判定每个搭乘者是否正在说话。在存在与由图像利用判定部27判定为正在说话的2个以上的搭乘者相对应的相同的语音识别结果的情况下，分值利用判定部23B使用2个以上的搭乘者中的每个搭乘者的语音识别分值来判定是否采用语音识别结果。通过该结构，在多个搭乘者利用的语音识别装置20中，能够进一步抑制对其他搭乘者说话的语音的误识别。

另外，实施方式2的分值利用判定部23B使用语音识别分值来判定是否采用语音识别结果，但是，也可以在也考虑了图像利用判定部27所计算出的判定分值的情况下，判定是否采用语音识别结果。在此情况下，分值利用判定部23B例如使用将语音识别分值和图像利用判定部27计算出的判定分值相加后的值、或平均后的值，以代替语音识别分值。通过上述结构，语音识别装置20能够进一步抑制对其他搭乘者说出的语音的误识别。

图12是表示实施方式2所涉及的语音识别装置20的变形例的框图。如图12所示，图像利用判定部27使用图像分析部26输出的脸特征量，判定搭乘者正在说话的说话区间的起始时刻及结束时刻，将有无说话区间及所判定出的说话区间输出至语音识别部22。语音识别部22经由图像利用判定部27，针对从语音信号处理部21获取的语音信号d1～dM中由图像利用判定部27所判定出的说话区间执行语音识别。即，语音识别部22对由图像利用判定部27判定为具有说话区间的搭乘者的说话区间的说话语音进行语音识别，对被判定为没有说话区间的搭乘者的说话语音不进行语音识别。通过上述结构，能够减轻语音识别装置20的处理负担。另外，在语音识别部22使用语音信号d1～dM来检测说话区间的结构(例如实施方式1)的情况下，虽然存在由于说话语音较小等原因导致无法检测出说话区间的可能性，但是通过对使用图像利用判定部27所得到的脸特征量的说话区间实施判定，由此能够提高说话区间的判定性能。另外，语音识别部22可以从语音信号处理部21获取语音信号d1～dM，而不经由图像利用判定部27。

实施方式3

图13是表示实施方式3所涉及的包括语音识别装置20的信息设备10的结构例的框图。实施方式3所涉及的语音识别装置20是对图1所示的实施方式1的语音识别装置20追加了意图理解部30后的结构。对于图13中与图1相同或相当的部分，标注相同的标号并省略说明。

意图理解部30对语音识别部22输出的每个搭乘者的语音识别结果，执行意图理解处理。意图理解部30将每个搭乘者的意图理解结果、以及表示意图理解结果的可靠度的意图理解分值输出至分值利用判定部23C。另外，意图理解部30与语音识别部22同样地，具有与各个语音识别对象座位相对应的M个第一～第M理解部30－1～30－M，从而能够独立地对各个搭乘者的说话内容进行意图理解处理。

为了意图理解部30执行意图理解处理，准备例如在文本中开始写入所预想的说话内容、且根据不同意图对该文本进行分类后的矢量空间模型等模型。意图理解部30在执行意图理解处理时，使用所准备的矢量空间模型，计算出正弦相似度等的、语音识别结果的单词矢量与事先根据不同意图被分类的文本组的单词矢量之间的相似度。而且，意图理解部30将相似度最高的意图设定为意图理解结果。另外，在该示例中，意图理解分值相当于相似度。

分值利用判定部23C首先判定意图理解部30输出的意图理解结果中在规定时间内是否存在相同的意图理解结果。在规定时间内存在相同的意图理解结果的情况下，分值利用判定部23C参照分别与该相同的意图理解结果相对应的意图理解分值，采用最佳分值的意图理解结果。非最佳分值的意图理解结果被舍弃。另外，与实施方式1、2相同地，分值利用判定部23C可以设置意图理解分值的阈值，判定为与具有该阈值以上的意图理解分值的意图理解结果相对应的搭乘者正在说话，采用该意图理解结果。另外，分值利用判定部23C首先进行意图理解分值的阈值判定，在所有上述相同的意图理解结果的意图理解分值均小于阈值的情况下，可仅采用最佳分值的意图理解结果。

另外，虽然分值利用判定部23C如上所述使用意图理解分值来判定是否采用意图理解结果，但是也可以使用语音识别部22计算出的语音识别分值来判定是否采用意图理解结果。在此情况下，分值利用判定部23C从语音识别部22获取语音识别部22计算出的语音识别分值，也可以经由意图理解部30来获取语音识别部22计算出的语音识别分值。然后，分值利用判定部23C例如判定为与具有阈值以上的语音识别分值的语音识别结果相对应的意图理解结果所对应的搭乘者正在说话，采用该意图理解结果。

在此情况下，分值利用判定部23C首先使用语音识别分值来判定搭乘者有无说话，然后，意图理解部30可以仅对被分值利用判定部23C判定为说话的搭乘者的语音识别结果执行意图理解处理。关于该示例，在图14中详细描述。

另外，分值利用判定部23C也可以在考虑了意图理解分值和语音识别分值的基础上，判定是否采用意图理解结果。在此情况下，分值利用判定部23C例如使用将意图理解分值和语音识别分值相加后的值、或平均后的值，以代替意图理解分值。

对话管理DB24C中定义了意图理解结果与信息设备10要执行的功能之间的对应关系，来作为数据库。例如将与“降低空调的风量”这样的说话相对应的意图设定为“ControlAir Conditioner(volume＝down)(控制空调(风量＝降低))”，定义“降低空调的风量”这样的功能。另外，与实施方式1、2相同地，对话管理DB24C中可以定义表示功能是否依赖于说话者的信息。

响应决定部25C参照对话管理DB24C，决定与分值利用判定部23C所采用的意图理解结果相对应的功能。另外，在分值利用判定部23C采用了多个相同的意图理解结果的情况下，若功能不依赖于说话者，则响应决定部25C仅决定与具有最佳意图理解分值的意图理解结果相对应的功能。响应决定部25C将所决定的功能输出至信息设备10。信息设备10执行响应决定部25C所输出的功能。信息设备10可以从扬声器输出与在功能执行时向搭乘者通知该功能执行的响应语音等。

此处，对依赖于说话者的功能例和不依赖于说话者的功能例进行说明。

与实施方式1、2相同地，例如涉及空调的操作，由于能够对于每个座位设定不同的风量及温度，因此，即使是相同的意图理解结果，也需对每个说话者执行功能。更具体而言，第一搭乘者1的语音识别结果是“降低空调的温度”，第二搭乘者2的语音识别结果是“热”，第一搭乘者1与第二搭乘者2的意图理解结果是“Control Air Conditioner(temperature＝down)(控制空调(温度＝降低))”，两者的意图理解结果的意图理解分值设为阈值以上。在此情况下，响应决定部25C判定为意图理解结果“Control Air Conditioner(控制空调)”依赖于说话者，对第一搭乘者1和第二搭乘者22执行降低空调温度的功能。

另一方面，与目标地检索及音乐重放等不依赖于说话者而是所有搭乘者共通的功能相关地，在意图理解结果相同的情况下，无需对每个说话者执行功能。因此，存在多个相同的意图理解结果且与该意图理解结果相对应的功能不依赖于说话者的情况下，响应决定部25C决定仅与最佳分值的意图理解结果相对应的功能。更具体而言，第一搭乘者1的语音识别结果是“打开音乐”，第二搭乘者2的语音识别结果是“重放音乐”，第一搭乘者1与第二搭乘者2的意图理解结果是“Play Music(state＝on)(播放音乐(状态＝打开))”，两者的意图理解结果的意图理解分值设为阈值以上。在此情况下，响应决定部25C判定为意图理解结果“Play Music(播放音乐)”不依赖于说话者，执行与第一搭乘者1的意图理解结果及第二搭乘者2的意图理解结果中意图理解分值较高一方相对应的功能。

接着，说明语音识别装置20的动作例。

图14是示出实施方式3所涉及的语音识别装置20的动作例的流程图。语音识别装置20例如在信息设备10动作期间，反复图14的流程图所示的动作。图14的步骤ST001～ST005是与实施方式1中的图6的步骤ST001～ST005相同的动作，因此省略说明。

图15是表示实施方式3所涉及的语音识别装置20所得出的处理结果的图。此处，作为示例，一边加入图15所示的具体示例，一边进行说明。在图15的示例中，第一搭乘者1说出“提高空调的风量”，第二搭乘者2说出“增强空调的风”。第三搭乘者3在第一搭乘者1和第二搭乘者2说话过程中打哈欠。第四搭乘者4未说话。

步骤ST101中，意图理解部30对由分值利用判定部23C判定为语音识别分值在阈值以上的语音识别结果执行意图理解处理，将意图理解结果和意图理解分值输出至分值利用判定部23C。在图15的示例中，第一搭乘者1、第二搭乘者2及第三搭乘者3的语音识别分值均在阈值“5000”以上，因此，执行意图理解处理。第一搭乘者1、第二搭乘者2及第三搭乘者3的意图理解结果均同样地成为“Control Air Conditioner(volume＝up)(控制空调(风量＝升高))”另外，意图理解分值成为第一搭乘者1为“0.96”、第二搭乘者2为“0.9”、第三搭乘者为“0.67”。第三搭乘者3对误识别了第一搭乘者1及第二搭乘者2的说话语音的“增强空调的风量”这样的语音识别结果执行意图理解处理，因此，意图理解分值变低。

步骤ST102中，分值利用判定部23C首先判定意图理解部30输出的意图理解结果中在规定时间内是否存在多个相同的意图理解结果。在规定时间内判定为具有多个相同的意图理解结果的情况下(步骤ST102“是”)，分值利用判定部23C在步骤ST103中，判定多个相同的意图理解结果各自的意图理解分值是否在阈值以上，对与意图理解分值在阈值以上的意图理解结果相对应的搭乘者判定为正在说话(步骤ST103“是”)。假设在阈值为“0.8”的情况下，在图15的示例中，判定为第一搭乘者1及第二搭乘者2说话。另一方面，分值利用判定部23C对于与意图理解分值小于阈值的意图理解结果相对应的搭乘者判定为未说话(步骤ST103“否”)。

意图理解部30输出的意图理解结果在规定时间内为1个的情况下、或者意图理解部30输出的意图理解结果在规定时间内虽为多个但不相同的情况下(步骤ST102“否”)，分值利用判定部23C采用意图理解部30输出的所有意图理解结果。步骤ST105中，响应决定部25C参照对话管理DB24C，来决定与意图理解部30所输出的所有意图理解结果相对应的功能。

步骤ST104中，响应决定部25C参照对话管理DB24C，判定与具有分值利用判定部23C所采用的阈值以上的意图理解分值的多个相同的意图理解结果相对应的功能是否依赖于说话者。在与具有阈值以上的意图理解分值的多个相同的意图理解结果相对应的功能依赖于说话者的情况下(步骤ST104“是”)，响应决定部25C在步骤ST105中，决定与多个相同的意图理解结果分别对应的功能。另一方面，在与具有阈值以上的意图理解分值的多个相同的意图理解结果相对应的功能不依赖于说话者的情况下(步骤ST104“否”)，响应决定部25C在步骤ST106中，决定与具有最佳分值的意图理解结果相对应的功能。图15的示例中，与第一搭乘者1及第二搭乘者2的意图理解结果“Control Air Conditioner(控制空调)”相对应的功能是空调操作且依赖于说话者，因此，响应决定部25C对第一搭乘者1及第二搭乘者2决定提高空调的风量一个等级的功能。因此，信息设备10执行将第一搭乘者1一侧及第二搭乘者2一侧的空调的风量提高一个等级的功能。

如上所述，实施方式3所涉及的语音识别装置20包括语音信号处理部21、语音识别部22、意图理解部30、和分值利用判定部23C。语音信号处理部21将车辆中就座于多个语音识别对象座位的多个搭乘者的说话语音分离成每个搭乘者的说话语音。语音识别部22对由语音信号处理部21分离得到的每个搭乘者的说话语音进行语音识别，并且计算出语音识别分值。意图理解部30使用每个搭乘者的语音识别结果，理解每个搭乘者的说话的意图，并且计算意图理解分值。分值利用判定部23C使用每个搭乘者的语音识别分值和意图理解分值中的至少一方，判定每个搭乘者的意图理解结果中采用与哪个搭乘者相对应的意图理解结果。通过该结构，在多个搭乘者利用的语音识别装置20中，能够抑制对其他搭乘者说话的语音进行误识别。另外，语音识别装置20包括意图理解部30，由此即使在搭乘者未意识到识别对象语言而自由地说话的情况下，也能够理解该说话的意图。

另外，实施方式3所涉及的语音识别装置20具备对话管理DB24C、响应决定部25C。对话管理DB24C是定义了意图理解结果与应执行的功能之间的对应关系的对话管理数据库。响应决定部25C参照响应决定部25C，决定与分值利用判定部23C所采用的意图理解结果相对应的功能。通过该结构，在多个搭乘者利用语音进行操作的信息设备10中，能够抑制对其他搭乘者说话的语音进行错误的功能执行。另外，语音识别装置20包括意图理解部30，由此即使在搭乘者未意识到识别对象语言而自由地说话的情况下，信息设备10也能够执行搭乘者所意图的功能。

另外，实施方式3中示出了语音识别装置20包括对话管理DB24及响应决定部25C的示例，但是信息设备10也可以包括对话管理DB24C及响应决定部25C。在此情况下，分值利用判定部23C将所采用的意图理解结果输出至信息设备10的响应决定部25C。

实施方式4

图16是表示实施方式4所涉及的具备语音识别装置20的信息设备10的结构例的框图。实施方式4所涉及的信息设备10是对图13所示的实施方式3的信息设备10追加了摄像头12后的结构。另外，实施方式4所涉及的语音识别装置20是对图13所示的实施方式3的语音识别装置20追加了图7所示的实施方式2的图像分析部26及图像利用判定部27后的结构。对于图16中与图7及图13相同或相当的部分，标注相同的标号并省略说明。

意图理解部30接收图像利用判定部27输出的、利用了图像后的各个搭乘者的说话判定结构、语音识别结果、语音识别结果的语音识别分值。意图理解部30仅对图像利用判定部27判定为正在说话的搭乘者的语音识别结果进行意图理解处理，对图像利用判定部27判定为未说话的搭乘者的语音识别结果不执行意图理解处理。然后，意图理解部30将执行意图理解处理的每个搭乘者的意图理解结果、以及意图理解分值输出至分值利用判定部23D。

分值利用判定部23D与实施方式3的分值利用判定部23C同样地动作。但是，分值利用判定部23D使用被图像利用判定部27判定为正在说话的搭乘者的语音识别结果相对应的意图理解结果、以及该意图理解结果意图理解分值，判定采用哪个意图理解结果。

另外，虽然分值利用判定部23D如上所述使用意图理解分值来判定是否采用意图理解结果，但是也可以判定是否使用语音识别部22计算出的语音识别分值来判定是否采用意图理解结果。在此情况下，分值利用判定部23C可以从语音识别部22获取语音识别部22计算出的语音识别分值，也可以经由图像利用判定部27和意图理解部30来获取语音识别部22计算出的语音识别分值。然后，分值利用判定部23D例如判定为与具有阈值以上的语音识别分值的语音识别结果相对应的意图理解结果所对应的搭乘者正在说话，采用该意图理解结果。

另外，分值利用判定部23D也可以在考虑了意图理解分值、及语音识别分值或判定分值中的至少一方的基础上，判定是否采用意图理解结果。在此情况下，分值利用判定部23D从图像利用判定部27获取图像利用判定部27计算出的判定分值，也可以经由意图理解部30来获取图像利用判定部27计算出的判定分值。然后，分值利用判定部23D例如使用将意图理解分值和语音识别分值及判定分值相加后的值、或平均后的值，以代替意图理解分值。

接着，说明语音识别装置20的动作例。

图17是示出实施方式4所涉及的语音识别装置20的动作例的流程图。语音识别装置20例如在信息设备10动作期间，反复图17的流程图所示的动作。图17的步骤ST001～ST004及步骤ST011～ST013是与实施方式2中图11的步骤ST001～ST004及步骤ST011～ST013相同的动作，因此省略说明。

图18是表示实施方式4所涉及的语音识别装置20所得出的处理结果的图。此处，作为示例，一边加入图18所示的具体示例，一边进行说明。在图18的示例中，与实施方式3中的图15的示例相同地，第一搭乘者1说出“提高空调的风量”，第二搭乘者2说出“增强空调的风”。第三搭乘者3在第一搭乘者1和第二搭乘者2说话过程中打哈欠。第四搭乘者4未说话。

步骤ST111中，意图理解部30对与由图像利用判定部27判定为正在说话的搭乘者相对应的语音识别结果执行意图理解处理，将意图理解结果和意图理解分值输出至分值利用判定部23D。图18的示例中，由于第一搭乘者1、第二搭乘者2、及第三搭乘者3都说话或进行了近似于说话的嘴部动作，因此由图像利用判定部27判定为正在说话，执行意图理解处理。

图17的步骤ST0102～ST106是与实施方式3中的图14的步骤ST102～ST106相同的动作，因此省略说明。

如上所述，实施方式4所涉及的语音识别装置20包括图像分析部26、和图像利用判定部27。图像分析部26使用拍摄了多个搭乘者的图像，计算出每个搭乘者的脸特征量。图像利用判定部27使用从每个搭乘者的说话语音的起始时刻到结束时刻为止的脸特征量，判定每个搭乘者是否正在说话。在存在与由图像利用判定部27判定为正在说话的2个以上的搭乘者相对应的相同的意图理解结果的情况下，分值利用判定部23D使用2个以上的搭乘者中的每个搭乘者的语音识别分值和意图理解分值中至少一方来判定是否采用意图理解结果。通过该结构，在多个搭乘者利用的语音识别装置20中，能够进一步抑制对其他搭乘者说话的语音的误识别。

另外，在存在与由图像利用判定部27判定为正在说话的2个以上的搭乘者相对应的相同的意图理解结果的情况下，实施方式4的分值利用判定部23D使用2个以上的搭乘者中的每个搭乘者的语音识别分值和意图理解分值中至少一方、以及图像利用判定部27计算出的判定分值来判定是否采用意图理解结果。通过上述结构，语音识别装置20能够进一步抑制对其他搭乘者说出的语音的误识别。

另外，实施方式4的语音识别部22与实施方式2的图12所示的语音识别部22相同地，可以不对由图像利用判定部27判定为不存在说话区间的搭乘者的说话语音进行语音识别。在此情况下，意图理解部30设置于与图12的语音识别部22和23B之间相当的位置。因此，意图理解部30也无需理解由图像利用判定部27判定为不存在说话区间的搭乘者的说话的意图。通过上述结构，能够减轻语音识别装置20的处理负担，并且提高说话区间的判定性能。

最后，说明各个实施方式所涉及的语音识别装置20的硬件结构。

图19A及图19B是示出了各个实施方式所涉及的语音识别装置20的硬件结构例的图。语音识别装置20中的语音信号处理部21、语音识别部22、分值利用判定部23、23B、23C、23D、对话管理DB24、24D、响应决定部25、25C、图像分析部26、图像利用判定部27、以及意图理解部30的功能由处理电路来实现。即，语音识别装置20具备用于实现上述功能的处理电路。处理电路可以是作为专用硬件的处理电路100，也可以是执行存储于存储器102的程序的处理器101。

如图19A所示，在处理电路是专用硬件的情况下，处理电路100可以是例如单一电路、复合电路、可编程处理器、并联可编程处理器、ASIC(Application SpecificIntegrated Circuit：专用集成电路)、PLC(Programmable Logic Device：可编程逻辑器件)、FPGA(Field-Programmable Gate Array：现场可编程门阵列)、SoC(System-on-a-Chip：片上系统)、系统LSI(Large-Scale Integration：大规模集成)或它们的组合。可利用多个处理电路100来实现语音信号处理部21、语音识别部22、分值利用判定部23、23B、23C、23D、对话管理DB24、24D、响应决定部25、25C、图像分析部26、图像利用判定部27、及意图理解部30的功能，也可利用1个处理电路100来实现各个功能。

如图19B所示，在处理电路为处理器101的情况下，通过软件、固件、或者软件和固件的组合来实现语音信号处理部21、语音识别部22、分值利用判定部23、23B、23C、23D、响应决定部25、25C、图像分析部26、图像利用判定部27、和意图理解部30的功能。软件或固件以程序的形式来表述，并存储于存储器102。处理器101读取存储于存储器102的程序并执行，从而实现各部的功能。即，语音识别装置20具备存储器102，存储器102用于存储在由处理器101来执行时最终执行图6等的流程图中所示的步骤的程序。另外，也可以说该程序是使计算机执行语音信号处理部21、语音识别部22、分值利用判定部23、23B、23C、23D、响应决定部25、25C、图像分析部26、图像利用判定部27、及意图理解部30的步骤或方法。

此处，处理器101是指CPU(Central Processing Unit：中央处理单元)、GPU(Graphics Processing Unit：图形处理单元)、微处理器、微控制器、或DSP(DigitalSignal Processor：数字信号处理器)等。

存储器102例如可以是RAM(Random Access Memory：随机存取存储器)、ROM(ReadOnly Memory：只读存储器)、EPROM(Erasable Programmable ROM：可擦可编程只读存储器)、或闪存等非易失性或易失性的半导体存储器，也可以是硬盘、软盘等磁盘，也可以是CD(Compact Disc：压缩盘)或DVD(Digital Versatile Disc：数字通用盘)等光盘，也可以是光磁盘。

对话管理DB24、24D由存储器102构成。

另外，关于语音信号处理部21、语音识别部22、分值利用判定部23、23B、23C、23D、响应决定部25、25C、图像分析部26、图像利用判定部27、及意图理解部30的功能，可以一部分由专用硬件来实现，且一部分由软件或固件来实现。如上所述，语音识别装置20中的处理电路可以利用硬件、软件、固件或它们的组合来实现上述功能。

在上述示例中，语音信号处理部21、语音识别部22、分值利用判定部23、23B、23C、23D、对话管理DB24、24C、响应决定部25、25C、图像分析部26、图像利用判定部27、及意图理解部30的功能是集成在搭载于车辆或带入车辆的信息设备10中的结构，但是也可以分散于网络上的服务器装置、智能手机等便携终端、以及车载设备等中。例如，利用包括语音信号处理部21及图像分析部26的车载设备、以及包括语音识别部22、分值利用判定部23、23B、23C、23D、对话管理DB24、24C、响应决定部25、25C、图像利用判定部27、及意图理解部30的服务器装置，构建语音识别系统。

本发明在其发明范围内，能够自由组合各实施方式，将各实施方式的任意结构要素进行变形，或者也可以省略各实施方式的任意的结构要素。

工业上的实用性

本发明所涉及的语音识别装置进行多个说话者的语音识别，因此，适用于存在多个语音识别对象的包含车辆、铁路、船舶或航空器等在内的移动体用的语音识别装置。

标号说明

1～4第一～第四搭乘者，10、10A信息设备，11集音装置，11－1～11～N麦克风，12摄像头，20、20A语音识别装置，21语音信号处理部，21－1～21―M第一～第M处理部，22语音识别部，22－1～22－M第一～第M识别部，23、23B、23C、23D分值利用判定部，24、24C对话管理DB，25、25C响应决定部，26图像分析部，26－1～26－M第一～第M分析部，27图像利用判定部，27－1～27－M第一～第M判定部，30意图理解部，30－1～30M第一～第M理解部，100处理电路，101处理器，102存储器。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音识别装置、语音识别系统以及语音识别方法 [P] . 中国专利： CN112823387A . 2021-05-18
2. 语音识别方法、语音识别系统和语音识别设备 [P] . 中国专利： CN104485106B . 2018.08.28
3. CLIENT DEVICE, RECOGNITION RESULT FEEDBACK METHOD, RECOGNITION RESULT FEEDBACK PROGRAM, SERVER DEVICE, METHOD AND PROGRAM OF UPDATING MODEL OF VOICE RECOGNITION, VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, VOICE RECOGNITION PROGRAM [P] . 日本专利： JP2010048890A . 2010-03-04

机译：客户设备，识别结果反馈方法，识别结果反馈程序，服务器设备，语音识别更新模型，语音识别系统，语音识别系统，语音识别方法，语音识别程序的方法和程序
4. SPEECH RECOGNITION MODEL GENERATION DEVICE, METHOD FOR GENERATING SPEECH RECOGNITION MODEL, SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD, SPEECH RECOGNITION SYSTEM AND RECORDING MEDIUM [P] . 日本专利： JP2002278590A . 2002-09-27

机译：语音识别模型生成装置，语音识别模型的生成方法，语音识别装置，语音识别方法，语音识别系统和记录介质
5. SPEECH RECOGNIZING DEVICE, SPEECH RECOGNIZING METHOD, SPEECH SYNTHESIZER, SPEECH SYNTHESIS METHOD, SPEECH RECOGNITION SYSTEM, SPEECH SYNTHESIS SYSTEM, SPEECH RECOGNITION AND SYNTHESIZING DEVICE, NAVIGATION SYSTEM, AND MOVING BODY [P] . 日本专利： JP2005122042A . 2005-05-12

机译：语音识别装置，语音识别方法，语音合成器，语音合成方法，语音识别系统，语音合成系统，语音识别和合成装置，导航系统和移动体