首页> 中国专利> 语音分析设备、语音分析方法和计算机程序

语音分析设备、语音分析方法和计算机程序

摘要

本发明公开了一种语音分析设备、语音分析方法和计算机程序,其中该语音分析设备分析语音信息的韵律特性并输出韵律辨别结果,该语音分析设备包括:输入单元,其输入语音信息;声学分析单元,其计算相对基音变化量;以及辨别单元,其执行语音辨别处理,其中,该声学分析单元计算当前模板相对基音差,判定当前模板相对基音差与先前模板相对基音差之间的差值绝对值是否等于或小于预定阈值,当该值不小于所述阈值时计算相邻相对基音差,当该相邻相对基音差等于或小于预先设置的容限值时,执行将当前模板相对基音差加上或减去八度音的修正处理,以通过应用所述相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。

著录项

  • 公开/公告号CN101373593A

    专利类型发明专利

  • 公开/公告日2009-02-25

    原文格式PDF

  • 申请/专利权人 索尼株式会社;

    申请/专利号CN200810135064.7

  • 发明设计人 山田敬一;

    申请日2008-07-25

  • 分类号G10L15/08;G10L15/12;G10L15/16;G10L15/14;G10L15/20;G10L15/22;G10L11/04;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人朱胜

  • 地址 日本东京都

  • 入库时间 2023-12-17 21:27:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-09-17

    未缴年费专利权终止 IPC(主分类):G10L15/08 授权公告日:20111214 终止日期:20130725 申请日:20080725

    专利权的终止

  • 2011-12-14

    授权

    授权

  • 2009-04-22

    实质审查的生效

    实质审查的生效

  • 2009-02-25

    公开

    公开

说明书

相关申请的交叉引用

本发明包含与2007年7月25日向日本专利局递交的日本专利申请JP 2007-193931相关的主题,其全部内容通过引用合并于此。

技术领域

本发明涉及语音分析设备、语音分析方法和计算机程序,具体涉及一种语音分析设备、语音分析方法和计算机程序,其适合在基于输入语音的韵律特性来执行辨别时使用。

背景技术

近年来,语音识别技术得以广泛应用。相关技术中的语音识别技术是对语音中所包括的信息中的、与音韵相关的信息(在下文中称为“音韵信息”)进行识别的技术。在常见的语音识别技术中,作为包括在语音中的、除了音韵信息之外的信息,与韵律相关的信息(在下文中称为“韵律信息”)并没有总是得到积极的使用。

然而,存在使用韵律信息的相关技术,例如,使用韵律信息来适当地确定句子的基本块之间的边界位置的技术是公知的(例如,参照JP-A-04-66999(专利文献1))。

发明内容

然而,在上述专利文献1中描述的相关技术中,韵律信息辅助地用于改进语音识别技术的准确性,并且韵律信息中包括的各种信息并未得到清楚地辨别。

在人类语音中,存在这样的一些情况:在这些情况下,难以仅仅通过音韵信息来进行辨别。例如,在日本,从音韵信息的观点来看,表示肯定意图的语音“un”和表示否定意图的语音“uun”是相同的语音。在这种情况下,难以仅仅通过包括在语音中的音韵信息来辨别肯定意图和否定意图,并且必须基于所谓的韵律信息来执行该辨别,其中该韵律信息例如是“语调模式”或“音韵持续时间”信息。

当在语音信号处理中进行与语调相关的处理时,广泛使用对基音频率(或基音周期)的检测。然而,存在以下问题:在对基音频率的检测中,由于噪声等的影响而易于发生误差。此外,在耳语声或具有低基音特性的语音中,在对基音频率的检测中易于发生误差。在易于发生基音频率的检测误差的情况下,或者对于易于发生检测误差的主体,难以基于韵律信息来执行辨别。

本发明致力于解决上述问题,并且期望有效地检测基音频率并基于输入语音的韵律特性来执行具有高可靠性的语音识别,即使是在具有较大噪声影响的语音、耳语声或具有低基音特性的语音的情况下。

本发明人已经提出了(日本专利申请No.2006-161370)一种根据相对基音变化量来执行韵律辨别的方法,其中相对基音变化量是基于输入语音的时间上不同的两个频率特性之间的变化而获得的。

在日本专利申请No.2006-161370中提出的方法中,当基于输入语音的韵律特性来执行辨别时,对相对基音变化量进行计算,并且基于该相对基音变化量来执行识别处理,其中相对基音变化量是基于输入语音的时间上不同的两个频率特性之间的频率方向变化而获得的。

通过使用时间上不同的两个频率特性之间的相对基音变化量来执行韵律辨别,从而使得即使在具有较大的噪声影响的语音、耳语声或具有低基音特性的语音的情况下也能实现鲁棒的辨别,其中,基音频率提取在相关技术中是难以实现的。

此外,本发明人已经提出了(日本专利申请No.2006-325780)一种方法,在该方法中,所述两个频率特性中的一个频率特性是固定的。根据该方法,可以找到适当的具有连续性的相对基音模式,即使在输入语音中包括无音声或无声的音段的情况下,该相对基音模式也与通过一般的基音频率检测所找到的基音模式相同。

在上述通过固定一个频率特性来得到相对基音变化量的相关技术的方法中,所谓双基音或半基音的问题有时会以与一般的检测基音频率的方法相同的方式而发生。该双基音或半基音的问题是这样的问题:由于与是适当基音频率的两倍或一半的频率相对应的分量强于与语音信号中的要检测的原始适当基音频率相对应的分量,因此错误地检测到该与是适当基音频率的两倍或一半的频率相对应的分量。

本发明致力于解决上述问题,通过本发明的实施例的配置,期望提供一种语音分析设备、语音分析方法以及计算机程序,其能够通过以下方式来实现非常可靠的语音识别:同时计算根据与预先准备的模板频率特性的比较的相对基音差以及根据与时间上相邻的帧的频率特性的比较的相对基音差,更具体地,当作为原始基音频率的整数比的提取误差似乎发生在根据与模板频率特性的比较的相对基音差中时,考虑根据与时间上相邻的帧的比较的相对基音差,对提取误差进行修正。

根据本发明的实施例,一种语音分析设备,其分析语音信息的韵律特性并输出韵律辨别结果,该语音分析设备包括:输入单元,其执行语音信息的输入;声学分析单元,其分析各个分析帧的频率特性,并计算作为各个分析帧的频率特性的变化信息的相对基音变化量,其中所述各个分析帧是与从输入单元输入的语音信息相关的、按时间序列设置的分析帧;以及辨别单元,其基于声学分析单元所产生的相对基音变化量来执行语音辨别处理,其中,所述声学分析单元计算当前模板相对基音差,其中该当前模板相对基音差是当前分析帧的频率特性与预先设置的模板频率特性之间的相对基音差;所述声学分析单元判定当前模板相对基音差与先前模板相对基音差之间的差值绝对值是否等于或小于预定阈值,其中该先前模板相对基音差是时间上在所述当前分析帧之前的先前帧的频率特性与模板频率特性之间的相对基音差;当该值不小于所述阈值时,所述声学分析单元计算相邻相对基音差,该相邻相对基音差是当前分析帧的频率特性与先前帧的频率特性之间的相对基音差;当该相邻相对基音差等于或小于预先设置的容限值时,所述声学分析单元执行将当前模板相对基音差加上或减去八度音的修正处理,以通过应用所述相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。

此外,在根据本发明的实施例的语音分析设备中,所述声学分析单元通过以下方式来计算相对基音变化量:当先前模板相对基音差与当前模板相对基音差之间的差值绝对值等于或小于预定阈值时,应用当前模板相对基音差作为当前分析帧的相对基音差。

此外,在根据本发明的实施例的语音分析设备中,所述声学分析单元通过以下方式来计算相对基音变化量:当先前模板相对基音差与当前模板相对基音差之间的差值绝对值不小于预定阈值、并且相邻相对基音差不小于预先设置的容限值时,应用当前模板相对基音差作为当前分析帧的相对基音差。

此外,在根据本发明的实施例的语音分析设备中,所述声学分析单元计算定义用于计算相对基音差的两个频率特性之间的关系的互相关矩阵,并计算与以下偏移量相对应的值以作为相对基音差:连接该互相关矩阵的构成数据的值的峰值位置的棱线相对于该互相关矩阵的主对角线的偏移量。

此外,在根据本发明的实施例的语音分析设备中,所述声学分析单元产生频率特性信息,其中,该频率特性信息是在对数频率轴上表示的,并且当所述阈值为T且所述容限值为δ时,执行应用由以下公式定义的阈值和容限值的处理:

T=log(2)-δ

此外,在根据本发明的实施例的语音分析设备中,所述辨别单元通过将与预先存储在存储单元中的韵律辨别单位词典相对应的参数和声学分析单元所产生的相对基音变化量数据进行比较,执行语音辨别处理。

此外,在根据本发明的实施例的语音分析设备中,所述辨别单元根据应用DP(动态规划)匹配、神经网络、HMM(隐马尔可夫模型)中的任意一个的处理来执行语音辨别处理。

此外,在根据本发明的实施例的语音分析设备中,该语音分析设备还包括:语音识别单元,其输出与来自输入单元的输入语音数据相对应的文本信息以作为语音识别结果;以及结果选择单元,其通过应用辨别单元的辨别结果以及语音识别单元的辨别结果来输出语音识别结果。

此外,在根据本发明的实施例的语音分析设备中,作为语音识别单元中的语音识别结果与存储在特定词存储单元中的特定词之间的比较结果,当该语音识别结果对应于特定词时,结果选择单元输出添加有辨别单元中所辨别出的韵律辨别结果的语音识别结果,以及当该语音识别结果不对应于特定词时,结果选择单元将该语音识别结果按原样输出。

根据根发明的实施例,一种语音分析方法,其在语音分析设备中分析语音信息的韵律特性并输出韵律辨别结果,该语音分析方法包括以下步骤:通过输入单元来执行语音信息的输入;通过声学分析单元分析各个分析帧的频率特性,并计算作为各个分析帧的频率特性的变化信息的相对基音变化量,其中所述各个分析帧是与从输入单元输入的语音信息相关的、按时间序列设置的分析帧;以及通过辨别单元基于声学分析单元所产生的相对基音变化量来执行语音辨别处理,其中,通过声学分析单元执行的步骤包括以下步骤:计算当前模板相对基音差,其中该当前模板相对基音差是当前分析帧的频率特性与预先设置的模板频率特性之间的相对基音差;判定当前模板相对基音差与先前模板相对基音差之间的差值绝对值是否等于或小于预定阈值,其中该先前模板相对基音差是时间上在所述当前分析帧之前的先前帧的频率特性与模板频率特性之间的相对基音差;当该值不小于所述阈值时,计算相邻相对基音差,其中该相邻相对基音差是当前分析帧的频率特性与先前帧的频率特性之间的相对基音差;当该相邻相对基音差等于或小于预先设置的容限值时,执行将当前模板相对基音差加上或减去八度音的修正处理,以通过应用所述相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。

此外,在根据本发明的实施例的语音分析方法中,所述声学分析单元所执行的步骤是以下步骤:当先前模板相对基音差与当前模板相对基音差之间的差值绝对值等于或小于预定阈值时,通过应用当前模板相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。

此外,在根据本发明的实施例的语音分析方法中,所述声学分析单元所执行的步骤是以下步骤:当先前模板相对基音差与当前模板相对基音差之间的差值绝对值不小于预定阈值、并且相邻相对基音差不小于预先设置的容限值时,通过应用当前模板相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。

此外,在根据本发明的实施例的语音分析方法中,所述声学分析单元所执行的步骤包括以下步骤:计算定义用于计算相对基音差的两个频率特性之间的关系的互相关矩阵,并计算与以下偏移量相对应的值以作为相对基音差:连接该互相关矩阵的构成数据的值的峰值位置的棱线相对于该互相关矩阵的主对角线的偏移量。

此外,在根据本发明的实施例的语音分析方法中,所述声学分析单元所执行的步骤包括以下步骤:产生频率特性信息,其中,该频率特性信息是在对数频率轴上表示的,并且当所述阈值为T且所述容限值为δ时,执行应用以下公式所定义的阈值和容限值的处理:

T=log(2)-δ

此外,在根据本发明的实施例的语音分析方法中,所述辨别单元所执行的步骤是以下步骤:通过将与预先存储在存储单元中的韵律辨别单位词典相对应的参数和声学分析单元所产生的相对基音变化量数据进行比较,来执行语音辨别处理。

此外,在根据本发明的实施例的语音分析方法中,所述辨别单元所执行的步骤是以下步骤:根据应用DP(动态规划)匹配、神经网络、HMM(隐马尔可夫模型)中的任意一个的处理来执行语音辨别处理。

此外,在根据本发明的实施例的语音分析方法中,所述语音分析方法还包括以下步骤:由语音识别单元输出与来自输入单元的输入语音数据相对应的文本信息以作为语音识别结果;以及由结果选择单元通过应用辨别单元的辨别结果以及语音识别单元的辨别结果来输出语音识别结果。

此外,在根据本发明的实施例的语音分析方法中,所述结果选择单元所执行的步骤是以下步骤:作为语音识别单元中的语音识别结果与存储在特定词存储单元中的特定词之间的比较结果,当该语音识别结果对应于特定词时,输出添加有辨别单元中所辨别出的韵律辨别结果的语音识别结果,或者当该语音识别结果不对应于特定词时,将该语音识别结果按原样输出。

根据本发明的实施例,一种计算机程序,其允许语音分析设备分析语音信息的韵律特性和输出韵律辨别结果,所述计算机程序包括以下步骤:允许输入单元执行语音信息的输入;允许声学分析单元分析各个分析帧的频率特性并计算作为各个分析帧的频率特性的变化信息的相对基音变化量,其中所述各个分析帧是与从输入单元输入的语音信息相关的、按时间序列设置的分析帧;以及允许辨别单元基于声学分析单元所产生的相对基音变化量来执行语音辨别处理,其中,声学分析单元所执行的步骤包括以下步骤:计算当前模板相对基音差,该当前模板相对基音差是当前分析帧的频率特性与预先设置的模板频率特性之间的相对基音差;判定当前模板相对基音差与先前模板相对基音差之间的差值绝对值是否等于或小于预定阈值,其中该先前模板相对基音差是时间上在所述当前分析帧之前的先前帧的频率特性与模板频率特性之间的相对基音差;当该值不小于所述阈值时,计算相邻相对基音差,该相邻相对基音差是当前分析帧的频率特性与先前帧的频率特性之间的相对基音差;以及当该相邻相对基音差等于或小于预先设置的容限值时,执行将当前模板相对基音差加上或减去八度音的修正处理,以通过应用该相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。

根据本发明的实施例的计算机程序是与例如可执行各种程序代码的通用计算机系统相关的计算机程序,该计算机程序可通过记录介质、通信介质以计算机可读形式来提供。这种程序是以计算机可读的形式来提供的,从而在计算机系统上实现了根据该程序的处理。

通过基于稍后描述的本发明的实施例或附图的更详细说明,本发明的另外的其它特性和优点将变得清楚。本说明书中的系统指的是多个设备的逻辑集合,并且具有各自配置的设备不一定位于同一壳体中。

根据本发明的实施例的配置,在基于输入语音的韵律特性来执行辨别的韵律辨别处理中,根据与从输入语音产生的分析帧相对应的频率特性和模板频率特性之间的比较来提取第一相对基音差,以及根据所述分析帧的频率特性与先前帧的频率特性之间的比较来计算第二相对基音差,并且考虑到相邻帧之间的相对基音的连续性,基于这两个相对基音差来执行对所述相对基音差的修正处理。根据该配置,可以消除双基音或半基音提取误差,从而能够实现非常准确和鲁棒的韵律辨别。

附图说明

图1是示出了根据本发明的实施例的语音分析设备的配置示例的框图;

图2是示出了根据本发明的实施例的语音分析设备中的韵律辨别单元的配置示例的框图;

图3A和图3B是示出了正常语音和耳语声的频率特性的图示;

图4是说明韵律辨别单元中的频率特性分析单元的处理序列的流程图;

图5A-图5C是示出了韵律辨别单元中的频率特性分析单元的特定示例的图示;

图6是说明韵律辨别单元中的相对基音变化量计算单元的基本处理序列的流程图;

图7是说明基于两个频率特性而产生的互相关矩阵的图示;

图8是以图形方式表示基于两个频率特性而产生的互相关矩阵、并说明相对基音差的图示;

图9是说明基于一个频率特性而产生的自相关矩阵的图示;

图10是以图形方式表示基于一个频率特性而产生的自相关矩阵、并说明棱线和主对角线的图示;

图11A和图11B是以图形方式表示基于模板频率特性和分析帧的频率特性而产生的互相关矩阵、并说明相对基音差的图示;

图12是说明模板频率特性的配置示例的图示;

图13A和图13B是说明在相对基音变化量的计算中发生的双基音提取误差的示例的图示;

图14是示出发生了双基音提取误差的一个分析帧的频率特性的示例的图示;

图15是说明关于发生了双基音提取误差的一个分析帧中的模板频率特性的互相关矩阵的示例的图示;

图16是说明关于在发生了双基音提取误差的一个分析帧之前一帧的分析帧的频率特性的互相关矩阵的示例的图示;

图17是说明根据本发明的实施例的语音分析设备中的相对基音变化量计算单元的处理序列的流程图;

图18A和图18B是说明通过相对基音变化量计算单元的处理而产生的相对基音变化量数据的示例的图示;以及

图19是说明根据本发明的实施例的语音分析设备的处理序列的流程图。

具体实施方式

在下文中,将参照附图详细描述应用本发明的具体实施例。首先将说明系统配置和整个处理流程,接下来将详细说明声学分析单元的内部处理。

图1是示出了应用本发明的语音分析设备11的配置的框图。语音分析设备11包括输入单元31、韵律辨别单元32、语音识别单元33、结果选择单元34、特定词存储单元35、以及输出单元36。

输入单元31接收例如通过麦克风等获得的语音信号或从另一设备提供的语音信号的输入。

韵律辨别单元32执行对输入的语音信号的韵律辨别处理。韵律指的是难以以文本表达的语音信息特性,例如语调、语速变化以及大小变化(size variation)。稍后将描述韵律辨别单元32的韵律辨别处理的细节。

语音识别单元33执行对输入的语音信号的语音识别处理。在这种情况下,可以执行任何公知的语音识别处理。

当语音识别单元33的处理结果是记录在特定词存储单元35中的特定词时,结果选择单元34向输出单元36输出添加有韵律辨别单元32的韵律辨别结果的语音识别结果,并且当语音识别单元33的处理结果不是记录在特定词存储单元35中的特定词时,结果选择单元34将语音识别单元33的处理结果按原样提供给输出单元36。

特定词存储单元35记录用于语音识别单元33的处理的特定词信息。具体地,将通过使用诸如“un”之类的韵律应当被识别的特定词存储在特定词存储单元35中。

输出单元36将从结果选择单元34提供的语音识别结果输出至外部,也就是说,该单元提供以下指示:在屏幕上显示结果、将结果作为声音而输出、以及此外的通过使用识别结果来操作另一设备。

该实施例具有这样的配置:在该配置中,包括有两个操作单元即韵律辨别单元32和语音识别单元33,并且在结果选择单元34处对这两个处理单元的处理结果进行选择,但是,具有这样的设置也是优选的:在该设置中,仅仅输出韵律辨别单元32的辨别结果,并且仅仅具有韵律辨别单元32,而不具有语音识别单元33。

接下来,将说明语音分析设备11的操作。在图1中,从输入单元31输入的语音被提供给韵律辨别单元32和语音识别单元33。在韵律辨别单元32和语音识别单元33的每个单元中,针对输入的语音数据执行处理,结果,基于输入的语音数据的韵律模式而辨别的语音类型(或用户的语音意图)作为韵律辨别结果而从韵律辨别单元32输出,并且与输入的语音数据相对应的文本信息作为语音识别结果而从语音识别单元33输出。这些韵律辨别结果和语音识别结果被提供给结果选择单元34。

在结果选择单元34中,将所提供的语音识别结果与存储在特定词存储单元35中的特定词进行比较,当该语音识别结果与特定词相一致时,将韵律辨别结果添加到该语音识别结果或与该语音识别结果相结合以从输出单元36输出。当语音识别结果并不与任何特定词相一致时,将语音识别结果按原样从输出单元36输出。

例如,“un”被设置为特定词,当基于韵律辨别单元32中的韵律辨别结果而辨别了三种语音类型即表示肯定的“un”、表示否定的“uun”和表示疑问的“un?”时,与肯定、否定或疑问的语音类型(用户的语音意图)中的任一个相关的信息被添加到与特定词“un”相关的识别结果。

还优选地是,例如,韵律辨别单元32分析所提供的语音,并将语音的类型辨别为“肯定”、“否定”、“疑问”以及“其它”中的任一个,其中“其它”意味着该语音属于除了这三个类型之外的其它类型。当“其它”被提供作为韵律辨别结果时,结果选择单元34仅输出来自语音识别单元33的语音识别结果,而当韵律辨别结果是“肯定”、“否定”和“疑问”中的任一个时,结果选择单元34输出添加有来自韵律辨别单元32的韵律辨别结果的、来自语音识别单元33的语音识别结果。在这种情况下,可以省略特定词存储单元35。

图2是示出了图1的韵律辨别单元32的配置的框图。图2所示的韵律辨别单元32包括输入单元51、声学分析单元52、辨别单元53、参数存储单元54和输出单元55。

如上文所述,图1的配置是这样的配置:在该配置中,包括有两个处理单元即韵律辨别单元32和语音识别单元33,并且在结果选择单元34处对这两个处理单元的处理结果进行选择,但是,在仅包括有韵律辨别单元32而没有语音识别单元33的设置的情况下,图2所示的配置将形成语音分析设备的整个配置。

在图2所示的配置中,输入单元51从图1所示的输入单元31输入语音信号,例如,该输入单元31包括:诸如麦克风之类的用于输入语音信号的设备、对输入信号进行放大的放大器、将输入信号转换为数字信号的模数转换器等等。在输入单元51中,在例如以16kHz对输入信号进行采样之后,该信号被传送给声学分析单元52。

声学分析单元52从输入的语音信号中提取对于识别所需的特征量,将该特征量传送给辨别单元53。稍后将描述该实施例中的声学分析单元52的内部处理。

在辨别单元53中,通过使用参数存储单元54中的参数来执行对未知的语音数据的识别处理,其中该参数是基于通过对用于学习的语音数据执行声学分析所获得的特征量而预先创建的。

在这种情况下,对未知语音数据的识别处理是这样的处理:针对输入的语音信号,从给定韵律辨别单位词典选择与输入相对应的韵律辨别单位。利用DP(动态规划)匹配、神经网络、HMM(隐马尔可夫模型)等的方法被用作识别方法。

DP匹配是这样的方法:在该方法中,预先地根据通过分析每个语音信号所获得的特征量来计算被称为模板的标准模式以作为参数,该参数被记录在参数存储单元54中,并将未知语音的特征量与每个参数相比较,以找到被确定为最接近的参数。为了吸收语速变化,可以利用这样的方法,即根据被称为动态时间弯曲的技术来伸缩时间轴,以最小化相对于该模板的失真。

神经网络被配置成根据模仿人脑构造的网络模型来执行识别,其中,预先通过学习过程来确定路径的权重系数作为参数,并且这些参数被存储在参数存储单元54中。基于通过向该网络输入未知语音的特征量而获得的输出,计算相对于韵律辨别单位词典中的每个韵律辨别单位的距离,以确定与该输入的语音信号相对应的韵律辨别单位。

HMM被配置成根据概率模型来执行识别,其中针对基于学习数据的状态转移模型,确定转移概率和输出符号概率,以便根据针对未知语音的特征量而言每个模型的发生概率来确定韵律辨别单位。

如上文所述,辨别单元53中的识别处理包括学习过程和识别过程。在学习过程中,预先根据学习数据确定的参数,即模板、网络模型中的权重系数、概率模型的统计参数等等被计算和存储在参数存储单元54中。

在识别过程中,在执行了对输入的未知语音信号的声学分析之后,根据识别方法对给定韵律辨别单位词典中的各个韵律辨别单位执行距离或发生概率的评分,并且选择具有最高得分的单位或多个顶部单位作为识别结果。

在辨别单元53中获得的识别结果被传送给输出单元55。输出单元55提供以下指示:在屏幕上显示所传送的识别结果或者将所传送的识别结果作为声音而输出、以及此外的通过使用该识别结果来操作另一设备。

相关技术中对基音频率的检测基于以下前提:作为语音中的一个声带振动周期的基音周期的时间长度(或者以基音周期的倒数表示的基音频率)是被唯一地确定的。唯一地确定基音频率的处理意味着:在与语音相对应的频率特性的分布中计算存在于最低频率处的峰值分量的中心频率。

下面将参照图3A和图3B来说明检测基音频率的处理示例。图3A示出了正常语音的频率特性,图3B示出了耳语声的频率特性。例如,在如图3A所示的正常语音的频率特性的情况下,频率“fp”对应于基音频率。然而,在语音被混合在噪声中的情况下,或者在具有低基音特性的语音如耳语声的情况下,如上文所述的相关技术中的确定基音频率的处理将会难以进行。例如,在如图3B所示的耳语声的频率特性的情况下,难以检测存在于最低频率处的峰值分量的中心频率。

相应地,在韵律辨别单元32中,即使在难以检测诸如图3B所示的耳语声之类的基音频率的情况下,也可以避免取决于频率特性的峰值特性的处理,其中通过使用相对基音变化量来唯一地确定正确的基音频率,从而鲁棒地捕捉到语调变化。

在过去的基音频率检测中,与语音相对应的频率特性被取作一个特征量分布,并且从一个分布中提取期望的特征量(基音频率),而在韵律辨别单元32中,直接得到变化量而不确定基音频率,对表示基音频率及其变化范围的基音变化范围进行归一化的处理不是必需的。

上述处理主要是通过在声学分析单元52中执行的处理来实现的。在下文中将会详细说明声学分析单元52的具体配置和操作。

<声学分析单元的内部处理>

如图2所示,声学分析单元52包括频率特性分析单元61和相对基音变化量计算单元62。

频率特性分析单元61执行从输入的语音信号到频率特性的变换处理。将参照图4所示的流程图来说明频率特性分析单元61中的具体处理流程。

首先,频率特性分析单元61使用诸如FFT(快速傅立叶变换)分析之类的时频变换处理来将输入的语音信号变换到频域中,以获得一般的频率特性。图5A示出了频率特性的示例。

接下来,该过程进行至图4所示的流程图的步骤S32,在该步骤S32中,将一般频率特性中的频率轴进行对数化,从而变换成对数频率轴上的频率特性。图5B示出了对数频率轴上的频率特性的示例。

接下来,该过程进行至图4所示的流程图的步骤S33,在该步骤S33中,在该对数频率轴上的频率特性中仅仅取出期望频域部分,并且将结果作为频率特性分析单元的结果而输出。图5C例示了从图5B的频率特性中仅提取了期望频域部分的频率特性。

如上文所述,图5C所示的频率特性是作为频率特性分析单元61中的分析结果而获得的,并且该频率特性被传送给相对基音变化量计算单元62。频率特性分析单元61按照预定的固定时间间隔来产生如图5C所示的频率特性,也就是说,在与从输入单元输入的语音信息相关的、按时间序列设置的每个分析帧,顺序地将所述频率特性输出至相对基音变化量计算单元62。

接下来,将参照图6所示的流程图来说明相对基音变化量计算单元62中的处理示例。图6所示的流程是对相对基音变化量计算单元62中的处理的概述。根据本发明的实施例的语音分析设备的相对基音变化量计算单元62还执行遵循稍后将描述的图17所示的流程的处理,该处理将图6所示的流程作为基本处理。

下面将说明图6的流程。首先,在图6所示的流程图的步骤S41中,相对基音变化量计算单元62通过使用两个频率特性来计算频率特性之间的互相关矩阵。

在根据本发明的实施例的语音分析设备中,应用以下两个不同频率特性的组合来计算互相关矩阵。

(a)时间上不同的分析帧中的两个频率特性,

(b)分析帧中的频率特性和固定的模板频率特性

在稍后的章节中将详细说明(b)的处理。这里将说明(a)的情况,在(a)的情况下是时间上不同的分析帧中的两个频率特性。从上述频率特性分析单元61传送的、时间上不同的分析帧中的两个频率特性由列向量X、Y表示,并且该列向量的维数由N表示。这些列向量X、Y由以下公式1、2表示,此时,如公式3所示,互相关矩阵M是由向量X和转置向量YT的乘积表示的矩阵。

X=(x1,x2,...xN)T         公式(1)

Y=(y1,y2,...yN)T         公式(2)

M=X×YT                    公式(3)

图7示出了由上述公式(公式3)表示的互相关矩阵M。在图7中,示出了互相关矩阵M73,当时间上不同的分析帧中的两个频率特性是A71、B72时,进一步地,当频率特性A71是列向量X且频率特性B72是列向量Y时,该互相关矩阵满足上述关系表达式(公式3)。这两个频率特性A71和B72是与时间上不同的分析帧相对应的频率特性,分别对应于参照图5C所说明的频率特性。

也就是说,这些频率特性对应于这样的数据(图5c):在该数据中仅仅取对数频率轴上的频率特性(图5B)中的期望频域部分,其中该对数频率轴是通过将一般频率特性(图5A)中的频率轴进行对数化而获得的,该一般频率特性是通过根据诸如FFT(快速傅立叶变换)分析之类的时频变换处理来执行到频域的变换而获得的。在图7所示的频率特性A71中,横轴是对数频率轴,在该对数频率轴中频率从左向右增加。在频率特性B72中,频率从上向下增加。

当包括在图7所示的互相关矩阵M73中的数值以图形的方式被显示成根据数值而改变密度(对比度)时,该矩阵M73可被示出为如图8所示的互相关矩阵M75。

作为比较示例,当两个频率特性相同时,也就是说,分别地,在图9中示出了通过仅使用表示所述频率特性之一的列向量X来计算出的自相关矩阵81,在图10中示出了自相关矩阵82,在该自相关矩阵82中以图形方式显示了自相关矩阵81。

如从图9和图10可以看出的,通过仅仅一个频率特性而获得的自相关矩阵是对称矩阵,并且根据频率特性的幅度的平方而计算出的向量(功率谱)对应于该自相关矩阵的主对角线83。与该自相关矩阵中除了主对角线之外的对角线方向分量相比,该功率谱将是连接频率特性的各个峰值(的平方)的棱线83。

另一方面,在参照图7和图8所说明的时间上不同的分析帧中的两个频率特性之间的互相关矩阵中,如图8所示,棱线77位于从矩阵的主对角线76偏移的对角线方向分量处。

如图8所示,该棱线在根据时间上不同的分析帧中的两个频率特性而获得的互相关矩阵中从主对角线偏移的原因是:在两个频率特性中基音频率分别不同。各个频率特性中的峰值分量的频率位置几乎位于每个基音频率的整数倍的位置。在时间上不同的分析帧中的两个频率特性中,分析帧之间的基音频率不同。在根据具有不同基音频率的两个频率特性而获得的互相关矩阵(频率轴采用对数表示)中,连接两个频率特性之间的对应的各峰值的棱线出现在与该互相关矩阵的主对角线相平行地偏移的对角线方向分量上。该棱线相对于主对角线的偏差或偏移量对应于两个频率特性之间的基音频率(对数值)的差。

也就是说,在根据时间上不同的分析帧中的两个频率特性而获得的互相关矩阵中,计算棱线相对于主对角线的偏移量,从而计算分析帧之间的对数基音频率的差(称为“相对基音差”),而不计算各个分析帧中的基音频率。该相对基音差是图8所示的相对基音差。

例如,作为时间上不同的分析帧中的两个频率特性,可以使用时间上相邻的相应两个分析帧中的频率特性。例如,当以预定的时间间隔来设置分析帧时,可以计算时间上相邻的各个分析帧之间的相对基音差。

声学分析单元52的相对基音变化量计算单元62计算定义用于计算上述相对基音差的两个频率特性之间的关系的互相关矩阵,并计算与以下偏移量相对应的值以作为相对基音差:连接该互相关矩阵的构成数据中的值的峰值位置的棱线相对于该互相关矩阵的主对角线的偏移量。

然后,在期望数量的分析帧中对相邻分析帧之间的相对基音差进行积分(integrate),以计算期望数量的分析帧中的相对基音变化量。作为在这种情况下决定期望数量的帧的方法,可以参考辨别单元53中的学习过程中的辨别准确度。

在上述示例中,使用时间上不同的分析帧中的两个频率特性来计算相对基音差,然而,还优选地是,允许用于计算相对基音差的两个频率特性中的(要被比较的)一个频率特性是固定的频率特性,并且允许另一频率特性是基于要输入的语音波形而产生的每个分析帧的频率特性,从而基于该固定的频率特性以及该要测量的分析帧的频率特性来计算相对基音差。

例如,作为固定的频率特性,可以使用预先准备并存储在语音分析设备的存储器中的模板型频率特性数据(称为“模板频率特性”)。

图11B示出了模板频率特性,分析帧的频率特性以及通过这两个频率特性而计算出的互相关矩阵(密度表示)的示例。为了进行比较,在图11A中示出了与参照图7和图8所说明的时间上不同的分析帧中的频率特性相关的互相关矩阵。

在图11B中示出了模板频率特性101、作为测量结果从一个分析帧获得的频率特性102、以及这两个频率特性101、102的互相关矩阵(密度表示)103。模板频率特性101是创建仿真频率特性的数据,其中与基本基音相关的谐波分量的大小线性地衰减,如图12所示,将特定基音频率(300Hz)作为基本基音。例如,这种仿真数据可被应用为模板。

如图11B所示,可以通过使用根据模板频率特性101和分析帧的频率特性102而计算出的互相关矩阵103来计算相对基音差。

如上文所述,在根据具有不同基音频率的两个频率特性而获得的互相关矩阵(频率轴采用对数表示)中,连接两个频率特性之间的对应的各峰值的棱线112出现在该互相关矩阵中平行地从主对角线111偏移的对角线方向分量上。棱线112相对于主对角线111的偏差或偏移量将是两个频率特性之间的基音频率(对数值)的差,即相对基音差。

在图11B所示的示例的情况下,计算相对于绝对基准(在这种情况下是300Hz)的相对基音差,因此可以最终计算正常的基音频率。

如上所述执行声学分析单元52中的内部处理,并且提取相对基音差作为用于辨别的特征量。

此外,在计算上述相对基音差的方法中,存在如下情况:在该情况下,有时会如同一般的基音频率提取方法一样地发生诸如双基音或半基音之类的提取误差。

图13A和图13B示出了在获得相对基音差作为特征量的方法中的双基音提取误差的产生示例。图13A示出了与词的语音相对应的语音波形,图13B示出了与图13A所示的语音波形相对应的基音模式。每个图示中的横轴是时间轴,并且图13B的图示中的纵轴是基音频率[Hz]。

图13B的图示中示出的每个标记“o”示出了在每个分析帧测量的基音频率。一般地,基音频率在每个分析帧平滑地变化。因此,图13B所示的分离的数据121、122可能是由于双基音提取误差而产生的数据。

图14部分地示出了一个分析帧的频率特性的示例,其中发生了双基音提取误差。如从图14可以看出的,与原始基音频率相对应的谐波结构出现在该频率特性上,其中与两倍于原始基音频率的频率相对应的峰值分量132大于与原始基音频率相对应的峰值分量131。当获得峰值分量132作为基音频率时,图13B所示的数据121、122出现,并且难以执行正确的分析。

图15是示出了图14所示的分析帧的频率特性与模板频率特性(在这种情况下作为基准的基音频率是100Hz)之间的互相关矩阵的视图。也就是说,示出了分析帧中的频率特性151、模板频率特性152、以及通过这两个频率特性而获得的互相关矩阵153,在该频率特性151中,如图14所示,与两倍于原始基音频率的频率相对应的峰值分量132大于与原始基音频率相对应的峰值分量131。

在互相关矩阵153中示出了连接两个频率特性之间的对应的各峰值的棱线161。棱线161示出了与两倍于原始基音频率的频率相对应的位置,并且正确的棱线应当是接近于图15中的对角线163的第二棱线162的位置。

当通过应用示出了与两倍于原始基音频率的频率相对应的位置的棱线161、以上述方式计算了相对基音差时,可以计算该图示中所示的相对基音差171。然而,应当根据原始基音差来计算出的实际的相对基音差应当是作为该图示中所示的棱线162和对角线163之间的偏移量的相对基音差172。

如上文所述在分析帧的频率特性中n倍频率的峰值分量大于原始基音频率的峰值分量的情况下,根据互相关矩阵而计算出的相对基音差,即对棱线与主对角线之间的偏移量的确定有时是不正确的。

本发明致力于解决上述问题,并且在本发明的实施例中:

(a)根据分析帧的频率特性与模板频率特性之间的比较的第一相对基音差,

(b)根据时间上相邻的部分的频率特性之间的比较的第二相对基音差。

计算上述(a)和(b)的两个相对基音差,并且通过使用这两种相对基音差来确定地检测原始基音频率的峰值分量,从而获得正确的相对基音频率。

图16示出了特定分析帧的频率特性201(与频率特性151相同)、与该分析帧相关的先前分析帧的频率特性202、以及根据这两个频率特性而计算出的互相关矩阵203,其中该频率特性202例如是一帧之前的频率特性202。

在图16所示的互相关矩阵203中,通过连接与各频率特性的峰值相对应的点而形成的棱线将是图16所示的棱线211。图16所示的虚线212未被选择为棱线。当选择图16所示的棱线211并计算相对于对角线的偏移量时,可以计算正确的相对基音差。由此可以看出,通过在时间上相邻的部分中的频率特性之间的比较,在相对基音差中不会发生双基音提取误差。

当计算互相关矩阵时,在两个频率特性的相应包络的类似点中,帧的频率特性与相邻帧的频率特性之间的相似性高于该帧的频率特性与模板频率特性之间的相似性。

接下来,将参照图17所示的流程图来说明根据本发明的实施例的语音分析设备中的处理序列,即,双基音/半基音修正处理序列。图17所示的流程与图2所示的韵律辨别单元32中的声学分析单元52的处理相对应,其主要是在相对基音变化量计算单元62中的处理。

在语音分析设备的存储单元(存储器)中存储有模板频率特性数据。相对基音变化量计算单元62从存储单元(存储器)中获得模板频率特性数据,进一步地,以预先设置的分析时间间隔顺序地输入在频率特性分析单元61中产生的分析帧中的频率特性,以执行遵循图17所示的流程的处理。

首先,在步骤S101中,根据新输入的分析帧的频率特性和模板频率来计算第一互相关矩阵,并计算所计算出的互相关矩阵中的棱线与对角线之间的偏移量,从而将该量作为第一相对基音差(在下文中称为模板相对基音差)。例如,在图15所示的示例中,计算模板相对基音差以作为相对基音差171。

接下来,在步骤S102中,计算在步骤S101中计算出的当前分析帧的模板相对基音差与对应于一帧之前的分析帧的模板相对基音差之间的差。

接下来,在步骤S103中,判定这两个相对基音差之间的差的绝对值是否等于或小于预定阈值。当该值等于或小于该阈值时,该过程结束,并且在步骤S101中计算的模板相对基音差被确定为要应用于相对基音变化量计算处理的相对基音差。

在步骤S103中,当判定了在步骤S102中计算的两个相对基音差之间的差的绝对值不小于预定阈值时,该过程进行至步骤S104。

作为要在步骤S103中应用的阈值,例如,应用通过加上或减去与对应于一个八度音的对数值相关的特定容限值而计算出的值。例如,根据以下公式(公式4)来计算该阈值:

T=log(2)-δ        (公式4)

注意:T:阈值

δ:容限值

在步骤S104中,根据当前分析帧的频率特性与一帧之前的分析帧的频率特性之间的互相关矩阵,计算第二相对基音差(在下文中称为相邻相对基音差)。该差对应于例如在图16的互相关矩阵203中检测到的棱线211与对角线(对应于图16中的棱线211)之间的偏移量。

接下来,在步骤S105中,判定在步骤S104中计算出的相邻相对基音差是否等于或小于上述公式4中示出的容限值(δ)。当该差等于或小于该容限值时,该过程进行至步骤S106。

当在步骤S104中计算出的相邻相对基音差不小于公式4中所示出的容限值(δ)时,该过程结束,并且在步骤S101中计算出的模板相对基音差被确定为要应用于相对基音变化量计算处理的相对基音差。

另一方面,在步骤S105中,当判定了在步骤S104中计算出的相邻相对基音差等于或小于公式4中所示出的容限值(δ)时,该过程进行至步骤S106。在这种情况下,在步骤S101中计算出的模板相对基音差被确定为作为误差的接近于双基音或半基音的相对基音差,并计算模板相对基音差,其中通过将步骤S101中计算出的模板相对基音差加上或减去与一个八度音相对应的对数值(在双基音时减去一个八度音值,在半基音时加上一个八度音值)来修正模板相对基音差,然后,该经修正的模板相对基音差被确定为要应用于相对基音变化量计算处理的相对基音差。

用于双/半基音的修正处理是在图2所示的韵律辨别单元32的相对基音变化量计算单元62中根据上述流程而执行的,并且确定与每个分析帧相对应的相对基音差,即,要应用于相对基音变化量计算处理的相对基音差。

如上文所述,在根据本发明的实施例的语音分析设备11中包括的韵律辨别单元32的声学分析单元52中,计算作为当前分析帧的频率特性与预先设置的模板频率特性之间的相对基音差的当前模板相对基音差,并且进一步地判定当前模板相对基音差与先前模板相对基音差之间的差值绝对值是否等于或小于预定阈值,其中该先前模板相对基音差是时间上在当前分析帧之前的先前帧的频率特性与模板频率特性之间的相对基音差。当该绝对值不小于该阈值时,计算作为当前分析帧的频率特性与先前帧的频率特性之间的相对基音差的相邻相对基音差,并且当该相邻相对基音差等于或小于预先设置的容限值时,执行将当前模板相对基音差加上或减去八度音的修正处理,以将该值确定为当前分析帧的相对基音差,然后,通过应用所确定的相对基音差来计算相对基音变化量。

当先前模板相对基音差与当前模板相对基音差之间的差值绝对值等于或小于预定阈值时,或者当先前模板相对基音差与当前模板相对基音差之间的差值绝对值不小于预定阈值、并且相邻相对基音差不小于预先设置的容限值时,当前模板相对基音差被确定为当前分析帧的相对基音差。

根据通过遵循图17所示的流程的处理而确定的各个分析帧中的相对基音差,产生例如图18B所示的相对基音变化量数据。图18A和图18B示出了通过对语音数据(图18A,语音波形)应用遵循图17所示的流程的处理而产生的相对基音变化量数据(图18B,基音模式),其中该语音数据与先前参照图13A和图13B所说明的语音数据相同。

在图18B所示的基音模式中,前面说明的图13B所示的分离的数据121、122没有出现,并且通过增加遵循图17所示的流程的修正处理而消除了双基音提取误差。

因此,根据本发明的实施例的语音分析设备是基于输入语音的韵律特性来执行辨别的韵律辨别设备。在通过使用两个频率特性之间的相对基音变化量来执行辨别的韵律辨别设备中,通过与模板频率特性的比较来提取相对基音差,并且还通过与相邻帧的比较来提取相对基音差,从而通过考虑相邻帧之间的相对基音的连续性来消除双基音或半基音提取误差,结果,可以实现准确且稳定的、通过韵律辨别的语音识别。

参照图3A至图18B所说明的处理是图2所示的韵律辨别单元32中的处理,并且可以仅仅通过韵律辨别单元32中的处理来执行语音识别,但是,还优选地是,遵循前面说明的图1所示的配置而并行地执行现有语音识别单元33中的处理,并且通过选择性地应用经由韵律辨别单元32中的处理而获得的识别结果以及经由现有语音识别单元33中的处理而获得的识别结果,输出最终的识别结果。下面将参照图19所示的流程图来说明在执行这种处理时的处理序列。

图19的流程图是用于说明在图1所示的语音分析设备11中执行的语音识别处理序列的流程。下面将参照图1所示的语音分析设备的配置图来说明图19的流程的各步骤的处理。

首先,在步骤S201中,输入单元31接收语音信号的输入,并将其提供给韵律辨别单元32和语音识别单元33。接下来,在步骤S202中,语音识别单元33识别所提供的语音信号,获得要提供给结果选择单元34的文本数据。

在步骤S203中,韵律辨别单元32执行参照图2至图18B所说明的韵律辨别处理。在步骤S204中,结果选择单元34接收来自韵律辨别单元32和语音识别单元33的识别结果的提供,判定来自语音识别单元33的识别结果是否对应于存储在特定词存储单元35中的特定词。

在步骤S204中,当该结果不对应于任何特定词时,结果选择单元34在步骤S205中将来自语音识别单元33的识别结果按原样输出至输出单元36以结束处理。

在步骤S204中,该结果对应于特定词,结果选择单元34在步骤S206中将添加有来自韵律辨别单元32的识别结果的、来自语音识别单元33的识别结果输出至输出单元36以结束处理。

此外,例如,韵律辨别单元32分析所提供的语音,并辨别语音的类型为包括“肯定”、“否定”、“疑问”以及“其它”的四种语音类型中的任一个,其中“其它”意味着该语音属于除了前三种语音类型之外的类型,并且当“其它”被提供为韵律辨别结果时,结果选择单元34仅输出来自语音识别单元33的语音识别结果,而当韵律辨别结果为“肯定”、“否定”以及“疑问”中的任一个时,结果选择单元34输出添加有来自语音识别单元33的语音识别结果的、来自韵律辨别单元32的韵律辨别结果。在步骤S204中,结果选择单元34接收来自韵律辨别单元32和语音识别单元33的识别结果的提供,判定该韵律辨别结果是否属于“其它”,而不确定来自语音识别单元33的识别结果是否与特定词相一致。在“其它”的情况下,执行S205的处理,而在除了“其它”之外的类型的情况下,执行步骤S206的处理。

因此,参照具体实施例详细地描述了本发明。然而,本领域的技术人员应当理解,在本发明的要旨的范围内,可以进行各种修改和替换。也就是说,以示例说明的形式公开了本发明,其不应当是限制性的。为了确定本发明的要旨,应当考虑权利要求部分。

可以通过硬件或软件或者二者的组合配置来执行本说明书中所说明的处理系列。在通过软件来执行处理时,可以通过将其中记录有处理序列的程序安装在并入到专用硬件中的计算机的存储器中,或者通过将该程序安装在可执行各种处理的通用计算机中,执行该程序。例如,该程序可以被预先记录在记录介质中。除了从记录介质安装到计算机之外,可以通过诸如LAN(局域网)或因特网之类的网络来接收该程序,以及可以将该程序安装在诸如内部硬盘之类的记录介质中。

不仅可以根据本说明书中的描述按照时间顺序来执行本说明书中描述的各种处理,而且可以根据执行所述处理的设备的处理能力或者根据需要并行地或单独地执行本说明书中描述的各种处理。本说明书中的系统指的是多个设备的逻辑集合,并且具有各自配置的设备不一定位于同一壳体中。

如上文所述,根据本发明的一个实施例的配置,在基于输入语音的韵律特性而执行辨别的韵律辨别处理中,通过将与根据输入语音所产生的分析帧相对应的频率特性和模板频率特性进行比较,提取第一相对基音差,并且通过将该分析帧的频率特性与先前帧的频率特性进行比较,提取第二相对基音差,并且考虑到相邻帧之间的相对基音的连续性而基于这两个相对基音差来执行对相对基音差的修正处理。根据该配置,可以消除双基音或半基音提取误差,并且可以实现非常准确和鲁棒的韵律辨别。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号