首页> 中国专利> 基于动态时间归整算法的离线语音端点检测的方法和装置

基于动态时间归整算法的离线语音端点检测的方法和装置

摘要

本发明公开了一种基于动态时间归整算法的离线语音端点检测的方法和装置,包括:提取语音数据的特征参数和语音能量值,并获取具有最大的语音能量值的语音数据帧;依次选择参考模板,根据所选参考模板的长度和语音数据帧,确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围,进而对每个搜索起点按照多个搜索窗长度分别进行搜索,从而获取多个相应的测试模板;利用DTW算法,计算每一测试模板与所选参考模板的匹配距离得分;识别其中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。

著录项

  • 公开/公告号CN104103280A

    专利类型发明专利

  • 公开/公告日2014-10-15

    原文格式PDF

  • 申请/专利权人 无锡中星微电子有限公司;

    申请/专利号CN201410337409.2

  • 发明设计人 冯宇红;

    申请日2014-07-15

  • 分类号G10L25/87;G10L25/45;G10L25/27;

  • 代理机构北京亿腾知识产权代理事务所;

  • 代理人陈霁

  • 地址 214135 江苏省无锡市无锡新区太湖国际科技园清源路530大厦A区10层

  • 入库时间 2023-12-17 01:59:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-06

    授权

    授权

  • 2017-04-19

    著录事项变更 IPC(主分类):G10L25/87 变更前: 变更后: 申请日:20140715

    著录事项变更

  • 2014-11-12

    实质审查的生效 IPC(主分类):G10L25/87 申请日:20140715

    实质审查的生效

  • 2014-10-15

    公开

    公开

说明书

技术领域

本发明涉及语音识别技术领域,尤其涉及一种基于动态时间归整算法的 离线语音端点检测的方法和装置。

背景技术

随着语音识别技术的不断发展,特定人孤立词语音识别技术已经基本成 熟,并逐渐开始应用于社会众多领域。例如,在蓝牙芯片中使用特定人孤立 词语音识别,可以方便用户通过语音对终端设备进行相应操作,为用户带来 极大方便。

在语音识别应用系统的实际环境中,输入信号包括用户说话的语音信号 和背景的噪音信号等等,在输入信号中将用户说话的语音信号抽出的过程成 为端点检测(Voice Activity Detector,VAD)。端点检测在语音识别应用 系统中具有重要的作用。好的端点检测算法能够提供好的系统鲁棒性,无论 用户在何种环境下使用,系统的语音识别率都能维持在同一水平上几乎保持 不变。

目前,孤立词语音识别通常采用实时端点检测算法。采用实时语音端点 检测,可以在用户讲话完毕之后马上进行识别,感觉不到延迟。但该方法对 噪声比较敏感,当外界环境存在非平稳噪声,例如人声、音乐声等干扰较强 的噪声时,对孤立词端点检测算法影响很大,错误判定孤立词起点和终点概 率很高。因此采用实时端点检测算法很难在这种情况下准确检测到孤立词的 语音端点。

发明内容

有鉴于此,本发明实施例提供了一种基于动态时间归整算法的离线语音 端点检测的方法和装置,能够准确有效的检测孤立词的语音端点。

第一方面,本发明实施例提供了一种基于动态时间归整算法的离线语音 端点检测的方法,包括:

获取多帧连续的语音数据;

提取每帧语音数据的特征参数和语音能量值;

获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧;

依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的 所有参考模板都被选择过;其中,所述参考模板是对参考语音经过训练而形 成的有关所述参考语音的一组参考特征矢量序列;

根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的 长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围,在确定 的搜索范围内按照第一搜索步长逐步改变搜索起点,在每个搜索起点按照第 二搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗长度的每个组合获 取一个测试模板,利用动态时间归整算法计算每个测试模板与所述当前选择 的参考模板的匹配距离得分,记录与当前选择的参考模板的匹配距离得分最 小的测试模板及基于当前选择的参考模板的最小的匹配距离得分;

从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择 匹配距离得分最小的测试模板,将所述选择的测试模板的搜索窗的起点和终 点作为孤立词语音的端点。

可选的,在获取所述多帧的语音数据中具有最大的语音能量值的语音数 据帧之后,所述方法还包括:

判断所述最大的语音能量值是否低于第一门限值;

如果是,则直接结束此次离线语音端点检测;

如果否,则继续进行所述离线语音端点检测。

可选的,在利用动态时间归整算法计算每个测试模板与所述当前选择的 参考模板的匹配距离得分之后,所述方法还包括:

判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量 平均值是否低于第二门限值;

如果是,则跳过后续的记录与当前选择的参考模板的匹配距离得分最小 的测试模板及基于当前选择的参考模板的最小的匹配距离得分,并选择下一 参考模板以确定新的测试模板;

如果否,则进行后续的记录与当前选择的参考模板的匹配距离得分最小 的测试模板及基于当前选择的参考模板的最小的匹配距离得分。

可选的,所述特征参数包括参考特征矢量,所述参考特征矢量具体包括: 梅尔频率倒谱系数MFCC或线性预测系数LPC;所述利用动态时间归整算法计 算每个测试模板与所述选择的参考模板的匹配距离得分具体为:

利用动态时间归整算法,对每个所述测试模板中每一帧对应的参考特征 矢量,与所述选择的参考模板中相应帧对应的参考特征矢量进行特征匹配, 计算得到所述匹配距离得分。

可选的,所述第一搜索步长为n帧,第二搜索步长为m帧,所述n、m分 别为大于1的整数;

记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前 选择的参考模板的最小的匹配距离得分之前,所述方法还包括:

确定与当前选择的参考模板的匹配距离得分最小的测试模板;

基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精细搜 索范围,基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确定精 细搜索窗长度的范围;

在确定的精细搜索范围内按照第三搜索步长逐步改变搜索起点,在每个 搜索起点按照第四搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗长 度的每个组合获取一个测试模板,利用动态时间归整算法计算每个测试模板 与所述当前选择的参考模板的匹配距离得分;其中所述第三搜索步长小于第 一搜索步长,所述第四搜索步长小于第二搜索步长。

第二方面,本发明实施例提供了一种基于动态时间归整算法的离线语音 端点检测的装置,其特征在于,所述装置包括:

采集单元,用于获取多帧连续的语音数据;

数字化处理单元,用于提取每帧语音数据的特征参数和语音能量值;

第一获取单元,用于获取所述多帧的语音数据中具有最大的语音能量值 的语音数据帧;

第二获取单元,用于依次从提供的参考模板库中选择一个参考模板直到 所述参考模板库中的所有参考模板都被选择过;其中,所述参考模板是对参 考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列;

处理单元,用于根据具有最大的语音能量值的语音数据帧、以及当前选择 的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的 范围,在确定的搜索范围内按照第一搜索步长逐步改变搜索起点,在每个搜 索起点按照第二搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗长度 的每个组合获取一个测试模板,利用动态时间归整算法计算每个测试模板与 所述当前选择的参考模板的匹配距离得分,记录与当前选择的参考模板的匹 配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得 分;

端点识别单元,用于从记录的与各个选择的参考模板的匹配距离得分最 小的测试模板中选择匹配距离得分最小的测试模板,将所述选择的测试模板 的搜索窗的起点和终点作为孤立词语音的端点。

可选的,所述装置还包括:

第一判断单元,用于判断所述最大的语音能量值是否低于第一门限值;

如果是,则直接结束此次离线语音端点检测;

如果否,则继续进行所述离线语音端点检测。

可选的,所述装置还包括:

第二判断单元,用于判断与当前选择的参考模板的匹配距离得分最小的 测试模板的语音能量平均值是否低于第二门限值;

如果是,则不跳过后续的记录与当前选择的参考模板的匹配距离得分最 小的测试模板及基于当前选择的参考模板的最小的匹配距离得分,并选择下 一参考模板以确定新的测试模板;

如果否,则进行后续的记录与当前选择的参考模板的匹配距离得分最小 的测试模板及基于当前选择的参考模板的最小的匹配距离得分。

可选的,所述特征参数包括参考特征矢量,所述参考特征矢量具体包括: 梅尔频率倒谱系数MFCC或线性预测系数LPC;

所述处理单元具体用于,利用动态时间归整算法,对每个所述测试模板 中每一帧对应的参考特征矢量,与所述选择的参考模板中相应帧对应的参考 特征矢量进行特征匹配,计算得到所述匹配距离得分。

可选的,所述第一搜索步长为n帧,第二搜索步长为m帧,所述n、m为 分别为大于1的整数;

所述处理单元还用于,确定与当前选择的参考模板的匹配距离得分最小 的测试模板;

基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精细搜 索范围,基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确定精 细搜索窗长度的范围;

在确定的精细搜索范围内按照第三搜索步长逐步改变搜索起点,在每个 搜索起点按照第四搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗长 度的每个组合获取一个测试模板,利用动态时间归整算法计算每个测试模板 与所述当前选择的参考模板的匹配距离得分;其中所述第三搜索步长小于第 一搜索步长,所述第四搜索步长小于第二搜索步长。

本发明实施例的基于动态时间归整算法的离线语音端点检测的方法,通 过提取语音数据的特征参数和语音能量值,并获取具有最大的语音能量值的 语音数据帧;依次选择参考模板,根据所选参考模板的长度和语音数据帧, 确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围,进而对每个搜 索起点按照多个搜索窗长度分别进行搜索,从而获取多个相应的测试模板; 利用DTW算法,计算每一测试模板与所选参考模板的匹配距离得分;识别其 中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。 通过本发明实施例提供的方法,能够准确有效的对孤立词的语音端点进行检 测。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种基于动态时间归整算法的离线语音端 点检测的方法流程图;

图2为本发明实施例一提供的一种DTW算法的原理示意图;

图3为本发明实施例一提供的一种帧匹配距离矩阵中最佳路径搜索的示 意图;

图4为本发明实施例二提供的一种基于动态时间归整算法的离线语音端 点检测的方法流程图;

图5为本发明实施例三提供的一种基于动态时间归整算法的离线语音端 点检测的装置示意图。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实 施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有 其他实施例,都属于本发明保护的范围。

本发明实施例一提供了一种基于动态时间归整算法的离线语音端点检测 的方法,如图1所示,所述方法包括如下步骤:

步骤101,获取多帧连续的语音数据;

具体的,离线语音端点检测装置的硬件实体可以包括一个拾音器,通过 拾音器获取向离线语音端点检测装置输入的多帧连续的语音信号,将输入的 语音信号通过A/D转换后,转换为脉冲编码调制(Pulse Code Modulation,PCM) 数据。

步骤102,提取每帧语音数据的特征参数和语音能量值;

具体的,对PCM数据以帧为单位计算每帧的语音能量值,计算如式1所 示

E=1n{Σn=0N-1x(n)·x(n)}          (式1)

其中,x(n)为语音信号PCM样本值,N为语音信号帧长,语音信号帧长一 般选择10~20ms。

所述特征参数包括参考特征矢量,所述参考特征矢量可以包括但不限于: 梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或线性 预测系数(Linear Prediction Coefficient,LPC)。

步骤103,获取所述多帧的语音数据中具有最大的语音能量值的语音数据 帧;

具体的,根据上一步骤中各帧语音能量值的计算结果,可以得到全部帧 中最大的语音能量值,并同时获取该帧在全部语音数据帧中所处位置。

步骤104,依次从提供的参考模板库中选择一个参考模板直到所述参考模 板库中的所有参考模板都被选择过;

具体的,参考模板库中包括的参考模板是对参考语音经过训练而形成的 有关所述参考语音的一组参考特征矢量序列,参考模板数量可以是一个,也 可以是多个。

步骤105,根据具有最大的语音能量值的语音数据帧、以及当前选择的参 考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范 围,在确定的搜索范围内按照第一搜索步长逐步改变搜索起点,在每个搜索 起点按照第二搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗长度的 每个组合获取一个测试模板,利用动态时间归整算法计算每个测试模板与所 述当前选择的参考模板的匹配距离得分,记录与当前选择的参考模板的匹配 距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得 分;

具体的,以具有最大的语音能量值的语音数据帧为中心,向语音数据的 起始方向和终止方向进行扩展,确定搜索范围。将获取的一个参考模板的长 度用L来表示,在一个具体的例子中,搜索范围可以是以具有最大的语音能 量值的语音数据帧为中心向两个方向各扩展一个L。在另一个例子中,可以向 两个方向各扩展2L。搜索范围的大小与L的关系可以根据需要设定。

此外,根据所述参考模板的长度L确定搜素窗长度。在一个优选的例子 中,搜索窗的长度的范围为[1/2L,2L]。

依次在每一个搜索范围内,由该搜索范围的一侧端点开始,每步进一个 第一步长S1,都是一个新的搜索起点i。由此确定该搜索范围内全部的搜索 起点i。

然后对于每一个搜索起点,再根据搜索窗长度j的范围[1/2L,2L],和在 这个范围中步进的第二步长S2,确定的搜索窗长度j。即搜索窗长度j为: 1/2L,1/2L+S2,1/2L+2S2,1/2L+3S2,……,2L。

上述第一步长S1和第二步长S2分别可以根据需要进行设定,可以相同 或者不同。它们分别以帧为单位,例如可以设定为1帧、2帧、5帧等等。

对对每一个搜索起点,都逐步改变搜索窗长度j,按照j=1/2L,1/2L+S2, 1/2L+2S2,1/2L+3S2,……,2L依次进行搜索。从而对于每一个确定的(i,j), 都能获得一个对应的测试模板。

其中,当第一步长S1和第二步长S2都为1帧的时候,该搜索为逐点移 动搜索。

当搜素不是逐点搜索的时候,为了提高搜索的精度,可以先进行一次粗 搜,再进行精细搜索。

比如基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精 细搜索范围,基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确 定精细搜索窗长度的范围;然后在确定的精细搜索范围内按照第三搜索步长 逐步改变搜索起点,在每个搜索起点按照第四搜索步长逐步改变搜索窗长度, 根据搜索起点和搜索窗长度的每个组合获取一个测试模板,利用动态时间归 整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分;其中 所述第三搜索步长小于第一搜索步长,所述第四搜索步长小于第二搜索步长。

在一个具体的例子中,通过粗搜得到一个大概位置(i0,j0),再在设置 搜索起点i在[i0-S1,i0+S1]范围内按照逐帧移动得到的搜索起点,由在[j0-S2, j0+S2]范围内逐帧改变的搜索窗长度进行搜索。

在利用动态时间归整(Dynamic Time Warping,DTW)算法进行每个测试 模板与当前选择的参考模板的匹配距离得分计算时,将一个参考模板表示为 R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序 标号(也称帧号),m=1为起点语音帧,m=M为终点语音帧,因此M为该模板 所包含的语音帧总数,R(m)为第m帧的语音特征矢量。将测试模板表示为 T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序 标号(也称帧号),n=1为起点语音帧,n=N为终点语音帧,因此N为该模板 所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模 板一般采用相同类型的特征参数矢量。

DTW算法的原理图可以如图2所述,把测试模板的各个帧号n=1~N在一 个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标 出,其中M、N为正整数。通过这些表示帧号的整数坐标画出一些纵横线即可 形成一个网格,网格中的每一个交叉点表示测试模式(测试模板)中某一帧 与训练模式(参考模板)中某一帧的交汇。DTW算法分两步进行,一是计算两 个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中 找出一条最佳路径。结合图3所示,搜索这条路径的过程可以描述如下:搜 索从(1,1)点出发,对于局部路径约束,可达到点(n,m)的前一个格点只可能 是(n-1,m)、(n-1,m-l)和(n-1,m-2)。那么(n,m)一定选择这三个距离中的最 小者所对应的点作为其前续格点,这时此路径的累积距离为:

D(n,m)=d(T(n),R(m))+min{D(n-1,m),D(n-1,m-1),D(n-1,m-2)}    (式3)

这样从(l,1)点出发(令D(1,1)=0)搜索,反复递推,直到到达(N,M)就可以得 到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离。

根据DTW算法,将全部测试模板逐一与当前选择的参考模板进行匹配, 以量化数据表示为匹配距离得分,其中匹配距离得分越小,表明的匹配程度 越高。并且,记录与当前选择的参考模板的匹配距离得分最小的测试模板及 基于当前选择的参考模板的最小的匹配距离得分。

进一步具体的,匹配是指对每一测试模板中每一帧对应的特征参数矢量, 与当前选择的参考模板中相应帧对应的特征参数矢量进行的特征匹配。

步骤106,从记录的与各个选择的参考模板的匹配距离得分最小的测试模 板中选择匹配距离得分最小的测试模板,将所述选择的测试模板的搜索窗的 起点和终点作为孤立词语音的端点。

具体的,根据选择出的匹配距离得分最小的测试模板的搜索窗的起始位 置的帧号和终止位置的帧号分别为语音端点检测得到的孤立词语音端点。

本发明实施例的基于动态时间归整算法的离线语音端点检测的方法,通 过对语音数据进行采集,根据具有最大的语音能量值的语音数据帧以及所选 择的参考模板长度确定孤立词语音的搜索范围和搜索窗长度的范围,在所述 搜索范围中步进式改变搜索起点和搜索窗长度,从而获得多个测试模板,并 通过DTW算法得到全部测试模板中与参考模板匹配距离得分最小的测试模板, 继而从各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离 得分最小的测试模板,将所选择的测试模板的搜索窗的起点和终点作为孤立 词语音的端点。通过本发明实施例提供的方法,能够准确有效的对孤立词的 语音端点进行检测。

下面在实施例二中,对本发明的离线语音端点检测的方法进行进一步的 详细说明。本发明实施例二提供的基于动态时间归整算法的离线语音端点检 测的方法,如图4所示,其步骤包括:

步骤401,采集语音信号;

具体的,离线语音端点检测装置的硬件实体可以包括一个拾音器,通过 拾音器获取向离线语音端点检测装置输入的语音信号。该语音信号是模拟信 号。

步骤402,将所述语音信号转换为语音数据,并将所述语音数据以帧为单 位进行处理,提取每一帧的特征参数和语音能量值;

具体的,将输入的语音信号通过A/D转换后,转换为脉冲编码调制(Pulse  Code Modulation,PCM)数据。对PCM数据以帧为单位计算每帧语音能量,计 算如式1所示,此处不再赘述。

所述特征参数包括参考特征矢量,所述参考特征矢量可以包括但不限于: 梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或线性 预测系数(Linear Prediction Coefficient,LPC)。

步骤403,获取全部语音数据帧中具有最大的语音能量值的语音数据帧;

步骤404,判断所述最大的语音能量值是否低于第一门限值;

当最大的语音能量值不低于语音能量的第一门限值时,执行步骤405,否 则直接结束此次离线语音端点检测。

步骤405,从参考模板库中选择一个未经选择过的参考模板;

如果参考模板库中没有参考模板,则直接退出离线语音端点检测。

步骤406,根据当前选择的参考模板的长度和具有最大的语音能量值的语 音数据帧,确定语音数据中孤立词语音的搜索范围和搜索窗长度的范围;

具体的,以具有最大的语音能量值的语音数据帧为中心,向语音数据的 起始方向和终止方向进行扩展,确定搜索范围。将获取的当前选择的参考模 板的长度用L来表示,在一个具体的例子中,搜索范围可以是以具有最大的 语音能量值的语音数据帧为中心向两个方向各扩展一个L。在另一个例子中, 可以向两个方向各扩展2L。搜索范围的大小与L的关系可以根据需要设定。

此外,根据当前选择的参考模板的长度L确定搜素窗长度。在一个优选 的例子中,搜索窗的长度的范围为[1/2L,2L]。

步骤407,根据预设的第一步长确定所述搜索范围内的多个搜索起点i;

具体的,在所述搜索范围内,由所述搜索范围的一侧端点开始,每步进 一个第一步长S1,都是一个新的搜索起点i。由此确定所述搜索范围内全部 的搜索起点i。

步骤408,根据预设的第二步长和所述搜索窗长度的范围确定多个搜索窗 长度j;

具体的,如前述步骤106所述,搜索窗长度j的范围为[1/2L,2L],则在 这个范围中每步进一个第二步长S2,都是一个确定的搜索窗长度j。即搜索 窗长度j为:1/2L,1/2L+S2,1/2L+2S2,1/2L+3S2,……,2L。

上述第一步长S1和第二步长S2分别可以根据需要进行设定,可以相同 或者不同。它们分别以帧为单位,例如可以设定为1帧、2帧、5帧等等。

步骤409,对所述搜索范围内的每个搜索起点i按照所述多个搜索窗长度 j分别进行搜索,从而根据一个搜索起点和一个搜索窗长度的组合(i,j), 获取一个相应的测试模板;

具体的,对确定的每一个搜索起点,都逐步改变搜索窗长度j,按照 j=1/2L,1/2L+S2,1/2L+2S2,1/2L+3S2,……,2L依次进行搜索。从而对于 每一个确定的(i,j),都能获得一个对应的测试模板。

当第一步长S1和第二步长S2都为1帧的时候,该搜索为逐点移动搜索。

当搜素不是逐点搜索的时候,为了提高搜索的精度,可以先进行一次粗 搜,得到一个大概位置(i0,j0),再在设置搜索起点i在[i0-S1,i0+S1]范围 内按照逐点移动得到的搜索起点,由在[j0-S2,j0+S2]范围内逐点改变的搜索 窗长度进行搜索。

步骤410,利用DTW算法,计算每一所述测试模板与当前选择的参考模板 的匹配距离得分;

其具体过程在上述实施例中已经进行了描述,此处不再赘述。

步骤411,识别与当前选择的参考模板匹配距离得分最小的测试模板,检 测该测试模板的语音能量平均值;

具体的,在每一测试模板与当前选择的参考模板匹配得到的匹配距离得 分中,识别出匹配距离得分最小的测试模板;

对该测试模板的语音能量平均值进行检测,用以避免测试模板的误识别。

步骤412,判断与当前选择的参考模板的匹配距离得分最小的测试模板的 语音能量平均值是否低于第二门限值;

具体的,当该测试模板的语音能量平均值低于第二门限值时,执行步骤 414;否则,执行步骤413。

步骤413,记录所述与当前选择的参考模板的匹配距离得分最小的测试模 板的搜索窗的起点和终点,并记录该测试模板与当前选择的参考模板的最小 的匹配距离得分;

具体的,对与当前选择的参考模板的匹配距离得分最小的测试模板的搜 索窗的起始位置的帧号和终止位置的帧号分别进行记录,并且,将基于当前 选择的参考模板的最小的匹配距离得分也进行记录。

步骤414,检测参考模板库,识别所述参考模板库中是否还有其它未经选 择的参考模板;

当所述参考模板库中还包括其他未经选择的参考模板时,执行步骤415, 当所述参考模板库中没有其他未经选择的参考模板时,执行步骤416。

步骤415,从参考模板库中未经选择的参考模板中选择下一个参考模板;

随后,返回继续执行上述步骤406。

步骤416,从记录的与各个选择的参考模板的匹配距离得分最小的测试模 板中选择匹配距离得分最小的测试模板,将所述选择的测试模板的搜索窗的 起点和终点作为孤立词语音的端点。

需要说明的是,如果所述参考模板库中只包括一个参考模板,并且与该 参考模板的匹配距离得分最小的测试模板的语音能量平均值不低于第二门限 值,则将与这一个参考模板的匹配距离得分最小的测试模板的搜索窗的起点 和终点作为孤立语音词的端点。

但如果与该参考模板的匹配距离得分最小的测试模板的语音能量平均值 低于第二门限值时,则认为没有识别到有效语音数据,退出离线语音端点检 测。

本发明实施例的基于动态时间归整算法的离线语音端点检测的方法,通 过提取语音数据的特征参数和语音能量值,并获取具有最大的语音能量值的 语音数据帧;依次选择参考模板,根据所选参考模板的长度和语音数据帧, 确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围,进而对每个搜 索起点按照多个搜索窗长度分别进行搜索,从而获取多个相应的测试模板; 利用DTW算法,计算每一测试模板与所选参考模板的匹配距离得分;识别其 中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。 通过本发明实施例提供的方法,能够准确有效的对孤立词的语音端点进行检 测。

相应的,本发明实施例还提供了一种基于动态时间归整算法的离线语音 端点检测的装置,用以实现上述实施例一提供的方法。

图5为本发明实施例提供的基于动态时间归整算法的离线语音端点检测 的装置,包括:

采集单元501,用于获取多帧连续的语音数据;

数字化处理单元502,用于提取每帧语音数据的特征参数和语音能量值;

第一获取单元503,用于获取所述多帧的语音数据中具有最大的语音能量 值的语音数据帧;

第二获取单元504,用于依次从提供的参考模板库中选择一个参考模板直 到所述参考模板库中的所有参考模板都被选择过;其中,所述参考模板是对 参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列;

处理单元505,用于根据具有最大的语音能量值的语音数据帧、以及当前 选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长 度的范围,在确定的搜索范围内按照第一搜索步长逐步改变搜索起点,在每 个搜索起点按照第二搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗 长度的每个组合获取一个测试模板,利用动态时间归整算法计算每个测试模 板与所述当前选择的参考模板的匹配距离得分,记录与当前选择的参考模板 的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距 离得分;

其中,所述特征参数包括参考特征矢量,所述参考特征矢量具体包括: 梅尔频率倒谱系数MFCC或线性预测系数LPC;利用动态时间归整算法计算每 个测试模板与所述当前选择的参考模板的匹配距离得分可以具体为:利用动 态时间归整算法,对每个所述测试模板中每一帧对应的参考特征矢量,与所 述选择的参考模板中相应帧对应的参考特征矢量进行特征匹配,计算得到所 述匹配距离得分。

端点识别单元506,用于从记录的与各个选择的参考模板的匹配距离得分 最小的测试模板中选择匹配距离得分最小的测试模板,将所述选择的测试模 板的搜索窗的起点和终点作为孤立词语音的端点。

可选的,所述装置还包括:

第一判断单元507,用于判断所述最大的语音能量值是否低于第一门限 值;

如果是,则直接结束此次离线语音端点检测;

如果否,则继续进行所述离线语音端点检测。

可选的,所述装置还包括:

第二判断单元508,用于判断与当前选择的参考模板的匹配距离得分最小 的测试模板的语音能量平均值是否低于第二门限值;

如果是,则不跳过后续的记录与当前选择的参考模板的匹配距离得分最 小的测试模板及基于当前选择的参考模板的最小的匹配距离得分,并选择下 一参考模板以确定新的测试模板;

如果否,则进行后续的记录与当前选择的参考模板的匹配距离得分最小 的测试模板及基于当前选择的参考模板的最小的匹配距离得分。

进一步的,所述第一搜索步长为n帧,第二搜索步长为m帧,所述n、m 为分别为大于1的整数,处理单元505所执行的根据搜索起点和搜索窗长度 的每个组合获取一个测试模板的过程可以具体为:

确定与当前选择的参考模板的匹配距离得分最小的测试模板;

基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精细搜 索范围,基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确定精 细搜索窗长度的范围;

在确定的精细搜索范围内按照第三搜索步长逐步改变搜索起点,在每个 搜索起点按照第四搜索步长逐步改变搜索窗长度,根据搜索起点和搜索窗长 度的每个组合获取一个测试模板,利用动态时间归整算法计算每个测试模板 与所述当前选择的参考模板的匹配距离得分;其中所述第三搜索步长小于第 一搜索步长,所述第四搜索步长小于第二搜索步长。

本发明实施例提供的基于动态时间归整算法的离线语音端点检测的装 置,通过提取语音数据的特征参数和语音能量值,并获取具有最大的语音能 量值的语音数据帧;依次选择参考模板,根据所选参考模板的长度和语音数 据帧,确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围,进而对 每个搜索起点按照多个搜索窗长度分别进行搜索,从而获取多个相应的测试 模板;利用DTW算法,计算每一测试模板与所选参考模板的匹配距离得分; 识别其中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音 端点。通过本发明实施例提供的方法,能够准确有效的对孤立词的语音端点 进行检测。

本发明上述各实施例提供的基于动态时间归整算法的离线语音端点检测 的方法和装置,可以应用于蓝牙耳机、智能移动终端、平板电脑等设备中。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的 各示例的单元及算法步骤,能够以电子硬件来实现,在上述说明中已经按照 功能一般性地描述了各示例的组成及步骤。对每个特定的应用来使用不同方 法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。 具体地,所述运算和控制部分都可以通过逻辑硬件实现,其可以是使用集成 电路工艺制造出来的逻辑集成电路,本实施例对此不作限定。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理 器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、 寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式 的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而 已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做 的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号