首页> 中国专利> 基于统计模型的语音端点检测方法及装置

基于统计模型的语音端点检测方法及装置

摘要

本发明提出一种基于统计模型的语音端点检测方法及装置,其中,该方法包括:接收输入的待检测语音信号;分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生成待检测语音信号的第二语音特征信息;根据第二语音特征信息和声学模型生成待检测语音信号的识别结果;根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点;以及计算待检测语音信号的置信度信息,并根据置信度信息对语音端点进行调整。本发明实施例的基于统计模型的语音端点检测方法,准确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别的性能。

著录项

  • 公开/公告号CN105261357A

    专利类型发明专利

  • 公开/公告日2016-01-20

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201510587721.1

  • 发明设计人 贺利强;潘复平;

    申请日2015-09-15

  • 分类号G10L15/05(20130101);G10L21/02(20130101);G10L15/04(20130101);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人宋合成

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2023-12-18 13:52:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-11-23

    授权

    授权

  • 2016-02-17

    实质审查的生效 IPC(主分类):G10L15/05 申请日:20150915

    实质审查的生效

  • 2016-01-20

    公开

    公开

说明书

技术领域

本发明涉及语音识别技术领域,特别涉及一种基于统计模型的语音端点检测方法及装 置。

背景技术

随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中, 语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语 音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。如果 端点切分出现错误,则会导致漏识别或者误识别等情况的发生,进而可导致语音识别结果 不准确。

目前,传统的语音端点检测方法主要是获取时域或频域能量,并与给定的阈值进行比 较,从而判断出语音的起始点和终止点。端点检测的一般过程为:1、分帧提取语音特征, 计算时域或频域能量;2、将能量值与阈值比较,判断语音起始点;3、若找到语音起始点, 则继续向后取能量值与阈值比较,判断语音是否结束;4、若找到语音结束点,则终止查找, 返回结果。

然而,在实现本发明的过程中发明人发现上述语音端点检测算法至少存在以下问题: (1)上述语音端点检测方法适用于平稳噪声,且高信噪比的环境,但在非平稳噪声、较低 信噪比环境下,上述语音端点检测方法的检测效果不好,所检测的语音端点的准确率较低; (2)对于不同信噪比下的语音信号,很难选取合适的阈值,无法保证安静环境下的检测精 度和噪声环境下的检测精度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一 个目的在于提出一种基于统计模型的语音端点检测方法,该方法通过置信度信息对初步检 测出的语音端点进行调整的端点检测方式,准确定位了待检测语音信号的语音端点,提高 了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。

本发明的第二个目的在于提出一种基于统计模型的语音端点检测装置。

为实现上述目的,本发明第一方面实施例的基于统计模型的语音端点检测方法,包括: 接收输入的待检测语音信号;分帧提取所述待检测语音信号的第一语音特征信息,并对所 述第一语音特征信息进行抗噪处理,以生成所述待检测语音信号的第二语音特征信息;根 据所述第二语音特征信息和声学模型生成所述待检测语音信号的识别结果;根据所述识别 结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点;以及计算所述待检 测语音信号的置信度信息,并根据所述置信度信息对所述语音端点进行调整。

本发明实施例的基于统计模型的语音端点检测方法,接收输入的待检测语音信号,分 帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生 成待检测语音信号的第二语音特征信息,根据第二语音特征信息和声学模型生成待检测语 音信号的识别结果,根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音 端点;以及计算待检测语音信号的置信度信息,并根据置信度信息对语音端点进行调整。 由此,提供了一种通过置信度信息对初步检测出的语音端点进行调整的端点检测方式,准 确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识 别的准确性,提高语音识别系统的性能。

为实现上述目的,本发明第二方面实施例的基于统计模型的语音端点检测装置,包括: 接收模块,用于接收输入的待检测语音信号;抗噪模块,用于分帧提取所述待检测语音信 号的第一语音特征信息,并对所述第一语音特征信息进行抗噪处理,以生成所述待检测语 音信号的第二语音特征信息;生成模块,用于根据所述第二语音特征信息和声学模型生成 所述待检测语音信号的识别结果;识别模块,用于根据所述识别结果和预设语音端点检测 算法初步检测出所述待检测语音信号的语音端点;计算模块,用于计算所述待检测语音信 号的置信度信息;调整模块,用于根据所述置信度信息对所述语音端点进行调整。

本发明实施例的基于统计模型的语音端点检测装置,通过接收模块接收输入的待检 测语音信号,抗噪模块分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征 信息进行抗噪处理,以生成待检测语音信号的第二语音特征信息,生成模块根据第二语音 特征信息和声学模型生成待检测语音信号的声学识别结果,识别模块根据声学识别结果和 预设静音检测算法初步检测出待检测语音信号的语音端点,计算模块计算待检测语音信号 的置信度信息,调整模块根据置信度信息对语音端点进行调整。由此,提供了一种通过置 信度信息对初步检测出的语音端点进行调整的端点检测方式,准确定位了待检测语音信号 的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识 别系统的性能。

附图说明

图1是根据本发明一个实施例的基于统计模型的语音端点检测方法的流程图。

图2是待检测语音信号的最优词序列的示例图。

图3是根据本发明一个实施例的基于统计模型的语音端点检测装置的结构示意图。

图4是根据本发明另一个实施例的基于统计模型的语音端点检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于统计模型的语音端点检测方法及装置。

图1是根据本发明一个实施例的基于统计模型的语音端点检测方法的流程图。

如图1所示,该基于统计模型的语音端点检测方法包括:

S101,接收输入的待检测语音信号。

S102,分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗 噪处理,以生成待检测语音信号的第二语音特征信息。

具体地,在接收到待检测语音信号后,可通过现有技术对待检测语音信号进行分帧处 理,并提取每帧待检测语音信号的第一语音特征信息。

其中,上述第一语音特征信息包括梅尔频率倒谱系数(MelFrequencyCepstrum Coefficient,简称MFCC),以及MFCC的一阶差分和二阶差分等信息。

在提取每帧待检测语音信号的第一语音特征信息后,为了减少噪声对后续识别的影响, 可在特征层面对第一语音特征信息进行抗噪声处理,具体而言,可通过直方图变换算法对 第一语音特征信息进行抗噪声处理。

其中,直方图变换算法的基本原理:假设原特征矢量为x,其概率密度函数为Px(x), 累积分布函数为Cx(x);变换后的特征矢量为y,其参考概率密度函数为Pref(y),累积分布 函数为Cref(y),且有y=T(x),特征参数的变换函数应使得Cx(x)=Cref(y)=Cref(T(x)),由 此可得y=T(x)=Cref-1(Cx(x)).

在对第一语音特征信息进行抗噪处理的过程中,所使用的累积分布函数十分重要。然 而,由于传统的直方图均衡化方法用于特征层处理时,存在以下技术问题:a)准确计算累 积分布函数需要足够的特征样本数据,而实际的测试语音数据,语音段的长度并不能保证 上述需求;b)实际的环境噪声非常复杂,并不能保证训练语音数据和测试语音数据特征分 布的一致性。

为了弥补传统直方图均衡化算法的不足,在通过直方图均衡化算法对第一语音特征信 息进行抗噪处理之前,可预先保存不同噪声环境和不同信噪比环境下的语音特征数据。

具体地,可先计算待检测语音信号的信噪比,然后根据信噪比从预先保存的不同信噪 比语音特征数据的对应关系中获得在该信噪比下的语音特征数据,并根据所获得的语音特 征数据确定累积分布函数,以及通过该累积分布函数对第一语音特征信息进行抗噪处理, 以生成待检测语音信号的第二语音特征信息。

其中,需要理解的是,待检测语音信号的信噪比不同,所获得的语音特征数据不同, 对应所确定出的累积分布函数不同。并且,在特征层面对待检测语音信号的第一语音特征 信息进行变换过程中,累积分布函数随着待检测语音信号的变化而变化。

在本发明的一个实施例中,在生成待检测语音信号的第二语音特征信息后,为了减少 预先保存语音特征数据与测试数据特征分布的差异性,可使用第二语音特征信息对累积分 布函数进行更新。也就是说,在用户向语音端点检测系统中输入语音的过程中,该实施例 中的用于对语音进行抗噪处理的累积分布函数并不是固定的,而是根据语音的第二语音特 征信息不断更新的。

例如,在接收到用户输入的语音数据1后,假定确定与语音数据1对应的累积分布函 数为A,即处理语音数据1的第一语音特征信息的累积分布函数为A,通过累积分布函数 A对语音数据1的第一语音特征信息进行抗噪处理,以生成语音数据1的第二语音特征信 息,同时使用语音数据1的第二语音特征信息对累积分布函数进行更新,假定更新后的累 积分布函数为B,如果在接收到语音数据1之后又接收到语音数据2,通过累积分布函数B 对语音数据2的第一语音特征信息进行抗噪处理,以生成语音数据2的第二语音特征信息, 同时根据语音数据2的第二语音特征信息对累积分布函数进行更新,假定更新后的累积分 布函数为C。由此,对语音数据的语音特征信息进行的抗噪处理,有效缓解训练数据和测 试数据特征分布不一致的问题,增加语音数据中语音和非语音部分的区别性,进而提高后 续端点检测的准确性。

S103,根据第二语音特征信息和声学模型生成待检测语音信号的识别结果。

具体地,在生成第二语音特征信息后,基于声学模型计算每帧待检测语音信号在每个 建模单元上的似然值,然后通过动态规划算法,可以得到最优状态转移序列及其对应的词 序列,并将所得到的最优状态转移序列及其对应的词序列作为识别结果。

其中,建模单元为经音素决策树聚类后的三音子状态。基于声学模型,可以获得待检 测语音信号在每个建模单元上的状态输出概率,状态输出概率和状态转移概率用于计算路 径扩展时每条路径的累积似然值。其中,状态转移概率是声学模型中预先训练好的,状态 转移概率是进行路径扩展时状态与状态之间进行跳转的概率值。

为了提高声学识别的准确性和效率,可使用基于神经网络(DNN,DeepNeural Networks)的声学模型对第二语音特征信息进行识别。

其中,DNN声学模型是通过对大量语音数据进行训练所建立的。

S104,根据识别结果和静音检测算法初步检测出待检测语音信号的语音端点。

其中,上述静音检测算法可以包括但不限于基于识别结果最优词序列的静音检测算法。

在本发明的一个实施例中,根据识别结果和基于识别结果最优词序列的静音检测算法 初步检测出待检测语音信号的语音起始点和语音结束点的具体过程:

S11,根据识别结果确定当前时刻待检测语音信号的最优词序列,并检测当前时刻最优 词序列的尾部输出词是否为静音。

具体地,在获得待检测语音信号的识别结果后,根据输出词序列累积的似然值大小, 获得当前时刻待检测语音信号的最优词序列,其中,当前时刻待检测语音信号的最优词序 列的形式如图2所示,图2仅是最优词序列的一个示例,通过图2可以看出,输出词序列 由静音和语音组成。

例如,当前待检测语音为“我们”,在待检测语音前后均有静音,当前待检测语音对应 的输出词序列的形式为:静音->语音->语音->静音。

其中,需要说明的是,随着输入语音的增加,最优词序列随着累积似然值变化而不断 变化。

S12,若尾部输出词为静音,则记录在静音之前,且距离静音最近的输出词的结束时间 点T1。

S13,进一步检测结束时间点T1在后续M帧待检测语音输入后是否发生变化,若所述 结束时间点保持不变,则进入语音尾部静音检测的中间状态。

其中,M是为预设正整数。

具体地,在检测到结束时间点T1保持M帧语音数据输入没有发生变化,则进入语音 尾部静音检测的中间状态;

S14,检测当前状态是否处于中间状态,若处于中间状态,则计算结束时间点T1之后 静音的长度L,并进一步判断静音的长度L是否大于第一预设阈值,若大于,则静音检测 成功,并根据最优词序列确定待检测语音信号的语音起始点T0,以及将结束时间点T1作 为待检测语音信号的语音结束点。

其中,第一预设阈值是预先设置的,例如,第一预设阈值可以设置为600ms,即在判 断出尾部静音的长度L大于600ms后,可确定静音检测成功,此时,可根据最优词序列确 定待检测语音信号中的语音起始点,以及将结束时间点T1作为待检测语音信号的语音结束 点。

S15,若输出词的结束时间点T1,在静音检测成功之前发生变化,则重复执行步骤S11 至S14。

其中,需要说明的是,最优词序列中会有对应每个词持续时长的信息,每个词与多帧 语音信号对应,每个词对应的时长等于多帧待检测语音信号的时长之和。

S105,计算待检测语音信号的置信度信息,并根据置信度信息对语音端点进行调整。

在初步检测出待检测语音信号的语音起始点和语音结束点后,由于背景环境噪声的强 干扰会把部分环境噪声误识成语音(虚警),从而导致语音端点检测性能下降。为了提高语 音端点检测的准确性,可通过二遍置信度评估技术对初步检测出的语音端点进行调整。

具体地,可根据已计算出的建模单元的似然值、待检测语音信号的语音端点和待检测 语音信号的信噪比计算待检测语音信号的置信度信息。

具体而言,可计算语音起始点和语音结束点之间词序列的置信度信息,并根据置信度 信息对初步检测出的语音端点进行调整。

进一步而言,可先根据计算出的建模单元的似然值和待检测语音信号的语音端点计算 语音端点之间词序列的声学后验概率。

其中,计算语音端点之间的第k个词的声学后验概率的公式:

Pk(X)=Σt=0Tpt(mk|x)Σi=0Ipt(mi|x)/Tk(X)

其中Pk(X)为待检测语音信号中第k个词的声学后验概率,pt(mk|x)为第t帧时该词 对应建模单元的似然值,为第t帧时所有建模单元的似然值和,Tk(X)为该词 的持续时长。

在计算出声学后验概率后,可根据语音端点之间词序列的声学后验概率和信噪比计算 语音信号对应的置信度信息。

具体地,针对语音端点之间的每个词,可基于当前词的短时能量值Ek(X)和输入语音 的噪声能量评估值N(X),计算当前词的信噪比SNRk(X)=Ek(X)/N(X)。

在计算出当前词的信噪比后,可基于当前词的声学后验概率和信噪比,计算出当前词 的置信度CMk(X)=w*Pk(X)+(1-w)*SNRk(X),其中0≤w≤1,w为权重系数,w的取值 由声学后验概率和信噪比决定。

在计算出词序列的置信度后,可根据置信度信息对语音端点进行调整,具体地,可先 确定置信度得分最高的词,然后将置信度得分最高的词作为中心,逐步与相邻的词进行合 并,并计算每次合并后的词序列的平均置信度,直至计算出的平均置信度达到第二预设阈 值;以及在计算出的平均置信度达到第二预设阈值时,确定计算当前平均置信度的开始词 和结束词,并根据开始词的开始时间点对语音起始点进行调整,根据结束词的结束时间点 对语音结束点进行调整。

其中,计算平均置信度的公式为:

CM(X)=Σn=0Ntn(x)CMn(x)/Σn=0Ntn(x)

其中,tn(x)表示第n个词的持续时间长,CMn(x)表示第n个词的置信度,N表示本次 计算中词序列的总个数。

具体而言,可判断开始词的开始时间点与语音起始点是否相同,若不同,则将开始词 的开始时间点作为待检测语音信号的语音起始点。

在对语音起始点进行调整的过程中,还可以判断结束词的结束时间点与语音结束点是 否相同,若不同,则将结束词的结束时间点作为待检测语音信号的语音结束点。

例如,对于一个待检测语音信号,假定根据识别结果和基于识别结果最优词序列的静 音检测算法初步检测出待检测语音信号的语音起始点为A,语音结束时间点(语音结束点) 为B,若在平均置信度达到第二预设阈值时,可将没有被合并的词重新判定为噪声,假定 在平均置信度达到第二预设阈值时,确定出计算该平均置信度的开始词为X,结束词为Y, 此时,可获取该开始词对应的起始时间点A1,结束词对应的结束时间点B1,并判断起始 时间点A1与待检测语音信号的语音起始点A是否相同,若两者不同,则将起始时间点A1 作为待检测语音信号的语音起始点。同样地,可判断结束时间点B1与待检测语音信号的结 束时间点B是否相同,若两者不同,则将结束时间点B1作为待检测语音信号的结束时间 点。由此,通过置信度信息对初始识检测出的语音端点进行修正,从而提高了语音端点检 测的准确率,进而可改善语音识别的效果。

综上可以看出,该实施例提出了一种通过置信度信息对语音端点进行修正的端点检 测方式,该实施例的端点检测方法首先通过预设静音检测算法,以尽可能的找到待检测语 音信号的语音起始点和语音终止点,然后计算待检测语音信号的置信度信息,并根据所计 算的置信度信息对初步检测出的语音端点进行调整。由此,可提高语音端点检测的准确率, 进而可提高语音识别的准确性,提高语音识别系统的性能。

本发明实施例的基于统计模型的语音端点检测方法,接收输入的待检测语音信号,分 帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生 成待检测语音信号的第二语音特征信息,根据第二语音特征信息和声学模型生成待检测语 音信号的识别结果,根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音 端点;以及计算待检测语音信号的置信度信息,并根据置信度信息对语音端点进行调整。 由此,提供了一种通过置信度信息对初步检测出的语音端点进行调整的端点检测方式,准 确定位了待检测语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识 别的准确性,提高语音识别系统的性能。

为了实现上述实施例,本发明还提出一种基于统计模型的语音端点检测装置。

图3是根据本发明一个实施例的基于统计模型的语音端点检测装置的结构示意图。

如图3所示,该语音端点检测装置包括接收模块100、抗噪模块200、生成模块300、 识别模块400、计算模块500和调整模块600,其中:

接收模块100用于接收输入的待检测语音信号;抗噪模块200用于分帧提取待检测语 音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理,以生成待检测语音信 号的第二语音特征信息;生成模块300用于根据第二语音特征信息和声学模型生成待检测 语音信号的识别结果;识别模块400用于根据识别结果和预设静音检测算法初步检测出待 检测语音信号的语音端点;计算模块500用于计算待检测语音信号的置信度信息;调整模 块600用于根据置信度信息对语音端点进行调整。

其中,上述第一语音特征信息可以包括但不限于梅尔频率倒谱系数(MelFrequency CepstrumCoefficient,简称MFCC),以及MFCC的一阶差分和二阶差分等信息。

抗噪模块200具体用于:计算待检测语音信号的信噪比;根据信噪比从预先保存的不 同信噪比和语音特征数据的对应关系中获得在信噪比下的语音特征数据,并根据语音特征 数据确定累积分布函数;以及根据累积分布函数对第一语音特征信息进行变换,以生成待 检测语音信号的第二语音特征信息。

在生成模块300生成第二语音特征信息后,识别模块400基于声学模型计算每帧待检 测语音信号在每个建模单元上的似然值,然后通过动态规划算法,可以得到最优状态转移 序列及其对应的词序列,并将所得到的最优状态转移序列及其对应的词序列作为识别结果。

其中,建模单元为经音素决策树聚类后的三音子状态。基于声学模型,可以获得待检 测语音信号在每个建模单元上的状态输出概率,状态输出概率和状态转移概率用于计算路 径扩展时每条路径的累积似然值。其中,状态转移概率是声学模型中预先训练好的,状态 转移概率是进行路径扩展时状态与状态之间进行跳转的概率值。

另外,如图4所示,上述装置还可以包括更新模块700,该更新模块700用于根据第二 语音特征信息对累积分布函数进行更新。

具体而言,在提取每帧待检测语音信号的第一语音特征信息后,为了减少噪声对后续 识别的影响,抗噪模块200可在特征层面对第一语音特征信息进行抗噪声处理,具体而言, 可通过直方图变换算法对第一语音特征信息进行抗噪声处理。

为了弥补传统直方图均衡化算法的不足,在抗噪模块200通过直方图均衡化算法对第 一语音特征信息进行抗噪处理之前,端点检测装置中还可预先保存不同噪声环境和不同信 噪比环境下的语音特征数据的对应关系。

其中,需要理解的是,待检测语音信号的信噪比不同,所获得的语音特征数据不同, 对应所计算出的累积分布函数不同。并且,在特征层面对待检测语音信号的第一语音特征 信息进行变换过程中,累积分布函数随着待检测语音信号的变化而变化。

例如,在接收到用户输入的语音数据1后,假定抗噪模块200确定与语音数据1对应 的累积分布函数为A,即处理语音数据1的语音特征信息的累积分布函数为A,通过累积 分布函数A对语音数据1的第一语音特征信息进行抗噪处理,以生成语音数据1的第二语 音特征信息,然后更新模块600使用语音数据1的第二语音特征信息对累积分布函数进行 更新,假定更新后的累积分布函数为B,如果在接收到语音数据1之后又接收到语音数据2, 通过累积分布函数B对语音数据2的第一语音特征信息进行抗噪处理,以生成语音数据2 的第二语音特征信息,同时,更新模块700根据语音数据2的第二语音特征信息对累积分 布函数进行更新,假定更新后的累积分布函数为C。由此,对语音数据的语音特征信息进 行的抗噪处理,有效缓解训练数据和测试数据特征分布不一致的问题,增加语音数据中语 音和非语音部分的区别性,进而提高后续端点检测的准确性。

其中,上述预设静音检测算法包括但不限于识别结果最优词序列的静音检测算法。

具体地,识别模块400具体通过步骤S11至S15初步检测出待检测语音信号的语音端 点,其中:S11,根据识别结果确定当前时刻待检测语音信号的最优词序列,并检测最优词 序列的尾部输出词是否为静音;S12,若尾部输出词为静音,则记录在静音之前,且距离静 音最近的输出词的结束时间点;S13,进一步检测结束时间点在后续M帧待检测语音信号 输入后是否发生变化,若结束时间点保持不变,则进入语音尾部静音检测的中间状态,其 中,M是为预设正整数;S14,检测当前状态是否处于中间状态,若处于中间状态,则计算 结束时间点之后静音的长度L,并进一步判断静音的长度L是否大于第一预设阈值,若大 于,则静音检测成功,并根据最优词序列确定待检测语音信号的语音起始点,并将结束时 间点作为待检测语音信号的语音结束点;S15,若结束时间点在静音检测成功之前发生变化, 则重复执行步骤S11至S14。

具体地,计算模块500具体用于:根据声学识别结果、待检测语音信号的语音端点和 待检测语音信号的信噪比计算待检测语音信号的置信度信息。

具体而言,计算模块500可先计算语音端点之间的每个词的声学后验概率,并根据语 音端点之间的每帧每个词的声学后验概率和信噪比计算每个词对应的置信度信息。

其中,计算语音端点之间的第k个词的声学后验概率的公式:

Pk(X)=Σt=0Tpt(ms|x)Σi=0Ipt(mi|x)/Tk(X)

其中Pk(X)为待检测语音信号中第k个词的声学后验概率,pt(mk|x)为第t帧时该词 对应建模单元的似然值,为第t帧时所有建模单元的似然值和,Tk(X)为该词 的持续时长。

如图4所示,上述调整模块600可以包括第一确定子模块610、处理子模块620、第二 确定子模块630和调整子模块640,其中:

第一确定子模块610用于确定置信度得分最高的词,处理子模块620用于将置信度得 分最高的词作为中心,并逐步与相邻的词的置信度进行合并,并计算每次合并后的平均置 信度,直至计算出的平均置信度达到第二预设阈值;第二确定子模块630用于在计算出的 平均置信度达到第二预设阈值时,确定计算当前平均置信度的开始词和结束词;调整子模 块640用于根据开始词的开始时间点对语音起始点进行调整,根据结束词的结束时间点对 语音结束点进行调整。

具体而言,调整子模块640可判断开始词的开始时间点与语音起始点是否相同,若不 同,则将开始词的开始时间点作为待检测语音信号的语音起始点,以及判断结束词的结束 时间点与语音结束点是否相同,若不同,则将结束词的结束时间点作为待检测语音信号的 语音结束点。

需要说明的是,前述对基于统计模型的语音端点检测方法实施例的解释说明也适用于 该实施例的基于统计模型的语音端点检测装置,此处不再赘述。

本发明实施例的基于统计模型的语音端点检测装置,通过接收模块接收输入的待检 测语音信号,抗噪模块分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征 信息进行抗噪处理,以生成待检测语音信号的第二语音特征信息,生成模块根据第二语音 特征信息和声学模型生成待检测语音信号的声学识别结果,识别模块根据声学识别结果和 预设静音检测算法初步检测出待检测语音信号的语音端点,计算模块计算待检测语音信号 的置信度信息,调整模块根据置信度信息对语音端点进行调整。由此,提供了一种通过置 信度信息对初步检测出的语音端点进行调整的端点检测方式,准确定位了待检测语音信号 的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识 别系统的性能。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、 或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包 含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须 针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一 个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技 术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合 和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者 隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐 含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三 个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个 或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分, 并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序, 包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的 实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实 现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令 执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行 系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设 备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播 或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用 的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布 线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只 读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及 便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述 程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行 编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储 在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实 施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或 固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下 列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路 的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现 场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各 个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既 可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以 软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读 取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了 本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制, 本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号