首页> 中国专利> 一种汉语耳语音的基频估计方法

一种汉语耳语音的基频估计方法

摘要

本发明公开了一种汉语耳语音的基频估计方法,具体步骤包括:建立一个语料一致的耳语音和正常语音数据库;分别提取耳语音的LPCC参数L

著录项

  • 公开/公告号CN104376850A

    专利类型发明专利

  • 公开/公告日2015-02-25

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201410705012.4

  • 发明设计人 陈雪勤;刘正;赵鹤鸣;俞一彪;

    申请日2014-11-28

  • 分类号G10L25/24;G10L25/78;G10L15/06;

  • 代理机构苏州创元专利商标事务所有限公司;

  • 代理人陶海锋

  • 地址 215137 江苏省苏州市相城区济学路8号

  • 入库时间 2023-12-17 04:14:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-21

    授权

    授权

  • 2015-03-25

    实质审查的生效 IPC(主分类):G10L25/24 申请日:20141128

    实质审查的生效

  • 2015-02-25

    公开

    公开

说明书

技术领域

本发明涉及一种语音信号处理技术,具体涉及一种汉语耳语音的基频估计方法。

背景技术

汉语是一种声调语言,说话人的语义、情感主要通过声调来表达。而耳语发音时声带不振动,也就失去了声调最为重要的载体——基音频率,因此关于耳语音是否有声调,以及如何感知其声调一度成为研究的热点。耳语声调感知的研究对于耳语音的处理如增强、识别等具有重要意义。1972年,Abramson对耳语声调总结了两个相反的观点:第一种观点的代表人物是Panconcelli-calzia, 认为对于有声调语言,连续的耳语音根据上下文可以理解,而孤立字是不可理解的;第二种观点的代表人物是Giet,认为耳语的声调信息被其他非基频特征所替代,例如空气流的增加或降低, 所以耳语音中依然保留有声调信息。第二种观点的支持者们为了能够更好的感知耳语的声调,采用主观视听和客观测试的手段进行耳语声调感知,通过主、客观实验证明了耳语音声调是可感知的。

在传统的语音分析系统中,往往认为语音的激励和声道系统是相互独立的,但是Assmann在他的研究中指出语音的激励和声道信息存在制约关系,只有两者谐和,才会产生自然悦耳的音色。实验是这样设计的,分别提取自然语音的基频和共振峰参数,当其中一组参数改变时,另一组保持不变,请参与测试的听众对合成语音进行评价,选出听起来最自然的语音。实验结果表明人们选出的最自然的声音,其基频与共振峰的组合是最接近于原来的语音的。表明激励和声道之间确实存在着约束关系。这提示我们,原本因基频信息缺失而不能解释的耳语音声调问题可以用声道参数来解释,声调信息可以隐藏在声道参数中。

发明内容

本发明的发明目的是提供一种汉语耳语音的基频估计方法,能够解决汉语耳语音由于基频信息缺失带来的困难。

为达到上述发明目的,本发明采用的技术方案是:一种汉语耳语音的基频估计方法,包括如下步骤:

(1)建立一个语料一致的耳语音和正常语音数据库,使得数据库中,耳语音和正常语音的说话人、语音内容、语序完全一致;

(2)分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频参数F0,并按照Lw和Ln进行动态时间规整对齐;

(3)将正常语音的F0在100~300Hz之间按照5Hz一个间隔划分,共产生40个区间;

(4)将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中,将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该区间中所有耳语音线性预测倒谱矢量与正常语音F0参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数,共40个估计函数;

(5)提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数估计耳语音的F0值。

由于上述技术方案运用,本发明与现有技术相比具有下列优点:

本发明通过建立耳语音和正常语音数据库,再提取耳语音的LPCC参数、正常语音的LPCC参数和F0参数,并对耳语音的LPCC参数和正常语音的LPCC参数进行对齐,将正常语音的FO参数等间隔划分区间,将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中,将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该区间中所有耳语音线性预测倒谱矢量与正常语音F0参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数,共40个估计函数,提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数实现对耳语音的F0值的估计,能够有效解决汉语耳语音由于基频信息缺失带来的困难。

附图说明

图1是实施例一中本发明的基频估计方法的流程图。

图2是实施例二中采用                                                模型估计的基频轨迹与目标基频轨迹图谱。

图3是实施例二中采用模型估计的基频轨迹与目标基频轨迹图谱。

具体实施方式

下面结合附图及实施例对本发明作进一步描述:

实施例一:参见图1所示,一种汉语耳语音的基频估计方法,包括如下步骤:

(1)建立一个语料一致的耳语音和正常语音数据库,使得数据库中,耳语音和正常语音的说话人、语音内容、语序完全一致;

(2)分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频参数F0,并按照Lw和Ln进行动态时间规整(DTW)对齐;

(3)将正常语音的F0在100~300Hz之间按照5Hz一个间隔划分,共产生40个区间;

(4)将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中,将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该区间中所有耳语音线性预测倒谱矢量与正常语音F0参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数,共40个估计函数;

(5)提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数估计耳语音的F0值。

实施例二:选取80个说话人参与录音,其中包括40名男性和40名女性,年龄范围从儿童到老人,分布较均衡。录音环境安静,话筒为手持式话筒,采样率为16KHz,量化位为16bits。为保证儿童能够顺利参与录音,录音文本采集自小学语文课本,包含了汉语21个声母与35个韵母组合成的所有汉语有声调音节,语料内容经过筛选保证音素分布均衡。

每一个说话人将相同的语料分别用耳语音和正常语音发音一遍。由于耳语音发音的特殊性,难免存在发音方式不正确的情况,因此,所有耳语音的语料数据都经过主观频谱观察确保没有基频轨迹。不符合的地方被标注出来,经重新补录后插入语料集中。

采用STRAIGHT工具包提取语音的基频与线性预测倒谱参数(LPCC),LPCC阶数为P=24,帧长25ms,帧移10ms。

基频信息仅存在于浊音部分,提取正常语音浊音段的LPCC和基频参数同时提取耳语音相应音段的LPCC特征矢量。考虑耳语音的语速比正常语音的语速要慢,因此依据正常语音和耳语音的LPCC参数进行DTW对齐,然后保留对齐后的正常语音的F0与耳语音的LPCC参数,构成联合矢量。

高斯混合模型参数由均值向量、协方差矩阵和混合权重组成,表示为。阶高斯混合模型(GMM)可表示为(1)式:  

             (1)

其中,是高斯分布的概率密度函数,是维特征矢量,是均值向量,是协方差矩阵,是各个高斯概率密度函数的混合权重。

首先将每一区间内耳语音LPCC参数和正常语音F0参数构成联合矢量。然后由联合矢量数据经期望最大算法估计得到 和。在已知的条件下,特征矢量属于第个分量的后验概率为:

                (2)

在转换阶段,使用联合高斯分布的条件期望预测的方法来估计转换函数,其一般式可根据高斯分布模型表示为:

                (3)

其中是后验概率,Q是GMM模型的阶数,是转换矩阵,是第q类的贝叶斯矢量具体表达式如式(4)和(5)所示:

                     (4)

                   (5)

与一般基于GMM转换模型不同的是,本转换建立的是一个多对一的映射关系,即将P 维的LPCC特征矢量转换为一维的F0参数。为了解决这一问题,根据已有的经验:相比后面的阶数,LPCC的前6阶参数对于声调信息有更大的贡献,因此,对于前6阶LPCC参数进行了加权运算:

,                   (6)

为了分析该方法的有效性,设计了两组实验进行验证。第一组实验是选取一个说话人的语料按照上述方法进行分区间建立一组与说话人有关的模型,该模型由说话人确定,语料相对少,因此模型的高斯分量数也相应少,我们将该模型简称为,而该模型的预测结果着重关注声调轨迹。第二组实验是所有的语料库按照上述方法进行分区间建立一组与说话人无关的模型。由于说话人数量较大,语料数量大,因此所选的高斯分量数也较大,我们将该模型简称为。

定义为某一帧的目标基频值,为某一帧的基频估计值,定义为该帧的基频误差。如果,可称为GPE(Gross Pitch Error), GPE常以百分比的形式出现,如(7)式所示:

                      (7)

表1是分别显示了采用和两种模型估计基频的GPE值。第一行数字1到9分别表示9位不同的说话人,这9位说话人数据是从上述数据库中随机选取;第二行是采用模型得到的数据,也就是说每一位说话人自己的数据进行分区间建模构成估计函数;第三行是模型得到的数据,由所有说话人的数据共同分区间建模构成估计函数。由表1可见,与说话人相关的模型得到的基频估计值误差在5%到10%之间,而由与说话人无关的模型得到的基频估计值误差在15%附近。

表1  采用和两种模型估计基频的GPE值

图2 和图3分别显示了采用和两种模型估计的基频轨迹与目标基频轨迹的示例。图2采用模型,即为某一特定说话人的基频估计,图3采用模型,即与说话人无关的模型。虽然图3的基频估计有着明显的误差,但在基频轨迹的趋势方面有着较好的一致性,这在耳语音基频估计中是极为关键的信息。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号