首页> 中文学位 >基于不同语义层级先验信息的单通道语音增强方法研究
【6h】

基于不同语义层级先验信息的单通道语音增强方法研究

代理获取

目录

第 1章绪论

1 .1课题研究背景及意义

1 .2国内外研究现状及分析

1 .3目前存在的主要问题

1 .4主要研究内容

第2章基于音素类别先验信息的音素感知网络增强方法

2 .1引言

2 .2有监督增强方法

2 .3基于音素类别后验概率分布图的音素感知网络增强方法

2 .4实验设置与评价指标

2 .5实验结果与分析

2 .6本章小结

第3章基于谱特征时频相关先验信息的双重对抗网络增强方法

3 .1引言

3 .2双重对抗网络增强方法

3 .3实验设置及评价指标

3 .4实验结果及讨论

3 .5本章小结

第4章基于信号时域相关先验信息的可逆流式网络增强方法

4 .1引言

4 .2基于信号时域相关先验信息的可逆流式网络增强方法

4 .3基于多目标损失的联合训练

4 .4实验设置及评价指标

4 .5实验结果及讨论

4 .6本章小结

第5章基于信号时序依赖先验信息的自回归式网络增强方法

5 .1引言

5 .2基于时序依赖先验信息的自回归式网络增强方法

5 .3基于自监督对抗多任务训练的噪声消除

5 .4实验设置及评价指标

5 .5实验结果及讨论

5 .6本章小结

结论

参考文献

攻读博士学位期间发表的论文及其他成果

声明

致谢

个人简历

展开▼

摘要

在实际生活中,语音信号总是不可避免的受到背景噪声的干扰,进而影响人与人、人与机器之间的正常交流。因此,开展从背景噪声中分离出纯净语音的语音增强技术相关研究就显得尤为重要。经过数十年的发展,单通道和多通道语音增强技术均取得了重大进展。其中,单通道语音增强技术由于具有部署简单、对设备要求低等优点,因而受到企业和研究者们的广泛关注。单通道语音增强作为一个欠定问题,通常需要引入额外的先验信息才能使其求解成为可能。然而,目前主流的有监督增强方法则通过最小化重构误差的方式,来使模型隐含的学习语音信号中不同于背景噪声的时频特点,而缺少对纯净语音数据中先验信息的有效提取和利用,从而使增强后的语音因缺乏先验信息的约束而存在信号畸变、频谱过平滑等问题,进而影响人的听感质量和机器的识别准确率。  针对以上问题,本文重点研究对语音不同语义层级上的先验信息进行提取,并将其应用于单通道语音增强任务中的方法,以提高增强性能。分别从音素级、谱特征级和信号级先验信息等三个方面展开研究。论文主要研究内容与创新工作如下:  (1)在利用音素级先验信息方面,通过对音素类别的后验概率分布进行建模,来提取音素类别中所蕴含的语义先验信息。分别研究两种对音素类别后验概率分布建模与利用的方式。一是利用语音识别中的声学模型来建模,而后将含噪语音的音素后验概率分布图作为增强模型的条件输入,以限制增强模型参数的可行解空间。二是设计音素感知网络将语音增强和音素类别的后验概率估计联合学习、交替进行,进而使增强后的语音特征能够最大化对应音素类别的后验概率,从而提出基于音素类别语义先验信息的音素感知网络增强方法。实验结果表明,引入高语义层级的音素类别先验信息,能有效提高增强后语音的识别准确率、可懂度和听感质量。  ⑵在利用谱特征级先验信息方面,通过对频谱特征段的先验概率分布进行建模,来提取纯净语音特征所具有的时频相关性这一先验信息。通过纯净语音特征段生成器和判别器构成的对抗过程,使判别器能够对纯净语音特征段的先验概率分布建模;同时,在增强模型和判别器构成的另一对抗过程中,将增强后的声学特征输入到判别器中以判断其是否纯净。经过这种双重对抗过程,判别器能够学习到纯净语音谱特征的时频相关性,进而用来约束增强模型,使其能预测出与这种相关性一致的频谱特征,从而提出基于谱特征时频相关先验信息的双重对抗网络增强方法。实验结果表明,引入较高语义层级的谱特征先验信息,能够有效提升增强后语音的识别率。  (3)在利用信号级的先验信息方面,以最大似然准则为目标,通过训练可逆流式网络,来对整个语音波形在给定声学特征下的条件概率分布进行建模,从而提取波形采样点间所具有的时域相关性这一先验信息;同时,以最小化重构损失为目标,通过训练降噪自编码器,来重构纯净语音特征;随后,将重构出的声学特征作为条件输入到训练好的归一化流式网络中,以生成增强后的语音波形,从而提出基于信号时域相关先验信息的可逆流式网络增强方法。另外,为减少降噪自编码器输出与可逆流式网络所要求输入之间的不匹配,提出将两者视为一个整体进行联合优化的训练方法。实验结果表明,引入低语义层级的信号时域相关先验信息,能够进一步提升增强后语音信号的可懂度和感知质量。  (4)在利用信号级的先验信息方面,还从另一个角度出发,通过学习采样点间的时序依赖关系,来对语音波形的联合概率分布进行建模,从而提取语音信号所具有的时序依赖性这一先验信息;此外,又引入自监督的噪声分类器,通过对抗多任务训练的方式,来减少噪声对降噪自编码器中间表示的影响,从而提出基于信号时序依赖先验信息的自回归式网络增强方法。实验结果表明,引入语音信号时序依赖先验信息,能够使增强后的语音获得更高的可懂度和感知质量;使用大规模的训练数据以及自回归的建模方式,能够提高增强模型的说话人泛化性,而自监督的对抗多任务训练则能够带来更好的噪声泛化性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号