基于不同语义层级先验信息的单通道语音增强方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在实际生活中，语音信号总是不可避免的受到背景噪声的干扰，进而影响人与人、人与机器之间的正常交流。因此，开展从背景噪声中分离出纯净语音的语音增强技术相关研究就显得尤为重要。经过数十年的发展，单通道和多通道语音增强技术均取得了重大进展。其中，单通道语音增强技术由于具有部署简单、对设备要求低等优点，因而受到企业和研究者们的广泛关注。单通道语音增强作为一个欠定问题，通常需要引入额外的先验信息才能使其求解成为可能。然而，目前主流的有监督增强方法则通过最小化重构误差的方式，来使模型隐含的学习语音信号中不同于背景噪声的时频特点，而缺少对纯净语音数据中先验信息的有效提取和利用，从而使增强后的语音因缺乏先验信息的约束而存在信号畸变、频谱过平滑等问题，进而影响人的听感质量和机器的识别准确率。　　针对以上问题，本文重点研究对语音不同语义层级上的先验信息进行提取，并将其应用于单通道语音增强任务中的方法，以提高增强性能。分别从音素级、谱特征级和信号级先验信息等三个方面展开研究。论文主要研究内容与创新工作如下:　　(1)在利用音素级先验信息方面，通过对音素类别的后验概率分布进行建模，来提取音素类别中所蕴含的语义先验信息。分别研究两种对音素类别后验概率分布建模与利用的方式。一是利用语音识别中的声学模型来建模，而后将含噪语音的音素后验概率分布图作为增强模型的条件输入，以限制增强模型参数的可行解空间。二是设计音素感知网络将语音增强和音素类别的后验概率估计联合学习、交替进行，进而使增强后的语音特征能够最大化对应音素类别的后验概率，从而提出基于音素类别语义先验信息的音素感知网络增强方法。实验结果表明，引入高语义层级的音素类别先验信息，能有效提高增强后语音的识别准确率、可懂度和听感质量。　　⑵在利用谱特征级先验信息方面，通过对频谱特征段的先验概率分布进行建模，来提取纯净语音特征所具有的时频相关性这一先验信息。通过纯净语音特征段生成器和判别器构成的对抗过程，使判别器能够对纯净语音特征段的先验概率分布建模；同时，在增强模型和判别器构成的另一对抗过程中，将增强后的声学特征输入到判别器中以判断其是否纯净。经过这种双重对抗过程，判别器能够学习到纯净语音谱特征的时频相关性，进而用来约束增强模型，使其能预测出与这种相关性一致的频谱特征，从而提出基于谱特征时频相关先验信息的双重对抗网络增强方法。实验结果表明，引入较高语义层级的谱特征先验信息，能够有效提升增强后语音的识别率。　　(3)在利用信号级的先验信息方面，以最大似然准则为目标，通过训练可逆流式网络，来对整个语音波形在给定声学特征下的条件概率分布进行建模，从而提取波形采样点间所具有的时域相关性这一先验信息；同时，以最小化重构损失为目标，通过训练降噪自编码器，来重构纯净语音特征；随后，将重构出的声学特征作为条件输入到训练好的归一化流式网络中，以生成增强后的语音波形，从而提出基于信号时域相关先验信息的可逆流式网络增强方法。另外，为减少降噪自编码器输出与可逆流式网络所要求输入之间的不匹配，提出将两者视为一个整体进行联合优化的训练方法。实验结果表明，引入低语义层级的信号时域相关先验信息，能够进一步提升增强后语音信号的可懂度和感知质量。　　(4)在利用信号级的先验信息方面，还从另一个角度出发，通过学习采样点间的时序依赖关系，来对语音波形的联合概率分布进行建模，从而提取语音信号所具有的时序依赖性这一先验信息；此外，又引入自监督的噪声分类器，通过对抗多任务训练的方式，来减少噪声对降噪自编码器中间表示的影响，从而提出基于信号时序依赖先验信息的自回归式网络增强方法。实验结果表明，引入语音信号时序依赖先验信息，能够使增强后的语音获得更高的可懂度和感知质量；使用大规模的训练数据以及自回归的建模方式，能够提高增强模型的说话人泛化性，而自监督的对抗多任务训练则能够带来更好的噪声泛化性。

著录项

作者
杜志浩;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位博士
导师姓名韩纪庆;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
单通道语音增强,先验信息,语义层级,概率分布,神经网络;

相似文献

中文文献
外文文献
专利

1. 基于信息熵的先验信息加权融合方法研究 [J] . 唐俊 ,张明清 . 微计算机信息 . 2009,第018期
2. 基于不同层级管理者的信息系统成功模型——一个探索性的多案例研究 [J] . 王长林 . 中原工学院学报 . 2015,第005期
3. 不同层级公允价值信息的决策有用性研究——基于我国A股金融业的经验分析 [J] . 邵莉 ,吴俊英 . 西部论坛 . 2012,第003期
4. 不同层级公允价值信息的决策有用性研究——基于我国A股金融业的经验分析 [J] . 邵莉 ,吴俊英 . 西部论坛 . 2012,第003期
5. 基于先验信息的产品质量安全多阶段抽样方法研究 [J] . 朱建明 ,刘卓军 ,孙军红 . 中国安全生产科学技术 . 2016,第002期
6. 基于非因果先验信噪比估计的语音增强算法研究 [C] . WANG Xuzhen ,王旭贞 ,YING Na . 浙江省信号处理学会2014学术年会 . 2014
7. 基于生成对抗网络的单通道语音增强方法研究 [A] . 周尧风 . 2020

基于不同语义层级先验信息的单通道语音增强方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅