基于生成式对抗网络的语音增强算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音增强技术在传统通信领域中，可用于增强语音信息的正确性，在新型智能电子设备中，可作为语音识别的前端处理技术，用于增强噪声环境中的语音识别功能。现有的语音增强算法有两种，传统的语音增强算法和基于神经网络的语音增强算法。前者只能在少数的噪声种类下改善语音质量，并且经常会产生多余的音乐噪声。而后者作为一种新方法，具有更高的语音增强性能，本文以神经网络算法为研究对象。　　随着神经网络的发展，生成式对抗网络在图片领域取得了优异成绩，基于生成式对抗网络(Generative Adversarial Network，GAN)的语音增强算法虽然能改善传统算法在多种噪声类型环境下的泛化能力，但是它在低信噪比下的性能仍然较差。本文基于此，为改善语音增强算法在低信噪比下的性能，在算法设计中创新地采用了带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络相结合的框架，提出了一种新的语音增强算法，即SEWGAN算法。本论文的主要研究工作分为以下两个部分。　　第一部分是SEWGAN算法的设计。在算法的整体框架中使用条件生成式对抗网络，目的是将带噪语音样本作为额外信息指示生成器产生对应的语音样本，由此解决了原始GAN生成的语音虽然足够清晰，但是内容却和输入的带噪语音无关的问题，提升了算法的实用性。同时，通过在算法的损失函数中使用带梯度惩罚项的Wasserstein生成式对抗网络，更好地实现了生成器拟合纯净语音的分布，因而不仅得到更好的增强性能，还增强了算法对未见噪声环境的适应能力。　　第二部分是SEWGAN算法的实现。并将SEWGAN算法与传统语音增强算法、基于GAN语音增强算法进行性能比较。算法实现是在Linux上使用nvidia-docker搭建的虚拟化操作系统上进行的，采用谷歌公司的Tensorflow开源库搭建网络框架模型，在同一训练集下对SEWGAN算法进行训练，训练过程中使用了层归一化技术对算法进行归一化，同时使用Adam算法加快算法的收敛速度。之后对同一测试集上的样本，分别用SEWGAN算法、多带谱减法、维纳滤波法、对数MMSE估计器以及基于GAN的算法进行增强，之后在Matlab中分别将五种算法增强后的语音进行客观语音质量评估。　　实验结果显示，SEWGAN算法与三种传统算法中性能最好的对数MMSE估计器相比较，在17.5dB、12.5dB、7.5dB和2.5dB的信噪比条件下，分段信噪比的提升分别为1.54%、17.07%、47.98%、148.72%；在对bus、cafe、living、office、psquare五种类型的噪声的抑制中，分段信噪比的提升分别为25.43%、54.98%、39.56%、16.80%、32.84%。在整个测试集上，SEWGAN算法和其中最好的基于GAN的算法相比，感知语音质量评估测度提升了9.26%，语音信号失真改善了5.46%，背景噪声干扰改善了6.80%，总体质量提高了7.14%，分段信噪比测度提高了19.15%。总之，从客观语音质量的改善方面来看，SEWGAN算法的增强性能都有明显的提升，尤其是在2.5dB低信噪比条件下的改善效果最好，比基于GAN的算法在分段信噪比上提升了17.6%。　　综上，SEWGAN算法是将带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络共同应用在语音增强的一次成功实践，并取得优异的语音增强性能。

著录项

作者
谭诺亚;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科电子科学与技术
授予学位硕士
导师姓名曾健平;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
语音增强,生成式对抗网络,SEWGAN算法,梯度惩罚,维纳滤波;
入库时间 2022-08-17 11:23:17

相似文献

中文文献
外文文献
专利

1. 基于改进生成式对抗网络的图像去雾算法研究 [J] . 王铭 ,姜淑华 ,吴杰 . 长春理工大学学报（自然科学版） . 2021,第002期
2. 基于生成式对抗网络的图像超分辨率重建算法 [J] . 姜玉宁 ,李劲华 ,赵俊莉 . 计算机工程 . 2021,第003期
3. 一种基于循环生成式对抗网络的去雾算法 [J] . 李潇雯 ,袁太生 . 西南师范大学学报（自然科学版） . 2020,第009期
4. 基于双流卷积神经网络和生成式对抗网络的行人重识别算法 [J] . 林通 ,陈新 ,唐晓 . 微型机与应用 . 2020,第006期
5. 基于双流卷积神经网络和生成式对抗网络的行人重识别算法 [J] . 林通 ,陈新 ,唐晓 . 信息技术与网络安全 . 2020,第006期
6. 一种改进的基于分析合成框架的语音增强算法 [C] . LIU Bin ,刘斌 ,TAO Jianhua . 第十三届全国人机语音通讯学术会议 . 2015
7. 基于生成式对抗网络和自编码器的scRNA-seq数据降维算法研究 [A] . 王普佳 . 2021

基于生成式对抗网络的语音增强算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅