基于生成对抗网络的语音风格转移技术的研究及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音风格转移是一种非常宽泛的说法，诸如各种文献中出现的“语音克隆”、“多说话人风格迁移”、“风格迁移”、“语音转换”等都可以称为语音风格转移技术。本文主要讨论语音风格转移中的语音特色转换，简称语音转换，它是将源说话人的声音变为目标说话人的特色声音。本文研究是希望将人类的语音风格赋予机器人，使机器人具备人类语音音色或者某些特定人的语音特点，创造具有特定风格的机器语音。随着智能语音技术借助大数据和人工智能的契机在医疗领域的应用愈加广泛，语音技术已经从一开始的语音识别技术逐步发展到智能语音辅助阶段并且在医学领域取得了许多有意义的成果，例如医用陪护机器人和辅助治疗机器人等。在对于自闭症患儿的治疗中，个性化的语音对于自闭症的早期干预行之有效，因此，语音风格转移技术可以用于陪护机器人和辅助治疗机器人的个性化语音生成场景。　　传统的语音风格转移中使用均方误差为损失函数，造成了合成语音过渡平滑和感知次优的问题，表现为合成出的语音信号自然度较低，而较新的方法需要对文本和时长建模，虽然提高了合成语音的自然度，但是生成个性化的语音与建模仍比较困难，计算资源消耗也比较大。为改善以上问题，本文提出了利用生成对抗网络的思路来实现语音风格转移。借助生成对抗网络的损失函数来对均方误差进行补偿，以解决过渡平滑和感知次优问题，同时降低模型复杂度。本文建立了基于基于生成对抗网络(GAN)的语音风格转移模型，并应用于卡耐基梅隆大学的ARCTIC语音数据集以及清华大学中文语音数据集THCHS-30进行了验证实验，分别对男性到女性，女性到女性的语音进行转换。本文的创新性在于：　　（1）提出并建立出了语音风格转换的生成对抗网络模型（VSTGAN）。　　（2）为了避免一般GAN模型难以训练的问题，在VSTGAN中，提出了将生成器设计为高速路网络，有效解决了VSTGAN模型的训练。　　本文实现的语音风格转移，按照国际ITU组织制定的MOS标准，将转换的结果进行了主客观评价，并以深度置信网络、长短期记忆网络、高速路网络和WaveGAN作为对照组对本文思路生成的语音进行特征对比。结果表明，相对于四种语音转换效果，本文提出的方法不仅在生成语音的MOS主观评分上有更高的分数；同时在Mel谱保真、语谱图保真性能参数上有良好的表现；在盲听测试ABX的分数上生成对抗网络也有更好的表现。在此基础上，本文提出一种把传统合成的机械声音向家长声音映射的思路，用于替换康复机器人和陪护机器人的机械式的语音。这样，本文实现了将个性化语音转换技术和深度学习中的生成式对抗网络结合的理论结合与技术实现，并且在自然度和可懂度性能上有了新提升。最后，简单分析了本文提出的思路在自闭症患者辅助治疗中有望能发挥积极作用。

著录项

作者
任强;
展开▼
作者单位

重庆理工大学;

展开▼
授予单位重庆理工大学;
学科生物医学工程
授予学位硕士
导师姓名严中红,尹志勇;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
语音信号,风格转移,生成对抗网络,损失函数;

相似文献

中文文献
外文文献
专利

1. 基于生成对抗网络的汉语语音增强技术研究 [J] . 向前 ,唐勇 . 计算机应用研究 . 2020,第S02期
2. 基于生成对抗网络的隔离开关分合位置判别方法研究及应用 [J] . 王舶仲 ,蒋毅舟 ,文超 . 陕西电力 . 2019,第010期
3. 基于生成对抗网络的隔离开关分合位置判别方法研究及应用 [J] . 王舶仲 ,蒋毅舟 ,文超 . 智慧电力 . 2019,第010期
4. 基于听觉掩蔽生成对抗网络的单通道语音增强方法 [J] . 杜志浩 ,韩纪庆 . 智能计算机与应用 . 2021,第003期
5. 基于听觉掩蔽生成对抗网络的单通道语音增强方法 [J] . 杜志浩 ,韩纪庆 . 智能计算机与应用 . 2021,第003期
6. 基于字典学习的HDR照片风格转移方法 [C] . Xie Zhifeng ,谢志峰 ,Du Sheng . 2016中国计算机辅助设计与图形学会大会 . 2016
7. 基于生成对抗网络的语音风格转移技术的研究及应用 [A] . 任强 . 2019

基于生成对抗网络的语音风格转移技术的研究及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅