首页> 中文学位 >基于生成对抗网络的语音风格转移技术的研究及应用
【6h】

基于生成对抗网络的语音风格转移技术的研究及应用

代理获取

目录

1 绪论

1.1 语音风格转移的研究背景和意义

1.2 语音风格转移国内外发展及研究现状

1.3 论文的主要内容

1.4 论文的章节安排

1.5 本章小结

2 语音风格转移方法概述及评价标准

2.1 语音克隆

2.1.1 说话人自适应

2.1.2 说话人编码

2.2 多说话人风格迁移

2.3 语音转换方法

2.3.1 基于矢量量化算法

2.3.2 基于混合高斯模型

2.3.3 基于深度置信网络

2.3.4 基于长短时记忆网络

2.4 语音质量评价标准

2.4.1 主观评价

2.4.2 客观评价

2.4.3 语谱图

2.5 语音风格转移中存在的问题

2.6 本章小结

3 基于生成对抗网络的风格转移

3.1 生成对抗网络模型

3.2 生成对抗网络的优势

3.3 基于生成对抗网络的风格转移研究

3.3.1 条件生成对抗网络

3.3.2 基于CGAN的图像转换

3.3.3 深度卷积生成对抗网络生成图像

3.3.4 基于DCGAN的音频生成

3.4 本章小结

4 基于GAN语音风格转移的问题和方法

4.1 生成对抗网络存在的问题

4.2 高速路神经网络

4.3 基于高速路网络的语音转换

4.4 拟提出的解决方法

4.4.1 对现有方法的分析

4.4.2 本文提出的VSTGAN方法

4.5 语音风格转移的关键技术点

4.5.1 梅尔倒谱特征的意义

4.5.2 对齐方法

4.5.3 特征转换框架

4.5.4 特征到语音的合成

4.6 本章小结

5 VSTGAN的实现过程

5.1 数据准备和特征提取

5.1.1 数据准备

5.1.2 特征计算

5.2 生成对抗网络模型训练

5.3 语音合成

5.4 本章小结

6 VSTGAN的实验结果和分析

6.1 实验结果

6.1.1 中文女性到女性

6.1.2 中文男性到女性

6.2 分析和评价

6.3 应用构想

6.4 本章小结

7 总结和展望

7.1 工作总结

7.2 工作展望

致谢

参考文献

附录

个人简历、在学期间发表的学术论文及取得的研究成果

展开▼

摘要

语音风格转移是一种非常宽泛的说法,诸如各种文献中出现的“语音克隆”、“多说话人风格迁移”、“风格迁移”、“语音转换”等都可以称为语音风格转移技术。本文主要讨论语音风格转移中的语音特色转换,简称语音转换,它是将源说话人的声音变为目标说话人的特色声音。本文研究是希望将人类的语音风格赋予机器人,使机器人具备人类语音音色或者某些特定人的语音特点,创造具有特定风格的机器语音。随着智能语音技术借助大数据和人工智能的契机在医疗领域的应用愈加广泛,语音技术已经从一开始的语音识别技术逐步发展到智能语音辅助阶段并且在医学领域取得了许多有意义的成果,例如医用陪护机器人和辅助治疗机器人等。在对于自闭症患儿的治疗中,个性化的语音对于自闭症的早期干预行之有效,因此,语音风格转移技术可以用于陪护机器人和辅助治疗机器人的个性化语音生成场景。  传统的语音风格转移中使用均方误差为损失函数,造成了合成语音过渡平滑和感知次优的问题,表现为合成出的语音信号自然度较低,而较新的方法需要对文本和时长建模,虽然提高了合成语音的自然度,但是生成个性化的语音与建模仍比较困难,计算资源消耗也比较大。为改善以上问题,本文提出了利用生成对抗网络的思路来实现语音风格转移。借助生成对抗网络的损失函数来对均方误差进行补偿,以解决过渡平滑和感知次优问题,同时降低模型复杂度。本文建立了基于基于生成对抗网络(GAN)的语音风格转移模型,并应用于卡耐基梅隆大学的ARCTIC语音数据集以及清华大学中文语音数据集THCHS-30进行了验证实验,分别对男性到女性,女性到女性的语音进行转换。本文的创新性在于:  (1)提出并建立出了语音风格转换的生成对抗网络模型(VSTGAN)。  (2)为了避免一般GAN模型难以训练的问题,在VSTGAN中,提出了将生成器设计为高速路网络,有效解决了VSTGAN模型的训练。  本文实现的语音风格转移,按照国际ITU组织制定的MOS标准,将转换的结果进行了主客观评价,并以深度置信网络、长短期记忆网络、高速路网络和WaveGAN作为对照组对本文思路生成的语音进行特征对比。结果表明,相对于四种语音转换效果,本文提出的方法不仅在生成语音的MOS主观评分上有更高的分数;同时在Mel谱保真、语谱图保真性能参数上有良好的表现;在盲听测试ABX的分数上生成对抗网络也有更好的表现。在此基础上,本文提出一种把传统合成的机械声音向家长声音映射的思路,用于替换康复机器人和陪护机器人的机械式的语音。这样,本文实现了将个性化语音转换技术和深度学习中的生成式对抗网络结合的理论结合与技术实现,并且在自然度和可懂度性能上有了新提升。最后,简单分析了本文提出的思路在自闭症患者辅助治疗中有望能发挥积极作用。

著录项

  • 作者

    任强;

  • 作者单位

    重庆理工大学;

  • 授予单位 重庆理工大学;
  • 学科 生物医学工程
  • 授予学位 硕士
  • 导师姓名 严中红,尹志勇;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    语音信号,风格转移,生成对抗网络,损失函数;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号