首页> 中文学位 >基于卷积神经网络的语音合成声码器研究
【6h】

基于卷积神经网络的语音合成声码器研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 语音合成技术概述

1.2 语音信号生成机理

1.3 现阶段主流语音合成方法

1.3.1 单元挑选与波形拼接语音合成

1.3.2 统计参数语音合成

1.4 语音合成声码器

1.4.1 线性预测分析合成器

1.4.2 共振峰合成器

1.4.3 STRAIGHT分析合成算法

1.5 本论文的研究目标和内容概述

第2章 基于卷积神经网络的话者相关语音合成声码器

2.1 WaveNet简介

2.1.1 卷积神经网络简介

2.1.2 扩张因果卷积

2.1.3 门控激活函数及残差网络结构

2.1.4 波形量化与softmax输出

2.2 基于卷积神经网络的语音合成声码器

2.2.1 网络结构及时域分辨率调整

2.2.2 采样方式

2.3 实验

2.3.1 实验配置

2.3.2 实验结果及分析

2.4 本章小结

第3章 基于卷积神经网络的声码器话者无关与自适应训练方法研究

3.1 说话人自适应历史回顾

3.2 话者无关与自适应训练

3.3 实验

3.3.1 实验配置

3.3.2 实验结果及分析

3.4 本章小结

第4章 基于卷积神经网络的声码器改进方法研究

4.1 语音频带扩展

4.2 多分辨率层级化生成方法

4.3 网络训练与语音生成的采样方式

4.4 实验

4.4.1 实验配置

4.4.2 实验结果及分析

4.5 本章小结

第5章 总结

5.1 本文主要贡献与创新点

5.2 后续研究工作

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

语音合成声码器从基频、频谱等声学特征中重构语音波形,是统计参数语音合成系统中不可或缺的一部分。近年来,随着深度神经网络模型在声学建模中的成功应用,声学模型精度与合成语音自然度均得到了有效改善。但是以STRAIGHT为代表的传统源-滤波器结构声码器仍然存在频谱细节丢失、相位依赖人工设计以及线性滤波框架等问题,这仍然制约着统计参数方法合成语音质量的进一步提升。
  2016年,DeepMind研究者提出了直接对语音波形建模与生成的深度卷积神经网络结构,并将其用于从文本特征预测语音波形,取得了优于传统统计参数方法的合成语音自然度。利用卷积神经网络对语音波形直接建模弥补了频谱细节、相位信息丢失的缺陷,深层次的神经网络也具有灵活的非线性处理能力,这为语音合成声码器的实现提供了新的途径。
  本文围绕基于卷积神经网络的语音合成声码器从三个方面展开研究工作。首先,设计实现了基于卷积神经网络的话者相关语音合成声码器;其次,提出了神经网络声码器的话者无关及自适应训练方法,在目标语音数据有限情形下实现高质量声码器的训练;最后,设计实现了多分辨率层级化网络结构,提升语音合成声码器的生成效率。
  本文整体安排如下:
  第一章是绪论,概述语音合成技术,介绍主流的波形拼接合成方法和统计参数合成方法,然后回顾了常用的语音合成声码器并分析其优势和不足。
  第二章首先介绍DeepMind研究者提出的WaveNet模型,然后阐明用卷积神经网络对语音波形建模的动机与出发点,并详细介绍本文设计实现的基于卷积神经网络的语音合成声码器模型。该模型构造了一个上采样网络实现了声学特征采样率与输出语音采样率的匹配,然后将变换后的声学条件信息加入网络激活函数中指导语音的生成。
  第三章首先回顾了说话人自适应技术历史,介绍了语音识别与语音合成任务中的自适应方法;然后介绍了本文提出的神经网络语音合成声码器的话者无关及自适应训练方法;最后利用自然声学特征和声学模型预测声学特征作为输入重构语音,实验验证了自适应训练的有效性。
  第四章首先分析了神经网络语音合成声码器生成语音速度较慢的问题,其次介绍了基于扩张卷积神经网络的语音频带扩展工作,然后在此基础上提出了多分辨率层级化生成网络,最后实验评估了该模型的效率提升结果以及合成语音质量。
  第五章对全文进行总结。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号