基于卷积神经网络的语音合成声码器研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音合成声码器从基频、频谱等声学特征中重构语音波形，是统计参数语音合成系统中不可或缺的一部分。近年来，随着深度神经网络模型在声学建模中的成功应用，声学模型精度与合成语音自然度均得到了有效改善。但是以STRAIGHT为代表的传统源-滤波器结构声码器仍然存在频谱细节丢失、相位依赖人工设计以及线性滤波框架等问题，这仍然制约着统计参数方法合成语音质量的进一步提升。
　　2016年，DeepMind研究者提出了直接对语音波形建模与生成的深度卷积神经网络结构，并将其用于从文本特征预测语音波形，取得了优于传统统计参数方法的合成语音自然度。利用卷积神经网络对语音波形直接建模弥补了频谱细节、相位信息丢失的缺陷，深层次的神经网络也具有灵活的非线性处理能力，这为语音合成声码器的实现提供了新的途径。
　　本文围绕基于卷积神经网络的语音合成声码器从三个方面展开研究工作。首先，设计实现了基于卷积神经网络的话者相关语音合成声码器;其次，提出了神经网络声码器的话者无关及自适应训练方法，在目标语音数据有限情形下实现高质量声码器的训练;最后，设计实现了多分辨率层级化网络结构，提升语音合成声码器的生成效率。
　　本文整体安排如下:
　　第一章是绪论，概述语音合成技术，介绍主流的波形拼接合成方法和统计参数合成方法，然后回顾了常用的语音合成声码器并分析其优势和不足。
　　第二章首先介绍DeepMind研究者提出的WaveNet模型，然后阐明用卷积神经网络对语音波形建模的动机与出发点，并详细介绍本文设计实现的基于卷积神经网络的语音合成声码器模型。该模型构造了一个上采样网络实现了声学特征采样率与输出语音采样率的匹配，然后将变换后的声学条件信息加入网络激活函数中指导语音的生成。
　　第三章首先回顾了说话人自适应技术历史，介绍了语音识别与语音合成任务中的自适应方法;然后介绍了本文提出的神经网络语音合成声码器的话者无关及自适应训练方法;最后利用自然声学特征和声学模型预测声学特征作为输入重构语音，实验验证了自适应训练的有效性。
　　第四章首先分析了神经网络语音合成声码器生成语音速度较慢的问题，其次介绍了基于扩张卷积神经网络的语音频带扩展工作，然后在此基础上提出了多分辨率层级化生成网络，最后实验评估了该模型的效率提升结果以及合成语音质量。
　　第五章对全文进行总结。

著录项

作者
伍宏传;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信号与信息处理
授予学位硕士
导师姓名凌震华;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音参数编码;
关键词
语音合成声码器; 卷积神经网络; 话者无关模型; 自适应训练; 层级化网络;
入库时间 2022-08-17 10:17:58

相似文献

中文文献
外文文献
专利

1. 基于WaveNet的语音合成声码器研究 [J] . 凌震华1 ,伍宏传2 . 人工智能 . 2018,第001期
2. 基于LPC-10声码器的极低速率语音编码算法研究 [J] . 陈明义 ,马飞 . 电子科技 . 2009,第004期
3. AMR声码器研究及其基于C6000的多通道实现 [J] . 任晓燕 ,陈新富 . 电声技术 . 2003,第002期
4. AMR声码器研究及其基于C6000的多通道实现 [J] . 任晓燕 ,陈新富 . 现代通信技术 . 2003,第001期
5. 基于USB接口的低速率声码器设计研究 [J] . 刘嘉勇 ,方勇 ,周安民 . 四川大学学报（自然科学版） . 2003,第001期
6. 基于WT600A声码器的水下语音通信系统研究 [C] . XIAO Shen-yang ,肖沈阳 ,LIU Sheng-xing . 2013年全国水声学学术交流会 . 2013
7. 面向语音合成的神经网络声码器研究 [A] . 艾杨 . 2021

基于卷积神经网络的语音合成声码器研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅