声明
摘要
图目录
表目录
第1章 绪论
1.1 语音合成技术概述
1.2 语音产生的生理机理
1.3 语言合成历史及方法
1.3.1 语音合成历史回顾
1.3.2 基于规则的参数化语音合成
1.3.3 基于波形拼接的语音合成
1.3.4 基于统计建模的参数化语音合成
1.4 本论文的研究目标和内容概述
第2章 基于HMM的统计参数语音合成
2.1 HMM简介
2.1.1 马尔可夫链
2.1.2 隐马尔可夫模型(HMM)
2.1.3 语音建模中的应用
2.2 基于HMM的统计参数语音合成
2.2.1 模型训练阶段
2.2.2 语音分析
2.2.3 标注数据生成
2.2.4 HMM训练
2.2.5 合成阶段
2.3 关键技术
2.3.1 特征选择以及基于STRAIGHT语音分析及合成
2.3.2 基于决策树的模型聚类
2.3.3 基于多空间概率分布HMM的基频建模
2.3.4 考虑特征动态特性的联合建模及结合其动态特性的参数生成
2.4 基于HMM的统计参数语音合成方法的特点
2.4.1 优势
2.4.2 不足
2.5 本文研究的出发点
2.6 本章小结
第3章 基于听觉感知的声学模型训练准则
3.1 基于听觉感知的声学模型训练准则
3.1.1 常见声学模型训练准则
3.1.2 最小生成误差准则训练
3.1.3 线谱对特征之间的距离度量
3.1.4 基于加权欧氏距离的最小生成误差准则训练
3.1.5 实验
3.1.6 本节小结
3.2 基于线谱对有序特性的声学模型训练准则
3.2.1 线谱对特征的有序性
3.2.2 基于线谱对有序性的模型训练准则
3.2.3 实验
3.2.4 本节小结
3.3 本章小结
第4章 融合韵律产生机理的基频模型
4.1 问题的提出
4.2 现有的基频建模方法
4.2.1 Sakai的方法
4.2.2 多空间概率分布HMM建模
4.2.3 Wang的方法
4.2.4 Qian的方法
4.2.5 Zen的方法
4.3 融合韵律产生机理的基频模型
4.3.1 基本思想
4.3.2 训练框架
4.3.3 初始化步骤
4.3.4 最小生成误差准则训练
4.3.5 切分边界优化方法
4.3.6 预测基频
4.3.7 与其他方法对比
4.4 实验
4.4.1 实验条件
4.4.2 基线系统
4.4.3 音素层+状态层基频模型
4.4.4 多层基频模型
4.5 本章小结
第5章 结合共振峰特征的频谱模型
5.1 问题的提出
5.2 共振峰特征
5.3 结合共振峰特征的频谱模型
5.4 实验
5.4.1 实验条件
5.4.2 共振峰特征的形式
5.4.3 转换矩阵绑定
5.4.4 主观实验
5.5 基于共振峰空间的转换矩阵绑定
5.6 相关实验
5.6.1 客观实验结果
5.6.2 主观实验
5.7 本章小结
第6章总结
一、本文的主要贡献与创新点
二、后续的研究工作
参考文献
在读期间发表的学术论文与取得的研究成果
一、研究经历
二、发表论文
致谢