首页> 中文学位 >统计参数语音合成中的声学模型建模方法研究
【6h】

统计参数语音合成中的声学模型建模方法研究

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 语音合成技术概述

1.2 语音产生的生理机理

1.3 语言合成历史及方法

1.3.1 语音合成历史回顾

1.3.2 基于规则的参数化语音合成

1.3.3 基于波形拼接的语音合成

1.3.4 基于统计建模的参数化语音合成

1.4 本论文的研究目标和内容概述

第2章 基于HMM的统计参数语音合成

2.1 HMM简介

2.1.1 马尔可夫链

2.1.2 隐马尔可夫模型(HMM)

2.1.3 语音建模中的应用

2.2 基于HMM的统计参数语音合成

2.2.1 模型训练阶段

2.2.2 语音分析

2.2.3 标注数据生成

2.2.4 HMM训练

2.2.5 合成阶段

2.3 关键技术

2.3.1 特征选择以及基于STRAIGHT语音分析及合成

2.3.2 基于决策树的模型聚类

2.3.3 基于多空间概率分布HMM的基频建模

2.3.4 考虑特征动态特性的联合建模及结合其动态特性的参数生成

2.4 基于HMM的统计参数语音合成方法的特点

2.4.1 优势

2.4.2 不足

2.5 本文研究的出发点

2.6 本章小结

第3章 基于听觉感知的声学模型训练准则

3.1 基于听觉感知的声学模型训练准则

3.1.1 常见声学模型训练准则

3.1.2 最小生成误差准则训练

3.1.3 线谱对特征之间的距离度量

3.1.4 基于加权欧氏距离的最小生成误差准则训练

3.1.5 实验

3.1.6 本节小结

3.2 基于线谱对有序特性的声学模型训练准则

3.2.1 线谱对特征的有序性

3.2.2 基于线谱对有序性的模型训练准则

3.2.3 实验

3.2.4 本节小结

3.3 本章小结

第4章 融合韵律产生机理的基频模型

4.1 问题的提出

4.2 现有的基频建模方法

4.2.1 Sakai的方法

4.2.2 多空间概率分布HMM建模

4.2.3 Wang的方法

4.2.4 Qian的方法

4.2.5 Zen的方法

4.3 融合韵律产生机理的基频模型

4.3.1 基本思想

4.3.2 训练框架

4.3.3 初始化步骤

4.3.4 最小生成误差准则训练

4.3.5 切分边界优化方法

4.3.6 预测基频

4.3.7 与其他方法对比

4.4 实验

4.4.1 实验条件

4.4.2 基线系统

4.4.3 音素层+状态层基频模型

4.4.4 多层基频模型

4.5 本章小结

第5章 结合共振峰特征的频谱模型

5.1 问题的提出

5.2 共振峰特征

5.3 结合共振峰特征的频谱模型

5.4 实验

5.4.1 实验条件

5.4.2 共振峰特征的形式

5.4.3 转换矩阵绑定

5.4.4 主观实验

5.5 基于共振峰空间的转换矩阵绑定

5.6 相关实验

5.6.1 客观实验结果

5.6.2 主观实验

5.7 本章小结

第6章总结

一、本文的主要贡献与创新点

二、后续的研究工作

参考文献

在读期间发表的学术论文与取得的研究成果

一、研究经历

二、发表论文

致谢

展开▼

摘要

近十几年来,基于隐马尔可夫模型(Hidden Markov Model,HMM)的统计参数语音合成(Statistical Parametric Speech Synthesis)方法得到了越来越多研究者的关注,逐步发展成为和基于大规模语料库的单元挑选与波形拼接合成方法相并列的一种主流语音合成方法。此方法借鉴了自动语音识别中统计声学建模的诸多成熟技术,并且针对语音合成的特殊需求发展出多空间概率分布、最大似然参数生成等一系列关键算法。相对大语料库单元挑选与波形拼接方法,基于HMM的统计参数语音合成方法具有合成语音流畅度高、鲁棒性好,系统构建速度快、自动化程度高,系统尺寸小、灵活度高等优点;但是现阶段该方法合成语音的自然度和音质与自然语音相比仍有较为明显的差距。另一方面,语音合成是一门典型的交叉学科,语音学知识在语音合成系统的构建过程中发挥着重要作用。这些语音学知识包括语音产生机理、听觉感知机理、基频特征起伏规律、发音器官运动特性以及语音共振峰特性等。但是传统基于HMM的统计参数语音合成方法对于语音学知识的运用并不充分,只在声学特征提取与语音波形重构过程中有所体现,而声学模型的建立往往依赖单纯的数据驱动与机器学习方法,这制约了该方法合成语音音质、自然度以及灵活性的进一步提升。
   本文将从运用语音学知识的角度出发,以统计参数语音合成中声学模型建模方法为研究重点。在原有基于HMM的统计参数语音合成方法的基础上,考虑到语音产生和听觉感知等语音学知识,本文分别从模型训练准则和模型结构两个方面进行探索和研究,其中模型结构方面涉及基频模型以及频谱模型。我们尝试利用语音学知识,从模型训练准则的角度上考虑听觉感知,探索现有方法的不足以及可能的提升空间;然后考虑对应的语音学知识,对声学模型中的基频模型和频谱模型的模型结构分别进行研究,提高基于HMM的统计参数语音合成方法的灵活性以及合成语音的自然度。
   整篇文章的安排如下:
   第1章是绪论,将回顾语音合成技术的背景以及发展历史,并简要介绍几种常见语音合成方法。
   第2章将具体介绍基于HMM的统计参数语音合成方法,包括基本原理、系统框架、关键技术等,并通过对此方法优缺点的分析,阐明本文进行声学模型建模方法研究的动机与出发点。
   第3章在考虑听觉语音学知识(即人的听觉感知特性)的基础上,针对现有基于HMM的统计参数语音合成方法在合成语音自然度上的不足,从声学模型训练准则的角度出发,对声学模型训练方法进行研究。
   第4章将对基于HMM的统计参数语音合成方法中的基频模型进行研究。在分析当前基频建模方法局限性的基础上,本章提出了考虑韵律产生机理的分层叠加基频建模方法,并将此方法与现有技术方案进行了对比分析。通过一系列主客观评测,我们证明了该方法能够有效提高基频特征的预测精度以及合成语音的自然度。
   第5章将对基于HMM的统计参数语音合成方法中的频谱模型进行研究。本章将共振峰特征引入到基于HMM的统计参数语音合成中,利用共振峰特征相对传统频谱特征所具有的物理意义明确、与语音产生过程密切相关等优点,通过设计体现共振峰特征和传统频谱特征之间相关性的双流模型结构,实现了依赖共振峰特征的频谱参数预测方法,提升了基于HMM的统计参数语音合成的灵活可控性。
   第6章对全文进行了总结。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号