首页> 中文学位 >基于隐马尔可夫模型的说话人转换方法的相关研究
【6h】

基于隐马尔可夫模型的说话人转换方法的相关研究

代理获取

目录

文摘

英文文摘

中国科学技术大学学位论文相关声明

第1章绪论

1.1语音合成技术及其发展

1.1.1语音合成技术简介

1.1.2国内外语音合成技术的发展

1.2说话人转换技术

1.2.1说话人转换的基本概念

1.2.2语音产生机理及说话人特征体现

1.2.3说话人转换的主要方法

1.3论文的研究内容和组织

第2章基于HMM的说话人转换方法的基本框架

2.1基于HMM的语音合成—Trainable TTS

2.1.1 STRAIGHT分析合成算法

2.1.2基于决策树的模型聚类

2.1.3基于MSD-HMM的基频建模

2.1.4结合动态特征的参数生成算法

2.2基于HMM的说话人转换及效果测试

2.2.1 MLLR模型自适应算法

2.2.2基于HMM的说话人转换的效果

2.3本章小结

第3章基于HMM的说话人转换方法的技术改进

3.1自适应流程的整合

3.2频谱参数的选择

3.3源说话人模型的选择和训练

3.3.1源说话人模型的选择

3.3.2选择说话人无关模型作为源说话人模型

3.4模型自适应算法的改进

3.4.1基于上下文属性的回归矩阵绑定

3.4.2针对不同训练数据量的回归矩阵形式

3.4.3基于最小生成误差准则的模型自适应算法

3.5参数生成方法的改进

3.6改进前后系统效果测评

3.7本章小结

第4章基于HMM的说话人转换方法的若干应用

4.1情感语音合成

4.2嵌入式多说话人语音合成

4.3本章小结

第5章总结

参考文献

攻读学位期间发表的学术论文及专利申请

致谢

展开▼

摘要

随着目前语音合成技术的进步,合成语音的音质和自然度都有了很大的提高,因此,用户对语音合成系统提出了更高的要求--多样化的语音合成,包括多个发音人、多种发音风格、多种情感以及多语种等语音的合成。在这一背景下,通过调整一个说话人的语音,使其听起来像是另一个人说出来一样的说话人转换技术被提出。说话人转换技术根据少量的目标说话人的语音数据,对源说话人的语音参数进行调整,从而得到目标说话人的合成语音,并可以此实现多样化的语音合成。为此,本文对基于HMM(Hidden Markov Model)的说话人转换技术进行了详细的介绍,并对其训练流程和关键技术进行了改进,最后,针对具体的应用进行了相应的研究。本文按照如下几个部分展开讨论: 文章的第一部分主要是介绍了本文研究的背景和几种主要的说话人转换的方法。首先,简单的描述了一下语音合成技术以及其近年来的发展。接下来,为了帮助我们更好的理解说话人转换的原理,我们也对人的发音过程的声学机理和数学模型进行了系统介绍。这是因为,说话人转换技术是对源说话人的音色进行转换使其听起来像目标说话人发出的。而为了实现说话人音色的转换,通常需要对语音信号进行激励源和声道滤波器的分离,以便对激励信号和声道模型分别进行修改,然后再重新生成语音。最后我们对说话人转换技术的发展和常用的几种方法进行简要的介绍。 在文章的第二部分,主要介绍了基于HMM的说话人转换的基本框架。由于基于HMM的说话人转换技术是建立在基于HMM的语音合成系统的基础上的,因此,本章首先介绍了 Tainable TTS(Text-to-Speech)的基本框架,并对其中的一些关键技术进行了分析。接下来主要介绍了基于HMM的说话人转换技术的一个重要环节--MLLR(Maximum Likelihood Linear Regression)模型自适应算法,包括MLLR算法中HMM模型均值和方差转换矩阵的估计方法以及回归矩阵绑定的基本原理。最后基于上述基于HMM的说话人转换的基本框架,进行了女到女和女到男的说话人转换实验,并且从合成语音的音质、自然度以及与目标语音的相似程度三个方面进行了主观和客观的评测实验。 文章的第三部分针对第二章中所介绍的基于HMM的说话人转换的各主要技术环节,如基于MSD (Multi-space Distribution) -HMM基频建模的模型自适应、时长模型的自适应、源说话人模型的训练和选择、模型自适应算法、考虑动态参数的参数生成算法等模块;以及合成语音中的问题,如在自适应数据很少时效果不佳、合成语音频谱过于平滑等问题,分别进行了分析和相应的改进工作。主要的改进包括:整合了自适应流程,使频谱、基频、时长模型在相同的框架下进行转换;使用LSP (Line Spectral Pair) +DAL(Differential coefficients of Adiacent LSP)参数减轻频谱过平滑的问题;使用共享决策树聚类方法训练平均模型作为源说话人模型,从而提高模型自适应的鲁棒性;对模型自适应算法进行改进,提高自适应效果;针对不同的训练数据量,采用不同类型的转换矩阵;改进参数生成算法。 文章的第四部分主要介绍了基于HMM的说话人转换技术在情感语音合成以及嵌入式的多说话人语音合成系统方面的应用。提出了基于HMM的情感语音合成方法,并通过主客观的测试验证了情感语音合成的有效性。另外,针对嵌入式系统中资源受限的特点,提出了一种实现多说话人语音合成的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号