首页> 中文学位 >说话人转换建模方法研究
【6h】

说话人转换建模方法研究

代理获取

目录

声明

摘要

插图

表格

第一章 绪论

1.1 说话人转换的定义

1.2 说话人转换的意义

1.2.1 理论研究意义

1.2.2 实际应用意义

1.3 说话人转换技术的研究历史与现状

1.4 本论文的研究目标和内容概述

第二章 说话人转换系统介绍

2.1 说话人的个性特征

2.1.1 语音产生过程

2.1.2 影响说话人的个性特征的本质因素

2.2 典型的说话人转换系统

2.2.1 系统构成

2.2.2 语音分析与合成

2.2.3 特征对齐

2.2.4 特征转换

2.3 基于GMM的频谱转换方法

2.3.1 高斯混合模型

2.3.2 基于最小均方误差准则的方法

2.3.3 最大后验概率模型训练方法

2.3.4 基于最大输出概率的转换方法

2.3.5 说话人转换方法的评价方法

2.4 本文的出发点

2.5 本章小结

第三章 融合独立转换函数的联合空间频谱建模与转换

3.1 并行数据上的模型训练与转换

3.1.1 模型训练

3.1.2 实验及分析

3.1.3 小结

3.2 非并行数据上的模型训练与转换

3.2.1 模型训练

3.2.2 基于频率弯折的性能改善

3.2.3 实验及分析

3.2.4 小结

3.3 动态特征提取窗系数的研究

3.3.1 实验及分析

3.3.2 小结

3.4 本章小结

第四章 基于说话人信息与内容信息分别建模的转换方法

4.1 基于话者无关空间的建模转换方法

4.1.1 说话人无关模型

4.1.2 使用话者无关模型构造说话人转换系统

4.1.3 实验及分析

4.1.4 小结

4.2 基于深层神经网络的说话人与内容分离及其在说话人转换中的应用

4.2.1 深层神经网络

4.2.2 深层神经网络的初始化

4.2.3 深层置信网络

4.2.4 堆叠的自动编码器

4.2.5 说话人信息和内容信息分离的网络

4.2.6 小结

4.3 本章小结

第五章 基于受限玻尔兹曼机的频谱建模与转换

5.1 受限波尔兹曼机

5.1.1 模型介绍

5.1.2 模型训练

5.1.3 模型评估

5.1.4 RBM的模式

5.2 RBM在声学特征上的建模能力

5.3 RBM在说话人转换中的应用

5.3.1 实验及分析

5.4 本章小结

第六章 总结

6.1 本文的主要贡献与创新点

6.2 后续的研究工作

参考文献

在读期间发表的学术论文与取得的研究成果

致谢

展开▼

摘要

语音信号中不仅包含了语言学的信息,也承载了说话人的个性信息,说话人身份在语音通信中有着重要的作用。说话人转换是语音信号处理研究领域相对较新的一个方向,其目标是改变一个说话人的语音,在保持语义内容不变的情况下,使其听起来像是另外一个说话人的语音。说话人转换的研究对于语音信号处理来说有着重要的理论价值和应用意义。近十几年来,随着基于统计参数模型——高斯混合模型(Gaussian mixture model,GMM)的说话人转换方法的提出,它以其自动化程度高、系统构建快、鲁棒性好、转换语音相似度高、平滑稳定等优点,得到了越来越多的研究者的关注,并逐步发展为当今最主流的一种说话人转换方法。对说话人转换方法性能的优劣的评价有两个方面:与目标说话人的相似度和语音的自然度,现阶段的GMM转换方法在相似度方面的表现还不错,但是转换语音的音质不佳,导致其自然度与自然语音之间存在不小的差距,而且该方法对训练数据有特殊的要求,造成了基于该方法的系统构建的灵活度不足。
   本文以统计建模在说话人转换的频谱转换中的应用为研究重点,从两个角度来提出改进的方法。第一,模型的角度,一方面,在联合空间的建模中引入独立的线性变换,直接对转换函数建模,另一方面,使用受限玻尔兹曼机(restricted Boltzmann machine,RBM)代替高斯分布对特征空间的建模,改善建模的精度。第二,从特征的角度,使用两种方法分别对语音信号中的说话人信息和内容信息进行建模:基于话者无关空间的内容信息建模和使用深层神经网络的特征分解,直接对说话人信息进行转换,提高了转换的灵活性。
   整篇文章的安排如下:
   第一章是绪论,将简介说话人转换的研究范畴、研究意义,回顾该领域研究的发展历史和现状。
   第二章首先将分析影响语音信号中的说话人特征的因素,并以此展开介绍基于GMM的说话人转换方法,包括GMM的基本原理、系统框架、关键技术点、主要的几种频谱转换方法等,并通过对此方法特点的分析,阐明我们进行新的说话人转换建模方法研究的动机与出发点。
   第三章将介绍一种改进的联合空间模型,针对传统GMM模型中没有直接对转换关系建模的不足,使用显式特征变换关系来对源目标说话人之间的变换关系建模并对联合空间的概率分布加以限制,改善模型的建模精度,并扩展到非并行数据的训练以改善训练的灵活度。
   第四章将介绍两种将分别对语音信号中的说话人特征和内容特征的建模方法。第一是使用话者无关模型来描述说话人之间共有的音素空间,使用从该空间到话者相关空间的变换来描述说话人信息。第二是使用深层神经网络直接对语音信号进行高层编码,在编码中提取出说话人特征和内容特征。通过对说话人信息的单独建模,转换时,仅对说话人信息进行转换,提高了转换的灵活度。
   第五章将介绍一种使用RBM来对联合特征空间的概率分布进行建模,以及使用该模型直接对原始的语音频谱包络转换的方法。在简单的回顾了基于高斯的模型在建模能力上的不足之后,我们提出在传统的GMM建模的框架下,使用RBM来代替高斯分布对每个混合空间的概率分布进行建模并从中导出特征的转换关系,通过实验验证了该方法对转换语音相似度和音质的显著改善。
   第六章将对全文进行总结。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号