首页> 中文学位 >超帧特征空间下基于深度置信网络的语音转换
【6h】

超帧特征空间下基于深度置信网络的语音转换

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 语音转换的定义

1.2 语音转换的研究意义及应用

1.3 课题研究现状分析

1.4 论文的主要研究内容

第二章 语音转换理论基础

2.1 语音信号概述

2.2 语音信号分析

2.3 语音转换系统的基本原理

2.4 STRAIGHT 语音分析与合成模型

2.5 语音转换效果的评价方法

第三章 基于高斯混合模型的语音转换系统

3.1 系统构成

3.2 语音特征参数的时间规整

3.3 高斯混合模型

3.4 转换函数

第四章 基于深度置信网络的语音转换

4.1 限制玻尔兹曼机(RBM)

4.2 深度置信网络

4.3 基于短时谱深度特征的语音转换

4.4 超帧特征空间下基于深度置信网络的语音转换

第五章 语音转换实验及分析

5.1 语料库描述及参数设置

5.2 客观评价

5.3 主观评价

5.4 语谱图分析

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间公开发表的论文

致谢

展开▼

摘要

语音转换的目的是在保持语义内容不变的前提下,将源说话人语音的个性特征改变,转换成具有目标说话人个性特征的语音,使得听起来像目标说话人的发音。语音转换技术的研究是语音信号处理领域一个比较重要的分支,它可以促进语音合成、语音编码等领域的研究,同时也有着广泛的应用前景。目前比较主流的语音转换方法是基于高斯混合模型(GMM)的转换方法,该方法虽然可以取得较好的语音转换效果,但是由于GMM方法假设各个语音参数帧之间是统计独立,忽略了语音相邻帧之间的相关性,从而使转换后的语音有一定的不连续,其次,由于传统的GMM模型在语音的参数化表达下对特征矢量进行加权平均,必然会引起参数的过平滑。
  本文提出了一种超帧特征空间下基于深度置信网络(DBN-Sf,Deep Belief Nets in Super-frame feature space)的语音转换方法,它是将深度置信网络构成的深度神经网络作为回归模型来映射源和目标说话人频谱参数之间的非线性关系。首先利用STRAIGHT提取说话人的基频和短时谱参数,从短时谱参数中求得对应的LPCC参数,利用动态时间规整将源和目标说话人的特征参数进行对齐,通过扩展源说话人当前的语音帧来构建超帧信息作为网络的输入,目标说话人对应的当前帧作为网络的输出,经训练得到短时谱转换函数。实验结果显示,使用该方法的转换语音在谱失真、目标倾向性和语音质量等方面均优于传统的高斯混合模型方法,转换语音的平均谱失真度相对于传统的GMM方法降低了9.5%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号