首页> 中文学位 >DNN-HMM语音识别声学模型的说话人自适应
【6h】

DNN-HMM语音识别声学模型的说话人自适应

代理获取

目录

声明

摘要

插图

表格

算法

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究内容及结构安排

第二章 基于多GPU的DNN快速训练

2.1 引言

2.2 GPU及在DNN建模中的应用

2.2.1 GPU和CUDA C编程模型

2.2.2 GPU下DNN训练相关工具

2.3 DNN-HMM声学建模

2.3.1 RBM和DBN训练算法

2.3.2 DNN训练算法

2.3.3 DNN-HMM模型

2.4 多GPU加速DNN训练

2.4.1 RBM算法的矩阵表示

2.4.2 基于CUDA C的RBM算法优化实现

2.4.3 多GPU下的预训练

2.5 实验部分

2.5.1 实验配置

2.5.2 实验结果和分析

2.6 本章小结

第三章 基于说话人编码的自适应建模

3.1 引言

3.2 基于说话人编码的模型域自适应

3.2.1 说话人编码自适应模型

3.2.2 交叉熵准则下的自适应训练

3.3 i-Vector表征说话人特性编码方式

3.4 实验部分

3.4.1 TIMIT任务

3.4.2 Switchboard任务

3.5 本章小结

第四章 说话人相关声学模型的区分性训练

4.1 引言

4.2 DNN的区分性训练

4.2.1 区分性训练简介

4.2.2 基于MMI准则的DNN区分性训练

4.3 基于MMI准则的说话人编码自适应

4.4 说话人相关DNN的区分性训练

4.5 实验部分

4.5.1 MMI准则下说话人编码自适应

4.5.2 说话人相关DNN的帧级交叉熵训练

4.5.3 说话人相关DNN的区分性训练

4.6 本章小结

第五章 基于DNN-HMM的其它说话人自适应方法

5.1 引言

5.2 矩阵分解说话人自适应

5.2.1 SVD及其在DNN中的应用

5.2.2 基于SVD的说话人自适应方法

5.3 矩阵分解说话人自适应实验

5.3.1 TIMIT任务

5.3.2 Switchboard任务

5.4 基于融合的说话人自适应

5.4.1 说话人编码自适应中存在的问题

5.4.2 基于融合的说话人自适应方法

5.5 基于融合的自适应实验结果

5.6 本章小结

第六章 总结

6.1 本文的主要贡献与创新点

6.2 后续工作展望

参考文献

个人简历及在读期间发表的学术论文

致谢

展开▼

摘要

说话人自适应(Speaker Adaptation,SA)是语音识别中的关键技术,它利用少量自适应数据通过变换语音特征或修正声学模型来提高特定说话人的识别准确率。在传统基于高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)的语音识别中,说话人自适应通常可以使识别错误率降低5%-30%,是提升系统性能的重要方法。近年来,随着深度神经网络(Deep Neural Network,DNN)被广泛应用于语音识别,DNN-HMM逐渐成为声学模型的主流配置。然而传统说话人自适应技术通常不能直接应用于该模型,而现有基于DNN-HMM的说话人自适应技术性能提升又不明显,研究适合DNN-HMM的说话人自适应方法成为了语音识别领域新的热点和难点。本文围绕在DNN-HMM上实现快速、有效的说话人自适应,研究了基于多GPU的DNN快速训练和几种基于DNN的说话人自适应方法。具体如下:
  首先,本文研究了基于多GPU加速DNN训练的若干技术途径,及一些优化DNN训练的方法。我们分析了DNN训练过程中用到的相关算法,将训练步骤分解成适合GPU并行处理的矩阵运算形式,并利用CUDA C高效实现了这些算法,在此基础上我们进一步提出权重逐次轮转以及分-合训练融合方法来在多GPU上加速DNN训练并取得了显著的效果。在TIMIT数据集上进行的音素识别验证实验表明,在基本保证识别准确率的前提下,优化后的DNN训练速度获得了明显提升。这为我们在大规模数据上进行基于DNN-HMM的说话人自适应相关研究奠定了基础。
  而后,本文对基于说话人编码的特征域自适应方法进行了改进,提出一种基于说话人编码的模型域自适应方法。该方法克服了前者会引入规模较大的自适应变换网络的缺点,引入的额外参数较少,并且在层数较深,隐层节点较多的网络上可以取得显著优于前者的性能提升。我们还将总变化因子向量(i-Vector)技术引入该模型中,提出i-Vector表征说话人特性的编码方法,进一步改善了我们的自适应效果。相关实验表明我们提出的方法可以带来明显的识别准确率提升,是进行DNN-HMM声学模型说话人自适应的良好选择。
  之后,本文将区分性训练准则引入到说话人自适应中,提出基于说话人编码的区分性自适应方法,提高了识别准确率。我们还基于联合训练的思想提出一种说话人相关DNN的区分性建模方法,进一步改善了系统性能,在Switchboard数据集上的实验表明相较于DNN基线系统,该方法最多可以使识别错误率降低约25%,是目前最有效的DNN-HMM声学模型说话人自适应方法之一。
  最后,本文将矩阵分解思想应用于说话人自适应,提出一种基于奇异值分解(Singular Value Decomposition,SVD)的说话人自适应方法,该方法利用SVD分解DNN权重,并使用奇异值表征说话人差异信息,这减少了进行说话人自适应时所需要更新的参数量,有效的减轻了过拟合问题,取得了良好的自适应效果。我们还融合了说话人编码和矩阵分解的思想,提出一种基于二者融合的自适应方法,相关实验表明该方法可以有效的减小说话人编码的维度和整个建模过程的计算复杂度,对于提升自适应效率具有重要意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号