首页> 中文学位 >RNN-BLSTM声学模型的说话人自适应方法研究
【6h】

RNN-BLSTM声学模型的说话人自适应方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文研究目标和研究内容

1.4 本文结构安排

第2章 RNN-BLSTM声学模型

2.1 引言

2.2 RNN-BLSTM简介

2.3 基于延时控制的RNN-BLSTM训练方法

2.4 实验

2.4.2 switchboard任务

2.5 本章小结

第3章 基于说话人编码的RNN-BLSTM声学模型上的说话人自适应方法

3.1 引言

3.2 基于说话人编码的说话人自适应方法

3.2.1 DNN-HMM声学模型上的说话人编码自适应模型

3.2.2 RNN-BLSTM声学模型上的说话人编码自适应模型

3.2.3 基于层宽的规整算法

3.2.4 基于奇异值分解的模型压缩算法

3.3 基于鉴别性矢量的说话人自适应方法

3.3.1 鉴别性矢量的提取

3.3.2 RNN-BLSTM声学模型上的鉴别性矢量自适应模型

3.4 实验

3.4.1 TIMIT任务

3.4.2 switchboard任务

3.5 本章小结

第4章 基于深层编码的RNN-BLSTM声学模型上的离线说话人自适应方法

4.1 引言

4.2 基于深层编码的离线说话人自适应方法

4.2.1 离线深层编码提取

4.2.2 说话人聚类

4.2.3 深层编码的插值算法

4.3 实验

4.4 本章小结

第5章 基于深层编码的RNN-BLSTM声学模型上的在线说话人自适应方法

5.1 引言

5.2 基于深层编码的在线说话人自适应方法

5.2.1 在线深层编码提取

5.2.2 在线深层编码融合

5.3 基于i-vector的在线说话人自适应方法

5.4 实验

5.5 本章小结

第6章 总结和展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

说话人自适应技术利用特定说话人提供的语料,让语音识别系统在识别性能上针对该说话人有明显的提升。它可以将说话人无关的识别系统转换成说话人相关的识别系统,从而和说话人相关的声学特征相匹配;也可以将说话人相关的声学特征转换成说话人无关的声学特征,从而和说话人无关的识别系统相匹配。因此,说话人自适应技术是为了让说话人和识别系统尽量匹配。
  基于双向长短时记忆单元的递归神经网络(recurrent neural network with bidi-rectional Long Short-Term Memory, RNN-BLSTM)声学模型不仅针对语音的时序进行建模,而且利用一些控制器来控制信息流,从而解决了传统的基于递归神经网络声学模型的梯度爆炸和梯度消失问题。同时,在一些语音标准数据集上基于RNN-BLSTM声学模型的语音识别系统相比于深度神经网络(Deep NeuralNetworks,DNN)获得了超过10%的性能提升。虽然RNN-BLSTM声学模型在识别性能上相比于DNN有了大幅度的提升,但是依旧不能够解决上述的不匹配问题。因此,在RNN-BLSTM声学模型上进行说话人自适应技术的研究尤为重要。
  本文主要围绕RNN-BLSTM声学模型上的说话人自适应展开研究。首先,本文将基于说话人编码(speaker code)的说话人自适应方法应用于RNN-BLSTM声学模型,并分析RNN-BLSTM的记忆单元(memory cell)中的不同控制器对说话人自适应的识别性能的影响。与此同时,我们还提出一些启发式的算法来对基于speaker code的方法进行优化和改进,从而进一步地提升识别性能。然后,本文提出了基于深层编码(deep code,d-code)的离线说话人自适应方法,该方法提供了一种解决基于speaker code的说话人自适应方法的二遍解码问题的途径。通过实验对比,该方法在识别性能上与基于speaker code的方法相接近,并且比同样不需要二遍解码的基于鉴别性矢量(identity vector, i-vector)的说话人自适应方法在识别性能上更优,训练过程更加灵活。最后,本文研究基于d-code的在线说话人自适应方法,该方法不需要收集说话人整个句子。它在在线的语音识别过程中逐步进行说话人自适应,并取得了较好的识别效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号