RNN-BLSTM声学模型的说话人自适应方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

说话人自适应技术利用特定说话人提供的语料，让语音识别系统在识别性能上针对该说话人有明显的提升。它可以将说话人无关的识别系统转换成说话人相关的识别系统，从而和说话人相关的声学特征相匹配;也可以将说话人相关的声学特征转换成说话人无关的声学特征，从而和说话人无关的识别系统相匹配。因此，说话人自适应技术是为了让说话人和识别系统尽量匹配。
　　基于双向长短时记忆单元的递归神经网络(recurrent neural network with bidi-rectional Long Short-Term Memory, RNN-BLSTM)声学模型不仅针对语音的时序进行建模，而且利用一些控制器来控制信息流，从而解决了传统的基于递归神经网络声学模型的梯度爆炸和梯度消失问题。同时，在一些语音标准数据集上基于RNN-BLSTM声学模型的语音识别系统相比于深度神经网络(Deep NeuralNetworks，DNN)获得了超过10％的性能提升。虽然RNN-BLSTM声学模型在识别性能上相比于DNN有了大幅度的提升，但是依旧不能够解决上述的不匹配问题。因此，在RNN-BLSTM声学模型上进行说话人自适应技术的研究尤为重要。
　　本文主要围绕RNN-BLSTM声学模型上的说话人自适应展开研究。首先，本文将基于说话人编码(speaker code)的说话人自适应方法应用于RNN-BLSTM声学模型，并分析RNN-BLSTM的记忆单元(memory cell)中的不同控制器对说话人自适应的识别性能的影响。与此同时，我们还提出一些启发式的算法来对基于speaker code的方法进行优化和改进，从而进一步地提升识别性能。然后，本文提出了基于深层编码(deep code，d-code)的离线说话人自适应方法，该方法提供了一种解决基于speaker code的说话人自适应方法的二遍解码问题的途径。通过实验对比，该方法在识别性能上与基于speaker code的方法相接近，并且比同样不需要二遍解码的基于鉴别性矢量(identity vector, i-vector)的说话人自适应方法在识别性能上更优，训练过程更加灵活。最后，本文研究基于d-code的在线说话人自适应方法，该方法不需要收集说话人整个句子。它在在线的语音识别过程中逐步进行说话人自适应，并取得了较好的识别效果。

著录项

作者
黄智颖;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信息与通信工程
授予学位硕士
导师姓名戴礼荣;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备 ;
关键词
语音识别; 说话人自适应; 记忆单元; 递归神经网络; 深层编码; 声学模型;

相似文献

中文文献
外文文献
专利

1. 语音识别中神经网络声学模型的说话人自适应研究 [J] . 金超 ,龚铖 ,李辉 . 计算机应用与软件 . 2018 ,第002期
2. 语音识别中说话人自适应方法研究综述 [J] . 朱方圆 ,马志强 ,陈艳 . 计算机科学与探索 . 2021 ,第012期
3. 基于深度神经网络的说话人自适应方法研究 [J] . 古典 ,李辉 . 微型机与应用 . 2018 ,第004期
4. 基于深度神经网络的说话人自适应方法研究 [J] . 古典 ,李辉 . 信息技术与网络安全 . 2018 ,第004期
5. 基于本征音子说话人子空间的说话人自适应算法 [J] . 屈丹 ,张文林 . 电子与信息学报 . 2015 ,第006期
6. 说话人聚类与模型自适应结合的说话人自适应方法 [C] . 何磊 ,方棣棠 ,吴文虎 . 第六届全国人机语音通讯学术会议 . 2001
7. 基于DNN声学模型的说话人自适应方法研究 [A] . 闫贝贝 . 2019

RNN-BLSTM声学模型的说话人自适应方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅