首页> 中文期刊> 《计算机工程与应用》 >改进卷积输入的端到端普通话语音识别

改进卷积输入的端到端普通话语音识别

         

摘要

cqvip:主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号