基于深度学习的汉语语音关键词检测方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音关键词检测是一种从连续的语音流中检测预定义的一组关键词的技术，它的一种主流方法是基于大词汇量连续语音识别器(Large Vocabulary Continuous Speech Recognition,LVCSR)的。基于语音识别器的关键词检测系统主要有两个阶段——解码阶段和检测阶段，语音识别器的性能对关键词检测的性能有很大影响。
　　传统的关键词检测是用GMM(Gaussian Mixture Model)和HMM(Hidden Markov Model)结合的GMM-HMM模型作为LVCSR的声学模型，其识别率不高。近年来深度学习技术对语音识别产生了巨大影响，人们对DNN(Deep Neural Network)替代GMM组成DNN-HMM声学模型进行了深入研究。本文研究在关键词检测中用DNN-HMM声学模型替代GMM-HMM声学模型，并在DNN-HMM声学模型的基础上建立关键词检测系统。实验结果表明，基于DNN-HMM模型的语音识别器相比基于GMM-HMM模型的语音识别器识别率更高，关键词检测系统的性能也更好。
　　针对基于LVCSR的关键词检测两阶段间缺乏紧密联系的问题，本文在DNN-HMM声学模型的基础上，研究了在声学模型的训练阶段，对关键词赋予较大的权重以提高模型对关键词的建模能力。因此，本文考虑在区分性训练中，利用侧重关键词的非均匀准则进行训练。本文首先研究了对关键词进行侧重的非均匀MCE(Minimum Classification Erro)准则，然后用非均匀MCE准则对声学模型参数进行优化。非均匀MCE准则中关键词的权重系数对识别结果有一定影响，固定权重系数的缺点是较大的权重系数可能导致过训练。因此本文研究利用AdaBoost(Adaptive Boosting)算法来动态调整非均匀MCE训练过程中的权重系数，AdaBoost算法可以避免非均匀MCE准则中的过训练问题，提高模型的泛化能力。实验结果表明，基于AdaBoost算法的非均匀MCE准则的关键词检测性能更好。此外，本文还研究了非均匀sMBR(state-level Minimum Bayes Risk)准则，实验结果表明，基于非均匀sMBR方法的系统性能要好于基线系统，本文最后对这两种非均匀准则进行了总结和对比。

著录项

作者
王朝松;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名韩纪庆;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
深度学习; 汉语语音流; 关键词检测; 语音识别器; 声学模型;

相似文献

中文文献
外文文献
专利

1. 一种基于多任务学习的语音关键词检测与定位方法研究 [J] . 孙渊 ,王金明 ,汪鹏 . 通信技术 . 2021,第008期
2. 语音关键词检测中置信测度方法研究综述 [J] . 李海洋 ,韩纪庆 ,郑贵滨 . 智能计算机与应用 . 2014,第002期
3. 语音关键词检测中置信测度方法研究综述 [J] . 李海洋 ,韩纪庆 ,郑贵滨 . 智能计算机与应用 . 2014,第002期
4. 基于SVM的语音关键词确认方法研究 [J] . 乔跃刚 ,赵铁军 ,李生 . 计算机应用与软件 . 2006,第007期
5. 基于深度学习的海量语音数据识别及分类方法研究 [J] . 朱龙珠 ,盛妍 ,刘鲲鹏 . 电子设计工程 . 2021,第009期
6. 基于音素模型的语音关键词检测系统 [C] . 陈玉平 ,韩纪庆 ,郑铁然 . 2007年全国网络与信息安全技术研讨会 . 2007
7. 基于深度学习的语音关键词检测技术研究 [A] . 陈康宁 . 2019

基于深度学习的汉语语音关键词检测方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅