首页> 中文会议>第十三届全国人机语音通讯学术会议 >基于深度神经网络和Bottleneck特征的说话人识别系统

基于深度神经网络和Bottleneck特征的说话人识别系统

摘要

近来,一种结合语音识别中深度神经网络(deep neural networks,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效.该模型在提取充分统计量的过程中,利用基于音素状态标签的DNN模型代替原i-vector模型中的通用背景模型(universal background model,UBM)来计算每帧对各个类别的后验概率,然后通过结合这些后验概率和短时频谱特征提取得到充分统计量以完成i-vector模型训练和特征映射.为了进一步提升系统性能,本文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息.在美国国家标准技术局说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性.相比于原来的短时频谱特征,基于Bottleneck特征的说话人识别系统性能在等错误率和最小检测代价上相对提升了7.65%和5.71%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号