首页> 中文期刊> 《电子学报》 >基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

         

摘要

近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会”等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(Dilated Convolutions Neural Network,DCNN)和双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(Perceptual Eval-uation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal-to-Distortion Ratio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37 dB.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号