首页> 中文期刊> 《信号处理》 >一种基于卷积神经网络的端到端语音分离方法

一种基于卷积神经网络的端到端语音分离方法

         

摘要

大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理.然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用.为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法.这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构.跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得.我们在TIMIT数据集上验证本文提出的方法.实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(utterance-level permutation invariant training,uPIT)基线方法,对于信号失真比(signal-to-distortion ratio,SDR)相对提高了16.06%.

著录项

  • 来源
    《信号处理》 |2019年第4期|542-548|共7页
  • 作者单位

    中国科学院自动化研究所模式识别国家重点实验室;

    北京100190;

    中国科学院大学人工智能学院;

    北京100190;

    中国科学院自动化研究所模式识别国家重点实验室;

    北京100190;

    中国科学院自动化研究所模式识别国家重点实验室;

    北京100190;

    中国科学院大学人工智能学院;

    北京100190;

    中国科学院脑科学与智能技术卓越创新中心;

    北京100190;

    中国科学院自动化研究所模式识别国家重点实验室;

    北京100190;

    中国科学院自动化研究所模式识别国家重点实验室;

    北京100190;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 电声技术和语音信号处理;
  • 关键词

    说话人独立语音分离; 鸡尾酒会问题; 端到端; 卷积编解码器;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号