基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

兰朝凤; 王顺博; 郭小霞; 韩玉兰; 康守强

首页> 中文期刊> 《电子学报》 >基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会”等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(Dilated Convolutions Neural Network,DCNN)和双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(Perceptual Eval-uation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal-to-Distortion Ratio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37 dB.

著录项

来源
《电子学报》 |2023年第4期|914-921|共8页
作者
兰朝凤; 王顺博; 郭小霞; 韩玉兰; 康守强;
展开▼
作者单位

哈尔滨理工大学测控技术与通信工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算机仿真;
关键词
视听融合; 空洞卷积; 双向长短时记忆网络; 单通道; 语音分离;

相似文献

中文文献
外文文献
专利

1. 基于深度学习特征融合和联合约束的单通道语音分离方法 [J] . 孙林慧 ,王灿 ,梁文清 . 电子与信息学报 . 2022,第9期
2. 基于计算听觉场景分析的单通道语音分离方法 [J] . 徐庆达 ,张二华 . 计算机与数字工程 . 2022,第3期
3. 一种新的基于稀疏分解的单通道混合语音分离方法 [J] . 郭海燕 ,杨震 ,朱卫平 . 电子学报 . 2012,第4期
4. 基于TasNet的单通道语音分离技术的研究综述 [J] . 陆炜 ,朱定局 . 计算机与现代化 . 2022,第11期
5. 基于注意力机制的单通道双人语音分离研究 [J] . 周晓东 ,陈人楷 ,孙华星 . 通信技术 . 2020,第4期
6. 基于长短时特征融合的语音情感识别方法研究 [C] . 韩文静 ,李海峰 ,韩纪庆 . 第九届全国人机语言通讯学术会议 . 2007

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

摘要

著录项

相似文献

相关主题

期刊订阅