Speaker-Aware Target Speaker Enhancement by Jointly Learning with Speaker Embedding Extraction

机译：通过与说话人嵌入提取联合学习来增强说话人感知目标说话人

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Deep learning based speech separation approaches have received great interest, among which the recent speaker-aware speech enhancement methods are promising for solving difficulties such as arbitrary source permutation and unknown number of sources. In this paper, we propose a novel training framework which jointly learns the speaker-conditioned target speaker extraction model and its associated speaker embedding model. The resulting unified model directly learns the appropriate speaker embedding for improved target speech enhancement. We demonstrate, on our large simulated noisy and far-field evaluation sets of overlapped speech signals, that our proposed approach significantly improves the speech enhancement performance compared to the baseline speaker-aware speech enhancement models.

机译：基于深度学习的语音分离方法已经引起了极大的兴趣，其中最近的说话者感知的语音增强方法有望解决诸如任意源置换和未知数目的源之类的难题。在本文中，我们提出了一种新颖的训练框架，该框架可以共同学习说话人条件下的目标说话人提取模型及其相关的说话人嵌入模型。生成的统一模型直接学习适当的说话人嵌入，以改善目标语音。我们在重叠语音信号的大型模拟噪声和远场评估集上证明，与基线说话者感知的语音增强模型相比，我们提出的方法显着提高了语音增强性能。

著录项

来源
《IEEE International Conference on Acoustics, Speech and Signal Processing》|2020年|7294-7298|共5页
会议地点
作者
Xuan Ji; Meng Yu; Chunlei Zhang; Dan Su; Tao Yu; Xiaoyu Liu; Dong Yu;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
speaker-aware; target speech enhancement; speaker embedding; joint learning;

机译：说话人感知;目标语音增强;说话人嵌入;联合学习;

相似文献

外文文献
中文文献
专利

1. TEnet: target speaker extraction network with accumulated speaker embedding for automatic speech recognition [J] . Li Wenjie, Zhang Pengyuan, Yan Yonghong Electronics Letters . 2019,第14期

机译：TEnet：目标说话人提取网络，具有累积的说话人嵌入功能，可自动识别语音
2. SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures [J] . Zmolikova Katerina, Delcroix Marc, Kinoshita Keisuke, Selected Topics in Signal Processing, IEEE Journal of . 2019,第4期

机译：SpeakerBeam：用于语音混合中目标说话人提取的说话人感知神经网络
3. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker’s Voice Characteristics [J] . Marc Delcroix, Katerina Zmolikova, Keisuke Kinoshita, NTT Technical Review . 2018,第11期

机译：SpeakerBeam：一种新的深度学习技术，用于根据说话者的语音特征提取目标说话者的语音
4. Speaker-Aware Target Speaker Enhancement by Jointly Learning with Speaker Embedding Extraction [C] . Xuan Ji, Meng Yu, Chunlei Zhang, IEEE International Conference on Acoustics, Speech and Signal Processing . 2020

机译：演讲者感知目标扬声器通过与扬声器嵌入提取联合学习
5. Speaker adaptation in joint factor analysis based text independent speaker verification [D] . Shou-Chun, Yin 2007

机译：基于联合因素分析的文本自适应说话人验证中的说话人适应
6. Bilingual children weigh speaker’s referential cues and word-learning heuristics differently in different language contexts when interpreting a speaker’s intent [O] . Wan-Yu Hung, Ferninda Patrycia, W. Q. Yow -1

机译：双语儿童在解释说话者的意图时在不同语言环境中对说话者的参考提示和单词学习启发法的权重有所不同
7. Speaker-Aware Training of Attention-Based End-to-End Speech Recognition Using Neural Speaker Embeddings [O] . Aku Rouhe, Tuomas Kaseva, Mikko Kurimo 2020

机译：使用神经扬声器嵌入的扬声器感知注意力的关注结束语音识别

Speaker-Aware Target Speaker Enhancement by Jointly Learning with Speaker Embedding Extraction

摘要

著录项

相似文献

相关主题

期刊订阅