首页> 外国专利> Targeted voice separation by speaker conditioned on spectrogram masking

Targeted voice separation by speaker conditioned on spectrogram masking

机译:通过扬声器调节频谱图屏蔽的目标语音分离

摘要

Techniques are disclosed that enable processing of audio data to generate one or more refined versions of audio data, where each of the refined versions of audio data isolate one or more utterances of a single respective human speaker. Various implementations generate a refined version of audio data that isolates utterance(s) of a single human speaker by processing a spectrogram representation of the audio data (generated by processing the audio data with a frequency transformation) using a mask generated by processing the spectrogram of the audio data and a speaker embedding for the single human speaker using a trained voice filter model. Output generated over the trained voice filter model is processed using an inverse of the frequency transformation to generate the refined audio data.
机译:公开了技术,使得能够处理音频数据以生成一个或多个精制版本的音频数据,其中音频数据的每个精制版本隔离单个相应的人类扬声器的一个或多个话语。 各种实现通过处理通过处理频谱图生成的掩模来处理音频数据的频谱图表示(通过处理频率变换)的频谱图表示,生成分离单个人类扬声器的话语的音频数据的精度版本 使用培训的语音滤波器模型,音频数据和嵌入单人类扬声器的扬声器。 使用频率变换的倒数来处理在训练的语音滤波器模型上产生的输出以生成精细音频数据。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号