首页> 外国专利> Targeted voice separation by speaker conditioned on spectrogram masking

Targeted voice separation by speaker conditioned on spectrogram masking

机译：通过扬声器调节频谱图屏蔽的目标语音分离

页面导航

摘要
著录项
相似文献

摘要

Techniques are disclosed that enable processing of audio data to generate one or more refined versions of audio data, where each of the refined versions of audio data isolate one or more utterances of a single respective human speaker. Various implementations generate a refined version of audio data that isolates utterance(s) of a single human speaker by processing a spectrogram representation of the audio data (generated by processing the audio data with a frequency transformation) using a mask generated by processing the spectrogram of the audio data and a speaker embedding for the single human speaker using a trained voice filter model. Output generated over the trained voice filter model is processed using an inverse of the frequency transformation to generate the refined audio data.

机译：公开了技术，使得能够处理音频数据以生成一个或多个精制版本的音频数据，其中音频数据的每个精制版本隔离单个相应的人类扬声器的一个或多个话语。各种实现通过处理通过处理频谱图生成的掩模来处理音频数据的频谱图表示（通过处理频率变换）的频谱图表示，生成分离单个人类扬声器的话语的音频数据的精度版本使用培训的语音滤波器模型，音频数据和嵌入单人类扬声器的扬声器。使用频率变换的倒数来处理在训练的语音滤波器模型上产生的输出以生成精细音频数据。

著录项

公开/公告号US11217254B2

专利类型
公开/公告日2022-01-04

原文格式PDF
申请/专利权人 GOOGLE LLC;
展开▼

申请/专利号US201916598172
发明设计人 QUAN WANG;PRASHANT SRIDHAR;IGNACIO LOPEZ MORENO;HANNAH MUCKENHIRN;
展开▼

申请日2019-10-10
分类号G10L17/04;G10L17/22;G10L25/18;G10L17/02;G10L17/18;G10L17;
国家 US
入库时间 2024-06-14 22:38:24

相似文献

专利
外文文献
中文文献