首页> 外国专利> SYSTEMS, METHODS, AND DEVICES FOR AUDIO-VISUAL SPEECH PURIFICATION USING RESIDUAL NEURAL NETWORKS

SYSTEMS, METHODS, AND DEVICES FOR AUDIO-VISUAL SPEECH PURIFICATION USING RESIDUAL NEURAL NETWORKS

机译:使用残差神经网络进行视听语音净化的系统、方法和设备

摘要

This application is directed to audio purification. An electronic device obtains image data corresponding to a sequence of image frames that focus on lip movement of a person. The electronic device also obtains audio data that is synchronous with the lip movement in the sequence of image frames and modifies the audio data using the image data, thereby reducing background noise in the audio data. In some embodiments, the audio data is separated to first audio magnitude data and first audio phase data corresponding to distinct audio frequencies. The first audio magnitude data are modified to second audio magnitude data based on the image data. The first audio phase data are updated to second audio phase data based on the second audio magnitude data. The audio data is modified when the audio data are recovered from the second audio magnitude data and the second audio phase data.
机译:此应用程序针对音频净化。电子设备获取与专注于人的嘴唇运动的一系列图像帧相对应的图像数据。电子设备还获取与图像帧序列中嘴唇运动同步的音频数据,并利用图像数据修改音频数据,从而减少音频数据中的背景噪声。在一些实施例中,音频数据被分离为对应于不同音频频率的第一音频幅度数据和第一音频相位数据。根据图像数据,将第一个音频幅度数据修改为第二个音频幅度数据。根据第二个音频幅度数据,将第一个音频相位数据更新为第二个音频相位数据。当从第二音频幅度数据和第二音频相位数据中恢复音频数据时,将修改音频数据。

著录项

  • 公开/公告号WO2022/197296A1;WO2022000197296A1;WO2022197296A1;WO2022197296

    专利类型

  • 公开/公告日2022-09-22

    原文格式PDF

  • 申请/专利权人 INNOPEAK TECHNOLOGY INC.;

    申请/专利号USUS2021/022823;US202100000022823;US2021022823W;WO2021US22823

  • 发明设计人

    申请日2021-03-17

  • 分类号G10L15/20;G10L15/24;G10L15/25;G10L17/20;

  • 国家

  • 入库时间 2024-06-14 23:40:00

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号