首页> 中国专利> 一种基于视听网络的多模态语音分离方法及装置

一种基于视听网络的多模态语音分离方法及装置

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提供了一种基于视听网络的多模态语音分离方法及装置，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括如下步骤：利用第一预处理方法对第一音视频训练数据处理得到第一预处理数据；构建多模态网络模型；将第一预处理数据输入多模态网络模型训练，得到音视频对齐判断模型；利用第二预处理方法对第二音视频训练数据处理得到第二预处理数据；搭建Wave‑U‑Net分割模型，并与音视频对齐判断模型构成视听模型；将第二预处理数据输入视听模型训练，得到视音频分割模型；将待分离音视频输入视音频分割模型得到画面中说话人的语音。其中，将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。

著录项

公开/公告号CN112863538A

专利类型发明专利
公开/公告日2021-05-28

原文格式PDF
申请/专利权人复旦大学;
展开▼

申请/专利号CN202110208096.0
发明设计人何梦雨;程颖;冯瑞;
展开▼

申请日2021-02-24
分类号G10L21/0272(20130101);G10L21/0208(20130101);G10L25/57(20130101);G10L25/30(20130101);G06N3/04(20060101);G06N3/08(20060101);
代理机构31204 上海德昭知识产权代理有限公司;
代理人卢泓宇
地址 200433 上海市杨浦区邯郸路220号
入库时间 2023-06-19 11:06:50

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-14

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于视听网络的多模态语音分离方法及装置 [P] . 中国专利： CN112863538A . 2021-05-28
2. 一种基于增强式残差神经网络的多模态语音情感识别方法 [P] . 中国专利： CN109460737A . 2019-03-12
3. A method for encapsulating audiovisual content streams in an MPEG-2 private section, a device for encapsulating audiovisual content in an MPEG-2 private section to be multiplexed in an MPEG-2 transport stream, a dialog for digital TV Application, user device, method for transmitting audiovisual content and / or data, and communication protocol for data network [P] . 日本专利： JP2017520954A . 2017-07-27

机译：一种将视听内容流封装在MPEG-2专用部分中的方法，一种将视听内容封装在要在MPEG-2传输流中多路复用的MPEG-2专用部分中的设备，用于数字电视的对话框，用户设备，方法用于传输视听内容和/或数据，以及用于数据网络的通信协议
4. SYSTEM AND METHOD FOR SEARCHING FOR NETWORK-BASED CONTENT IN A MULTI-MODAL SYSTEM USING SPOKEN KEYWORDS [P] . 欧洲知识产权局专利： EP1899952A4 . 2009-07-22

机译：语音关键词在多模态系统中基于网络的内容搜索系统及方法
5. SYSTEM AND METHOD FOR SEARCHING FOR NETWORK-BASED CONTENT IN A MULTI-MODAL SYSTEM USING SPOKEN KEYWORDS [P] . 欧洲知识产权局专利： EP1899952A2 . 2008-03-19

机译：语音关键词在多模态系统中基于网络的内容搜索系统及方法