首页> 中国专利> 基于对偶一致网络的声源定位与声源分离的方法和系统

基于对偶一致网络的声源定位与声源分离的方法和系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于对偶一致网络的声源定位与声源分离的方法和系统，属于图像‑音频多模态领域。主要包括如下步骤：1）获取音视频数据集，选取一对属于不同声音域的视频，提取对应的单源音频和图像信息，并计算混合音频。2）对音频和图像分别进行特征编码，得到音频和图像特征。3）将混合音频和图像特征一同送入对偶一致网络的声源分离模块，分离出单源音频。4）将图像和对应的音频特征送入对偶一致网络的声源定位模块，得到图像中的发声物体。相比于传统的声源定位与声源分离任务中的方法，本发明将两个任务视为对偶任务，用同一个架构同时完成，并利用两任务的特性，在训练过程中相互增强性能，最终在两任务上都提升了效果。

著录项

公开/公告号CN113850246A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人杭州一知智能科技有限公司;
展开▼

申请/专利号CN202111441409.3
发明设计人李昊沅;
展开▼

申请日2021-11-30
分类号G06K9/00(20060101);G10L21/028(20130101);G06N3/04(20060101);G06N3/08(20060101);G06T3/40(20060101);G06T9/00(20060101);
代理机构33200 杭州求是专利事务所有限公司;
代理人郑海峰
地址 311200 浙江省杭州市萧山区启迪路198号杭州湾信息港F座7楼
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及图像-音频多模态领域，具体涉及一种基于对偶一致网络的声源定位与声源分离的方法。

背景技术

视觉和听觉是人类感知这个世界的重要方式，我们能够识别和分离各种物体发出的声音，同时也能在复杂的场景中找到发声的物体，拥有这样强大的感知力，是我们做后续复杂决策的基础。因此，让机器拥有声源的分离和定位的能力，是实现人工智能的必经之路。

目前的许多研究主要关注于两个单独的任务，即声源定位、视觉引导的声音分离，虽然他们取得了一定的成果，但仍有些没解决的问题：

1）在目前的视觉引导的声音分离模型中，需要用特定图像来查询其中物体对应的声音，但当图像中有多个物体时，模型会不知该分离何物体对应的声音，造成性能较差。

2）目前大多是两个任务对应的模型，无法用一套架构同时处理，当需要同时对音频进行定位和分离时，直接叠加模型就会很复杂，且计算速度慢。

发明内容

本发明提出了一种自监督的对偶一致网络，同时利用了声源定位与声源分离任务的特性，采用同一架构实现了声源定位与声源分离任务，且达到了相互增强的效果。

为了实现上述目的，本发明采用的技术方案如下：

本发明的其中一个目的在于提出一种基于对偶一致网络的声源定位与声源分离的方法，包括如下步骤：

1）获取音视频数据集，从数据集中随机选取一对包含不同声音域的视频，提取视频中的原始音频和帧图像，并根据每对视频构造混合音频和拼接图像；

2）分别对原始音频和帧图像、以及混合音频和拼接图像进行编码；

3）对编码后的混合音频特征进行发声域检测，得到混合音频中包含的不同声音域检测结果；

4）构建包括声源分离网络和声源定位网络的对偶一致网络，将混合音频和编码后的拼接图像特征作为声源分离网络的输入，根据不同声音域检测结果，从混合音频中分离出对应不同声音域的音频，计算分离损失；

将编码后的原始音频和帧图像作为声源定位网络的输入，从帧图像中定位得到发声物，计算匹配损失；

5）对所述的对偶一致网络执行端到端多任务训练，训练过程中保持分离前后的一致性和定位前后的一致性约束；利用训练好的对偶一致网络实现声源定位与声源分离。

本发明的另一目的在于提供了一种用于实现上述方法的声源定位与声源分离系统，包括：

数据获取模块，其用于获取音视频数据集，从数据集中随机选取一对包含不同声音域的视频，提取视频中的原始音频和帧图像，并根据每对视频构造混合音频和拼接图像；

音频编码模块，其用于对原始音频、以及混合音频进行编码；

图像编码模块，其用于对帧图像、以及拼接图像进行编码；

发声域检测模块，其用于对编码后的混合音频特征进行发声域检测，得到混合音频中包含的不同声音域检测结果；

声源分离模块：其用于根据混合音频、编码后的拼接图像特征以及不同声音域检测结果，从混合音频中分离出对应不同声音域的音频；

声源定位模块：其用于根据编码后的原始音频和帧图像，从帧图像中定位得到发声物。

多任务训练模块，其用于对发声域检测模块、声源分离模块和声源定位模块执行端到端多任务训练，训练过程中保持分离前后的一致性和定位前后的一致性约束。

与现有技术相比，本发明具备以下有益效果。

（1）本发明将声源定位与声源分离视为对偶任务，从而用同一个简单的架构来解决两任务，并取得了较好的效果。而在传统方案中，基本是单一地解决其中一个任务，且模型复杂无法直接叠加。

（2）本发明利用声源定位与声源分离这对偶任务的特性，设计了对偶一致网络，能够利用分离后的音频与定位后的物体，分别增强定位与分离的性能，从而达到两任务对偶一致、相互促进的作用，在两任务上都取得了较好的效果。

（3）本发明在声源分离模块中设计了基于声音域分离的方法，即在分离音频时，会预测所有声音域的分离结果，而传统方法是指预测给定图像查询的分离结果；本发明解决了当图像中有多个物体时，模型会不知该分离何物体对应的声音而导致的性能较差的问题。

附图说明

图1是本发明实施例示出的基于对偶一致网络的声源定位与声源分离的方法的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用基于对偶一致网络的声源定位与声源分离的方法，主要包括如下步骤。

步骤一，获取音视频数据集，从数据集中随机选取一对包含不同声音域的视频，提取视频中的原始音频和帧图像，并根据每对视频构造混合音频和拼接图像；

步骤二，分别对原始音频和帧图像、以及混合音频和拼接图像进行编码；

步骤三，对编码后的混合音频特征进行发声域检测，得到混合音频中包含的不同声音域检测结果；

步骤四，构建包括声源分离网络和声源定位网络的对偶一致网络，将混合音频和编码后的拼接图像特征作为声源分离网络的输入，根据不同声音域检测结果，从混合音频中分离出对应不同声音域的音频，计算分离损失；

将编码后的原始音频和帧图像作为声源定位网络的输入，从帧图像中定位得到发声物，计算匹配损失；

步骤五，对所述的对偶一致网络执行端到端多任务训练，训练过程中保持分离前后的一致性和定位前后的一致性约束；利用训练好的对偶一致网络实现声源定位与声源分离。

步骤一用于构建训练集。

在本实施例中，首先随机选取包含不同声音域（乐器）的一对视频Video_1、Video_2，并随机取出对应的音频A

所述的混合音频是由一对视频中随机提取的相同长度的音频在时间维度上拼接得到的，本实施例中，利用两段音频构造得到混合音频A

步骤二用于对音频及图像进行编码。

在本实施例中，对原始音频和混合音频的编码方法为：首先对待编码的原始音频或混合音频进行短时傅里叶变换；再利用音频编码器对短时傅里叶变换结果进行编码。所述的音频编码器可采用现有的ResNet等网络实现。

对原始帧图像和拼接图像的编码方法为：利用图像编码器直接对图像进行处理。

步骤三用于执行发声域检测。

本实施例中，将编码后的混合音频特征进行二维平均池化，再经矩阵转换和激活函数处理后得到各声音域上的概率，将概率最大的两个声音域作为预测结果，利用二元交叉熵损失函数更新参数。

步骤四用于执行声源分离网络和声源定位网络的分离和定位功能。

A、声源分离网络具体为：

将混合音频进行短时傅里叶变换得到频谱，利用分割网络对混合音频的频谱进行分割；

对编码后的拼接图像特征进行二维平均池化，池化结果与音频分割结果进行交互，再经矩阵转换和激活函数处理后得到预测频谱掩码；

将预测频谱掩码与混合音频的频谱相乘，结合声音域的预测结果，提取得到预测声音域的频谱，再经逆短时傅里叶变换，得到从混合音频中分离出的对应不同声音域的音频。

B、声源定位网络具体为：

首先对编码后的原始音频特征进行最大池化，利用最大池化后的结果与编码后的帧图像特征进行定位，计算帧图像特征中每一个特征点对应发声物的概率，取概率大于阈值的所有特征点连通区域对应的原始帧图像区域作为定位结果，实现从帧图像中定位得到发声物。

上述的声源分离网络和声源定位网络需要进行训练，本发明为了训练声源分离网络，在混合音频的频谱中根据真实的发声域标记真实频谱掩码，计算预测频谱掩码与真实频谱掩码的二元交叉熵损失函数更新参数。

此外，所述的声源分离网络的训练过程中需保证分离前后的一致性，计算分离一致性损失：

loss_

式中，loss_

本发明为了训练声源定位网络，将最大池化后的原始音频特征与编码后的帧图像特征进行匹配，计算匹配损失：

式中，loss

此外，所述的声源定位网络的训练过程中也需保证定位前后的一致性，计算定位一致性损失：

式中，loss

本实施例中，发声物的概率矩阵过程为：将池化后的原始音频特征与对应的编码后的帧图像特征相乘，相乘结果在特征维度上求和，经激活函数处理后得到包含帧图像特征中所有特征点对应发声物的概率矩阵。

在本发明的一项具体实施中，讲详细介绍了基于对偶一致网络的声源定位与声源分离方法的训练过程。具体步骤如下。

1.构造训练数据集。

首先，获取音视频数据集，随机选取包含不同声音域（乐器）的一对视频Video_1、 Video_2，按照采样率11025Hz随机取出大约6秒音频

2.特征编码。

对于步骤1中得到的原始音频A

当A

当S

对于步骤1中得到的原始帧图像V

当V

3. 声源分离。

3.1 发声域检测：

首先针对本发明使用的数据，设定了

得到各声音域上的概率

其中，

3.2 对于步骤2中得到的混合音频频谱S

得到频谱上的预测掩码

3.3 训练时使用二元交叉熵损失更新网络参数：

其中，

3.4接着将掩码乘到原始混合频谱S

3.5 在训练时，需保证分离前后一致性，运用如下损失：

其中，

4. 声源定位。

4.1 针对步骤2中得到的图像特征

其中，sum表示对整个向量求和，mean表示对整个向量求均值。

4.2 在定位时，计算帧图像特征中所有特征点对应发声物的概率矩阵：

其中，sum

4.3 最后构造图像一致性损失如下：

其中，mean表示对整个向量求均值，

5. 在训练过程中，联合上述损失函数，对对偶一致网络执行端到端多任务训练。

相比于传统的声源定位与声源分离任务中的方法，本发明将两个任务视为对偶任务，用同一个架构同时完成，并利用两任务的特性，在训练过程中相互增强性能，最终在两任务上都提升了效果。

与前述的一种基于对偶一致网络的声源定位与声源分离的方法的实施例相对应，本申请还提供了一种基于对偶一致网络的声源定位与声源分离的系统，其包括：

音频编码模块，其用于对原始音频、以及混合音频进行编码；

图像编码模块，其用于对帧图像、以及拼接图像进行编码；

发声域检测模块，其用于对编码后的混合音频特征进行发声域检测，得到混合音频中包含的不同声音域检测结果；

声源分离模块：其用于根据混合音频、编码后的拼接图像特征以及不同声音域检测结果，从混合音频中分离出对应不同声音域的音频；

声源定位模块：其用于根据编码后的原始音频和帧图像，从帧图像中定位得到发声物；

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为声源分离模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

为了进一步展示本发明的实施效果，本发明在MUSIC数据集上面进行了实验验证，MUSIC数据集包含从YouTube上收集的685个未修剪的视频，其中536个独奏和149个二重奏视频。视频包含了11个乐器类别：手风琴、原声吉他、大提琴、单簧管、二胡、长笛、小号、大号、萨克斯管、小提琴、木琴，该数据集适合于声源分离和声源定位任务。为了验证本发明的有效性，对于声源定位任务，实验以交并比（IoU）和曲线下面积（AUC），为评价指标。扩展现有的视觉定位方法，SoP（Hang Zhao, Chuang Gan, Andrew Rouditchenko, CarlVondrick, Josh H. McDermott, and Antonio Torralba. The sound of pixels. InECCV, 2018）和DMC（Di Hu, Feiping Nie, and Xuelong Li. Deep multimodalclustering for unsupervised audiovisual learning.）作为对比。

表1 声源定位实验结果

对于声源分离任务，实验以信失真比(SDR)、信干扰比(SIR)和信伪比(SAR)为评价指标。扩展现有的视觉定位方法SoP（Hang Zhao, Chuang Gan, Andrew Rouditchenko,Carl Vondrick, Josh H. McDermott, and Antonio Torralba. The sound of pixels.In ECCV, 2018）作为对比。

表2 声源分离实验结果

表1和表2展示了本发明评测的结果，可以看到，本发明的结果要优于其他各模型的结果，说明基于对偶一致网络的方法取得了一定的成功，这套框架不仅可以同时完成声源定位与声源分离两任务，还可以利用两任务的对偶特征，通过对偶一致性损失，让两个任务在训练过程中相互增强彼此性能。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于对偶一致网络的声源定位与声源分离的方法和系统 [P] . 中国专利： CN113850246B . 2022.02.18
2. 基于对偶一致网络的声源定位与声源分离的方法和系统 [P] . 中国专利： CN113850246A . 2021-12-28
3. SOUND SOURCE SEPARATION SYSTEM, SOUND SOURCE POSITION ESTIMATION SYSTEM, SOUND SOURCE SEPARATION METHOD, AND SOUND SOURCE SEPARATION PROGRAM [P] . US2021297773A1 . 2021-09-23

机译：声源分离系统，声源位置估计系统，声源分离方法和声源分离程序
4. Sound source separation system, sound source position estimating system, sound source separation method and sound source separation program [P] . JPWO2020031594A1 . 2021-08-12

机译：声源分离系统，声源位置估计系统，声源分离方法和声源分离程序
5. SOUND SOURCE SEPARATION SYSTEM, SOUND SOURCE POSITION ESTIMATION SYSTEM, SOUND SOURCE SEPARATION METHOD, AND SOUND SOURCE SEPARATION PROGRAM [P] . 世界知识产权组织专利： WO2020031594A1 . 2020-02-13

机译：声源分离系统，声源位置估计系统，声源分离方法和声源分离程序