首页> 中国专利> 基于信息瓶颈的多模态图像融合方法、系统、设备和介质

基于信息瓶颈的多模态图像融合方法、系统、设备和介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明属于图像融合领域，提供了一种基于信息瓶颈的多模态图像融合方法、系统、设备和介质。其中，该融合方法包括获取红外与可见光多模态图像；预处理每对红外与可见光多模态图像；提取预处理后的每对红外与可见光多模态图像的特征；利用信息瓶颈层对每对红外与可见光多模态图像的特征进行筛选；融合筛选的红外与可见光多模态图像特征，得到融合特征图；对融合特征图进行重建，得到融合图像。

著录项

公开/公告号CN113191991A

专利类型发明专利
公开/公告日2021-07-30

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN202110372064.4
发明设计人徐卫志;徐晨曦;郑元杰;宋景琦;王军霞;姜岩芸;
展开▼

申请日2021-04-07
分类号G06T5/50(20060101);G06K9/46(20060101);G06K9/62(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人张庆骞
地址 250014 山东省济南市历下区文化东路88号
入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明属于图像融合领域，尤其涉及一种基于信息瓶颈的多模态图像融合方法、系统、设备和介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

图像融合本质上是一种增强技术，它将来自不同传感器的不同类型的数据进行融合，生成一幅包含丰富信息或更有利于后续应用的图像。同一类型传感器获得的信息十分有限，需要对来自不同传感器的信息进行融合。融合技术在视频监控、现代军事、医学病理研究等方面发挥重要的作用。红外与可见光图像融合是图像融合技术中一个重要组成部分，可见光图像由捕获反射光的可见光传感器产生。它具有丰富的纹理细节信息，符合人眼观察规律。而红外传感器可以感知红外波段，将热辐射信息转换成灰度图像。红外图像具有强烈的对比度，即使在夜间和恶劣天气下也能有效地区分背景和目标。红外与可见光图像融合将这两种特征结合起来，生成对比度显著、纹理细节丰富的图像，在军事监视、目标检测、车辆夜间导航等领域具有良好的应用前景。

图像融合的关键是提取或重建有用的信息。研究人员提出了许多图像融合的方法。虽然现有的方法在多数情况下取得了较好的结果，但是发明人发现，也会存在一些消极因素。第一，在大多数传统方法中，图像变换和融合规则都需人工设计，这可能会限制其在某些任务中的应用。第二，由于源图像的多样性，计算量、实现难度诸多因素的限制，传统方法提出一个考虑融合任务理想的设计方法是相当困难的。第三，虽然深度学习在特征提取和数据表示方面表现出强大的能力，在图像融合任务中避免了传统手工设计的复杂性，但是在特征提取部分并不清楚是有用的信息还是冗余信息，尚无全面的理论理解可以充分解释。第四，现有的深度学习的方法很难在多模态的信息中达到平衡。综上所述，在基于深度学习的多模态图像融合问题中，综合利用其可用特征信息进行融合尚缺乏行之有效的解决方案。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于信息瓶颈的多模态图像融合方法、系统、设备和介质，其获得的融合图像更符合人的视觉感知，并能包含更多的细节和背景信息，有助于在目标检测、识别等方面的应用。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于信息瓶颈的多模态图像融合方法。

一种基于信息瓶颈的多模态图像融合方法，其包括：

获取红外与可见光多模态图像；

预处理每对红外与可见光多模态图像；

提取预处理后的每对红外与可见光多模态图像的特征；

利用信息瓶颈层对每对红外与可见光多模态图像的特征进行筛选；

融合筛选的红外与可见光多模态图像特征，得到融合特征图；

对融合特征图进行重建，得到融合图像。

本发明的第二个方面提供一种基于信息瓶颈的多模态图像融合系统。

一种基于信息瓶颈的多模态图像融合系统，其包括：

数据获取模块，其被配置为：获取红外与可见光多模态图像；

数据预处理模块，其被配置为：预处理每对红外与可见光多模态图像；

特征提取模块，其被配置为：提取预处理后的每对红外与可见光多模态图像的特征；

特征筛选模块，其被配置为：利用信息瓶颈层对每对红外与可见光多模态图像的特征进行筛选；

特征融合模块，其被配置为：融合筛选的红外与可见光多模态图像特征，得到融合特征图；

特征重建模块，其被配置为：对融合特征图进行重建，得到融合图像。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于信息瓶颈的多模态图像融合方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于信息瓶颈的多模态图像融合方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明首先进行图像融合领域调研，获取多模态图像，选用红外与可见光多模态图像，对采集到的多模态红外与可见光图像进行预处理，然后对深度学习图像融合网络进行改进，输入两种模态的红外与可见光图像，利用特征提取网络对两个模态的图像进行特征提取，对特征提取后的每对红外与可见光多模态图像通过信息瓶颈层进行特征筛选，然后将筛选后的特征图输入融合网络使用指定的融合规则进行融合，最后通过重建网络对融合后的特征图进行重建，通过这种方式，实现了端到端进行多模态图像融合，避免了传统融合方法的人工设计的困难，并且通过信息瓶颈原理可以获得两种不同模态互补信息有用的信息，限制输入信息流，增强图像融合的精度，为后续任务提供更有用精确的信息。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于信息瓶颈的多模态图像融合方法网络框架图；

图2(a)是本发明实施例的红外图像；

图2(b)是本发明实施例的可见光图像；

图3是本发明实施例的基于信息瓶颈的多模态图像融合方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例的一种基于信息瓶颈的多模态图像融合方法，其包括：

步骤S101：获取红外与可见光多模态图像。

红外图像由红外传感器捕获，用于记录来自不同物体的热辐射。红外传感器能在室外光线照射不足、烟雾的遮挡等恶劣的环境下快速完成成像。可见光图像由捕获反射光的可见光传感器产生，呈现的是人眼对于场景的直接观察的结果，具有比较高的分辨率和丰富的纹理细节，符合人眼观察的规律。

红外与可见光多模态图像可以预先存储在计算机设备的存储器中，当需要对其进行处理时，处理器直接从计算机设备的存储器中读取图像。当然，处理器也可以从外部设备中获取图像。比如，将待检测对象的红外与可见光多模态图像存储在云端，当需要进行处理操作时，处理器从云端获取待检测对象的图像。本实施例对处理器获取红外与可见光多模态图像的具体方式不做限定。

具体的，如图2(a)为红外图像，图2(b)为可见光图像，包含了不同场景的无光谱(强化视觉、近红外和长波红外或热)夜间图像，用来记录这些图像的不同相机系统分别是雅典娜、DHV、FEL和TRICLOBS，并且是严格配准好的，无需再次进行配准。

步骤S102：预处理每对红外与可见光多模态图像。

在具体实施中，预处理每对红外与可见光多模态图像的过程包括：

对红外与可见光多模态图像进行图像增强处理；图像增强处理所采用的方式为：旋转、水平翻转、平移、增加噪声或增加对比度等。

应理解的，图像增强处理可以有目的地强调图像的整体或局部特性，扩大图像中不同物体特征之间的差别。同时通过对图像进行旋转、翻转、平移、增加噪声等操作，可以增加图像的数量，防止网络发生过拟合，也可以增强分类网络的鲁棒性。

预处理每对红外与可见光多模态图像的过程还包括：

对图像增强后的图像进行图像归一化处理；是指对增强后的图像进行全局对比度归一化处理。

将输入归一化到[0,1]或[-1,1]的范围，并对每层输出的平均值和方差进行归一化，提高了网络的泛化能力，同时，在一定程度上可以解决梯度消失的问题。

步骤S103：提取预处理后的每对红外与可见光多模态图像的特征。

在具体实施中，对预处理后的每对红外与可见光多模态图像进行特征提取。构建用于融合的卷积神经网络基本单元，特征提取网络由多层卷积层组成，以常用的DenseNet为例，如图1所示，特征提取网络由卷积层和密集块构成，每层的输出作为下一层的输入。网络的第一层用来提取源图像的粗特征，如纹理细节等。而网络的后几层是提取的源图像的更细的特征。

使用4个卷积层作为特征提取网络，每个卷积核的大小均为3*3，步长为1。因为每一次下采样过程都会在源图像中丢失一些细节信息，这对于融合非常重要。因此，我们只引入了卷积层而没有下采样。这也可以保持输入和输出的大小相同，因此，转置卷积层在我们的网络中是不必要的。此外，为了避免梯度消失的问题，我们遵循了深卷积GAN的规则进行批量归一化和激活函数。首先第一层用于提取源图像粗略信息，随着卷积层数的增加，提取的信息就越多。因此，在我们的深度学习架构中，利用编码网络中每一层的结果来构造特征图。其骨干网络也可以采用其他架构，例如VGGNet，ResNet，ResNext，Res2Net等。在本申请的实施例中并不进行具体限定。

步骤S104：利用信息瓶颈层对每对红外与可见光多模态图像的特征进行筛选。

具体地，对特征提取后的每对红外与可见光多模态图像特征图输入进信息瓶颈层进行特征筛选，用来保留有用的信息。信息瓶颈原理为表示学习提供了一种信息论方法，通过训练编码器保留与预测标签相关的所有信息，同时最小化表示中的其他多余信息量。本实施例拟运用信息瓶颈原则，保留多模态数据有用的信息，为特征融合提供有用的依据。

步骤S105：融合筛选的红外与可见光多模态图像特征，得到融合特征图。

在本实施例中，对特征筛选后的红外与可见光多模态图像进行特征融合，得到融合特征图。运用一种简单的加权平均融合策略进行特征融合。加权平均策略表示为：

在网络中，k∈{1,2,…,K},K＝64代表特征图的数量。φ

步骤S106：对融合特征图进行重建，得到融合图像。

具体地，对红外与可见光多模态图像融合特征图进行重建，得到融合图像。特征重建模块的功能是生成融合图像，本发明通过一个卷积神经网络结构重建融合图像。具体来说，这个图像重建网络由四个卷积层构成，对于每一个卷积层，卷积核的大小均为3×3，步长为1。

基于一般的深度学习图像融合模型，本实施例提出了基于信息瓶颈的多模态图像融合模型，首先输入两种模态的红外与可见光图像，并在模型训练过程中对多模态红外与可见光图像进行随机裁剪进行训练，利用特征提取网络对两个模态的图像进行特征提取，对特征提取后的每对红外与可见光多模态图像进行特征筛选，将进行筛选后的特征图输入融合网络使用特定的融合策略进行融合，最后输入特征重建网络进行特征重建。通过这种方式，可以获得两种不同模态互补信息有用的信息，限制输入信息流，增强图像融合的精度，从而为精确的后续任务提供更有用的信息。

实施例二

如图3所示，本实施例提供了一种基于信息瓶颈的多模态图像融合系统，其包括：

数据获取模块，其被配置为：获取红外与可见光多模态图像；

数据预处理模块，其被配置为：预处理每对红外与可见光多模态图像；

特征提取模块，其被配置为：提取预处理后的每对红外与可见光多模态图像的特征；

特征筛选模块，其被配置为：利用信息瓶颈层对每对红外与可见光多模态图像的特征进行筛选；

特征融合模块，其被配置为：融合筛选的红外与可见光多模态图像特征，得到融合特征图；

特征重建模块，其被配置为：对融合特征图进行重建，得到融合图像。

此处需要说明的是，本实施例的基于信息瓶颈的多模态图像融合系统中的各个模块，与实施例一中的基于信息瓶颈的多模态图像融合方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于信息瓶颈的多模态图像融合方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于信息瓶颈的多模态图像融合方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于信息瓶颈的多模态图像融合方法、系统、设备和介质 [P] . 中国专利： CN113191991A . 2021-07-30
2. 基于多模态的信息推荐方法、系统、介质及设备 [P] . 中国专利： CN110188288B . 2021.05.07
3. Method and System for Model-Based Fusion of Multi-Modal Volumetric Images [P] . 美国专利： US2012230568A1 . 2012-09-13

机译：基于模型的多模态体积图像融合方法和系统
4. SET-TOP BOX PHOTOGRAPHING APPARATUS FOR PROVIDING CONTEXT-AWARENESS SERVICES ON THE BASIS OF MULTI-MODAL INFORMATION TO THEREBY LEARN AND ENHANCE USER INTERFACE AND USER EXPERIENCE AND METHOD AND COMPUTER-READABLE RECORDING MEDIUM USING THE SAME [P] . 韩国专利： KR101671760B1 . 2016-11-02

机译：用于基于多模态信息提供上下文感知服务的机顶盒摄影设备，从而学习和增强用户界面和用户体验，方法以及使用该方法的计算机可读记录介质
5. SET-TOP BOX, PHOTOGRAPHING APPARATUS FOR PROVIDING CONTEXT-AWARENESS SERVICES ON THE BASIS OF MULTI-MODAL INFORMATION TO THEREBY LEARN AND ENHANCE USER INTERFACE AND USER EXPERIENCE AND METHOD AND COMPUTER-READABLE RECORDING MEDIUM USING THE SAME [P] . 韩国专利： KR20160111284A . 2016-09-26

机译：机顶盒，用于基于多模态信息提供上下文意识服务的摄影设备，从而学习和增强用户界面和用户体验，方法以及使用该方法的计算机可读记录介质