首页> 中国专利> 一种基于自监督学习的多聚焦图像融合方法及装置

一种基于自监督学习的多聚焦图像融合方法及装置

摘要

本发明公开一种基于自监督学习的多聚焦图像融合方法及装置。其方法步骤为:S1、采集多个场景下的远‑近聚焦图像对;S2、对采集到的远‑近聚焦图像对进行图像增广;S3、分别获取增广后的远‑近聚焦图像对及其灰度值并进行通道拼接;S4、通过带有全局特征金字塔提取单元和全局注意连接上采样单元的全局特征编码网络获取0‑1的二进制标志Mask(x,y);S5、对单通道的Mask(x,y)进行通道扩充至三通道Mask3(x,y);S6、利用三通道Mask3(x,y)对远‑近聚焦图像对进行像素加权平均融合得到全聚焦图像。本发明使用自监督的全局特征编码网络,可以在多焦点图像融合中准确生成焦点图。

著录项

  • 公开/公告号CN115984104A

    专利类型发明专利

  • 公开/公告日2023-04-18

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN202211545255.7

  • 申请日2022-12-05

  • 分类号G06T3/40;G06T5/50;G06V10/42;G06T3/60;G06N3/048;G06N3/08;G06N3/0464;

  • 代理机构江苏法德东恒律师事务所;

  • 代理人李媛媛

  • 地址 210046 江苏省南京市栖霞区仙林大道163号

  • 入库时间 2023-06-19 19:30:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-05

    实质审查的生效 IPC(主分类):G06T 3/40 专利申请号:2022115452557 申请日:20221205

    实质审查的生效

说明书

技术领域

本发明涉及一种基于自监督学习的多聚焦图像融合方法及装置,属于多聚焦图像融合领域。

背景技术

由于成像设备中光学器件的景深限制,很难使与相机的距离不同的所有对象在一次拍摄中完全聚焦。为解决这一问题提出了多聚焦图像融合方法,将同一个场景中不同聚焦区域的多个图像融合成一张全聚焦图像,获得的全聚焦图像可以提供更多的内容和细节,并可以进一步应用在图像处理相关任务中,例如分割、目标识别、特征提取等。

近年来有多种多聚焦图像融合方法被提出,根据融合策略,这些融合方法可以大致被分为三类:基于变换域的融合方法、基于空间域的融合方法和基于神经网络的融合方法。基于变换域的融合方法通常将源图像转换为变换域,根据特定的融合规则获得系数,最后通过逆变换得到融合图像。近年来的变换域包括拉普拉斯金字塔、离散小波变换(DWT)、双树复小波变换、离散余弦变换(DCT)等。基于空间域的融合方法主要通过像素级的梯度信息和图像块来进行图像融合,这种方法通常会导致伪影的产生。常用的空间域的方法包括基于引导滤波(GF),密度SIFT(DSIFT),多尺度加权梯度(MWG),图像提取(IM)等。基于神经网络的融合方法主要利用学习策略进行多焦点图像融合,常用的网络包括卷积神经网络(CNN)、多尺度卷积神经网络(MSCNN)、像素级卷积神经网络(p-CNN)、全卷积网络(FCN)等。

由于深度学习强大的特征提取和数据表示能力,其在多聚焦图像图像融合方法获得了不错的结果,但大多数方法要么盲目增加卷积层的数量,以增加计算负担为代价追求性能的轻微提高,要么使用许多后处理步骤来弥补生成的焦点图中的不足。此外,大多数方案在设计网络结构时没有充分考虑图像融合任务的特点,这也限制了融合性能的提高。基于此,有研究考虑在多焦点图像融合中生成焦点图作为全局两类分割任务,用于分割源图像中的聚焦区域和散焦区域。此方法需要对应的全聚焦图像作为数据标签进行训练,而多聚焦图像融合领域一般缺乏标记数据。

发明内容

针对上述现有技术的缺陷,本发明提出一种基于自监督学习的多聚焦图像融合方法,在无需正确数据标记的情况下,通过自监督学习来训练全局特征编码网络使网络学习到源图像中聚焦情况进行全局两类分割,进而融合成一张全聚焦图像。

本发明采用的技术方案如下:

一种基于自监督学习的多聚焦图像融合方法,包括如下步骤:

S1:采集多个场景下两两配对的远-近聚焦图像对,将图像信息分别记为IMG

S2:对采集到的成对图像信息IMG

S3:获取图像增广后远-近聚焦图像对及其灰度值信息GRAY

S4:将通道拼接后的灰度值信息GRAY

S5:对单通道的0-1二进制标志Mask(x,y)进行通道扩充至三通道Mask

S6:利用所述三通道Mask

进一步地,所述步骤S4中的全局特征编码网络包括编码器、全局特征金字塔提取单元、解码器和二进制标志Mask生成单元;所述编码器用于将尺寸为H×W×2的远-近聚焦图像对通道拼接后的灰度图图像特征数据重排为尺寸为

进一步地,所述全局特征金字塔提取单元具有金字塔卷积结构,包括全局特征提取模块;全局特征金字塔提取单元的输入为经过所述编码器重排后的尺寸为

本发明具有以下有益效果:

(1)本发明训练网络是使用自监督学习手段,无需有配对的全聚焦清晰图像。

(2)本发明的全局特征编码网络包括全局特征金字塔提取单元,有利于提取远-近聚焦图像对的多尺度特征信息,进而提升整个模型最终的融合效果与精度。

(3)本发明的全局特征编码网络包括全局注意连接上采样单元,充分结合了高级特征与低级特征,上采样恢复至原始分辨率,有助于在多焦点图像融合中准确生成焦点图。

附图说明

图1是本发明自监督学习的多聚焦图像融合装置的结构示意图;

图2是本发明自监督学习的多聚焦图像融合方法的流程示意图;

图3是本发明全局特征编码网络的结构示意图;

图4是本发明全局特征金字塔提取单元的结构图;

图5是本发明全局特征提取模块的结构图;

图6是本发明全局注意连接上采样单元的结构图;

图7是本发明二进制标志Mask生成单元的结构图;

图8是本发明提供的数据集图像增广示意图。

具体实施方式

以下结合附图对本发明方案进行详细说明。

如图1所示,本实施例提供一种基于自监督学习的多聚焦图像融合装置,包括以下模块:

多聚焦图像采集模块,用于采集同个场景下的远-近聚焦图像对,得到的图像格式为JPG,排列方式为RGB;

预处理模块,通过Opencv库的COLOR_RGB2GRAY函数将多聚集图像采集模块采集到的远-近聚焦图像对进行图像增广,获取图像增广后远-近聚焦图像对及其灰度值信息,并其进行通道拼接;

全局特征编码网络模块,用于对预处理模块输出的拼接后的灰度图像进行全局特征编码与解码操作,得到0-1的二进制标志Mask(x,y),表示输入远-近聚焦图像对每个像素点的聚焦情况,其中(x,y)表示图像中的像素点;

通道扩充模块,用于将单通道的0-1二进制标志扩充至三通道;

融合模块,用于对图像增广后远-近聚焦图像对使用像素加权平均策略获得融合后的全聚焦图像IMG

如图2所示,本实施例的一种基于自监督学习的多聚焦图像融合方法,包括如下步骤:

S1:采集多个场景下两两配对的远-近聚焦图像对,例如场景里有一个离相机近一点的人,人的后方是一片大海,当聚焦点在人身上,人是清晰的,海是虚化的就是近聚焦图像;反之聚焦点在海,海是清晰的,人是模糊的就是远聚焦图像。采集远-近聚焦图像对时采用相同的曝光、光圈以及感光度等相机参数,将图像信息记为:IMG

S2:对所述采集到的成对图像信息IMG

其中,数据增广采用原始远-近聚焦图像对与变换矩阵相乘得到,所采用的数学变换矩阵如下:

其中,Δx,Δy为图像在x,y方向上平移的尺度大小;θ为以图像中心为旋转中心进行的顺时针旋转的角度;s

S3:通过Opencv库的COLOR_RGB2GRAY函数获取图像增广后远-近聚焦图像对及其灰度值信息GRAY

S4:将通道拼接后的灰度值信息GRAY

其中,全局特征编码网络的具体结构见图3,由编码器、全局特征金字塔提取单元、解码器、二进制标志Mask生成单元组成,编码器将尺寸为512×512×2的灰度级联图像编码为尺寸为32×32×256的特征图(其中H和W分别表示输入图像的高和宽);全局特征金字塔提取单元提取全局特征并将尺寸为32×32×256的特征图重排为尺寸为32×32×512的特征图;解码器为全局注意连接上采样单元,用于将尺寸为为32×32×256的特征图重排为尺寸为H×W×16的特征图;二进制标志Mask生成单元将解码结果映射为0-1二进制标志位。

解码器由五个Conv_block组成,每个Conv_block包括两个Conv2d+BN+SELU结构,输出尺寸为32×32×256的特征图并输入到全局特征金字塔提取单元。

全局特征金字塔提取单元的具体结构图见图4,其具有金字塔卷积结构,由四个卷积层、三个全局特征提取模块GEblock(Global Extraction block)组成。对尺寸为32×32×256的特征图进行连续递进式的三次卷积且分别输入三个GEblock得到不同尺度的全局特征1×1×256。将三个不同尺度的全局特征进行累加、复制以生成尺寸为32×32×256的多尺度全局特征图。同时对初始输入全局特征金字塔提取单元的图像特征进行卷积得到尺寸为32×32×256的特征图并与多尺度全局特征图进行级联输出。GEblock的具体结构图见图5。GEblock用于完成全局特征提取操作和特征变换操作;全局特征提取操作获得每个特征F

解码器由四个全局注意连接上采样单元构成,具体结构图见图6。对全局特征金字塔提取单元提取到的高级特征进行全局池化得到尺寸为1×1×C的输出;对编码器得到的低级特征进行卷积得到尺寸为64×64×128的输出。将上述两个输出进行相乘并与高级特征进行上采样得到的特征图进行通道拼接输出尺寸为64×64×256的特征图,对此特征图进行卷积得到尺寸为64×64×128的输出;由此经过四个全局注意连接上采样单元可以得到尺寸为512×512×16的输出。

二进制标志Mask生成单元包括Conv2d卷积层、Tanh激活函数、Sign映射函数,具体结构图见图7。首先将尺寸为512×512×16的上层输出进行卷积获得尺寸为512×512×1的输出,接着采用Tanh激活函数得到[-1,1]的输出范围,最后通过符号函数Sign将输出映射为0-1二进制标志位Mask(x,y)。映射过程如下:

其中,Conv为二进制标志Mask生成单元中Conv2d卷积层的输出;tanh为双曲正切函数;sign为符号函数。

特别的,全局特征编码网络的训练方式采用无监督学习,训练时统计全聚焦融合后的图像梯度与远-近聚焦图像对的梯度最大值之间的损失作为误差进行反向传播,损失函数的设计如下:

其中G

S5:对单通道的0-1二进制标志Mask(x,y)进行通道复制扩充至三通道Mask

S6:对步骤S3图像增广后远-近聚焦图像对使用像素加权平均策略获得融合后的全聚焦图像IMG

综上所述,本实施例提供的方法,在无需正确数据标记的情况下,通过自监督学习训练带有全局特征金字塔提取单元和全局注意连接上采样单元的全局特征编码网络对远-近聚焦图像中聚焦情况进行全局两类分割,进而融合成一张全聚焦图像。

以上所述,仅为本发明的具体实施方式,并非对本发明做任何形式上的限制。应当指出,所用的远-近聚焦图像对采集设备不对本发明构成限制,图像分辨率不对本发明构成限制,图像内容不对本发明构成限制。本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明公开的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号