首页> 中国专利> 基于U-Net结构和残差网络的单幅图像去雾网络及其去雾方法

基于U-Net结构和残差网络的单幅图像去雾网络及其去雾方法

摘要

本发明公开了一种基于U‑Net结构和残差网络的去雾网络及其去雾方法。该网络不依赖于大气散射模型,可以实现端到端的去雾。本发明基于U‑Net的网络结构,利用残差模块构建了一个端到端的去雾残差网络,去雾方法包括以下步骤:获取合成雾天数据集RESIDE作为训练数据集,并对数据集进行裁剪和归一化的预处理。基于U‑Net结构和残差模块,构造去雾网络模型。将合成雾天数据集输入到网络模型中,在训练过程中通过新的损失函数计算损失,不断迭代更新网络参数,最终得到优化的去雾模型,进行图像去雾。

著录项

  • 公开/公告号CN114881875A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN202210466613.9

  • 申请日2022-04-27

  • 分类号G06T5/00(2006.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639;

  • 代理人张利萍

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06T 5/00 专利申请号:2022104666139 申请日:20220427

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及数字图像处理技术领域,具体涉及基于U-Net结构和残差网络的单幅图像去雾网络及其去雾方法。

背景技术

雾霾天气是一种常见的自然现象。在雾霾天气条件下,空气中存在大量能够散射光线的微小颗粒,通过散射太阳光和物体反射的光线,造成可见光图像采集设备获取的图像质量大幅下滑,对高级计算机视觉任务产生恶劣的影响。为了改善图像的质量,提高图像的清晰度,对图像进行去雾处理很有必要。

图像去雾的方法大体可以分为传统方法和基于学习的方法两大类,其中传统方法又可以分为两大类:一类是基于物理模型的去雾方法,另一类是基于图像增强的方法。基于物理模型的方法依赖于大气散射模型,通过各种先验假设来获得大气散射模型中的未知参数,最后通过反解大气散射模型得到无雾图片。其中比较著名的是暗通道先验假设(darkchannel prior),该假设通过搜索RGB图像三通道内最低值的像素点来还原透射率分布图,并通过图像内最明亮区域构建全局大气光照,最后通过大气散射模型还原无雾图片。然而暗通道先验假设对存在大范围天空区域的图像会失效,同时无法复原白色物体的细节纹理。基于图像增强的去雾方法常见的有直方图均衡化、对比度增强和基于Retinex理论的相关算法等,这类方法对景物深度变化比较大的图像的增强效果不理想,而且容易造成增强过度,使得图像不自然。

基于学习的方法不同于传统方法,这种方法不再依赖于手工提取的特征,而是通过构建卷积神经网络,让网络从数据集中学习如何提取特征。早期的去雾网络依赖于传统的大气散射模型,如DehazeNet,通过网络还原透射率分布图,再输入到大气散射模型中获得去雾图像。AOD-Net通过对大气散射模型进行变形,从而利用网络只估计一个未知量便可以获得去雾图像。基于大气散射的深度网络虽然能够达到比传统方法更好的去雾效果,但大气散射模型限制了卷积神经网络的学习能力,因此人们开始尝试直接使用网络进行端到端的去雾;与此同时,残差网络的出现解除了网络模型深度的限制,去雾网络开始向更大更深的方向发展。GridDehazeNet基于密集卷积残差块和注意力机制,提出了一个融合了上下采样的网格状网络,实现了端到端的去雾并取得良好的效果。然而融合了上采样和下采样过程中难免会造成信息丢失,去雾网络会出现去雾不均匀和细节还原较差的问题。基于深度学习的方法近些年来发展迅速,但仍然存在一定的局限性,需要进一步改进和提高。

发明内容

有鉴于此,本发明提供了一种基于U-Net结构和残差网络的去雾网络及其去雾方法。该网络不依赖于大气散射模型,可以实现端到端的去雾。

为达到上述目的,本发明的技术方案为:基于U-Net结构和残差模块的残差网络,基于U-Net的网络结构,利用残差模块构建一个端到端的去雾残差网络。

网络结构是基于U-Net结构构建的残差网络,由编码层、解码层以及连接两个区域的中间瓶颈区构成。

编码区包含了一个3x3的卷积层和3个两倍下采样的下采样层,其中下采样层步长为2;经过卷积后图片变为16通道的特征图,特征图大小与输入图片相同;而经过一次下采样后特征图大小缩小为原先的一半,层数翻倍;在下采样层第一次卷积和第二次下采样后,连接了注意力机制残差块;第一次和第三次下采样后,连接了普通的残差块。

经过下采样层处理的特征图大小为原图的八分之一,通道数为128,该特征图进入瓶颈区后首先通过三个串联的平滑空洞卷积残差块,得到的新特征图大小和通道数不变;之后,将下采样层中不同尺度的特征进一步下采样处理,得到与新特征大小、通道数相同的特征,并与新特征进行逐元素加权求和;其中各特征的权值为可学习的参数,在网络迭代过程中自适应调整;最后将加权求和得到的新特征再通过一组三个串联的平滑空洞卷积残差块,并将此特征输入到解码层。

所述解码层由三个上采样层和两个3x3卷积层构成,其中每个上采样层后面连接了一个残差块;每次上采样后得到的新特征大小翻倍,特征通道数缩减为一半;每次上采样结束后,都将编码层对应大小和维度的特征与之逐元素相加,再输入到残差块中;网络第一层卷积层输出的特征,经过5个串联的密集卷积残差块后,再与最后一个上采样得到的特征进行逐元素相加,以此得到的新特征最终输入到最后两个卷积层并输出一个与原始输入相同大小的清晰图像。

本发明还提供了一种基于U-Net结构和残差模块的残差网络图像去雾方法,该方法包括以下步骤:

步骤1):获取合成雾天数据集RESIDE作为训练数据集,并对数据集进行预处理。

步骤2):依据权利要求1提供的基于U-Net结构和残差模块的残差网络结构,构造去雾网络模型。

步骤3):将合成雾天数据集输入到所述去雾网络模型中,对所述去雾网络模型进行训练,在训练过程中通过新的损失函数计算损失,不断迭代更新网络参数,最终得到优化的去雾模型,进行图像去雾。

进一步地,步骤1)中,对RESIDE数据集预处理的具体方法如下:

训练数据集中一对有雾图像和清晰图像为(I,J),其中I,J∈R

针对图像进行随机裁剪后,得到的图像为(I

裁剪得到(I

进一步地,随机裁剪的步骤具体为:

设定为h=w=240,首先确定裁剪的基准点坐标(x

进一步地,归一化处理具体为:首先获得整个数据集的均值mean和方差std:

其中,p

通过以上算式,求得裁剪并归一化后的有雾图片

进一步地,步骤3)中,设计的新的损失函数由平滑L

其中平滑L

其中,

所述感知损失为利用其他预训练的特征提取网络,提取输出图片和目标图片的特征,并使其相似,感知损失为L

采用ImageNet上训练的VGG16作为特征提取网络,使用其3,5,7层特征来生成感知损失,即Conv1-2,Conv2-2和Conv3,以此增强恢复图片的细节部分。

最终损失函数表示为:L=L

进一步地,RESIDE训练数据集归一化参数mean的最终取值为[0.6111,0.5743,0.5631],std的最终取值为[0.1503,0.1563,0.1616]。

进一步地,对所述去雾网络模型进行训练时,训练时在RESIDE数据集的ITS室内数据集中训练100代中止,并保留参数继续于OTS室外数据集上训练20代。

有益效果:

1、本发明提出的基于U-Net结构和残差网络的去雾网络,其网络结构是基于U-Net结构构建的残差网络,由编码层、解码层以及连接两个区域的中间瓶颈区构成。该模型通过下采样到瓶颈区的自适应加权求和更好地保留了下采样过程中特征丢失的信息,能够更好的恢复图像的细节,可以直接进行端到端的去雾。

2、本发明提出的模型去雾结果在主观视觉上表现良好,并在SOTS上测试得到客观指标较为领先。

3、本发明提出的基于Net结构和残差网络的去雾网络,残差块由两组卷积层和relu层组成,并将输入特征通过逐元素相加的方式跳跃连接至第二个卷积层和relu层之间。通过这种方式构造的卷积网络被成为残差网络,可以解决深度网络中网络退化和梯度消失/爆炸的问题。

4、本实例使用的平滑空洞卷积残差块,其中SS层为可分离共享权值的卷积层,即网络只学习一层卷积核的参数并将其扩展到输入特征的维度,在此基础上对输入特征进行卷积。通过这种方式在空洞卷积之前为特征添加相邻像素的信息,以此避免空洞卷积会带来的网格效应。同时空洞卷积应用于瓶颈层能够在不增加参数的情况下扩大网络的感受野,更好地复原细节信息。

5、本发明去雾方法,对于数据集中的数据,为了增大训练时的batch size以获得更好的训练效果和适应低配机器,通过随机裁剪和归一化处理进行预处理。

6、本发明提供的使用的损失函数由平滑L1损失和感知损失两个部分组成。为了保证复原图像的细节,引入感知损失,感知损失即利用其他预训练的特征提取网络,提取输出图片和目标图片的特征,并使其尽可能相似。该损失函数的应用可以保证所提取的图片和目标图片的特征能够保证恢复图像的细节。

附图说明

图1是本发明的实施流程图;

图2是本发明的卷积神经网络模型结构图;

图3是图2网络中使用的残差块结构图;

图4是图2网络中使用的注意力机制残差块结构图;

图5是图4注意力机制模块中通道注意力(CA)和像素注意力(PA)模块结构图;

图6是图2网络中使用的平滑空洞卷积残差块结构图;

图7是图2网络中使用的密集卷积残差块结构图。

具体实施方式

下面结合附图并举实施例,对本发明进行详细描述。

本发明首先提供了网络结构是基于U-Net结构构建的残差网络,由编码层、解码层以及连接两个区域的中间瓶颈区构成。编码区包含了一个3x3的卷积层和3个两倍下采样的下采样层,其中下采样层步长为2;经过卷积后图片变为16通道的特征图,特征图大小与输入图片相同;而经过一次下采样后特征图大小缩小为原先的一半,层数翻倍。在下采样层第一次卷积和第二次下采样后,连接了注意力机制残差块;第一次和第三次下采样后,连接了普通的残差块。

经过下采样层处理的特征图大小为原图的八分之一,通道数为128,该特征图进入瓶颈区后首先通过三个串联的平滑空洞卷积残差块,得到的新特征图大小和通道数不变;之后,将下采样层中不同尺度的特征进一步下采样处理,得到与新特征大小,通道数相同的特征,并与新特征进行逐元素加权求和;其中各特征的权值为可学习的参数,在网络迭代过程中自适应调整。最后将加权求和得到的新特征再通过一组三个串联的平滑空洞卷积残差块,并将此特征输入到解码层。

解码层由三个上采样层和两个3x3卷积层构成,其中每个上采样层后面连接了一个残差块。每次上采样后得到的新特征大小翻倍,特征通道数缩减为一半;每次上采样结束后,都将编码层对应大小和维度的特征与之逐元素相加,再输入到残差块中;网络第一层卷积层输出的特征,经过5个串联的密集卷积残差块后,再与最后一个上采样得到的特征进行逐元素相加,以此得到的新特征最终输入到最后两个卷积层并输出一个与原始输入相同大小的清晰图像。

结合图1~图7,进一步详细说明本发明。图1为本实例的实施流程图,本实施例包括以下步骤:

步骤1):获取合成雾天数据集RESIDE作为训练数据集,并对数据集进行裁剪和归一化的预处理。

对于数据集中的数据,为了增大训练时的batch size以获得更好的训练效果和适应低配机器,通过随机裁剪和归一化处理进行预处理。

假设训练数据集中一对有雾图像和清晰图像为(I,J),其中I,J∈R

裁剪过程首先确定裁剪的基准点(x

裁剪得到(I

其中,p

通过以上算式,求得裁剪并归一化后的有雾图片

步骤2):基于U-Net结构和残差模块,构造去雾网络模型。

本实例的网络结构图如图2所示。本实例的网络结构是基于U-Net结构构建的残差网络,由编码层、解码层以及连接两个区域的中间瓶颈区构成。编码区包含了一个3x3的卷积层和3个两倍下采样的下采样层,其中下采样层步长为2;经过卷积后图片变为16通道的特征图,特征图大小与输入图片相同;而经过一次下采样后特征图大小缩小为原先的一半,层数翻倍。在下采样层第一次卷积和第二次下采样后,连接了注意力机制残差块;第一次和第三次下采样后,连接了普通的残差块。

经过下采样层处理的特征图大小为原图的八分之一,通道数为128,该特征图进入瓶颈区后首先通过三个串联的平滑空洞卷积残差块,得到的新特征图大小和通道数不变;之后,将下采样层中不同尺度的特征进一步下采样处理,得到与新特征大小,通道数相同的特征,并与新特征进行逐元素加权求和;其中各特征的权值为可学习的参数,在网络迭代过程中自适应调整。最后将加权求和得到的新特征再通过一组三个串联的平滑空洞卷积残差块,并将此特征输入到解码层。

解码层由三个上采样层和两个3x3卷积层构成,其中每个上采样层后面连接了一个残差块。每次上采样后得到的新特征大小翻倍,特征通道数缩减为一半;每次上采样结束后,都将编码层对应大小和维度的特征与之逐元素相加,再输入到残差块中;网络第一层卷积层输出的特征,经过5个串联的密集卷积残差块后,再与最后一个上采样得到的特征进行逐元素相加,以此得到的新特征最终输入到最后两个卷积层并输出一个与原始输入相同大小的清晰图像。

本实例中使用的残差块如图3所示。残差块由两组卷积层和relu层组成,并将输入特征通过逐元素相加的方式跳跃连接至第二个卷积层和relu层之间。通过这种方式构造的卷积网络被成为残差网络,可以解决深度网络中网络退化和梯度消失/爆炸的问题。

本实例中使用的注意力机制残差块如图4所示,其中使用的CA与PA模块如图5所示。注意力机制残差块通过在残差块后添加串联的CA、PA和relu层构成,并将输入跳跃连接至relu层后。CA模块由平均池化层、卷积层、relu层、卷积层和一个sigmoid层构成。通过平均池化将特征压缩为Cx1x1大小的通道范围注意力,并通过卷积和sigmoid让网络学习通道范围的权值,最后逐元素相乘为输入特征进行加权。PA模块相比CA模块则少一个平均池化层,最终学习一个1xHxW的像素范围特征对输入特征进行加权。

本实例使用的平滑空洞卷积残差块如图6所示。其中SS层为可分离共享权值的卷积层,即网络只学习一层卷积核的参数并将其扩展到输入特征的维度,在此基础上对输入特征进行卷积。通过这种方式在空洞卷积之前为特征添加相邻像素的信息,以此避免空洞卷积会带来的网格效应。同时空洞卷积应用于瓶颈层能够在不增加参数的情况下扩大网络的感受野,更好地复原细节信息。

本实例使用的密集卷积残差块如图7所示。其输入特征为16通道,每次通过一个卷积层和relu层后,得到一个新的16通道特征,并将其拼接到输入特征之上,得到扩充后的特征,之后将其输入到下一个卷积层之中。特征由输入的16维,逐渐扩张到32、48、64到80维,最后通过一个1x1卷积层压缩到16维,并于输入特征做逐元素相加得到输出特征。

步骤3):将合成雾天数据集输入到网络模型中,在训练过程中通过新的损失函数计算损失,不断迭代更新网络参数,最终得到优化的去雾模型,进行图像去雾。

本实例使用的损失函数由平滑L1损失和感知损失两个部分组成。其中平滑L1损失结合了平均绝对误差(MAE)和平均均方误差(MSE),公式为:

其中,

为了保证复原图像的细节,引入感知损失。感知损失即利用其他预训练的特征提取网络,提取输出图片和目标图片的特征,并使其尽可能相似。公式为:

L=L

本发明提出的模型可以直接进行端到端的去雾,通过下采样到瓶颈区的自适应加权求和更好地保留了下采样过程中特征丢失的信息,能够更好的恢复图像的细节。本发明提出的模型去雾结果在主观视觉上表现良好,并在SOTS上测试得到客观指标较为领先。

表1为本发明的方法同其他方法在SOTS数据集上PSNR和SSIM的比较,可以看到在两项指标中本发明方法均为最好。

表1合成数据集上的PSNR与SSIM指标

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号