首页> 中国专利> 一种基于多尺度残差网络模型的高分影像建筑物提取方法

一种基于多尺度残差网络模型的高分影像建筑物提取方法

摘要

本发明公开了一种基于多尺度残差网络模型的高分影像建筑物提取方法。首先,对高分辨率遥感影像中的典型建筑物类型和特征做出分析,基于深度学习网络大量数据需求设计数据增广策略,确定训练样本集和验证样本集的超参数配比;其次,在U‑Net网络对称结构的基础单元中结合密集捷径结构,设计残差映射单元,并对基本单元中卷积层结构安排进行改进,利于模型训练;同时,该改进网络将影像输入阶段设计为特征金字塔输入结构,可在不同尺度上学习影像特征,结合设计的残差跳跃连接方式进行多尺度特征融合,通过多级残差单元运算细化建筑物分割结果,加强了不同网络层之间多级特征的重用性,有效地增强了梯度在网络中的传递,加速模型收敛。

著录项

  • 公开/公告号CN113205018A

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN202110434612.1

  • 申请日2021-04-22

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人王琪

  • 地址 430072 湖北省武汉市武昌区珞珈山武汉大学

  • 入库时间 2023-06-19 12:05:39

说明书

技术领域

本发明涉及遥感应用技术领域,尤其是涉及一种基于多尺度残差网络模型的高分影像建筑物提取方法。

背景技术

建筑物作为构成城市结构的基本要素之一,其智能提取方法对于城市规划、监测以及管理来说是一项至关重要的任务,对于城市发展分析也有着重要的应用价值。相较于中低分辨率遥感影像,利用高分辨遥感影像进行建筑物变化检测的优势在于:图像包含更丰富的地物信息,如人工建筑在中低分辨率遥感影像中表现为点目标,而在高分辨率影像中会变成明显的面目标,这些目标占据了更多的像素;同一类地物的空间结构、纹理等表征信息更加丰富,这些信息能够更好的反映同一类地物的局部特征以及内部细节差异。但高分辨率遥感影像在带来了丰富的细节信息的同时放大了在中低分辨率遥感影像中较细微、可以忽略的干扰信息,形成影响建筑物检测新的干扰因素。虽然影像空间分辨率的提高缓解了低分辨率传感器的混合像元问题,但同一建筑对应的区域内部由于建筑物材料的不同在光谱响应上差异较大。复杂背景下的建筑物目标结构多变,高低错落,往往又易与周边的树木、道路等地物相混淆,“同谱异物,同物异谱”现象显著,加大了建筑物提取难度。建筑物复杂的结构体现出来的高程不连续、影像中相对遮蔽更加严重以及阴影的影响都是对建筑物检测而言更加严峻的挑战。

近年来,随着计算机计算能力和深度学习算法的发展,以卷积神经网络为基础的目标检测识别、图像语义分割逐渐超过了传统算法的最好效果,端到端的深度网络训练方法大幅提高了遥感图像中建筑物目标提取的准确率。其中,基于深度编码-解码网络的方法已经在建筑物提取中得到了广泛的应用。这类网络的编码部分主要用于提取深度抽象的特征,常见的编码网络部分大多采用了经典的网络模型,例如VGGNet、ResNet以及DenseNet等,抛弃了全连接层,在这些网络中输入的图像块经过多次池化操作,网络中间的特征图尺寸经过多倍压缩。网络的解码部分主要用于从编码部分获取的特征进行学习,将图像进行恢复,得到建筑物预测标记影像。目前,绝大多数网络都采取了上采样和跳跃连接结构,将底层学习的特征传递到高层,用于解码网络恢复图像中损失的细节信息。但是,简单的将编码器部分提取的特征图直接连接在对称的编码器部分并不能充分利用多层级中的特征信息,建筑物目标的细节位置信息仍然得不到有效恢复。此外,深度模型往往对显存和硬件条件的限制过高,如何提升目标提取的效率,均衡精度与计算代价也是另一个主要问题。

发明内容

针对现有技术存在的问题,本发明采用多级特征整合与多尺度特征融合的策略,设计了多尺度残差链接网络模型,目的是解决由于深度网络中池化操作造成的建筑物细节信息丢失的问题,利用丰富的多尺度上下文特征信息实现更精细的建筑物分割。同时,本发明构建的深度网络模型可减少模型训练参数和内存的要求。

本发明的技术方案为:一种基于多尺度残差网络模型的高分影像建筑物提取方法,包括以下步骤:

步骤一,根据高分辨率遥感影像中典型的建筑物区域,分析不同类型与风格的建筑物影像特征,基于数据增广策略扩充样本,并确定训练集和验证集的超参数配比;

步骤二,基于卷积神经网络基本对称结构、密集捷径结构、残差跳跃连接方式与特征金字塔输入结构,设计多尺度残差连接深度网络整体模型结构,包括以下子步骤;

步骤2.1,多尺度残差连接深度网络整体包括编码器部分和解码器部分;

步骤2.2,编码器部分采取特征金字塔网络输入结构,获得m个不同尺度上的影像,然后将影像经过卷积层的处理,确保下一层的输入与上一层的输出特征图尺寸保持一致,并对上一层尺度下输出的卷积特征图与该层尺度下经过卷积层处理后的影像特征图做合并,作为下一层的输入,然后经过残差映射单元和最大池化层;

所述残差映射单元包括两个分支,主分支包括多个卷积层单元,支路分支包括一个卷积层单元,所述卷积层单元包括卷积层、修正线性单元和批标准化层;设输入为x,主分支表示为

步骤2.3,解码器部分包括与编码器部分对应的上采样层和残差映射单元;

步骤2.4,编码器部分各尺度输出的深度特征图通过残差跳跃连接方式与解码器部分对应尺度下经过上采样层得到的特征图完成合并;

步骤2.5,最后将编码器部分的输出经过卷积层的处理,然后通过Sigmoid激活层将二维的特征图转换为分类图;

步骤三,利用步骤1中的训练样本集训练多尺度残差连接深度网络,通过验证样本集获得最佳的多尺度残差连接深度网络模型,最终利用最佳模型对测试集进行高分影像建筑物提取。

进一步的,所述步骤一的具体实施步骤如下:

(1)分析高分辨率遥感影像中典型建筑物区域的不同特点:

(a)砖混结构的多层住宅区,为排列整齐的楼房,规划有序,层数多,排列整齐,同一个小区内的建筑物排列一致,建筑物风格一致;

(b)建筑物框架结构清晰的高层住宅区、独栋高层办公楼以及商业建筑物屋顶,其街道整齐,临近房屋高大,带有很狭长的阴影,楼间距大,每一栋房屋高度、外观都不相同;

(c)远郊的建筑物屋顶分布稀疏,且为低矮的房屋,形状散乱无规则,犬牙交替,相互连接;

(d)别墅区排列整齐,都是一栋栋单体建筑,建筑物长宽一致,阴影短小;屋顶形状,外墙材料一致,且每一栋别墅都拥有花园;

(2)采取多种数据增广策略扩充训练样本集:

(a)输入图像和输出标签图像进行随机裁剪;

(b)输入图像和输出标签图像进行随机旋转,t

(c)输入图像每个波段乘以一个随机数值n,n∈[0.5,1];

(d)输入图像和输出标签图像进行随机水平和垂直翻转;

(3)数据分割,将涵盖各种城区、郊区和乡村地区的建筑物实例以及其他的地表物体的数据集分为训练集、验证集以及测试集,确定训练集数据样本:验证集数据样本为5:1,同时将数据样本分割为512×512大小的输入图像,以便后续对模型进行训练和测试模型训练效果。

进一步的,所述步骤2.2中,主分支中卷积层的卷积核大小包括3×3和1×1两种,并设置步长参数大小为1,填充参数大小为1,支路分支中卷积层采用了1×1大小的卷积核。

进一步的,所述步骤2.2中,采用特征金字塔网络输入结构,将5个不同尺度下的影像作为卷积层输入进行不同尺度上的影像特征学习,分别为512×512×3、256×256×3、128×128×3、64×64×3和32×32×3。

本发明基于多尺度残差连接深度网络模型,研究高分辨率遥感影像中单体建筑物的提取方法,特点是:

(1)由于目前的开源建筑物数据集基本都来自同一传感器或成像时间接近的影像,即测试影像和训练影像的数据分布非常接近,导致深度网络模型鲁棒性较差,通过分析多源多时相数据影像中的建筑物特征,设计数据增广策略,确定深度网络训练中的数据超参数,提升深度卷积神经网络的泛化能力;

(2)考虑到UNet和ResNet网络结构的优点,对深度卷积网络卷积层的基本单元结构进行改进,在UNet网络的基本单元结构基础上设计残差映射单元,改进基本单元中卷积层结构安排,在保证梯度信息传递的同时提升模型训练效率;

(3)由于不同感受野的网络层对几何以及语义信息的表征能力不同,通过设计特征金字塔输入结构在不同尺度上学习影像特征,若简单地将编码器部分提取的特征图直接连接在对称的编码器部分,并不能充分融合特征信息,进一步研究残差跳跃连接方法,加强不同网络层之间多级特征的重用性。

附图说明

图1是基于多尺度残差连接深度网络模型的高分辨率遥感影像单体建筑物提取方法的流程处理图。

图2为建筑物提取网络中的残差映射基本结构单元,其中,“Conv”代表卷积层,“ReLU”代表修正线性单元,“BN”代表批标准化层。

图3为设计的‘Res path’跳跃连接方式。与直接将编码器特征与解码器特征用直连的方式不同,所提方法采取了多级残差单元运算融合多级特征。

具体实施方式

本发明提出了一种基于多尺度残差网络模型的高分影像建筑物提取方法。首先,该方法对高分辨率遥感影像中的典型建筑物类型和特征做出分析,基于深度学习网络大量数据需求设计数据增广策略,确定训练样本集和验证样本集的超参数配比;其次,在U-Net网络对称结构的基础单元中结合了密集捷径结构,即残差映射单元,并对基本单元中卷积层结构安排进行改进,在保证梯度信息传递的同时提升模型训练效率,避免深度网络中梯度消失,利于模型训练;同时,该改进网络将影像输入阶段设计为特征金字塔输入结构,可在不同尺度上学习影像特征,结合设计的残差跳跃连接方式进行多尺度特征融合,通过多级残差单元运算细化建筑物分割结果,加强了不同网络层之间多级特征的重用性,有效地增强了梯度在网络中的传递,加速模型收敛。该方法能够从浅层局部特征到深层次抽象特征进行自适应学习与分析,采用了多级特征整合和多尺度特征整合的策略,获取了丰富的多尺度上下文特征信息,用以实现更精细的建筑物分割。

以下结合附图和实施例详细说明本发明技术方案,流程图如图1所示,实施例的技术方案流程包括以下步骤:

步骤一,根据高分辨率遥感影像中典型的建筑物区域,分析不同类型与风格的建筑物影像特征,基于深度学习网络大量数据需求设计数据增广策略,确定训练样本集和验证样本集的超参数配比。得到深度网络训练过程样本数据超参数的具体实施步骤如下:

(1)数据分析。分析高分辨率遥感影像中典型建筑物区域的不同特点:

(a)砖混结构的多层住宅区,一般都是排列整齐的楼房,规划有序,层数较多,排列整齐,同一个小区内的建筑物排列比较一致,建筑物风格也基本一致;

(b)建筑物框架结构清晰的高层住宅区、独栋高层办公楼以及商业建筑物屋顶,其街道整齐,临近房屋高大,带有很狭长的阴影,楼间距大,每一栋房屋高度、外观都不相同;

(c)远郊的建筑物屋顶分布的比较稀疏,且多为低矮的房屋,形状散乱无规则,犬牙交替,相互连接;

(d)别墅区一般排列整齐,都是一栋栋单体建筑,建筑物长宽一致,阴影比较短小;屋顶形状,外墙材料基本一致,且每一栋别墅都拥有自己的花园。

(2)数据增广。利用大量涵盖各种建筑特征的训练样本使深度卷积神经网络具有更好的泛化测试能力,避免过拟合,需要采取多种数据增广策略扩充训练样本集:

(a)输入图像和输出标签图像进行随机裁剪;

(b)输入图像和输出标签图像进行随机旋转,t

(c)输入图像每个波段乘以一个随机数值(n∈[0.5,1]);

(d)输入图像和输出标签图像进行随机水平和垂直翻转。

(3)数据分割。将涵盖各种城区、郊区和乡村地区的建筑物实例以及其他的地表物体的数据集分为训练集、验证集以及测试集,确定(训练集数据样本:验证集数据样本)≈5:1,同时将数据样本分割为512×512大小的输入图像,以便后续对模型进行训练和测试模型训练效果。

步骤二,基于对称结构和密集捷径结构的特点,设计多尺度残差连接深度网络模型卷积层的基本结构单元,促进网络中信息的传递,避免深度网络中梯度消失,利于模型训练。得到改进网络残差映射结构单元的具体实施步骤如下:

(1)设计网络卷积层的基本结构单元,即残差映射单元(dense-shortcutblocks)。残差映射基本单元结构具有两个分支,促进信息的传递,加速模型收敛速度,利于模型训练:

(a)主分支结构设计:

卷积层的卷积核大小(kernel)包括3×3和1×1两种,并设置步长参数(stride)大小为1,填充参数(padding)大小为1,采用了修正线性单元(Rectified linear unit,ReLU)和批标准化层(Batch Normalization,BN)。设输入影像为x,主分支表示为

(b)支路分支结构设计:

卷积层采用了1×1大小的卷积核,卷积层后面同样接着ReLU层和BN层,支路分支表示为

(2)残差映射基本单元输出,如公式(2)所示:

步骤三,采取特征金字塔网络输入结构,在不同尺度上学习影像特征,结合设计的残差跳跃连接方式进行多尺度特征融合,通过多级残差单元运算细化建筑物分割结果,提高网络训练性能。基于残差跳跃连接方式融合多尺度特征表示的步骤如下:

(1)采用特征金字塔网络输入结构,将5个不同尺度下的影像作为卷积层的输入进行不同尺度上的影像特征学习,下一层的输入与上一层的输出特征图尺寸保持一致,分别为512×512×3、256×256×3、128×128×3、64×64×3和32×32×3。

(2)对上一层尺度下输出的卷积特征图与该层尺度下的影像输入做合并,合并结果作为新的卷积层输入进行特征学习,可进行多尺度特征融合。

(3)设计残差跳跃连接方式(Res Path),替代传统的将编码器部分的特征图直接连接在对称的解码器部分的简单方式,将编码器部分的输出特征图经过残差单元运算(如式(2)所示)之后再与解码器对应的上采样特征进行直连,将低层特征图与对称的高层特征图进行整合,构成新的张量,并进行后续的计算和处理操作。残差跳跃连接结构的设计如图3所示。

步骤四,基于卷积神经网络基本结构单元、残差跳跃连接方式与特征金字塔输入结构,设计多尺度残差连接深度网络整体模型结构设计,具体参数如表1。得到多尺度残差连接深度网络模型整体结构的步骤如下:

(1)网络编码器结构设计:

编码器部分采取了多级特征整合和多尺度特征整合的策略,由连续的卷积层、残差映射单元(shortcut blocks)和最大池化层(max-pooling layers)堆叠构成。

(2)网络解码器结构设计:

解码器部分由对应的上采样层(Upsampling layers)、密集捷径单元(denseshortcut blocks)和卷积层堆叠构成;Sigmoid激活层负责将二维的深度特征图转换为分类图。

(3)基于步骤三(3)中设计的残差跳跃连接方式,在5对下采样-上采样对称结构中增加5个额外的Res path跳跃连接方式,将编码器中前层特征图的像素位置信息与解码器部分上采样特征图的语义信息进行融合,完成建筑物分割结果的细化,提高网络训练性能。

表1多尺度残差连接深度网络整体模型参数表

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号