首页> 中国专利> 一种基于CBAM的单目无监督深度估计方法

一种基于CBAM的单目无监督深度估计方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于CBAM的单目无监督深度估计方法。深度估计是机器人实现对周围环境感知的关键技术之一，基于监督学习的深度估计方法将激光雷达等传感器得到的距离测量值处理后作为真值进行训练，但此过程会占用大量的人力和计算资源，因此其在跨场景中的应用很受限制。本发明在基于无监督学习的深度估计框架下，引入卷积块注意力模块并进行立体图像对的光度重建、视差平滑和左右视差一致性训练，对单目图像进行有尺度的深度估计。使用本发明所提出的方法，能够保留周围环境中物体的深度细节，并提高整体的深度估计精度，同时在跨场景下的泛化能力也能得到保障。

著录项

公开/公告号CN112950697A

专利类型发明专利
公开/公告日2021-06-11

原文格式PDF
申请/专利权人东南大学;
展开▼

申请/专利号CN202110142746.6
发明设计人潘树国;魏建胜;高旺;赵涛;
展开▼

申请日2021-02-02
分类号G06T7/593(20170101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32206 南京众联专利代理有限公司;
代理人周蔚然
地址 210096 江苏省南京市玄武区四牌楼2号
入库时间 2023-06-19 11:21:00

说明书

技术领域

本发明属于智能体自主导航和环境感知领域，具体涉及一种基于CBAM的单目无监督深度估计方法。

背景技术

智能体为实现安全可靠的自主导航需要具备完善的环境感知功能，这其中就包括对智能体周围的环境进行深度估计。基于三维激光雷达的深度估计能够得到较为精确的深度估计结果，但是其价格昂贵且只能得到稀疏的深度估计。基于RGBD相机的深度估计操作简单，但深度估计范围有限且在室外环境中使用受限。基于立体相机的深度估计在室内外使用不受限制，但其对计算资源的占用较大，且由于基线偏短造成深度估计范围有限。基于单目相机的深度估计能够得到稠密的深度图，但是由于缺乏绝对尺度，传统的单目方法不能得到真实的深度估计。

随着人工智能的发展，智能体逐渐应用深度卷积神经网络来完成环境感知任务。研究人员最早利用监督学习来恢复单目相机的绝对尺度，从而完成单目的稠密深度估计。但是监督学习需要大量具有GroundTruth的数据样本进行训练，这大大制约了它的泛化能力。目前，基于无监督的单目深度估计以其简单有效的训练方式和渐趋提高的精度表现得到了研究者们的青睐，各类先进的网络设计思想被运用至其中，比如注意力机制、多路径连接和空间搜索等。因此研究带注意力机制的单目无监督深度估计方法，以实现智能体对周围环境的高精度稠密深度感知，具有重要的科研价值和现实意义。

发明内容

为解决上述问题，本发明公开了一种基于CBAM(Convolutional Block AttentionModule，卷积块的注意力模块)的单目无监督深度估计方法，将注意力机制引入深度估计任务，保留物体的深度细节和提高深度估计的整体精度，为智能体自主导航和环境感知提供基础。

为达到上述目的，本发明的技术方案如下：

一种基于CBAM的单目无监督深度估计方法，包括以下步骤：

步骤1)，引入CBAM同Resblock组合成Resblock-CBAM；

步骤2)，基于Resblock-CBAM设计带注意力机制的深度估计网络；

步骤3)，针对立体图像对的光度重建、视差平滑和左右视差一致性对深度估计网络进行训练，并完成对单目图像的深度估计。

进一步的，步骤1)所述的引入CBAM同Resblock组合成Resblock-CBAM，包括如下具体步骤：

a)，设置CBAM中的通道注意子模块和空间注意子模块为顺序连接，然后将CBAM与Resblock并行连接形成Conventional Resblock-CBAM，最后的输出方程如式(1)所示：

式中，

b)，设置CBAM中的通道注意子模块和空间注意子模块为顺序连接，然后将CBAM与Resblock串行连接形成Modified Resblock-CBAM，最后的输出方程如式(2)所示：

式中，

c)，CBAM中通道注意子模块和空间注意子模块的具体过程如式(3)所示：

式中

通道注意子模块的具体过程如式(4)所示：

式中σ表示sigmoid函数，MLP为多成感知器，ω

空间注意子模块的具体过程如式(5)所示：

式中f

步骤2)，基于Resblock-CBAM设计带注意力机制的深度估计网络，包括如下具体步骤：

a)，在深度估计网络的编码器中顺序使用四个Resblock-CBAM，前三个是Conventional Resblock-CBAM，第四个是Modified Resblock-CBAM；

b)，在深度估计网络的编码器中使用五个跳接层，其中第一个跳接层连接编码器中第一个卷积层和解码器中第二个上卷积层，第二个跳接层连接编码器中第一个池化层和解码器中第三个上卷积层，第三个跳接层连接第一个Conventional Resblock-CBAM和解码器中第四个上卷积层，第四个跳接层连接第二个Conventional Resblock-CBAM和解码器中第五个上卷积层，第五个跳接层连接第三个Conventional Resblock-CBAM和解码器中第六个上卷积层，而 Modified Resblock-CBAM不含跳接层直接与解码器相连接。

步骤3)，针对立体图像对的光度重建、视差平滑和左右视差一致性对深度估计网络进行训练，并在测试时对单目图像深度估计，包括如下具体步骤：

a)，深度估计网络的总训练损失包括光度重建损失、视差平滑损失和左右视差一致性损失，如式(6)所示：

式中L为深度估计网络的总训练损失，L

b)，使用图像光度重建损失衡量输入源图像和其相对应的重建图像之间的差异，左图像的光度重建损失如式(7)所示：

式中

c)，使用视差平滑损失改善深度图在图像梯度处的陡变和不连续，左图像的视差平滑损失如式(8)所示：

式中

d)，使用左右视差一致性损失提高网络对深度图的估计精度，左图像的左右视差一致性损失如式(9)所示：

式中

本发明的有益效果是：

本发明所述的一种基于CBAM的单目无监督深度估计方法，将卷积块注意力模块CBAM 引入无监督深度估计框架，实现对单目图像的稠密深度估计。在引入CBAM至深度估计网络的过程中，将CBAM同Resblock组合成Resblock-CBAM，从空间和通道两个维度对输入进行特征提取；同时，采用跳接对多尺度信息进行融合。使用本发明所提出的方法，将注意力机制融入深度估计网络并进行基于图像对的光度重建、视差平滑和左右视差一致性等无监督训练，能够保留环境中物体的深度细节和提高整体的深度估计精度。

附图说明

图1无监督深度估计框架图；

图2残差块与卷积块注意力模块的结合示意图；

图3卷积块注意力模块中子模块示意图；

图4深度估计网络结构图；

图5深度估计可视质量评测图；

图6深度估计实验平台图；

图7真实城市场景深度估计可视图；

图8深度估计方法精度对比表。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明所述的一种基于CBAM的单目无监督深度估计方法，如图1所示，首先引入CBAM 同Resblock组合成Resblock-CBAM，然后基于Resblock-CBAM设计带注意力机制的深度估计网络，最后针对立体图像对的光度重建、视差平滑和左右视差一致性对深度估计网络进行训练，并完成对单目图像的深度估计；包括如下具体步骤：

步骤1)，引入CBAM同Resblock组合成Resblock-CBAM，包括如下具体步骤：

a)，设置CBAM中的通道注意子模块和空间注意子模块为顺序连接，然后将CBAM与Resblock并行连接形成Conventional Resblock-CBAM，最后的输出方程如式(1)所示：

式中，

b)，设置CBAM中的通道注意子模块和空间注意子模块为顺序连接，然后将CBAM与Resblock串行连接形成Modified Resblock-CBAM，最后的输出方程如式(2)所示：

式中，

c)，CBAM中通道注意子模块和空间注意子模块的具体过程如式(3)所示：

式中

通道注意子模块的具体过程如式(4)所示：

式中σ表示sigmoid函数，MLP为多成感知器，ω

空间注意子模块的具体过程如式(5)所示：

式中f

步骤2)，基于Resblock-CBAM设计带注意力机制的深度估计网络，包括如下具体步骤：

a)，在深度估计网络的编码器中顺序使用四个Resblock-CBAM，前三个是Conventional Resblock-CBAM，第四个是Modified Resblock-CBAM；

步骤3)，针对立体图像对的光度重建、视差平滑和左右视差一致性对深度估计网络进行训练，并在测试时对单目图像深度估计，包括如下具体步骤：

a)，深度估计网络的总训练损失包括光度重建损失、视差平滑损失和左右视差一致性损失，如式(6)所示：

式中L为深度估计网络的总训练损失，L

b)，使用图像光度重建损失衡量输入源图像和其相对应的重建图像之间的差异，左图像的光度重建损失如式(7)所示：

式中

c)，使用视差平滑损失改善深度图在图像梯度处的陡变和不连续，左图像的视差平滑损失如式(8)所示：

式中

d)，使用左右视差一致性损失提高网络对深度图的估计精度，左图像的左右视差一致性损失如式(9)所示：

式中

本实施例中无监督深度估计框架运行于TensorFlow，选用11GB内存的NVIDIAGeForce RTX 2080Ti型显卡训练网络约22小时完成收敛。设定训练的损失函数中相关权重参数如下： α

Abs Rel:

RMSE Log:

选用含有29个场景共697张图片的Eigen split测试集对在KITTI数据集上训练好的网络进行测试，并同其它已存在的几类方法进行精度对比和可视质量评测。图8是所提方法与其它深度估计方法在Eigen split测试集上的精度对比，表中a1,a2,a3各表示δ＜1.25,δ＜1.25

为了更好地展示无监督深度估计优于监督深度估计的跨场景泛化能力，将在KITTI数据集上训练好的网络在南京部分城市道路场景下进行深度估计实验。图6是进行真实环境下深度估计的实验平台，所提方法的深度估计结果如图7所示，已训练好的网络在未知场景下深度估计的可视质量令人满意，能够保留多数近处物体的深度细节。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括基于以上技术特征做出的改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于CBAM的单目无监督深度估计方法 [P] . 中国专利： CN112950697A . 2021-06-11
2. 一种基于深度学习的自监督单目深度估计方法 [P] . 中国专利： CN112561979A . 2021-03-26
3. MONOCULAR UNSUPERVISED DEPTH ESTIMATION METHOD BASED ON CONTEXTUAL ATTENTION MECHANISM [P] . US2021390723A1 . 2021-12-16

机译：基于语境关注机制的单眼无监督深度估计方法
4. Deep Learning-based road area estimation apparatus and method using self-supervised learning [P] . 韩国专利： KR102097869B1 . 2020-04-06

机译：基于深度学习的使用自我监督学习的道路面积估计装置和方法
5. SISO-OFDM SISO-OFDM channel estimation apparatus using deep neural network based on adaptive ensemble supervised learning and method thereof [P] . 韩国专利： KR101992053B1 . 2019-06-21

机译：基于自适应集成监督学习的深度神经网络的siso-ofdm Siso-ofdm信道估计装置及其方法