首页> 中国专利> 基于多分类回归模型与自注意力机制的单目图像估计方法

基于多分类回归模型与自注意力机制的单目图像估计方法

摘要

本发明公开了基于多分类回归模型与自注意力机制的单目图像估计方法,包括首先输入图像通过图像编码器进行替换卷积单元块中卷积,使用空洞卷积来替代;经过图像编码器编码后,根据自注意力模型获取像素级的上下文信息,首先将输入的特征图通过一个单层神经网络和ReLU函数,然后通过对输入的特征图进行全局平均池化,获取图像全局的上下文信息;进入场景深度软推断,将输入图像像素分入深度类,对深度值进行有序回归;通过使用概率图提供的数据获得精确平滑的深度值,得到位置上像素的深度推断值。本发明通过利用有序分类逻辑回归模型与自注意力机制,和深度神经网路进行单目图像场景的深度设计,减少了反复使用同样的空洞卷积核造成的格网效应。

著录项

  • 公开/公告号CN113222033A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利权人 北京数研科技发展有限公司;

    申请/专利号CN202110547074.7

  • 发明设计人 李阳;赵明乐;

    申请日2021-05-19

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11210 北京纽乐康知识产权代理事务所(普通合伙);

  • 代理人苏泳生

  • 地址 北京市海淀区西三环北路87号14层1-1404-494

  • 入库时间 2023-06-19 12:07:15

说明书

技术领域

本发明涉及视觉定位技术领域,具体来说,涉及基于多分类回归模型与自注意力机制的单目图像估计方法。

背景技术

随着科学技术的高速发展,可以获取到的图像空间分辨率越来越高,质量越来越好,然而通过普通的光学相机获取到的影像在某些领域的应用仍有很大局限,如2019年发布的某款搭载有人脸识别功能的智能手机,其仅通过单颗前置光学摄像头进行匹配与识别,导致利用一张事先准备好的机主照片即可成功解锁手机的漏洞。这是因为单目图像将三维信息降至二维图像信息时,缺少了场景的深度信息,相机无法分辨这 是三维的真人还是二维的人像。

深度信息在许多应用场景都有着重要作用,比如曾引发巨大热潮的虚拟现实(Virtual Reality, VR)与增强现实 (Augmented Reality, AR)。VR与AR的一个关键环节就是三维场景的重建,这其中必然需要深度信息的参与。精确的深度信息让VR能够“以假乱真”,使AR生成的物体能完美地融入真实世界中。此外,若要实现完全沉浸式的体验,则需要摆脱操作手柄等,要使人与VR/AR的物体直接交互,对人体手势和动作的准确识别与追踪也需要深度信息的辅助。深度信息在包括自动驾驶汽车在内的各类智能无人行驶器领域也起着重要作用,目前的无人驾驶汽车一般都搭载了多个激光雷达、摄像头,以实现障碍物检测、同步定位与地图构建 (Simultaneous Localization And Mapping, SLAM) 等功能(2017,无人驾驶汽车环境感知技术综述,长春理工大学学报 (自然科学版),王世峰,戴祥,徐宁,张鹏飞,40(1),1-6)。除了上述场景之外,深度信息作为摄影测量与计算机视觉中的重要的基础课题,还在智能医疗、安防监控、视觉导航和智能机器人等许多领域有着巨大的应用价值。

近年来,深度学习在包括计算机视觉、自然语言处理、人工智能在内的众多领域都有着广泛的应用,而深度学习最早正是在图像处理领域上获得了突破从而在近年崭露头角(2012. 基于深度卷积神经网络的图像网络分类. 神经信息处理系统的研究进展, 克里日夫斯基., Sutskever, I., 辛顿,克. E.(pp. 1097-1105))。深度学习中的卷积神经网络是提取图像中抽象特征的重要手段,利用深度学习方法来研究场景的深度估计问题已经逐渐成为了解决这一问题的主流途径。

本发明涉及的基于有序多分类逻辑回归模型与自注意力机制的单目图像深度估计方法方法,充分利用多分类逻辑回归模型与自注意力机制对普通单目摄像头获得的图像进行场景深度估计,应用场景众多,具有很强的理论意义与实际应用价值。

目前传统的单目深度估计方法是通过摄影测量等技术解决。但是单目图像先天地缺少诸如运动、立体视觉关系等可靠的深度线索,要恢复出三维空间中才有的深度在本质上是一个不适定的问题,单目图像上一点的真实深度在理论上可以有无数个解。随着深度学习技术的不断发展,利用深度学习神经网络进行单目图像深度估计逐渐成为主流的方法。

基于卷积神经网络 (Convolutional Neural Network, CNN),首次提出利用卷积神经网络对单目图像进行深度估计,设计了一种包含两个尺度的卷积神经网络结构。这两个串联的CNN将整个深度估计过程分为两步:在整幅图像上对场景全局深度的粗估计,和通过图像局部特征优化粗估深度图的精估计。最后获得了相当精确的深度估计结果,该工作开创了深度学习在单目图像深度估计领域的先河。

在此之后,不少研究人员在Eigen团队工作的基础上,设计不同的神经网络结构、或是使用新的约束条件与损失函数对单目图像的深度估计进行优化改进。比如,Eigen 团队自身在一年后,就提出新的网络架构,将深度估计、表面法线预测和语义标注三个任务统一在一个三级的神经网络中,并将结果的分辨率提升至输入图像的一半。采用更深的残差网络并设计用小卷积代替大卷积来实现上采样,使得其更为高效,并且提出了新颖的损失函数,可以得到更好的结果。长短期记忆 (Long Short- Term Memory, LSTM)用于循环网络获取图像全局信息,与一般的卷积神经网络混合使用实现了端到端的单目图像深度估计。(2016,虚拟现实系统综述,软件导刊, 杨欢,刘小玲,15(4),35-38)把CNN与CRF统一于一个框架内,将两个卷积神经网络分别对应能量函数中包含超像素内深度信息的项和关于相邻超像素关系的项,计算其最大化后验概率。CNN与随机森林相结合,在二叉树的每一层节点处设置相关的卷积神经网络对上层输出进行卷积,并根据该子网络的输出结果判断下一步的走向是将输出传递至左子节点还是右子节点,这样大大缩减了每一个CNN的层数。(2018,深入研究深度:单目深度估计与语义助推器和注意驱动的损失. 欧洲计算机视觉会议论文集 娇, J., 曹, Y., 宋., Y., 劳, R.(pp. 53-69))设计了一种用于在网络间传递信息的横向共享单元,让深度估计网络与语义分割网络两个独立的子卷积神经网络包含彼此的输出结果,并通过同一的损失函数约束整个网络训练。(2018,基于深度学习的深度预测分类网络,李, R., 娴, K., 申, C., 曹, Z., 璐, H., 航, L, arXiv 预印 arXiv:1807.03959.)将原本连续的图像深度离散化为一定深度范围的类别,将深度估计这一回归问题转化为了分类问题,使用全卷积的深度残差网络实现分类,最后使用条件随机场优化结果得到最终的深度估计值。

使用深度学习方法对单目图像进行场景的深度估计时,基本上都需要通过深度卷积神经网络来提取图像中包含的高维特征,随着网络深度加深,卷积层的增多,图像在经过多次卷积后,分辨率急剧缩小。如果要在网络结构中使用多次反卷积,则会使得网络最后数层的参数量急剧增加,大大增加了训练与计算的时间成本(2019,基于注意的单目深度估计上下文聚合网络,陈, Y., 赵, H., 胡, Z, arXiv预印arXiv:1901.10137.)。因此,目前许多方法最终获得的深度图的分辨率仅为输入图像的1/4至1/2水平。

其次,该类监督学习的方法需要向神经网络输入大量有真实深度值标注的图片,以真实值作为训练的约束对神经网络进行后向传播,优化参数。然而精确的深度信息并不容易获取,所以研究人员大量依赖于公开数据集。然而目前高质量的有深度标注的公开数据还比较有限,在现实情况下,要获取场景所对应的深度值相比获取图片并不容易。

((2016,十月). 深三维:使用深度卷积神经网络的全自动2d到3d视频转换,在欧洲计算机视觉会议上(pp. 842-857). 查姆斯普林格,谢, J., 吉尔西克, 法尔哈迪.)提出一种使用深度卷积神经网络通过单目图像生成有一定视差的新视角图的方法实现2D转3D,以此为基础,众多研究人员开始使用左右视图来训练神经网络,如((2016, 十月),用于单视点深度估计的无监督cnn:几何营救,在欧洲计算机视觉会议上(pp. 740-756),查姆斯普林格,加格., BG, V. K., 卡内罗, 里德.)提出了无监督的框架,其在编码阶段,通过全卷积神经网络生成深度图,在解码阶段,使用传统的双目摄像头测距原理重构右图像,对比输入的右视图图像,使用重建误差作为目标函数,反向训练网络。在这一过程中无需场景的真实深度图作为监督,只需要关系已知的左右视图对即可。(2017,基于左右一致性的无监督单目深度估计,IEEE计算机视觉与模式识别会议论文集(pp. 270-279),戈达尔. 马考达., 布罗斯托)使用类似的方法,但利用左视图同时为左右两张视图产生视差图,并通过引入左右视图的一致性损失提高最后输出结果的质量。(2018,提取跨域立体网络学习单目深度,欧洲计算机视觉会议论文集(ECCV) (pp. 484- 500),郭, X., 李, H., 怡, S.,任, J., 王, X.)使用合成的合成的数据对生成视差与遮蔽图的神经网络进行预先训练,然后使用真实的左右视图数据优化网络。(2017,单目深度图预测的半监督深度学习方法,IEEE计算机视觉与模式识别会议论文集(pp.6647-6655),库兹涅佐夫., 斯图克勒 , 雷贝.)尝试将传感器得到的稀疏的深度作为参考标准,以半监督的方式共同实现单目图像的深度估计。

深度学习方法相较于普通的参数化机器学习方法的一大优势在于其虽然固定了要学习的参数,但并不需要明确地给出目标与输入之间的关系。因此深度学习方法通常表现出端到端 (end-to-end)的特点。在常见的单目图像场景深度估计的深度学习模型中,不管深度的估计是以像素为单位,还是在分割以后以一个超像素块为单元,其深度总是对应于一个连续的深度区间,这样将产生一个巨大的参数空间,降低了网络训练的收敛速度,而且往往需要更大的训练数据量,尤其是在训练阶段的时间成本与数据成本都很高。

其次,在使用深度学习方法来解决单目图像的场景深度估计问题以来,估算的深度值的相对误差已经从2014年最开始的0.215降低至目前最低的0.1以下(2018,深入研究深度:单目深度估计与语义助推器和注意驱动的损失,欧洲计算机视觉会议论文集(ECCV)(pp. 53-69),娇, J., 曹, Y., 宋, Y., 刘, R.),这相对于之前远大于0.2的误差,已经有了明显进步,而高达50%的提升幅度让研究人员看到进一步优化算法提升结果精度的希望。然而这一数值与目前双目图像的深度估计算法0.05以下的相对误差仍然有着一定差距。

针对目前方法存在的一些问题与不足,提出基于深度学习的神经网络框架,以端到端的方式实现从单张单目图像推断出场景深度。

针对单目图像中深度值分布的长尾特点,采用非等间距的离散化方式对深度进行离散化,基于有序多分类逻辑回归原理,将连续回归问题转化为多分类问题,并根据网络输出的概率图,提出了深度值的软推断计算方式,使获得的深度图更加平滑,结果更加精确。

结合自注意力模型的深度有序回归网络,针对卷积神经网络造成的图像分辨率降低、细节特征信息与图像全局信息不能得到很好保存等问题,引入空洞卷积的概念,并根据目前广泛使用的瓶颈设计,设计了不同卷积核形成的空洞卷积单元块。基于深度学习中大小尺度、长短距离间特征融合的思想,引入注意力机制,借助自注意力模型对远距离特征可以高效地进行关联的特点,实现像素级的特征表达,并与图像全局特征进行融合,在深度卷积神经网络之外,提供图像的上下文信息,降低深度估计的误差。

发明内容

针对相关技术中的上述技术问题,本发明提出基于多分类回归模型与自注意力机制的单目图像估计方法,能够克服现有技术方法的上述不足。

为实现上述技术目的,本发明的技术方案是这样实现的:

基于多分类回归模型与自注意力机制的单目图像估计方法,包括以下步骤:

S1: 首先输入图像通过图像编码器进行替换最后两个卷积单元块中的3x3卷积,将第三个卷积单元块的3x3卷积,使用稀疏率依次为1,2,3的3x3空洞卷积来替代,三块定为一组,共定8组,第四个卷积单元块将3x3卷积替换为稀疏率依次为1,2,5的3x3空洞卷积;

S2: 经过图像编码器编码后,根据自注意力模型获取像素级的上下文信息,获得查询要素Q和键要素K,首先将输入的特征图通过一个单层神经网络和ReLU函数,然后通过对输入的特征图进行全局平均池化获取图像全局的上下文信息;

S3: 输入图像经过编码器与获取上下文信息后,进入场景深度软推断,使用多项逻辑分类将输入图像像素分入深度类,然后使用常用的softmax函数作为损失函数,对深度值进行有序回归;

S4: 得到输入图像上每个深度类的概率图后,在深度推断时,通过使用概率图提供的概率数据综合多个深度类的深度值来获得精确平滑的深度值,然后通过概率最大的相邻两个类的深度来推断位置上的深度,得到位置上像素的深度推断值。

进一步地,步骤S2中,所述上下文信息包括像素级的上下文信息与图像级的上下文信息两部分。

进一步地,步骤S2中,所述通过全局平均池化是将输入的高维特征图转化为一维的特征向量,然后将其为每一个输入特征都复制一向量,再通过一个卷积层将两者关联,输出经过全局平均化的特征图,其中输出的特征图需通过一个卷积层与两个反卷积层。

进一步地,输出的特征图是集聚了输入图像的细节特征与全局特征的特征图。

进一步地,输出的特征图通过的卷积层的核大小均为1x1,步幅为1。

进一步地,步骤S2中,获取像素级上下文信息需根据只注意力机制获取,所述自注意力机制的计算关键是找到图像中的键值对并获得键值对的权重,最后的输出是在高维特征空间的一个加权求和,并输入到最后的分类器中。

本发明的有益效果:通过在单目图像场景深度估计问题中,场景深度在图像上的长尾分布特点,设计了随深度值增大而深度间隔增大的深度离散化方式,将原本的回归问题转化为多分类问题,降低因使用大量精确的深度图训练而容易出现的过拟合现象。根据场景深度的严格有序性,提出了使用有序回归代替一般的多分类问题,并使用考虑了多深度区间概率分布的软推理方式计算得到最终的深度值,减少了因深度离散化而造成的误差,获得了更为平滑的场景深度估计结果;通过使用空洞卷积替换普通的稠密卷积,增加网络的感受野,使得更大尺度的图像特征得以保留的同时,减少了反复使用同样的空洞卷积核造成的格网效应。在不显著增加额外的参数的前提下,提升网络对于图像特征提取的表现,从而优化最终的场景深度估计;基于自注意力机制,在深度有序回归网络中设计了融合像素级特征与图像级特征的图像上下文信息综合模块。自注意力模型可以有效地保持在较远的距离上相关联的细部特征间的关联性,图像的全局信息保证了在经过深度卷积神经网络后,图像独特的整体信息得以保存。并针对深度的有序回归问题,提出了指导自注意力计算的损失函数,使整个网络能充分利用图像在不同层次上的特征信息,从而提升最终场景深度估计结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于多分类回归模型与自注意力机制的单目图像估计方法的结合自注意力模型的深度有序回归网络框架示意图。

图2是根据本发明实施例所述的基于多分类回归模型与自注意力机制的单目图像估计方法的编码器部分网络结构示意图。

图3是根据本发明实施例所述的基于多分类回归模型与自注意力机制的单目图像估计方法的自注意力计算模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围,为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

如图1所示,本发明提出的是同于通过单目图像估计场景深度的总体框架算法流程,其中整个算法的输入是一幅单目RGB图像,以端到端(end-to-end) 的形式输出输入图像所对应的深度图,图中从输入到输出经过三个部分,第一部分是由深度卷积网络构成的图像编辑器,用于将图像转换到高维特征空间;第二部分是包括了自注意力的表征图像的上下文信息的模块,是通过整合像素级的自注意力与全局平均池化获得的图像整体信息得到图像的上下文信息提升深度估计精度;第三部分是深度推断模块,经过前两个部分后,得到每个像素在对应的深度类上的一组概率,通过深度推断模块可得到最终的深度图输出。

本技术方案使用的是ResNet-101图像编码器,使用时替换了最后两个卷积单元块中的3×3卷积,第三个卷积单元块的3×3卷积使用稀疏率依次为1,2,3的3×3空洞卷积来替代,三块为一组,总共8组;第四个卷积单元块将3×3卷积替换为稀疏率依次为1,2,5 的3×3空洞卷积。

图像编码器的网络结构如图2所示,其中有参数的网络层共有103层,最后输出的特征图的大小是输入图像的1/8。

然后输入图像进行获取图像上下文信息模块,为与卷积神经网络形成互补,将上下文信息分为像素级的上下文与图像级的上下文信息两个部分,再通过独立的两个子网络分别求解这两类上下文信息,然后将其串联。

其中所述像素级的上下文信息,是根据自注意力模型获取。如图3所示,自注意力模型中的注意力机制的计算关键是要找到图像中的键-值对,并获得每个键-值对的权重。最后的输出即在高维特征空间的一个加权求和,并输入到最后的分类器中。其中键-值对的权重是通过考察查询与键的相关关系获得的。自注意力机制的引入是为了能快速地将距离较远的长程细节特征关联起来。

然后首先要获得查询要素Q和键要素K,这两个要素分别由以下两个映射实现:

其中

其中所述图像级的上下文信息,通过对输入的特征图进行全局平均池化来获得。通过全局平均池化,将输入的高维特征图转化为一维的特征向量,即每个输入的 特征图对输出中的每一项都有贡献,然后将其为每一个输入特征都复制一向量,从而使得图像级上下文语义特征图中混合了多个通道的特征,然后通过一个卷积层将两者(像素级的上下文信息和图像集的上下文信息)关联起来。

上述的输出的特征图,特征图是集合了输入图像的细节特征与全局特征。然后让注意力模块输出的特征图通过一个卷积层与两个反卷积层。

所述卷积层的核大小均为1×1,步幅为1,这一卷积层将特征通道数减少一半至1024,这是为了缩小参数空间,提升计算效率。所述反卷积层的目的是为了提升图像的分辨率,由于在网络第一部分的图像编码器中,图像的分辨率降为输入图像的1/8,为了输出的深度图能达到输入图的分辨率水平,因此使用两个反卷积层,分别使图像分辨率提升至原图的1/4和1。

在输入的图像经过图像编码器与上下文信息模块后,使用多项逻辑分类将图像像素分入深度类,使用常用的softmax函数作为损失函数,对深度值进行有序回归。在得到图像上每个像素对每个深度类的概率图后,在最后的深度推断时,可以通过利用概率图提供的概率信息来综合多个深度类的深度值以获得更精确以及相对更平滑的深度值,令:

其中𝜆

然后,通过单目图像进行场景深度估计的有序回归网络中,用于推断深度的概率图的获得是基于注意力机制通过关联像素级上下文信息与图像全局上下文信息而来的,所以除了描述最终预测深度值与真实深度值得损失函数之外,还加入了针对注意力的损失函数。整个网络的损失函数

其中,

其中,𝑊和𝐻分别代表图像的宽度与高度,𝑊×𝐻 = 𝑁。Ψ

其中

对于注意力损失,我们将其视作是图像中每个像素上的注意力损失的平均值:

而对于每个像素上的注意力损失,使用相对熵,也叫K-L散度来描述其预测与真实值的差距。对于注意力而言,实际考察对象是权重系数

其中,权重系数

综上所述,借助于本发明的上述技术方案,通过在单目图像场景深度估计问题中,场景深度在图像上的长尾分布特点,设计了随深度值增大而深度间隔增大的深度离散化方式,将原本的回归问题转化为多分类问题,降低因使用大量精确的深度图训练而容易出现的过拟合现象。根据场景深度的严格有序性,提出了使用有序回归代替一般的多分类问题,并使用考虑了多深度区间概率分布的软推理方式计算得到最终的深度值,减少了因深度离散化而造成的误差,获得了更为平滑的场景深度估计结果;通过使用空洞卷积替换普通的稠密卷积,增加网络的感受野,使得更大尺度的图像特征得以保留的同时,减少了反复使用同样的空洞卷积核造成的格网效应。在不显著增加额外的参数的前提下,提升网络对于图像特征提取的表现,从而优化最终的场景深度估计;基于自注意力机制,在深度有序回归网络中设计了融合像素级特征与图像级特征的图像上下文信息综合模块。自注意力模型可以有效地保持在较远的距离上相关联的细部特征间的关联性,图像的全局信息保证了在经过深度卷积神经网络后,图像独特的整体信息得以保存。并针对深度的有序回归问题,提出了指导自注意力计算的损失函数,使整个网络能充分利用图像在不同层次上的特征信息,从而提升最终场景深度估计结果的准确性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号