首页> 中国专利> 一种基于深度学习的多视角立体视觉三维场景重建方法

一种基于深度学习的多视角立体视觉三维场景重建方法

摘要

本发明涉及一种基于深度学习的多视角立体视觉三维场景重建方法,现有的基于深度学习的重建方法,通过提取图像最后一层的特征以生成3D代价体,没有很好地利用浅层特征,这将丢失不同尺度的信息。而且,这些方法在深度图细化时,只考虑了参考图像本身对深度细化的效果,忽略了相邻图像的深度对深度图预测的贡献。为了解决上述问题,我们提出了多尺度特征提取与融合网络以及基于帧间相关性的深度图细化网络,来提升场景的预测精度和完整性。与现有的基于深度学习的方法相比,我们的方法能够更好地学习输入图像的上下文特征,重建出目标场景被遮挡和缺失的区域,能够更完整地恢复场景的三维信息,实现高精度的三维场景重建。

著录项

  • 公开/公告号CN112734915A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110072362.1

  • 申请日2021-01-19

  • 分类号G06T17/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人张慧

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明属于计算机视觉和三维重建领域,研究了一种新的三维重建方法。

背景技术

高精度的三维场景重建对于许多应用至关重要,如城市三维地图、古迹复现、自动驾驶和增强现实等。基于多视角立体视觉的三维重建方法也是计算机视觉的核心研究问题之一。传统的多视角立体匹配重建方法使用主观设计的相似性度量和工程化的正则化(例如归一化互相关和半全局匹配)来计算稠密对应并恢复3D点。虽然这些方法在理想的Lambertian(朗伯)情形下显示出了很好的重建效果,但它们也有一些共同的局限性。例如,场景的低纹理、高光和镜面反射区域等问题的存在使密集匹配变得难以处理,从而导致重建结果不完整。这些缺陷导致传统方法的重建结果质量较低,难以满足实践应用需求,因此,基于视觉的高精度三维重建研究仍面临很多具有挑战性的问题。

近年来,深度学习的快速发展和大量多视角立体匹配数据集的发布,为高精度三维重建方法带来了新思路。目前较为多见的基于深度学习的方法是利用深度图融合,从多视角图像进行三维重建。该方法的基本结构是首先通过深度估计网络生成每一幅图像所对应的深度图,然后再使用传统的深度图融合算法将所有的单幅深度图融合成一个完整的场景点云。基于深度图的学习方法的一个重要步骤是构造一个像素级匹配的置信度或代价卷。其基本思想是先将深度空间进行离散化,即均匀采样多个深度平面,从输入图像集合中选取一幅图像作为参考图像,根据平面扫描算法建立一个平面扫描体素,然后计算在每个采样深度假设下,参考图像中的每个像素与其他相邻图像中对应像素的匹配代价来构建3D代价卷,最后通过CNNs来推断参考图像的深度图。其优点是基于代价卷的方法迫使网络通过立体匹配来学习深度估计,而不只是学习单一的视图线索,有利于泛化。然而,现有的基于深度学习的多视角深度估计方法也存在一些问题:首先,从概念上讲,通过提取图像最后一层的特征以生成3D代价卷,没有很好的利用浅层特征,这将丢失不同尺度的信息以供进一步处理。其次,这些方法在深度图细化时,只考虑了参考图像本身对深度细化的效果,忽略了相邻图像的深度对深度图预测的贡献。

发明内容

为了解决上述这些问题,本发明提出了一种基于深度学习的多视角立体视觉三维场景重建方法,实现多视角图像的三维重建。与现有的基于学习的三维重建方法相比,该方法能够学习到不同尺度的特征,增强基于不同区域的不同信息间上下文信息的聚合,有利于神经网络提取更具有表现力的特征,此外,通过使用帧间相关性度量,能够进一步细化网络预测的初始深度图。

为了能够提高三维重建的精度与质量,本发明提通过多尺度特征提取与融合以及帧间相关性,提升场景的预测精度和完整性。为此,需要解决的关键技术问题包括:利用深度神经网络进行高性能多尺度特征的提取与融合、避免人工设计的多环节误差积累;多视点深度信息融合优化,通过多视点获取的同一场景的图像,一般具有相近的深度,利用相邻图像的深度信息来细化预测的初始深度图。

本发明框架如图2,主要分为三大模块:1)多尺度特征提取与融合;2)匹配代价体的构建与正则化;3)基于帧间相关性的深度图细化。本发明将待估计深度图的图像称为参考图像,其他输入的图像称为源图像,参考图像和任意数量的源图像作为输入图像首先通过多尺度特征提取网络进行特征提取,并借助可微单应性变换将源图像的特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体,然后使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体;接着使用基于方差的度量构建匹配代价体,并使用3D-Unet网络对代价体进行正则化,再使用softArgmin操作生成初始的深度图;最后使用帧相关深度图细化网络对初始深度图进行优化,生成细化后的深度图。我们只在网络的训练阶段使用帧间相关性模块进行深度图细化,测试时不使用。

有益效果

实验表明,本发明提出的方法能够很好的学习图像的上下文特征,实现高精度的三维场景重建。

附图说明

图1、本发明整体流程图;

图2、本发明网络算法框架示意图;

图3多尺度特征提取与融合模块结构示意图;

图4特征提取的网络结构图(MSFNet);

图5代价体的构建与正则化模块结构示意图;

图6基于帧间相关性的深度图细化模块结构示意图;

图7(a)DTU数据集scan09场景上点云重建效果;

图7(b)DTU数据集scan77场景上点云重建效果;

图7(c)DTU数据集scan114场景上点云重建效果。

具体实施方式

以下将详细介绍本发明的具体过程:

1.多尺度特征提取和融合

该部分主要是提取图像的多尺度特征以及多尺度特征体的聚合。其创新点是提出了多尺度特征体聚合网络,即MFVA-Net(Multi-scale Feature Volume AggregationNet),该网络能够学习到不同尺度特征体中的上下文信息,增强了神经网络对深度预测的能力,进一步提高三维重建的精度和完整性。

多尺度特征提取和融合部分主要由三个阶段组成:1)多尺度特征提取;2)特征体的构建;3)多尺度特征体的聚合。其框架如图2。

1)多尺度特征提取

网络的输入为N张已知相机参数的RGB图像

2)特征体的构建

相同场景的任何两张图像都可以通过单应性变换来互相映射,相同场景的任何两张图像都可以通过单应性变换来互相映射,我们使用可微单应性变换这一操作将特征提取网路提取的源图像的四个不同尺度的32通道特征图feature_0、feature_1、feature_2、feature_3变换到参考图像的视锥中,得到多尺度下的特征体f

其可微单应性变化的公式为:

其中,H

3)多尺度特征体的聚合

接下来,为了学习更多的上下文信息,增强神经网络对图像的深度预测能力,本发明提出了多尺度特征体聚合网络MFVA-Net。其主要思想是首先将特征体构建阶段生成的四种不同尺度的特征体f

我们将F

其中,H(·)是一个3x3的卷积操作,后面跟一个ReLU激活函数,U(·)表示上采样,C

具体地,我们首先对特征体构建中得到的四个不同的特征体f

经过多尺度特征体融合后,对于每一幅图像都会得到一个32通道的特征体F(F=F

2.匹配代价体的构建与正则化

为了得到参考图像中每个像素的深度值,我们需要计算参考图像特征与经过单应性变换后的源图像特征的逐像素匹配损失,具体地,我们在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值,在同一个像素点会计算得到D个匹配损失值。我们认为匹配损失最小的平面就是该像素的深度值。

接下来由这N个32通道的特征体构造一个四维的匹配代价体C,其尺寸与一个特征体的尺寸相同,通过基于方差的度量定义四维代价体:

其中

由图像特征计算出的原始代价体可能受到噪声污染(例如,存在非朗伯面或物体遮挡),因此应该加入平滑性约束来推断深度图,我们的正则化网络旨在细化构建的代价体C,以生成用于深度估计的概率体P,具体地,我们使用U-Net网络(如图5)进行代价体正则化。它使用编码器-解码器结构以相对较低的内存和计算成本来聚合更大感受野的相邻信息。为了进一步减少计算需求,我们在第一个3D卷积层之后将32通道的代价体减少到8通道,每个尺度下使用两层卷积层,最后的卷积输出一个1通道的代价体,接着,通过softmax操作对采样深度方向上每个深度值计算相应的概率,得到概率体P。最后,我们使用SoftArgmin操作来生成初始深度图,具体地,计算每个像素对应所有深度值的期望,对所有深度假设值进行加权求和:

其中,d

3.基于帧间相关性的深度图细化

通过上述过程已经得到了初始的深度图,但由于代价体正则化涉及到较大的感受野,最终得到的初始深度中对象的边界可能变得过度平滑。因此,我们使用基于帧间相关性的深度图细化模块(如图6)对初始深度图进行细化。对于参考图像和它的相邻(帧间)图像具有相同的场景,我们假设“具有相同场景的图像,其深度也具有相似性”,由于各近邻图像对初始深度图细化的贡献不同,可以通过设置权重的大小,使得相似度高的深度图贡献大,相似度低的深度图贡献小。

首先,通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数,具体地,我们使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征;然后对于参考图像中的每个特征点,均在源图像中计算并找到与其距离最近和次最近的两个特征点;当最近距离与次距离的比值小于0.6时,认为具有最近距离的特征点是参考图像中特征点的配对点,则这两个特征点成为一个匹配对。当得到所有匹配对的个数N

其中,N

然后根据相似性分数对源图像的深度图进行加权求和,得到加权后的深度图,相邻图像的深度图加权公式:

其中,d

而且参考图像包含了边界信息,有助于细化深度图的边界,因此,我们将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入,然后经过六个32通道带有组标准化和ReLU的2D卷积层,卷积核大小为3x 3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图,并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。

整体网络训练的损失函数综合考虑了初始深度图和优化后的深度图,并使用L1损失来衡量预测得到的深度图和ground truth深度图之间的差距。其公式为:

其中d(p)表示groundtruth深度图,d

最后,我们将输入的N张图像分别当做参考图像进行深度图预测,得到N张同一场景下的深度图,然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。

本发明使用公开的DTU数据集进行训练和测试。该数据集包含119个场景,由49个精确的相机位置获得,所有图像都是在7个不同的照明条件下拍摄得到。我们将数据集划分为训练集、验证集和测试集,其中训练集包含79个场景(27097个训练样本),测试集包含22个场景(7546个对象),其余用于验证。

本发明使用了精度、完整性和Overall来评估三维重建的性能。精度用来衡量重建场景点云到groundtruth点云之间的距离,表示重建点云的质量;完整性用来衡量groundtruth点云到重建点云的距离,表示有多少表面被捕捉到。Overall定义为精度和完整性的均值。三个度量值越小重建效果越好。

本发明做了相关实验,将提出的基于学习的多视角立体视觉三维场景重建方法与经典的传统方法Gipuma和colmap,以及基于学习的方法surfaceNet和MVSNet进行了比较,对比结果如表1、图7(a)-(c)所示:

表1在场景scan09上的评估

Mean:均值

Acc:重建精度(重建的点云到groundtruth点云的距离,单位:mm)

Comp:重建完整性(groundtruth点云到重建点云的距离,单位:mm)

Overall:(Acc+Comp)/2

综上分析,本发明提出的基于深度学习的多视角立体视觉三维场景重建方法优于传统的重建方法和基于深度学习的重建方法,即它能够更好地学习输入图像的多尺度特征,增强了神经网络对深度预测的能力,重建出目标场景被遮挡和缺失的区域,从而能够更完整地恢复场景的三维信息。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号