首页> 中国专利> 一种基于深度学习的自然景观多视图三维重建方法

一种基于深度学习的自然景观多视图三维重建方法

摘要

本发明提供了一种基于深度学习的自然景观多视图三维重建方法,包括:获取自然景观的多视图图像集,并对多视图图像集中的二维图像进行预处理;构建多尺度特征提取网络,利用训练好的多尺度特征提取网络对预处理后的二维图像进行特征提取,得到目标关键特征;将目标关键特征输入基于学习的补丁匹配迭代模型中进行像素深度匹配的迭代计算,迭代计算结束之后输出对应的深度图;将得到的深度图和源图像输入深度残差网络中进行优化,得到优化后的最终深度图,根据优化后的最终深度图,构建物体三维模型以得到自然景观的立体视觉图,本发明通过局部区域分割的边缘处理算法优化深度图的边缘,使得到的深度图更完成和精确,且景观模型局部细节精度更高。

著录项

  • 公开/公告号CN114677479A

    专利类型发明专利

  • 公开/公告日2022-06-28

    原文格式PDF

  • 申请/专利权人 温州大学大数据与信息技术研究院;

    申请/专利号CN202210384876.5

  • 发明设计人 李毅;张笑钦;

    申请日2022-04-13

  • 分类号G06T17/00;G06T7/11;G06T7/30;G06N3/04;G06N3/08;

  • 代理机构北京阳光天下知识产权代理事务所(普通合伙);

  • 代理人赵飞

  • 地址 325000 浙江省温州市龙湾区浙南科技城曹龙路创新创业新天地1号楼7层

  • 入库时间 2023-06-19 15:47:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-28

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及三维重建技术领域,尤其涉及到一种基于深度学习的自然景观多视图三维重建方法。

背景技术

元宇宙技术是综合虚拟现实、游戏引擎、移动互联网、区块链等为一体的虚实融合场景框架,提供高度沉浸式的交互体验。将元宇宙技术应用于现实的文旅场景,提升文旅产品的创新发展思路,保护文旅数字产品的知识产权,对于旅游产业的发展具有非常重要的理论意义和现实价值。构建虚实融合的自然景观场景,关键技术在于将图像数据的展现方式通过多视图三维重建技术创建仿真的虚拟场景。近年来,三维重建技术通过利用深度摄像设备、红外传感器、激光雷达等对现实世界场景进行深度信息提取并估算,被广泛应用于智能无人驾驶、AR/VR,卫星遥感测绘、娱乐多媒体等应用领域。人工智能技术可通过神经网络模型的高度泛化能力,对多视图二维图像进行特征提取与处理转化,使得三维场景预测估算更为精确和高效。自然场景的三维重建中样本数据采集受到采集设备、自然环境、噪声、遮挡等因素的影响,往往精度不高,对虚拟场景的仿真构建带来了极大的挑战。因此,提升多视图三维重建在自然虚拟场景构建的精确性和效率,并将之应用文旅元宇宙,成为亟需解决的研究难点之一。

多视图立体视觉重建技术是利用多张同一场景的不同视角图像来恢复三维模型的方法。基于深度学习的多视图立体视觉重建,例如经典的MVSNet网络架构,通常会构造一个三维的代价体去回归场景的深度值。利用卷积神经网络进行多视图立体匹配也使得传统的匹配效率整体提升。但由于3D卷积神经网络的深度正则化处理,在大范围和高分辨率场景下,MVSNet还受制于显存资原的限制。传统方法对于镜面反射、纹理等难以处理,重建的完整性较低,并且速度较慢,且自然景观模型重建环境影响因素较大,特征提取不足,参数是提前设计好的无法自适应,只能针对特定场景效果、普适性不强。

综上所述,如何克服上述缺陷,是本领域技术人员急需解决的问题。

发明内容

本方案针对上文提到的问题和需求,提出一种基于深度学习的自然景观多视图三维重建方法,其由于采取了如下技术方案而能够解决上述技术问题。

为实现上述目的,本发明提供如下技术方案:一种基于深度学习的自然景观多视图三维重建方法,包括以下步骤:步骤Step1:获取自然景观的多视图图像集,并对所述多视图图像集中的二维图像进行预处理;

步骤Step2:构建多尺度特征提取网络,通过训练集对所述多尺度特征提取网络进行训练,得到训练好的多尺度特征提取网络,并利用训练好的多尺度特征提取网络对预处理后的二维图像进行特征提取,得到目标关键特征;

步骤Step3:将得到的目标关键特征输入基于学习的补丁匹配迭代模型中进行像素深度匹配的迭代计算,模型迭代计算结束之后输出对应的深度图;

步骤Step4:将步骤Step3得到的深度图和源图像输入深度残差网络中进行优化,得到优化后的最终深度图,并根据所述优化后的最终深度图,构建物体三维模型,以得到自然景观的立体视觉图。

进一步地,所述预处理包括:

对所述多视图图像集中的二维图像进行关键重建区域分割,所述多视图图像集包括源图像及其对应的多个视角的参考图像;

结合自然景观环境影响因素进行特征增强或遮挡修复。

更进一步地,构建的多尺度特征提取网络为基于图像金字塔FPN结构的可变卷积网络,通过对原有卷积得到的特征图再施加一个卷积层,用以获取可变形卷积变形的偏移量来实现目标关键特征提取。

更进一步地,在迭代计算过程中,在初次迭代时,则当前单个目标关键特征作为初始迭代的输入;若迭代已开始,则当前单个目标关键特征会与上一次迭代得到的深度图连接起来作为当前迭代的输入。

更进一步地,所述基于学习的补丁匹配迭代模型中的像素深度匹配是通过预设的匹配代价计算方法来实现的。

更进一步地,所述匹配代价计算方法通过group-wise相关性计算每个像素的每个depth假设值的代价;

具体包括:根据公式:

更进一步地,所述步骤Step4具体包括:

首先将输入的深度归一化到[0,1],并在细化后再恢复;

将得到的深度图和源图像输入深度残差网络中提取特征,并对得到深度特征应用反卷积,上采样到图像特征大小;

将得到的两个特征连接并应用了多个二维卷积层,得到深度残差;

然后添加到步骤Step3得到的深度估计中,最后得到优化后的深度图;

并根据所述优化后的最终深度图,构建物体三维模型,以得到自然景观的立体视觉图。

一种基于深度学习的自然景观多视图三维重建系统,采用上述所述的基于深度学习的自然景观多视图三维重建方法,具体包括:图像获取模块、多尺度特征提取模块、迭代计算模块和优化重建模块;

所述图像获取模块用于获取自然景观的多视图图像集,并对所述多视图图像集中的二维图像进行预处理;

所述多尺度特征提取模块用于构建多尺度特征提取网络,通过训练集对所述多尺度特征提取网络进行训练,得到训练好的多尺度特征提取网络,并利用训练好的多尺度特征提取网络对预处理后的二维图像进行特征提取,得到目标关键特征;

所述多尺度特征提取模块用于将得到的目标关键特征输入基于学习的补丁匹配迭代模型中进行像素深度匹配的迭代计算,模型迭代计算结束之后输出对应的深度图;

所述优化重建模块用于将上述得到的深度图和源图像输入深度残差网络中进行优化,得到优化后的最终深度图,并根据所述优化后的最终深度图,构建物体三维模型,以得到自然景观的立体视觉图。

从上述的技术方案可以看出,本发明的有益效果是:通过局部区域分割的边缘处理算法优化深度图的边缘,使得到的深度图更完成和精确,且景观模型局部细节精度更高,重建效率更高,普适性更强。

除了上面所描述的目的、特征和优点之外,下文中将结合附图对实施本发明的最优实施例进行更详尽的描述,以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,其中,附图仅仅用于展示本发明的一些实施例,而非将本发明的全部实施例限制于此。

图1为本发明中基于深度学习的自然景观多视图三维重建方法的具体步骤示意图。

图2为本发明中基于深度学习的自然景观多视图三维重建方法的构建过程示意图。

图3为本发明中基于深度学习的自然景观多视图三维重建系统的组成结构示意图。

具体实施方式

为了使得本发明的技术方案的目的、技术方案和优点更加清楚,下文中将结合本发明具体实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前的自然景观模型三维重建方法存在低纹理和无纹理区域表现不好,内存成本大,运行时间长等问题,因此,本申请公开了一种可通过局部区域分割的边缘处理算法优化深度图的边缘,使得到的深度图更完成和精确,且景观模型局部细节精度更高,重建效率更高,普适性更强的方法,如图1至图3所示,该方法包括:步骤Step1:获取自然景观的多视图图像集,并对所述多视图图像集中的二维图像进行预处理。

所述预处理的具体处理过程包括:对所述多视图图像集中的二维图像进行关键重建区域分割,所述多视图图像集包括源图像及其对应的多个视角的参考图像;结合自然景观环境影响因素进行特征增强或遮挡修复。因为对于环境影响(如反光)和关键重建区域目标物体的边缘遮挡,仅对边缘像素做处理显然是不足的,因此需要使用数学形态学中的膨胀算法对边缘进行膨胀处理,这样获得更多的边缘区域像素。通过使用图像分割生成的掩膜将目标物从图像中提取出来,并将其与背景图像结合,作为预处理,对边缘像素进行双边滤波,在距离边缘较远的区域,滤波器中每个像素点的像素值权重相近,距离权重在滤波中占有主要地位,在边缘区域,边缘同侧的像素点像素值权重相近,并且远大于边缘另一侧像素点的权重,因此,非同侧的像素点很难对滤波结果造成影响,也就可以起到保护边缘信息的作用。以此达到重建区域边缘特征增强和区域边缘延展的预处理效果。为后续多视图重建结果增益。

二维图像的特征提取对于多视图三维重建非常重要,直接影响生成三维模型的完整性和精度。针对模型多视图的二维图像采集,直接应用于深度神经网络的特征匹配和三维生成,由于采集设备的原始相机外参在采集过程中不断变化,对于后续特征匹配会带来大量的累积误差,不仅影响模型重建的完整性,还会造成过多计算资源消耗。因此,首先对输入多视图进行关键重建区域分割,此步骤作为图像预处理,可同时结合自然景观环境影响因素进行特征增强或遮挡修复。对于无纹理特征区域和弱特征区域的特征提取,后续步骤的多尺度特征提取可继续对目标特征区域的匹配累计误差进行缩减。本申请通过局部区域分割的边缘处理算法优化深度图的边缘。

一般来说,像素位于深度边界上通常有几个潜在的深度,在相似的色域中,深度是相同的,像素通常具有相似颜色的在同一几何平面上的深度。使用基于光流的方法直接执行坐标变换预测,本方法允许像素来选择潜在深度,而不是中间深度值,使点属于对象或背景,以及避免深度传播深度边界的模糊性。在这个过程中,为了更好地预测深度边界,深度基于学习的面片匹配迭代获取映射D,将采样率提高到原始分辨率的两倍,然后进行双采样。显示与D

步骤Step2:构建多尺度特征提取网络,通过训练集对所述多尺度特征提取网络进行训练,得到训练好的多尺度特征提取网络,并利用训练好的多尺度特征提取网络对预处理后的二维图像进行特征提取,得到目标关键特征。

具体地,构建的多尺度特征提取网络为基于图像金字塔FPN结构的可变卷积网络,通过对原有卷积得到的特征图再施加一个卷积层,用以获取可变形卷积变形的偏移量来实现目标关键特征提取。

如图2所示,可变卷积网络基于图像金字塔(FPN),通过高斯平滑和亚采样获得一些下采样图像,也就是说第K层高斯金字塔通过平滑、亚采样操作就可以获得K+1层高斯图像,高斯金字塔包含了一系列低通滤波器,其截止频率从上一层到下一层是以因子2逐渐增加,所以高斯金字塔可以跨越很大的频率范围。输入一张图片,可以获得多张不同尺度的图像,将这些不同尺度的图像的4个顶点连接起来,就可以构造出一个类似真实金字塔的一个图像金字塔。通过这个操作,可以为2维图像增加一个尺度维度(或者说是深度),这样可以从中获得更多的有用信息。

在本实施例中,通过训练集对所述多尺度特征提取网络进行训练的过程包括:

首先输入N个视角大小为W×H的图片,可使用不同尺度,如

步骤Step3:将得到的目标关键特征输入基于学习的补丁匹配迭代模型中进行像素深度匹配的迭代计算,模型迭代计算结束之后输出对应的深度图。

具体地,在迭代计算过程中,在初次迭代时,则当前单个目标关键特征作为初始迭代的输入;若迭代已开始,则当前单个目标关键特征会与上一次迭代得到的深度图连接起来作为当前迭代的输入,其中,所述基于学习的补丁匹配迭代模型中的像素深度匹配是通过预设的匹配代价计算方法来实现的。

而所述匹配代价计算方法通过group-wise相关性计算每个像素的每个depth假设值的代价;

具体包括:根据公式:

对于多视觉立体视觉,这一步必须整合从任意数量的源图像到单个像素的单个深度值的信息。为此,通过分组相关计算每个像素每个深度假设值的成本。使用像素级视图权重聚合视图。在成本汇总过程中,可以使用可见性信息提高健壮性。最后,每组汇总聚合的代价通过一个很小的网络被映射到每一深度层的像素上。原始像素级视图权重计算网络有平面三维卷积和非线性。然而,由于对于其固定的感受区域,普通的3D卷积不能有效地模拟大的运动,从而造成重建的重要信息有限。

因此,为了优化这个问题,使用一个由可变卷积和平面卷积集成的可变三维卷积网络,可以对局部区域的可学习节点进行最大化的特征提取,并改进图像特征区域和持续运动捕捉视图的能力。如下式所示为可变三维卷积:

在本实施例中,在补丁匹配的初次迭代时,用随机产生的深度假设作为第一次传播的基准,随机的深度假设由预先定义的逆深度范围[d

通过实验发现每一个阶段到最后的结果是不同的,当前损失函数不能很好地代表当前的训练情况。在第一阶段,深度预测是简单的扰动,没有传播,所以它的权重很小。在第0阶段,虽然深度图细化模块提高了点云的精确度,但它相应地降低了完整性。通过使用可变卷积神经网络可以大大提高精度。为了更好的提高网络的性能,深度图的丢失细化模块相应减少。为了反映损失函数可以更好地影响整个训练过程,在不同阶段给出不同的权重ik(k=0,1,2,3)。损失函数定义为:

同一个物理表面的深度值通常存在相关性,因此,我们放弃以前的从一组静态的相邻像素中传播深度假设,而是采用自适应的方式来进行传播,他从同一个物理表面进行传播,这种方法对比之前能更快的收敛,并且同时可以从弱纹理和无纹理区域采集更多有用的深度假设,我们基于在可变形卷积网络上实现自适应传播。此模型学习了额外的二维偏移,并将它们应用在固定的二维偏移上,组织成一个网格。我们在目标图片上使用1个2DCNN学习每个像素的额外二维偏移,并通过双线性插值得到深度假设。

参考上述,对于多视立体视觉,这一步必须整合来自任意数量的源图像信息到单个像素的单个深度值的代价值。为此可通过group-wise(将特征的相关性通道降低至Group的个数,减少内存)相关性计算每个假设值的代价。通过一个像素级的view权重来聚合views。在代价聚合过程中,可以利用可见性信息来提高鲁棒性。最后通过一个小网络每个group的代价被投影到参考帧的每个像素,每个depth上。

在本实施例中,

步骤Step4:将步骤Step3得到的深度图和源图像输入深度残差网络中进行优化,得到优化后的最终深度图,并根据所述优化后的最终深度图,构建物体三维模型,以得到自然景观的立体视觉图。

所述步骤Step4具体包括:

首先将输入的深度归一化到[0,1],并在细化后再恢复;

将得到的深度图和源图像输入深度残差网络中提取特征,并对得到深度特征应用反卷积,上采样到图像特征大小;

将得到的两个特征连接并应用了多个二维卷积层,得到深度残差;

然后添加到步骤Step3得到的深度估计中,最后得到优化后的深度图,优化后的深度图为;

并根据所述优化后的最终深度图,构建物体三维模型,以得到自然景观的立体视觉图。

在本实施例中,将经过步骤Step3得到深度图和输入的源图像作为深度优化算法的输入,输入到设计的深度残差网络中,为了避免某一深度尺度发生偏移,首先将输入的深度归一化到[0,1],并在细化后再恢复,该网络从处理后的深度图和源图像中提取特征,并对得到深度特征应用反卷积,上采样到图像特征大小。将得到的两个特征连接并应用了多个二维卷积层,得到深度残差,然后添加到上一步得到的深度估计中,最后得到优化后的深度图,则优化后的深度图为

基于上述所述的基于深度学习的自然景观多视图三维重建方法,本申请还公开了一种基于深度学习的自然景观多视图三维重建系统,具体包括:图像获取模块、多尺度特征提取模块、迭代计算模块和优化重建模块;

所述图像获取模块用于获取自然景观的多视图图像集,并对所述多视图图像集中的二维图像进行预处理;

所述多尺度特征提取模块用于构建多尺度特征提取网络,通过训练集对所述多尺度特征提取网络进行训练,得到训练好的多尺度特征提取网络,并利用训练好的多尺度特征提取网络对预处理后的二维图像进行特征提取,得到目标关键特征;

所述多尺度特征提取模块用于将得到的目标关键特征输入基于学习的补丁匹配迭代模型中进行像素深度匹配的迭代计算,模型迭代计算结束之后输出对应的深度图;

所述优化重建模块用于将上述得到的深度图和源图像输入深度残差网络中进行优化,得到优化后的最终深度图,并根据所述优化后的最终深度图,构建物体三维模型,以得到自然景观的立体视觉图。

本申请采用了针对自然景观模型的基于可变性卷积的多视图三维重建算法,并通过局部区域分割的边缘处理算法优化深度图的边缘,使得到的深度图更完成和精确。算法能够通过输入多张图片和相应的相机参数去估计图像深度,进而进行三维建模,最终得到图像中物体的三维模型,较好地解决了,目前三维重建方法中存在的低纹理和无纹理区域表现不好,内存成本大和运行时间长以及自然景观模型重建环境影响因素较大,特征提取不足,参数是提前设计好的无法自适应,只能针对特定场景效果、普适性不强等问题。

上述结果说明了本申请提出的基于深度学习的自然景观多视图三维重建方法的可行性和有效性。

应当说明的是,本发明所述的实施方式仅仅是实现本发明的优选方式,对属于本发明整体构思,而仅仅是显而易见的改动,均应属于本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号