首页> 中国专利> 基于模型分割的混合场景重建方法及装置

基于模型分割的混合场景重建方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于模型分割的混合场景重建方法及装置，其中，方法包括：获得相机的当前位姿；获得静态场景模型和动态物体模型；通过动态重建方法对动态物体的局部运动进行跟踪并更新动态物体模型，并且通过投影法将重建后的动态物体模型投影至深度图中以对当前深度数据进行分割，获得属于静态场景的深度数据，并通过静态重建方法对属于静态场景的深度数据进行处理，以更新静态场景模型。该方法可以通过跟踪相机姿态，计算深度图与重建模型的对准误差，根据对准误差分离动态物体模型和静态场景模型并进一步分别处理，从而实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

著录项

公开/公告号CN107909643A

专利类型发明专利
公开/公告日2018-04-13

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN201711079227.X
发明设计人徐枫;张浩;
展开▼

申请日2017-11-06
分类号G06T17/00(20060101);G06T7/70(20170101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人张润
地址 100084 北京市海淀区清华园
入库时间 2023-06-19 05:02:17

法律信息

法律状态公告日

法律状态信息

法律状态
2020-04-24

授权

授权
2018-05-08

实质审查的生效 IPC(主分类):G06T17/00 申请日:20171106

实质审查的生效
2018-04-13

公开

公开

说明书

技术领域

本发明涉及计算机视觉与计算机图形学技术领域，特别涉及一种基于模型分割的混合场景重建方法及装置。

背景技术

目前，三维场景重建是机器视觉与计算机图形学领域中一个重要且基础的问题，三维场景重建在动画/电影制作，虚拟/增强现实，医学/军事等领域也有非常广泛的应用。例如，在机器视觉中，机器人可以在运动中重建环境的三维几何结构，实现机器人的实时定位以及对环境的感知与交互；在虚拟现实中，使用场景重建技术构建的三维模型能提供逼真的三维场景模型，增强人的沉浸感；在增强现实中，场景重建技术能实时重建场景，精确感知场景信息，并将虚拟信息准确投射到目标位置与真实场景叠加，增强人与环境的交互性。正是由于场景重建技术具有如此广泛的应用前景，因此三维场景重建技术具有极高的科研和应用价值。

然而，现有的三维场景重建技术仍然存在缺陷，对场景进行重建时要求场景必须是绝对的静态场景，当前的三维场景重建技术无法重建静态场景中动态的物体，一旦真实三维场景中通常存在的动态物体，比如人、飘动的窗帘等，就会影响静态场景重建的结果，从而严重限制了三维场景重建技术的使用范围，可靠性差，有待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于模型分割的混合场景重建方法，该方法可以实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

本发明的另一个目的在于提出一种基于模型分割的混合场景重建装置。

为达到上述目的，本发明一方面实施例提出了一种基于模型分割的混合场景重建方法，包括以下步骤：通过改进的ICP算法(Iterative Closest Point，ICP算法)将深度数据与当前重建模型进行对准，获得相机的当前位姿；根据所述相机的当前位姿得到当前深度数据与所述当前重建模型之间的对准误差，并且根据所述对准误差确定已重建模型中静态部分和动态部分，并利用模型的连续性进行模型分割，获得静态场景模型和动态物体模型；通过动态重建方法对动态物体的局部运动进行跟踪并更新所述动态物体模型，并且通过投影法将重建后的动态物体模型投影至深度图中以对当前深度数据进行分割，获得属于静态场景的深度数据，并通过静态重建方法对所述属于静态场景的深度数据进行处理，以更新所述静态场景模型。

本发明实施例的基于模型分割的混合场景重建方法，可以通过改进的ICP算法将当前深度数据与模型进行对准以获得相机姿态，计算模型各连通部分与深度数据的对准误差，并根据对准误差将混合场景模型进行分割，获得潜在的动态物体模型和静态场景模型，再将动态物体模型和静态场景模型以及深度数据分别送入动态重建流程和静态重建流程中进行处理，实现对混合场景的三维模型重建，从而实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

另外，根据本发明上述实施例的基于模型分割的混合场景重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述获得相机的当前位姿，进一步包括：通过sigmoid-ICP方法将当前深度图与所述当前重建模型进行对准，并排除动态物体深度数据的影响，以获得所述相机的当前姿态。

进一步地，在本发明的一个实施例中，所述根据所述相机的当前位姿得到当前深度数据与重建模型之间的误差，并且根据所述误差确定已重建模型中静态部分和动态部分，并利用模型的连续性进行模型分割，进一步包括：对当前考虑进行分割的所述当前重建模型的表面进行采样，获得附着于模型表面按预设距离均匀分布的多个结点，其中，结点的影响覆盖以其为中心预设半径范围内的模型表面；获取每个结点预设范围内的多个结点及其边长，构建结点连接图，并根据所述结点连接图中结点的连接关系和边长对结点进行聚类，以将结点集分为多个结点子集，其中，每个结点子集中的结点相互临近，不同结点子集中的结点相互远离；获取所述每个结点所覆盖范围内模型表面与所述当前深度数据之间的平均对准误差，其中，如果平均对准误差大于预设值时，则判定具有较大的局部运动，并视为具有动态倾向；统计每类的结点子集中结点的数量和具有所述动态倾向的结点数量，其中，如果任一结点子集中结点数和具有动态倾向的结点数量满足预设条件，则判定为属于动态结点集，否则判定为属于静态结点集；通过所述动态结点集所覆盖的模型表面构成所述动态物体模型，并且通过所述静态结点集所覆盖的模型表面构成所述静态场景模型。

进一步地，在本发明的一个实施例中，所述更新所述动态物体模型和所述更新所述静态场景模型，进一步包括：对于所述动态物体，利用所述深度数据跟踪局部非刚性运动，并根据所述局部非刚性运动和相机运动对所述动态物体模型进行更新；对于所述静态场景，将更新的所述动态物体模型对当前相机进行二维投影，并且根据投影结果将所述当前深度数据进行分割，提取出所述属于静态场景的深度数据，以进行静态场景更新。

进一步地，在本发明的一个实施例中，通过point-to-plane能量函数的残差获取所述对准误差。

为达到上述目的，本发明另一方面实施例提出了一种基于模型分割的混合场景重建装置，包括：采集模块，用于通过改进的ICP算法将深度数据与当前重建模型进行对准，获得相机的当前位姿；重建模块，用于根据所述相机的当前位姿得到当前深度数据与所述当前重建模型之间的对准误差，并且根据所述对准误差确定已重建模型中静态部分和动态部分，并利用模型的连续性进行模型分割，获得静态场景模型和动态物体模型；更新模块，用于通过动态重建方法对动态物体的局部运动进行跟踪并更新所述动态物体模型，并且通过投影法将重建后的动态物体模型投影至深度图中以对当前深度数据进行分割，获得属于静态场景的深度数据，并通过静态重建方法对所述属于静态场景的深度数据进行处理，以更新所述静态场景模型。

本发明实施例的基于模型分割的混合场景重建装置，可以通过改进的ICP算法将当前深度数据与模型进行对准以获得相机姿态，计算模型各连通部分与深度数据的对准误差，并根据对准误差将混合场景模型进行分割，获得潜在的动态物体模型和静态场景模型，再将动态物体模型和静态场景模型以及深度数据分别送入动态重建流程和静态重建流程中进行处理，实现对混合场景的三维模型重建，从而实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

另外，根据本发明上述实施例的基于模型分割的混合场景重建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集模块进一步用于通过sigmoid-ICP方法将当前深度图与所述当前重建模型进行对准，并排除动态物体深度数据的影响，以获得所述相机的当前姿态。

进一步地，在本发明的一个实施例中，所述重建模块进一步用于对当前考虑进行分割的所述当前重建模型的表面进行采样，获得附着于模型表面按预设距离均匀分布的多个结点，其中，结点的影响覆盖以其为中心预设半径范围内的模型表面，获取每个结点预设范围内的多个结点及其边长，构建结点连接图，并根据所述结点连接图中结点的连接关系和边长对结点进行聚类，以将结点集分为多个结点子集，其中，每个结点子集中的结点相互临近，不同结点子集中的结点相互远离，并且获取所述每个结点所覆盖范围内模型表面与所述当前深度数据之间的平均对准误差，其中，如果平均对准误差大于预设值时，则判定具有较大的局部运动，并视为具有动态倾向；统计每类的结点子集中结点的数量和具有所述动态倾向的结点数量，其中，如果任一结点子集中结点数和具有动态倾向的结点数量满足预设条件，则判定为属于动态结点集，否则判定为属于静态结点集，以及通过所述动态结点集所覆盖的模型表面构成所述动态物体模型，并且通过所述静态结点集所覆盖的模型表面构成所述静态场景模型。

进一步地，在本发明的一个实施例中，所述更新模块进一步用于对于所述动态物体，利用所述深度数据跟踪局部非刚性运动，并根据所述局部非刚性运动和相机运动对所述动态物体模型进行更新，并且对于所述静态场景，将更新的所述动态物体模型对当前相机进行二维投影，并且根据投影结果将所述当前深度数据进行分割，提取出所述属于静态场景的深度数据，以进行静态场景更新。

进一步地，在本发明的一个实施例中，所述重建模块还用于通过point-to-plane能量函数的残差获取所述对准误差。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于模型分割的混合场景重建方法的流程图；

图2为根据本发明一个实施例的某一帧数据到进行混合模型分割后得到的中间结果的示意图；

图3为根据本发明另一个实施例的基于模型分割的混合场景重建方法的流程图；

图4为根据本发明一个实施例的整段深度视频流后处理后得到的混合场景三维模型的示意图；

图5为根据本发明一个实施例的基于模型分割的混合场景重建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于模型分割的混合场景重建方法及装置，首先将参照附图描述根据本发明实施例提出的基于模型分割的混合场景重建方法。

图1是本发明一个实施例的基于模型分割的混合场景重建方法的流程图。

如图1所示，该基于模型分割的混合场景重建方法包括以下步骤：

在步骤S101中，通过改进的ICP算法将深度数据与当前重建模型进行对准，获得相机的当前位姿。

也就是说，本发明实施例可以利用改进的ICP算法将深度数据与当前重建模型进行对准，从而获得相机的当前位姿。

进一步地，在本发明的一个实施例中，获得相机的当前位姿，进一步包括：通过sigmoid-ICP方法将当前深度图与当前重建模型进行对准，并排除动态物体深度数据的影响，以获得相机的当前姿态。

可以理解的是，本发明实施例可以利用改进的ICP算法将深度数据与模型进行对准，排除动态物体局部运动对相机姿态估计的干扰，获得准确的相机姿态。

具体地，本发明实施例使用改进的ICP算法将当前深度数据对准到模型，获得准确的相机姿态，本发明实施例的输入是一段深度图序列帧D^t，本发明实施例的输出是三维场景的模型M。下面先简单介绍一下传统的深度数据对准算法ICP算法，ICP算法的目的是获得当前帧数据所对应的相机姿态执行步骤是：当第t帧深度数据D^t来临时，首先计算当前数据帧上所有点在相机坐标系下的三维坐标和法向同时将上一帧更新后的场景模型M^t-1投射到上一帧的相机平面上，获得对应于的参考数据帧，即模型上点的三维坐标及法向然后构建当前数据帧与参考数据帧之间的point-to-plane能量函数，如下所示：

其中，C表示当前数据帧与参考数据帧之间点的对应关系集合，K表示相机内参矩阵，π表示取二维图像像素地址；通过优化point-to-plane能量函数可求解当前数据帧相对于参考数据帧的相机位姿变化当前数据帧所对应的相机姿态为直接由设备获得的深度数据含有大量噪声，为了增强ICP算法的鲁棒性，一般采用阈值法对(u,v)进行筛选以排除异常点对跟踪效果的影响，筛选策略如下:

然而，当场景中存在动态物体时，由于算法无法区分哪些数据属于静态场景，哪些数据属于动态物体，因此满足筛选条件的点都会加入到ICP中进行计算，从而动态物体的局部运动会影响到相机姿态的准确跟踪。

上述是对传统的深度数据对准算法ICP算法的介绍，下面将对本发明实施例提出的基于sigmoid函数的改进ICP算法进行介绍。利用sigmoid-ICP算法将深度数据对准到当前模型以获得准确相机姿态的执行步骤与传统ICP方法相似，两者的不同之处在于两个方面：其一，由于场景中可能存在动态物体，因此若上一帧更新的场景模型M^t-1包含动态物体模型和静态场景模型两部分，即为混合模型时，场景模型向的相机进行投影则获得混合场景的参考数据帧其二，sigmoid-ICP算法构建的能量函数在point-to-plane能量的基础上增加了sigmoid函数核，新的能量函数如下：

其中，与传统ICP构建的能量函数定义相同；S(·)为sigmoid核函数，定义为：

其中，ε为阈值，k为控制系数。

在步骤S102中，根据相机的当前位姿得到当前深度数据与当前重建模型之间的对准误差，并且根据对准误差确定已重建模型中静态部分和动态部分，并利用模型的连续性进行模型分割，获得静态场景模型和动态物体模型。

也就是说，本发明实施例可以利用相机当前位姿，计算当前深度数据与重建模型之间的误差，根据误差大小确定已重建模型中属于静态和动态的部分，并利用模型的连续性进行模型分割，从而可以获得静态场景模型和动态物体模型。

进一步地，在本发明的一个实施例中，根据相机的当前位姿得到当前深度数据与重建模型之间的误差，并且根据误差确定已重建模型中静态部分和动态部分，并利用模型的连续性进行模型分割，进一步包括：对当前考虑进行分割的当前重建模型的表面进行采样，获得附着于模型表面按预设距离均匀分布的多个结点，其中，结点的影响覆盖以其为中心预设半径范围内的模型表面；获取每个结点预设范围内的多个结点及其边长，构建结点连接图，并根据结点连接图中结点的连接关系和边长对结点进行聚类，以将结点集分为多个结点子集，其中，每个结点子集中的结点相互临近，不同结点子集中的结点相互远离；获取每个结点所覆盖范围内模型表面与当前深度数据之间的平均对准误差，其中，如果平均对准误差大于预设值时，则判定具有较大的局部运动，并视为具有动态倾向；统计每类的结点子集中结点的数量和具有动态倾向的结点数量，其中，如果任一结点子集中结点数和具有动态倾向的结点数量满足预设条件，则判定为属于动态结点集，否则判定为属于静态结点集；通过动态结点集所覆盖的模型表面构成动态物体模型，并且通过静态结点集所覆盖的模型表面构成静态场景模型。

可以理解的是，本发明实施例利用重建模型的连续性对混合场景进行分割的方法可以包括如下步骤：

(1)在当前考虑进行分割的已重建混合模型表面进行采样，获得附着于模型表面按距离均匀分布的结点，结点的影响覆盖以其为中心一定半径范围内的模型表面；

(2)计算每个结点最近的k个结点及其边长，构建结点连接图，利用结点连接图中结点的连接关系和边长对结点进行聚类，将结点集分为几个结点子集，每个子集中的结点相互临近，不同子集中的结点相互远离；

(3)计算每个结点所覆盖范围内模型表面与当前深度数据之间的平均对准误差，若平均对准误差较大，则认为模型在该结点处具有较大的局部运动，并视该结点为具有动态倾向的结点。

(4)统计每一类结点子集中结点的数量和具有动态倾向结点的数量，若某一结点子集中结点数和具有动态倾向结点数满足一定条件，则认为该结点子集全体属于动态结点集，否则认为其属于静态结点集；

(5)动态结点集所覆盖的模型表面构成动态物体模型，静态结点集所覆盖的模型表面构成静态场景模型。

可选地，在本发明的一个实施例中，通过point-to-plane能量函数的残差获取对准误差。

可以理解的是，本发明实施例可以计算当前数据帧与场景模型之间的对准误差，以对准误差为依据，利用连续性原则将混合场景模型分为动态物体模型和静态场景模型，当前数据帧与混合场景模型之间的对准误差可由point-to-plane能量函数的残差直接得到。

举例而言，本发明实施例可以利用连续性原则，并依据对准误差将混合场景模型分为动态物体模型和静态场景模型，可分为如下几个步骤：

(1)在新增的模型表面均匀采样，采样半径为R_S，得到新的采样点，新的采样点和旧的采样点构成了在整个模型上均匀分布的结点集N^t。每个结点覆盖了一定范围的模型表面，结点集N^t则覆盖了当前重建的场景模型，将N^t中的每个结点向位姿为的相机进行投影，落在成像平面内的结点构成了当前视场结点集覆盖的模型表面即为当前考虑分割的模型区域；

(2)计算当前视场结点集中结点的连通关系，具体执行步骤为，首先，计算每个结点与其欧氏距离最小的k个临近结点，并计算相邻结点的边长，建立的连通图G_FOV；其次，以R_L为边长阈值，使用图的深度搜索算法将结点集分为相互远离的若干类子集每个子集内的结点通过距离较小的边可连接为一个整体，两个子集之间找不到边长度小于R_L的结点；

(3)计算当前视场结点集中结点覆盖区域的平均对准误差，并据此将场景模型分为动态物体模型和静态场景模型，具有较大平均对准误差的结点称为动态倾向结点，统计每类子集中动态倾向结点的数量。本发明实施例认为动态倾向结点数量较多的子类全体都属于动态物体结点，所有这些类的结点构成动态物体结点集由动态物体结点集所覆盖的模型属于动态物体模型，剩余子类结点所覆盖的模型属于静态场景模型。

在步骤S103中，通过动态重建方法对动态物体的局部运动进行跟踪并更新动态物体模型，并且通过投影法将重建后的动态物体模型投影至深度图中以对当前深度数据进行分割，获得属于静态场景的深度数据，并通过静态重建方法对属于静态场景的深度数据进行处理，以更新静态场景模型。

也就是说，本发明实施例可以使用动态重建方法对动态物体的局部运动进行跟踪并更新动态物体模型，并利用投影法将重建后的动态物体模型投影到深度图中对当前深度数据进行分割，获得属于静态场景的深度数据，使用静态重建方法对静态数据进行处理，从而可以更新静态场景模型。

进一步地，在本发明的一个实施例中，更新动态物体模型和更新静态场景模型，进一步包括：对于动态物体，利用深度数据跟踪局部非刚性运动，并根据局部非刚性运动和相机运动对动态物体模型进行更新；对于静态场景，将更新的动态物体模型对当前相机进行二维投影，并且根据投影结果将当前深度数据进行分割，提取出属于静态场景的深度数据，以进行静态场景更新。

可以理解的是，本发明实施例对动态物体和静态场景进行重建的步骤为：

(1)对于动态物体，首先利用深度数据跟踪其局部非刚性运动，然后根据局部非刚性运动和相机运动对动态物体模型进行更新；

(2)对于静态场景，首先将更新的动态物体模型对当前相机进行二维投影，然后按照投影结果将当前深度数据进行分割，提取出属于静态场景的深度数据，最后进行静态场景更新。

具体而言，本发明实施例可以将动态物体模型和静态场景模型分别送入动态物体重建流程和静态场景重建流程中进行处理，得到更新的混合场景模型，执行步骤可分为如下两个阶段：

(1)对于动态物体模型的更新，可使用动态物体结点对其局部运动进行描述，然后通过nonrigid-ICP算法对局部运动进行跟踪，最后将新的属于动态物体的深度数据融合到动态物体模型中，完成动态物体模型的更新。具体来说，本发明实施例参考DynamicFusion方法对动态物体进行重建，动态物体模型最初始的形态，即局部运动为零时的模型称为动态物体参考模型动态物体模型与当前数据帧对准的形态，即相对于参考模型有局部运动的模型称为当前运动重建模型动态物体重建的核心是对动态物体局部运动的估计，动态物体的局部运动由一个变形场函数W进行描述，当前运动重建模型与参考模型之间的关系可表示为：

第t帧的变形场函数W可通过优化如下问题进行估计：

E(W)＝E_depth(W)+ω_smoothE_smooth(W)，

其中，E_depth(W)是将运动重建模型与当前数据帧的对准误差能量，它的具体形式如下所示：

其中，x表示动态物体参考模型上的点，(x,u)∈C表示x与图像坐标为u的三维点的对应点集，E_smooth(W)是平滑项，它描述了结点之间相对运动的约束：

其中，G_D表示动态结点集的连通图，j表示第j个动态结点，N_j表示结点j的相邻结点集，i表示第i个相邻结点，V_D表示结点在参考模型上的位置，ω_smooth表示平滑项的平衡参数；

(2)对于静态场景模型的更新，只需将属于静态场景的深度数据从当前数据帧中分离出来，然后利用基于哈希表的静态场景融合技术将新数据融合到静态场景模型中即能实现的更新。本发明实施例的静态场景融合技术与传统静态场景融合技术不同之处在于，传统静态场景融合技术的输入数据不包含动态物体的数据，而本发明实施例的输入数据为可能包含动态物体信息的常规场景扫描数据。因此，本发明实施例可以进行静态场景融合的关键在于准确提取属于静态场景信息的深度数据，具体提取方法为：首先将上一步得到的动态物体的局部运动W^t应用到更新后的动态物体模型上，获得最新的当前运动重建模型然后将当前运动重建模型向当前相机进行2D投影，获得动态物体的参考数据帧由于动态物体参考数据帧中的数据与当前数据帧D^t中属于动态物体的数据具有位置和数值上的临近关系，故可以使用阈值法找出D^t中属于动态物体的数据并进行标记得到动态物体数据二值标记图如图2第一行第二列所示，其计算规则如下所示：

其中，N(u)表示二维坐标u的邻域，ε_D表示筛选阈值，的补集即为静态场景数据的二值标记图如图2第一行第三列所示。由所标记的深度数据即为静态场景数据。

在本发明的一个具体实施例中，本发明实施例使用一段包含动态物体的场景扫描视频，具体包括以下步骤：

(1)本发明实施例使用输入视频的第一帧数据对模型进行初始化，认为第一帧对应的相机初始位置位于世界坐标系的原点。从第二帧开始，当深度数据来时，首先使用sigmoid-ICP将当前数据帧与当前已重建模型进行对准，获得当前数据帧所对应的相机姿态。为提高计算效率，本发明实施例使用sigmoid-ICP算法在三层金字塔图像数据上进行迭代求解，金字塔底层图像数据为当前数据帧和模型对前一帧相机姿态投影得到的参考数据帧，金字塔第二层图像数据为底层数据下采样2倍得到，顶层图像数据也是第二层数据的2倍下采样，并使用上一帧相机姿态作为迭代的初始姿态。首先，在金字塔顶层图像数据上进行固定次数迭代，其迭代次数为4；其次，顺序往下，在第二层和底层的数据上进行固定次数的迭代求解，其固定迭代次数分别为5次和10次，离群点的筛选参数分别为ε_d＝0.02，ε_d＝0.866，其中，sigmoid函数参数为ε²＝0.00001，控制参数为k＝2×10⁵；

(2)对新增的模型表面进行结点采样，采样半径为R_S＝0.036，在获得当前视场结点集后，为每个结点计算其临近的8个结点及其8条临边长，构成连通图G_FOV，再以边长阈值为R_L＝0.072将结点集划分为不同的连通结点子集，并使用结点覆盖范围内的平均对准误差将结点分为动态物体结点集和静态场景结点集由覆盖的模型区域为动态物体模型，如图2第二行第二列所示，由所覆盖的区域为静态场景模型，如图2第二行第三列所示；

(3)在获得动态物体模型和静态场景模型之后，首先，将动态物体模型送入动态重建流程中进行处理，跟踪动态物体的局部运动，并根据局部运动更新动态物体模型；其次，将当前运动重建模型投影到当前相机姿态下，获得动态物体的参考数据帧，以参考数据帧为依据，寻找当前数据帧中属于动态物体的深度数据，得到动态物体数据的二值标记图如图2第一行第二列所示，取的补集即为静态场景数据的二值标记图如图2第一行第三列所示；最后，将属于静态场景的数据送入静态场景重建过程中进行处理，得到更新的静态场景模型。

例如，如图3所示，本发明实施例的方法具体包括：

在步骤S1中，首先获取视频帧序列；

在步骤S2中，对视频帧进行深度数据配准，并进行相机姿态跟踪；

在步骤S3中，进行混合场景的分割，然后执行步骤S4和步骤S6；

在步骤S4中，进行动态物体局部运动估计；

在步骤S5中，进行动态物体模型跟新；

在步骤S6中，进行静态场景深度数据提取；

在步骤S7中，进行静态场景模型跟新。

综上，本发明实施例的目的是解决三维场景重建无法处理动态物体的问题，如图4所示，根据本发明实施例的方法处理整段深度视频流后得到的混合场景三维模型。首先，输入为一段场景扫描的深度视频帧序列，其次，分别处理每一帧的深度数据，跟踪相机姿态，计算深度图与重建模型的对准误差，最后，根据对准误差分离动态物体模型和静态场景模型并进一步分别处理，实现动态物体和静态场景的共同重建，提高了三维场景重建技术的鲁棒性，拓宽了该技术的应用范围。

根据本发明实施例提出的基于模型分割的混合场景重建方法，可以通过改进的ICP算法将当前深度数据与模型进行对准以获得相机姿态，计算模型各连通部分与深度数据的对准误差，并根据对准误差将混合场景模型进行分割，获得潜在的动态物体模型和静态场景模型，再将动态物体模型和静态场景模型以及深度数据分别送入动态重建流程和静态重建流程中进行处理，实现对混合场景的三维模型重建，从而实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

其次参照附图描述根据本发明实施例提出的基于模型分割的混合场景重建装置。

图5是本发明一个实施例的基于模型分割的混合场景重建装置的结构示意图。

如图5所示，该基于模型分割的混合场景重建装置10包括：采集模块100、重建模块200和更新模块300。

其中，采集模块100用于通过改进的ICP算法将深度数据与当前重建模型进行对准，获得相机的当前位姿。重建模块200用于根据相机的当前位姿得到当前深度数据与当前重建模型之间的对准误差，并且根据对准误差确定已重建模型中静态部分和动态部分，并利用模型的连续性进行模型分割，获得静态场景模型和动态物体模型。更新模块300用于通过动态重建方法对动态物体的局部运动进行跟踪并更新动态物体模型，并且通过投影法将重建后的动态物体模型投影至深度图中以对当前深度数据进行分割，获得属于静态场景的深度数据，并通过静态重建方法对属于静态场景的深度数据进行处理，以更新静态场景模型。本发明实施例的装置10可以通过跟踪相机姿态，计算深度图与重建模型的对准误差，根据对准误差分离动态物体模型和静态场景模型并进一步分别处理，从而实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

进一步地，在本发明的一个实施例中，采集模块100进一步用于通过sigmoid-ICP方法将当前深度图与当前重建模型进行对准，并排除动态物体深度数据的影响，以获得相机的当前姿态。

进一步地，在本发明的一个实施例中，重建模块200进一步用于对当前考虑进行分割的当前重建模型的表面进行采样，获得附着于模型表面按预设距离均匀分布的多个结点，其中，结点的影响覆盖以其为中心预设半径范围内的模型表面，获取每个结点预设范围内的多个结点及其边长，构建结点连接图，并根据结点连接图中结点的连接关系和边长对结点进行聚类，以将结点集分为多个结点子集，其中，每个结点子集中的结点相互临近，不同结点子集中的结点相互远离，并且获取每个结点所覆盖范围内模型表面与当前深度数据之间的平均对准误差，其中，如果平均对准误差大于预设值时，则判定具有较大的局部运动，并视为具有动态倾向，统计每类的结点子集中结点的数量和具有动态倾向的结点数量，其中，如果任一结点子集中结点数和具有动态倾向的结点数量满足预设条件，则判定为属于动态结点集，否则判定为属于静态结点集，以及通过动态结点集所覆盖的模型表面构成动态物体模型，并且通过静态结点集所覆盖的模型表面构成静态场景模型。

进一步地，在本发明的一个实施例中，更新模块300进一步用于对于动态物体，利用深度数据跟踪局部非刚性运动，并根据局部非刚性运动和相机运动对动态物体模型进行更新，并且对于静态场景，将更新的动态物体模型对当前相机进行二维投影，并且根据投影结果将当前深度数据进行分割，提取出属于静态场景的深度数据，以进行静态场景更新。

进一步地，在本发明的一个实施例中，重建模块200还用于通过point-to-plane能量函数的残差获取对准误差。

需要说明的是，前述对基于模型分割的混合场景重建方法实施例的解释说明也适用于该实施例的基于模型分割的混合场景重建装置，此处不再赘述。

根据本发明实施例提出的基于模型分割的混合场景重建装置，可以通过改进的ICP算法将当前深度数据与模型进行对准以获得相机姿态，计算模型各连通部分与深度数据的对准误差，并根据对准误差将混合场景模型进行分割，获得潜在的动态物体模型和静态场景模型，再将动态物体模型和静态场景模型以及深度数据分别送入动态重建流程和静态重建流程中进行处理，实现对混合场景的三维模型重建，从而实现动态物体和静态场景的共同重建，有效提高三维场景重建技术的鲁棒性、实用性和可靠性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于模型分割的混合场景重建方法及装置 [P] . 中国专利： CN107909643B . 2020.04.24
2. 基于模型分割的混合场景重建方法及装置 [P] . 中国专利： CN107909643A . 2018-04-13
3. Video scene division apparatus and video scene division program [P] . 日本专利： JP6557592B2 . 2019-08-07

机译：视频场景分割装置和视频场景分割程序
4. MOVING IMAGE SCENE DIVIDING DEVICE AND MOVING IMAGE SCENE DIVIDING METHOD [P] . 日本专利： JP2009246829A . 2009-10-22

机译：移动图像场景分割装置及移动图像场景分割方法
5. HOLOGRAPHIC PROJECTION DEVICE FOR THE RECONSTRUCTION OF SCENES AND A METHOD FOR THE HOLOGRAPHIC RECONSTRUCTION OF SCENES [P] . 韩国专利： KR101417972B1 . 2014-07-10

机译：场景的全息投影装置和场景的全息重建方法