首页> 中国专利> 一种从图像中恢复三维几何信息的方法

一种从图像中恢复三维几何信息的方法

摘要

本发明涉及一种从图像中恢复三维几何信息的方法。所述方法包括:获取大量场景图像及其对应的深度图作为训练库;划分所述图像为图像块,利用统计学习方法描述其对应于不同深度的概率并得到不同的参数值;对用于场景重建的图像对建立包含图像块层、像素层以及连接像素和对应图像块的边的图结构;利用统计学习所获的参数定义上述图结构的能量项;将所述能量项作为约束加入到传统立体匹配的描述像素和像素之间视差关系的图中;求解出两幅图像之间的视差图。

著录项

  • 公开/公告号CN101398933A

    专利类型发明专利

  • 公开/公告日2009-04-01

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN200810224346.4

  • 发明设计人 马祥音;李仁举;查红彬;英向华;

    申请日2008-10-17

  • 分类号G06T7/00(20060101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人张国良

  • 地址 100871 北京市海淀区颐和园路5号

  • 入库时间 2023-12-17 21:40:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-12-10

    未缴年费专利权终止 IPC(主分类):G06T7/00 授权公告日:20100915 终止日期:20131017 申请日:20081017

    专利权的终止

  • 2010-09-15

    授权

    授权

  • 2009-05-27

    实质审查的生效

    实质审查的生效

  • 2009-04-01

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉领域,具体涉及一种从图像中恢复三维几何信息的方法。

背景技术

立体匹配一直是计算机视觉和摄影测量学中的重要问题。两幅图像在很接近的视角上分别记录了真实世界的场景,双目线索就是指物体投影在两个成像平面的不同位置,位置的差异随着物体深度的变化而相应变化。在过去的数十年里,大量的立体视觉系统被提出,使得该领域的研究出现了长足的进步。但是,由于问题本身的病态性,依旧没能得到完全的解决。

在现有的立体匹配方法中,基于图的方法是当中最流行的技术。它能得到和观察数据吻合的平滑视差图。比较典型的做法是利用图割法(graph cuts)来优化由数据项和平滑项构成的能量函数,其中数据项用来度量两幅图像对应像素之间的颜色一致性,平滑项则是为了保证视差图整体的平滑,在相邻的像素点被赋予不一样的视差时给予适当的惩罚。当然,为了能够处理遮挡问题,可以在颜色一致性约束和平滑约束之外,加入匹配的唯一性约束。另外,也有工作利用主图像上的颜色分块,将能量函数同时定义在像素层和颜色块层上。这样,像素层可以很好地度量颜色一致性以及进行遮挡检测,颜色块层上则可以更为合理地定义平滑约束。

另一方面,单幅图像中丰富的纹理、色彩、焦距和雾化等信息也可以提供重要的深度推断线索。有了足够丰富的先验知识,从单幅图像中获取场景的整体三维结构是可以实现的,但这是一个很难的问题。很多的单目线索不仅依赖于先验知识,还依赖于整体的上下文信息,因此不仅难以用启发式的约束,也很难从图像的局部出发来进行推测。要让机器视觉的能力接近这个目标,我们需要大量的训练数据,以及一个恰当的概率模型来描述。相对于立体视觉,该领域的研究工作要少得多。不过随着机器学习理论的发展,已经有很好的工作相继出现。比如斯坦福大学Saxena等人的使用监督学习方法利用多尺度的马尔科夫随机场(MRF)模型建立图像特征与深度信息之间、相邻位置以及不同尺度下深度值之间的关系的方法,还有卡耐基梅隆大学Hoiem等人的方法,利用图像所能提供的诸多有用线索:材质、位置、纹理梯度,阴影,消失点等来逐步地构建该图像的结构知识:从像素到超像素再到超像素簇,最后得到每个超像素的几何分类标记。

双目线索是基于物体投影在两幅图像中的位置差异,是场景几何的直接反应而与图像本身的具体内容无关。单目线索则相反,依赖于先验知识以及图像本身局部和整体的内容和结构。可以说这两种线索对于几何信息推断有着良好的互补性。

发明内容

本发明的目的是提供一种从图像当中恢复三维几何信息的方法,通过将主图像中的单目线索加入到传统的立体视觉系统中来提供额外的深度推断约束,将基于机器学习从单幅图像推测三维信息的方法和基于两幅图像的立体匹配方法整合到同一框架中,达到恢复三维几何信息的目的。

为了达到以上发明目的,本发明提供了一种从图像中恢复三维几何信息的方法,所述方法包括以下步骤:

S1:获取大量场景图像及其对应的深度图作为训练库;

S2:划分所述图像为图像块,利用统计学习方法以下式描述其对应于不同深度的概率并得到不同的参数值:

PL(z|X;θ,λ)=1NLexp(-Σi=1M|zi-xiTθr|λ1r-Σi=1MΣjN(i)|zi-zj|λ2r)

其中,Ni是图像块i的四连通邻域,M是深度图中深度值的总数目,xi是图像块i的特征向量,包括图像块及其邻域在三个不同尺度上滤波器返回值的绝对值和以及平方和,NL是归一化常数,θ、λ为参数,θr,λ1r,λ2r为图像第r行的参数;

S3:对用于场景重建的图像对建立包含图像块层、像素层以及连接像素和对应图像块的边的图结构;

S4:利用S2中统计学习获得的参数定义上述图结构的能量项;

S5:将所述能量项作为约束加入到传统立体匹配的描述像素和像素之间视差关系的图中;

S6:求解出两幅图像之间的视差图。

其中,所述步骤S1包括:

S1-1:获取场景的三维点云以及对应的彩色图片;

S1-2:转化所述三维点云为深度图;

S1-3:采集若干组彩色图片及深度图。

其中,所述步骤S4包括:定义图结构中图像块层的能量项、定义图结构中像素层的能量项、定义连接图像块层与像素层的边的不一致项以及定义全局的能量项。

其中,利用下式定义图像块层的能量项

Epatch=Σi=1M1|B·f/d-xiTθr|λ1r+Σi=1M1ΣjN1(i)|B·f/di-B·f/dj|λ2r

其中,θr,λ1r,λ2r为S1中得到的参数,B为基线长度,f为焦距,di是图像块i的视差值,M1是左图像中图像块的总数目,N1(i)是图像块i的四邻域。

其中,利用下式定义像素层的能量项,给出两幅图像间对应像素点的颜色不一致性以及在相邻像素点在被赋予不一样的视差值时所给予的惩罚:

Epixel=ΣP=1M2dissimilarity(dp)+Σp=1M2ΣqN2(P)γ1·|dp-dq|

其中,M2是左图像中像素的总数目,N2(p)是像素p的四邻域,dp和dq分别为像素p和q的视差,γ1为非负常数;

其中,利用下式定义所述连接像素和对应图像块的边上的不一致项,使得视差标记在图像块层与像素层之间传播,所述不一致项定义为:

Emismatch=Σp=1M2Σ(p,i)γ2|dp-di|

其中,Epixel为像素层的能量项,M2是左图像中像素的总数目,N2(p)是像素p的四邻域,dp和dq分别为像素p和q的视差,γ1为非负常数。

其中,利用下式定义全局的能量函数

Etotal=ω1·Epatch2Epixel+Emismatch

其中,Etotal为全局能量项,Epatch为图像块层的能量项,Epixel为像素层的能量项,Emismatch为不一致项,ω1以及ω2分别为两个权值。

利用本发明所提供的技术方案,可以有效约束立体图像对的匹配,大量减少匹配过程中的二义性错误,比如弱纹理区域的匹配误差,克服了由于成像过程中的大量信息丢失,所造成的基于单幅图像的重建结果准确度严重偏低,只能给出场景的粗略描述的缺陷。

附图说明

图1为本发明从图像中恢复三维几何信息的方法的流程图。

图2为本发明中将单目线索和立体线索统一到一起的图的结构。

图中:1、图像块层;2、像素层;3、连接两层的边。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。

本发明的技术方案简单描述为:首先,获取训练数据。用激光扫描仪以及标定好的相机来同时获取场景的图片及其对应深度图;然后对训练库中的每一幅图像抽取特征,用联合拉普拉斯马尔科夫随机场模型来描述图像特征对应于不同深度的概率以及相邻位置深度值之间的关系,模型参数通过对训练库的学习来获得。接着建立一个双层的图结构来结合高分辨率的双目线索和低分辨率的单目线索;利用上一步训练得到的参数来定义图像块层的能量项,并把它作为约束加入到传统的立体匹配描述像素和像素之间视差关系的图当中;最后用graph-cuts优化求解出两幅图像之间的视差图。

如图1所示,本发明所提供的从图像中恢复三维几何信息的方法包括:获取大量场景图像及其对应的深度图作为训练库;划分所述图像为图像块,利用统计学习方法描述其对应于不同深度的概率并得到不同的参数值;对用于场景重建的图像对建立包含图像块层、像素层以及连接像素和对应图像块的边的图结构;利用统计学习所获的参数定义上述图结构的能量项;将所述能量项作为约束加入到传统立体匹配的描述像素和像素之间视差关系的图中;求解出两幅图像之间的视差图。

该实施例采用室外的建筑物场景,这些图片中的弱纹理区域给立体匹配带来了很大的挑战。在激光扫描仪RIEGL LMS-210顶上固定安置了事先标定好的相机,用来同时获取高精度三维点云以及对应的彩色照片。之后,点云被转化为相对于照相机坐标的深度图。本实施例共采集了150组彩色图像+深度图,其分辨率分别为1504×1000和150×100。

在实际的环境中,相邻区域的深度在很大程度上相互联系。马尔科夫随机场作为机器学习中的常用模型,在很多需要同时用到局部特征以及上下文或全局信息的问题上得到成功的应用。这里,将图像划分为棋盘格式的图像块,给定图像块特征,其对应于不同深度的概率用联合拉普拉斯马尔科夫随机场模型来描述,模型公式如下:

PL(z|X;θ,λ)=1NLexp(-Σi=1M|zi-xiTθr|λ1r-Σi=1MΣjN(i)|zi-zj|λ2r)

其中N(i)是图像块i的四连通近邻,M是深度图中深度值的总数目,Xi是图像块i的特征向量,包括图像块及其邻域在三个不同尺度上17个滤波器(9个Law掩模、6个方向边缘滤波器和2个颜色滤波器)返回值的绝对值和以及平方和。NL是归一化常数,θ、λ就是该模型的参数,图像的每一行用一组不同的参数(θr,λ1r,λ2r)。在参数训练过程中,扫描仪获取的深度图即用作为模型中z的真值。

图2中给出了本发明中用于将单目线索和立体线索统一到一起的图的结构。我们可以看到,该图由三部分组成:图像块层、像素层以及将像素连接到对应图像块的边。为了清楚起见,图中连接两层的边只是示意性地给出了其中一部分。每一组成部分能量函数的基本构成以及视差值的标记会在下面分别详细给出。

图像块层。在这一层中,视差值被描述为图像特征的函数。我们选用了三种局部图像特征,纹理变化、纹理梯度和雾化值。首先,立体图像对中的主图像被分割成均一的矩形区域,并用17个滤波器在三个图像尺度上进行滤波,得到每一小块的特征向量。然后,每个图像块作为图结点,采用4连通的栅格邻域结构连接起来。利用上一步中训练得到的马尔科夫随机场模型参数,我们可以对应于模型公式中的两个组成部分来定义数据项和平滑项。但有一点需要注意,统计学习得到的概率模型推断的是深度而在这一阶段中我们需要得到的是视差图。幸运的是,对于极线校正之后的图像对,在已知图象间基线长度B以及焦距f的情况下,深度z可以很容易地由视差d导出:

z=B·fd

因此,数据项EDpatch和平滑项ESpatch定义如下:

EDpatch=Σi=1M1|B·f/di-xiTθr|λ1r

ESpatch=Σi=1M1ΣjN1(i)|B·f/di-B·f/dj|λ2r

其中(θr,λ1r,λ2r)就是上一步训练得到的马尔科夫随机场模型的参数,di是图像块i的视差值,M1是左图像中图像块的总数目,N1(i)是图像块i的四邻域。这样,根据统计学习得到的先验知识,图像块层的能量函数给出了各个视差值标记对应于当前图像特征的合理度量。

像素层。这一层中的图结构以左图像中每个像素为结点,同样是4连通的栅格邻域结构。类似于图像块层,能量函数也同样由数据项EDpixel和平滑项ESpixel组成。在当前的标记下,它们分别给出了两幅图像间对应象素点的颜色不一致性度量以及在相邻象素点被赋予不一样的视差值时给予恰当的惩罚。

EDpixel=Σp=1M2dissimilarity(dp)

ESpixel=Σp=1M2ΣqN2(p)γ1·|dp-dq|

其中M2是左图像中象素的总数目,N2(p)是象素p的四邻域,γ1是一个非负常数,其值大小直接影响平滑约束的力度。此外,还需要注意一个额外的标记,可以记为0,表示遮挡及无限远的深度(如天空区域)。当一个象素被赋予这个特殊标记值时,我们给予的是固定的惩罚。

连接像素和对应图像块的边。在图像块层和像素层之间插入边来连接像素和它对应的图像块,这样通过在这些边上定义一个不一致项就能将视差标记从图像块层传播到像素层,反之亦然。这样能保证在图像块和它包含的像素被赋予同样或相近的视差视时能量函数值较小。这样单目线索的推断就提供了新的约束来引导立体匹配。我们将此不一致项Emismatch定义为:

Emismatch=Σp=1M2Σ(p,i)γ2|dp-di|

这里惩罚系数γ2是一个非负常数。考虑到效率,不必要将所有的像素点连接到图像块。在实验中,在行和列方向均以3为步长来连接像素点。

视差标记。到现在为止,我们已经为图中的三个组成部分都分别定义了能量函数。为了达到视差标记的整体能量最小,用各个部分的加权和作为全局的能量函数:

Etotal=ω1·(EDpixel+ESpixel)+ω2·(EDpatch+ESpatch)+Emismatch

前两项分别作用在像素层和图像块层上,最后一项作用在连接前两部分的边上。这里,ω1、ω2为两个权值,用来平衡三部分能量的作用。

要找出该能量函数的全局最优解,请参见Y.Boykov,O.Veksler,R.Zabih.“Fast approximate energy minimization via graph cuts”.IEEETrans.on Pattern Analysis and Machine Intelligence(PAMI),Vol 23,No.11,pp.1222-1239,2001.中提出了的基于graph cuts的优化策略,该策略可以有效解决计算机视觉中的标记问题。

这样,就求得了最终的视差图。可以看到,依照该方法,可以将单目线索和双目线索统一到同一个框架下,同时对最终的视差图求解起到约束作用。

以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由其权利要求限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号