首页> 中国专利> 为了2D至3D转换对对象进行模型拟合和配准的系统及方法

为了2D至3D转换对对象进行模型拟合和配准的系统及方法

摘要

提供了一种系统和方法,用于对对象进行模型拟合和配准以对图像进行2D至3D转换,从而创建立体图像。本发明的系统和方法提供了以下步骤:获取至少一个二维(2D)图像(202);识别该至少一个2D图像的至少一个对象(204);从多个预定3D模型中选择至少一个3D模型(206),所选择的3D模型与识别出的至少一个对象相关;将所选3D模型与识别出的至少一个对象进行配准(208);以及通过将所选3D模型投影到与该至少一个2D图像的图像平面不同的图像平面上来创建互补图像(210)。可以使用几何途径或光度途径来实现配准过程。

著录项

  • 公开/公告号CN101536040A

    专利类型发明专利

  • 公开/公告日2009-09-16

    原文格式PDF

  • 申请/专利权人 汤姆森许可贸易公司;

    申请/专利号CN200680056333.X

  • 申请日2006-11-17

  • 分类号G06T15/20(20060101);H04N13/00(20060101);G06T7/00(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人王波波

  • 地址 法国布洛涅-比郎库尔

  • 入库时间 2023-12-17 22:40:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-22

    专利权的转移 IPC(主分类):G06T7/00 登记生效日:20190130 变更前: 变更后: 申请日:20061117

    专利申请权、专利权的转移

  • 2019-02-22

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06T7/00 变更前: 变更后: 申请日:20061117

    专利权人的姓名或者名称、地址的变更

  • 2016-11-30

    授权

    授权

  • 2010-01-27

    实质审查的生效

    实质审查的生效

  • 2009-09-16

    公开

    公开

说明书

技术领域

本发明总体上涉及计算机图形处理和显示系统,更具体地,涉及为了2D至3D转换而对对象进行模型拟合和配准的系统及方法。

背景技术

2D至3D转换是将现有二维(2D)影片转换成三维(3D)立体影片的过程。例如,当利用无源或有源3D眼镜来观看3D立体影片时,3D立体影片以观看者能感知和体验深度的方式来再现移动图像。大型电影工作室已非常关注将传统影片转换成3D立体影片。

立体成像是在视觉上将取自略微不同视点的、场景的至少两幅图像进行组合以产生三维深度错觉的过程。该项技术依赖于人眼分隔一段距离并因此并不精确地观看相同场景的事实。通过向每只眼睛提供来自不同角度的图像,使观看者的眼镜产生错觉以感知到深度。典型地,在提供了两个不同角度的地方,组成图像被称作“左”和“右”图像,也被分别称作参考图像和互补图像。然而,本领域的技术人员将认识到,可以组合多于两个视点以形成立体图像。

计算机可以使用多种技术来产生立体图像。例如,“立体影片(anaglyph)”方法使用颜色来对立体图像的左和右组分进行编码。此后,观看者佩戴一副特殊的滤光眼镜,以使每只眼睛仅感知到一幅视图。

类似地,翻页(page-flipped)立体成像是一种用于在图像的左和右视图之间快速切换显示的技术。同样,观察者佩戴一副特殊眼镜,该眼镜包含通常由液晶材料制成、与显示器上的图像同步地开和关的高速电子快门。与在立体影片的情况下一样,每只眼睛仅感知到一幅组成图像。

近来已开发了不需要特殊眼镜或头戴受话器(headgear)的其他立体成像技术。例如,透镜成像将两幅或多幅全异的图像视图分隔成薄切片,并对该切片进行隔行扫描以形成单幅图像。然后,将隔行扫描后的图像定位在重构全异视图的透镜之后,以使每只眼睛感知到不同视图。一些透镜显示器由位于在膝上型计算机上常见的传统LCD显示器上的透镜来实现。

另一立体成像技术涉及对输入图像的区域进行移位以创建互补图像。这样的技术已用在由加利福尼亚州的Westlake Village的一家名为In-Three Inc.的公司开发的手动2D至3D影片转换系统中。在2001年3月27日向Kaye发布的美国专利6,208,348中描述了2D至3D转换系统。尽管被称作3D系统,但该过程实际上是2D的,这是由于其并没有将2D图像转换回到3D场景,而是操控2D输入图像来创建右眼图像。图1示出了通过美国专利6,208,348中公开的过程而开发的工作流程,其中,图1原本作为美国专利6,208,348中的图5出现。可以将该过程描述如下:对于输入图像,首先手动画出区域2、4、6的轮廓。操作者然后对每一区域进行移位以产生立体差异,例如区域8、10、12。通过使用3D眼镜在另一显示器中观看每一区域的3D回放,可以看到每一区域的深度。操作者调整区域的移位距离,直到实现了最优深度为止。然而,通过在输入2D图像中对区域进行移位以创建互补右眼图像,可以大部分手动地实现2D至3D转换。该过程是效率非常低的并需要大量人为干预。

发明内容

本发明提供了一种系统和方法,用于对对象进行模型拟合和配准以对图像进行2D至3D转换,从而创建立体图像。所述系统包括:数据库,存储真实世界对象的多种3D模型。对于第一2D输入图像(例如,左眼图像或参考图像),通过系统操作者或自动检测算法来识别要被转换成3D的区域或画出该区域的轮廓。对于每一区域,所述系统从数据库中选择所存储的3D模型,并配准所选的3D模型,以使3D模型的投影与识别出的区域内的图像内容以最优方式相匹配。可以使用几何途径或光度途径来实现该匹配过程。在经由配准过程已针对第一2D图像计算出3D对象的3D位置和姿势之后,可以通过将3D场景投影到具有不同摄像机视角的另一成像平面上来创建第二图像(例如,右眼图像或互补图像),该3D场景包括具有变形纹理的、配准后的3D对象。

根据本发明的一个方面,提供了一种用于创建立体图像的三维(3D)转换方法。所述方法包括:获取至少一个二维(2D)图像;识别该至少一个2D图像的至少一个对象;从多个预定3D模型中选择至少一个3D模型,所选3D模型与识别出的至少一个对象相关;将所选3D模型与识别出的至少一个对象进行配准;以及通过将所选3D模型投影到与该至少一个2D图像的图像平面不同的图像平面上来创建互补图像。

在另一方面,配准包括:将所选3D模型的投影的2D轮廓与该至少一个对象的轮廓进行匹配。

在本发明的另一方面,配准包括:将所选3D模型的至少一个光度特征与该至少一个对象的至少一个光度特征进行匹配。

在本发明的另一方面,用于对对象从二维(2D)图像向三维(3D)转换的系统包括:后处理设备,被配置为从至少一个2D图像创建互补图像,所述后处理设备包括:对象检测器,被配置为识别至少一个2D图像中的至少一个对象;对象匹配器,被配置为将至少一个3D模型与识别出的至少一个对象进行配准;对象呈现器,被配置为将该至少一个3D模型投影到场景中;以及重构模块,所述重构模块被配置为从多个预定3D模型中选择该至少一个3D模型,所选的至少一个3D模型与识别出的至少一个对象相关,并且所述重构模块被配置为通过将所选的3D模型投影到与该至少一个2D图像的图像平面不同的图像平面上来创建互补图像。

在本发明的又一方面,提供了一种机器可读的程序存储设备,有形地体现了机器可执行指令的程序,以执行用于从二维(2D)图像创建立体图像的方法步骤,所述方法包括:获取至少一个二维(2D)图像;识别该至少一个2D图像的至少一个对象;从多个预定3D模型中选择至少一个3D模型,所选的3D模型与识别出的至少一个对象相关;将所选的3D模型与识别出的至少一个对象进行配准;以及通过将所选的3D模型投影到与该至少一个2D图像的图像平面不同的图像平面上来创建互补图像。

附图说明

根据可结合附图来阅读的对优选实施例的以下详细描述,对本发明的上述和其他方面、特征和优点进行描述或使其变得显而易见。

贯穿附图,类似的附图标记表示类似的元件,在附图中:

图1示出了用于从输入图像创建右眼或互补图像的现有技术;

图2是根据本发明一方面的、用于图像的二维(2D)至三维(3D)转换以创建立体图像的系统的示例性图示;

图3是根据本发明一方面的、用于将二维(2D)图像转换成三维(3D)图像以创建立体图像的示例性方法的流程图;

图4示出了根据本发明一方面的三维(3D)模型的几何配置;

图5示出了根据本发明一方面的轮廓的函数表示;以及

图6示出了根据本发明一方面的多个轮廓的匹配函数。

应当理解的是,附图的目的是示出本发明的构思,而且附图并不一定是用于示出本发明的唯一可能配置。

具体实施方式

应当理解,可以按照硬件、软件或其结合的各种形式来实现附图所示的元件。优选地,通过一台或多台适当编程的通用设备上的硬件和软件的结合,来实现这些元件,所述通用设备可以包括处理器、存储器和输入/输出接口。

本说明书说明了本发明的原理。因此,可以认识到,本领域技术人员能够设计出体现本发明的原理的配置,虽然这里没有显式地描述或示出这些配置,但这些配置被包括在本发明的精神和范围内。

这里阐述的所有示例和条件语言是为了教导的目的,以帮助读者理解本发明的原理以及发明人为了改进现有技术而贡献的构思,这些应被解释为并非将本发明局限于这样具体阐述的示例和条件。

此外,这里阐述本发明的原理、方面和实施例及其具体示例的所有表述应包括其结构和功能的等价物。此外,这样的等价物应包括当前已知的等价物以及未来开发的等价物,例如,开发出的、不论结构如何都执行相同功能的任何元件。

因此,例如,本领域技术人员应理解,这里呈现的框图表示了体现本发明原理的示意性电路的方案视图。类似地,可以认识到,任何流程图、流程图表、状态转移图、伪代码等表示了各种过程,该各种过程可以被实质上表示在计算机可读介质中,从而由计算机或处理器执行,而不论是否显式地示出了这样的计算机或处理器。

可以通过使用专用硬件以及能够与适当的软件相关联地执行软件的硬件,来提供图中所示的各种元件的功能。在处理器提供功能时,可以由单个专用处理器、单个共享处理器或多个单独的处理器(其中一些可以是共享的)来提供功能。此外,术语“处理器”或“控制器”的显式使用不应被解释为专指能够执行软件的硬件,可以隐式地包括但不限于:数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)、和非易失性存储器。

还可以包括其他硬件,不论其为传统的和/或常规的。类似地,图中所示的任何开关仅是概念性的。可以通过程序逻辑的操作、通过专用逻辑、通过程序控制与专用逻辑的交互、甚至手动地实施其功能,如从上下文中更具体地理解的,特定技术是可由实现者选择的。

在权利要求书中,表示为用于执行指定功能的装置的任何元件应包含执行该功能的任何方式,例如包括:a)执行该功能的电路元件的结合;或者b)任何形式的软件,从而包括固件、微代码等,与用于执行该软件的适当电路相结合来执行该功能。由这样的权利要求所限定的本发明在于以下事实:以权利要求所要求保护的方式,将各种所述装置所提供的功能结合并集合起来。因此,应认为可提供这些功能的任何装置都与这里所示的装置等价。

本发明处理了从2D图像创建3D几何图形的问题。该问题出现在各种电影制片应用(包括视觉效果(VXF)、2D影片至3D影片转换等)中。通过对输入图像中的所选区域进行移位,来创建互补图像(还被称作右眼图像),从而创建了3D回放的立体差异,由此实现了用于2D至3D转换的前述系统。该过程是效率非常低的,并且如果表面是弯曲的而不是平坦的,则很难将图像的区域转换成3D表面。

为了克服手动2D至3D转换的限制,本发明提供了以下技术:通过将在3D对象存储库中预存储的3D实体对象放置在3D空间中以使对象的2D投影与原始2D图像中的内容相匹配,来再创建3D场景。因此,可以通过投影具有不同摄像机视角的3D场景来创建右眼图像(或互补图像)。本发明的技术将通过避免基于区域移位的技术来显著地提高2D至3D转换的效率。

本发明的系统和方法提供了一种对图像进行2D至3D转换以创建立体图像的、基于3D的技术。然后,在进一步的过程中可以采用立体图像来创建3D立体影片。所述系统包括存储了真实世界对象的多种3D模型的数据库。对于第一2D输入图像(例如,左眼图像或参考图像),通过系统操作者或自动检测算法来识别要被转换成3D的区域或画出该区域的轮廓。对于每一区域,所述系统从数据库选择所存储的3D模型,并对所选3D模型进行配准,从而使3D模型的投影与识别出的区域内的图像内容以最优方式匹配。该匹配过程可以使用几何途径或光度途径来实现。在已经由配准过程针对输入2D图像计算出3D对象的3D位置和姿势之后,通过将3D场景投影到具有不同摄像机视角的另一成像平面上第二图像(例如,右眼图像或互补图像),该3D场景当前包括具有变形纹理的、配准后的3D对象。

现在参照附图,图2示出了根据本发明一实施例的示例性系统组件。可以提供扫描设备103,用于将影片拷贝(film print)104(例如,摄像机原始影片底片)扫描成数字格式(例如,Cineon格式或SMPTEDPX文件)。扫描设备103可以包括例如电视电影机或将从影片产生视频输出的任何设备(例如,具有视频输出的Arri LocProTM)。备选地,可以直接使用来自后期制作过程或数字电影106的文件(例如,已用计算机可读形式表示的文件)。计算机可读文件的可能的源包括但不限于AVIDTM编辑程序、DPX文件、D5磁带等。

将扫描后的影片拷贝输入至后处理设备102(例如,计算机)。计算机102可以在各种已知计算机平台的任一种上实现,该计算机平台具有:如一个或多个中央处理器(CPU)之类的硬件、如随机存取存储器(RAM)和/或只读存储器(ROM)之类的存储器110、以及如键盘、光标控制设备(例如,鼠标或操纵杆)和显示设备之类的输入/输出(I/O)用户接口112。该计算机平台还包括操作系统和微指令代码。这里所描述的各种过程和功能可以是微指令代码的一部分或是通过操作系统执行的软件应用程序的一部分(或其组合)。此外,各种其他外围设备可以通过各种接口和总线结构(例如,并行端口、串行端口或通用串行总线(USB))连接至该计算机平台。其他外围设备还可以包括附加存储设备124和打印机128。可以采用打印机128来打印影片的修订版本126,例如,影片的立体版本,其中,基于下述技术,使用3D建模对象可以改变或替换一个场景或多个场景。

备选地,已用计算机可读形式表示的文件/影片拷贝106(例如,可在外部硬驱动器124中存储的数字电影)可以被直接输入进计算机102中。注意,这里所使用的术语“影片(film)”可以指影片拷贝或数字电影。

软件程序包括:在存储器110中存储的三维(3D)转换模块114,用于将二维(2D)图像转换成三维(3D)图像以创建立体图像。3D转换模块114包括用于识别2D图像中对象或区域的对象检测器116。对象检测器116通过使用图像编辑软件手动画出包含对象的图像区域的轮廓来识别对象,或通过利用自动检测算法隔离包含对象的图像区域来识别对象。3D转换模块114还包括用于将对象的3D模型与2D对象进行匹配和配准的对象匹配器118。如下所述,对象匹配器118将与3D模型库122进行交互。3D模型库122将包括多个3D对象模型,其中每一对象模型与预定义的对象相关。例如,预定义的3D模型之一可以用于对“建筑(building)”对象或“计算机监控器”对象进行建模。预定义了每一3D模型的参数,并将该参数同3D模型一起保存在数据库122中。提供了对象呈现器120,用于将3D模型呈现到3D场景中以创建互补图像。可以通过光栅化过程或诸如光线跟踪或光子映射等更高级的技术来实现这一点。

图3是根据本发明一个方面的、用于将二维(2D)图像转换成三维(3D)图像以创建立体图像的示例性方法。首先,后处理设备102获取至少一个二维(2D)图像,例如参考或左眼图像(步骤202)。后处理设备102通过获得如上所述的计算机可读格式的数字主视频文件来获取至少一个2D图像。可以通过用数字视频摄像机捕获视频图像的时间序列来获取该数字视频文件。备选地,可以通过传统影片类型摄像机来获取该视频序列。在这种情况下,通过扫描设备103对影片进行扫描。在移动场景中的对象或移动摄像机的同时,摄像机将获取2D图像。摄像机将获取场景的多个视点。

应当理解的是,无论影片是被扫描的还是已经用数字格式表示,影片的数字文件都将包括帧位置的指示或信息,例如,帧编号、自影片开始起的时间等。数字视频文件的每一帧将包括一副图像,例如,I1、I2、……In

在步骤204中,识别2D图像中的对象。使用对象检测器116,用户可以用图像编辑工具手动选择对象,或备选地,可以使用图像检测算法(例如,分割算法)自动检测对象。应当理解的是,可以识别2D图像中的多个对象。一旦识别出对象,在步骤206,从预定义3D模型库122中选择多个预定义3D对象模型中的至少一个。应当理解的是,3D对象模型的选择可以通过系统操作者手动执行或通过选择算法自动执行。所选3D模型将以某种方式与识别出的对象相关,例如,将针对识别出的人对象来选择人的3D模型,将针对识别出的建筑对象来选择建筑的3D模型等等。

接下来,在步骤208中,将所选3D对象模型与识别出的对象进行配准。现在将描述用于配准过程的基于轮廓的途径以及光度途径。

基于轮廓的配准技术将所选3D对象的投影的2D轮廓(即,闭合轮廓(occluding contour))与2D图像中的识别出的对象的画出/检测出的轮廓进行匹配。在将3D对象投影到2D平面之后,3D对象的闭合轮廓是该对象的2D区域的边界。假设3D模型(例如,计算机监控器220)的自由参数包括以下各项:3D位置(x,y,z)、3D姿势(θ,φ)和比例s(如图4所示);3D模型的控制参数是Φ=(x,y,z,θ,φ,s),定义了该对象的3D配置。然后可以将3D模型的轮廓定义为如下向量函数:

f(t)=[x(t),y(t)],t∈[0,1]         (1)

轮廓的该函数表示如图5所示。由于闭合轮廓依赖于对象的3D配置,因此轮廓函数依赖于Φ并可以写为:

fm(t|Φ)=[xm(t|Φ),ym(t|Φ)],t∈[0,1]       (2)

其中,m表示3D模型。画出轮廓后的区域的轮廓可以表示为类似的函数:

fd(t)=[xd(t),yd(t)],t∈[0,1]       (3)

其为无参数的轮廓。然后,通过最小化关于3D配置的价值函数C(Φ)来获得最佳参数Φ,价值函数C(Φ)表示如下:

C(Φ)=01[(xm(t)-xd(t|Φ))2+(ym(t)-yd(t|Φ))]2dt---(4)

然而,计算上述最小化相当困难,这是由于从3D对象到2D区域的几何变换是复杂的,并且价值函数可能是不可微的,因此,很难得到Φ的封闭形式的解。一种便于计算的途径是使用不确定采样技术(例如,蒙特卡洛技术)来对参数空间中的参数进行随机采样,直到达到所期望的误差(例如,预定阈值)为止。

以上描述了基于匹配单个轮廓对3D配置的估计。然而,如果存在多个对象,或在识别出的对象中存在洞,则在2D投影之后可能出现多个闭合轮廓。此外,对象检测器188可能已识别出2D图像中的多个画出轮廓的区域。在这些情况下,将处理多对多轮廓匹配。假设模型轮廓(例如,3D模型的2D投影)表示为而图像轮廓(例如,2D图像中的轮廓)表示为其中,i、j是用于标识轮廓的整数索引。轮廓之间的对应关系可以表示为函数g(.),如图6所示,其将模型轮廓的索引映射到图像轮廓的索引。然后确定最佳的轮廓对应关系和最佳的3D配置,以最小化总体价值函数,计算如下:

C(Φ,g)=Σi[1,N]Ci,g(i)(Φ)---(5)

其中,Ci,g(i)(Φ)是第i个模型轮廓与其所匹配的、索引为g(i)的图像轮廓之间的、在方程(4)中定义的价值函数,其中g(.)是对应关系函数。

用于配准的补充途径是使用2D图像的所选区域的光度特征。光度特征的示例包括颜色特征、纹理特征等。对于光度配准,数据库中存储的3D模型将附有表面纹理。可以应用特征提取技术来提取提供信息的属性(包括但不限于颜色直方图或力矩特征)以描述对象的姿势或位置。然后,该特征可以用于估计3D模型的几何参数或改进在配准的几何途径中已估计出的几何参数。

假设所选3D模型的投影的图像是Im(Φ),所投影的图像是3D模型的3D姿势参数的函数。从图像Im(Φ)提取的纹理特征是Tm(Φ),并且如果所选区域内的图像是Id,则纹理特征是Td。与上述类似,对最小二乘价值函数定义如下:

C(Φ)=||Tm(Φ)-Td||2=Σi=1N(Tmi(Φ)-Tdi)2--(6)

然而,如上所述,对于上述最小化问题可能不存在封闭形式的解,因此,可以通过蒙特卡洛技术来实现最小化。

在本发明的另一实施例中,光度途径可以与基于轮廓的途径相结合。为了实现这一点,定义了线性组合两个价值函数的联合价值函数:

C(Φ)+λC′(Φ)           (7)

其中,λ是用于确定基于轮廓的方法和光度方法的贡献的加权因子。

应当理解的是,该加权因子可以应用于任一种方法。

一旦场景中识别出的所有对象都已被转换到3D空间中,就通过将包括转换后3D对象和背景片的3D场景呈现到另一成像平面中来创建互补图像(例如,右眼图像)(步骤210),该另一成像平面不同于由虚拟右摄像机确定的输入2D图像的成像平面。可以通过如标准图形卡流水线(pipeline)中的光栅化过程,或者通过诸如专业的后处理工作流程中使用的光线跟踪之类的更高级技术,来实现该呈现。通过虚拟右摄像机的位置和视角来确定新成像平面的位置。虚拟右摄像机(例如,在计算机或后处理设备中模拟的摄像机)的位置和视角的设置应得到与生成输入图像的左摄像机的成像平面平行的成像平面。在一个实施例中,可以通过对虚拟摄像机的位置和视角进行细微调整,以及通过在显示设备上观看所得到的3D回放的反馈从而得到反馈,来实现这一点。调整右摄像机的位置和视角,以便观看者能够以最舒适的方式观看到所创建的立体图像。

然后在步骤212中,将所投影的场景存储为输入图像(例如,左眼图像)的互补图像(例如,右眼图像)。该互补图像将以任何传统方式与输入图像相关联,从而互补图像和输入图像可以在稍后的时间点一起被获取。互补图像可以与输入或参考图像一同被保存在创建立体影片的数字文件130中。数字文件130可以被存储在存储设备124中以备稍后获取,从而例如打印原始影片的立体版本。

尽管这里已经详细示出并描述了合并本发明教导的实施例,但本领域技术人员可以容易地设计出仍合并这些教导的许多其他变化的实施例。已经描述了为了2D至3D转换而对对象进行模型拟合和配准的系统和方法的优选实施例(意在示出而非限制),但是要注意,本领域技术人员可以根据上述教导做出修改和变体。因此,应当理解,在由所附权利要求概括的本发明的范围和精神内,可以在所公开的本发明的具体实施例中进行改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号