首页> 中国专利> 基于一幅标准图像生成各视角下样本图像的方法

基于一幅标准图像生成各视角下样本图像的方法

摘要

本发明涉及模式识别技术领域,特别是涉及一种基于一幅标准图像生成各视角下样本图像的方法。本发明首先采用几个参数来确定摄像机在对目标进行拍摄时所处的空间三维位置,这些参数的所有取值组合能够覆盖摄像机可能在三维空间中所处的所有位置,并且每一组取值都与空间的某一个位置唯一对应;接着用对应于两个不同的摄像机空间位置的两组不同参数来表示摄像机在这两个位置下所拍摄的真实图像之间的变换关系;然后将这一变换关系作用于在第一个摄像机位置所拍摄得到的真实图像,就可以生成一幅样本图像。本发明所使用的图像变换关系使得生成的样本图像可以完全模拟从对应视角拍摄得到的真实图像,并且可以通过控制参数的取值,来生成所需的特定视角下的图像。

著录项

  • 公开/公告号CN101661625A

    专利类型发明专利

  • 公开/公告日2010-03-03

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN200910093834.0

  • 申请日2009-09-22

  • 分类号G06T11/00;G06T7/00;G06T3/00;G06K9/64;

  • 代理机构北京理工大学专利中心;

  • 代理人张利萍

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-12-17 23:35:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-07-18

    授权

    授权

  • 2010-04-28

    实质审查的生效 IPC(主分类):G06T11/00 申请日:20090922

    实质审查的生效

  • 2010-03-03

    公开

    公开

说明书

技术领域

本发明涉及模式识别技术领域,特别是涉及一种基于一幅标准图像生成各视角下样本图像的方法。

背景技术

样本图像生成是一种图像变换方法,它是模式识别、机器学习领域中的有监督学习方法的重要组成部分。样本图像生成的目的是对一幅或几幅在真实情况下对目标物体拍摄得到的标准图像(通常是从目标物体的正面拍摄的图像)进行一系列的图像变换,进而生成各种不同的样本图像,这些样本图像与摄像机在各种不同视角下针对目标物体进行拍摄所得到的真实图像具有一定的相似度,因此可以用它们来模拟这些拍摄的真实图像。有效的样本图像生成方法可以生成与真实图像相似度很高的样本图像,基于此进行的有监督学习过程可以为模式识别、机器学习提供更准确的与目标物体相关的先验知识储备,最终获得更高的物体识别成功率。例如,在空间战场中,为了实现通过卫星对地面的某一目标物体进行识别,首先需要获取大量的与该目标物体相关的图像数据,以此作为基础来形成与该目标物体相关的先验知识数据库,进而基于这一数据库来实现卫星对该目标物体的识别。然而,卫星较快的运动速度以及有限的视野造成了在一个运动周期内通常只能对目标拍摄有限的几幅甚至一幅图像,并且卫星运动的长周期性导致了需要经过非常漫长的时间才能采集到足够多的图像数据。由此延长了从准备先验知识数据库到最终实现对目标物体的成功识别的时间,失去了快速识别目标物体的先机。为了在短时间内获得关于目标物体的大量的图像数据,因此需要在仅有的一幅或几幅图像的基础上利用样本图像生成方法来生成各种视角下的关于目标物体的图像,由此仅经过几个甚至一个运动周期后便可以形成充分的先验知识数据库,实现了在短时间内完成数据储备并成功识别目标物体目的。

由于样本图像生成的重要性,人们已经开始对其展开研究,并提出了一些方法(具体样本图像生成方法参见:Lepetit,V.,Lagger,P.,Fua,P.:Randomizedtrees for real-time keypoint recognition.In:Proc.of the IEEE Conf.on ComputerVision and Pattern Recognition,Vol.2.IEEE Computer Society Washington,DC,USA(2005)775-781)。

已有的样本图像生成方法主要通过以下方式实现:

设A表示一个3×3的矩阵,并且该矩阵是以下四个参数的函数:(θ,λ1,λ2)。A的具体表示形式如下:

对于一幅大小为N×M的标准图像,利用它生成样本图像所需的图像变换可以用矩阵A来表示。在A中,θ和是两个角度变量,其取值范围是(-180°,180°);λ1和λ2是两个实数变量,取值范围通常是(0.2,1.8)。Rθ和称为旋转矩阵,用来表示在样本生成过程中对标准图像所做的各个方向上的旋转变换,S称为图像大小缩放矩阵,用来表示在样本生成过程中对标准图像所做的缩放变换。

将以上由矩阵A的一个具体值表示的图像变换作用于标准图像,便可以得到一幅新生成的样本图像。这样一幅样本图像是在对标准图像进行了某些方向上的旋转以及大小缩放之后得到的,这其中由标准图像变换到样本图像的旋转方向、旋转角度大小、缩放程度大小均由矩阵A中的四个参数(θ,λ1,λ2)的取值来决定。这四个参数的不同取值,决定了在生成样本图像过程中使用不同的旋转方向、不同的旋转角度以及不同的大小缩放程度,进而决定了将会生成不同的样本图像。

当两个旋转角度参数(θ,)的取值的绝对值较小的时候,通过以上变换方式生成的样本图像与摄像机在对应角度拍摄得到的真实图像具有较高的相似度,因此这些样本图像可以较好的模拟真实图像。但是随着这两个参数的取值的绝对值的逐渐增大,所生成的样本图像与摄像机在对应角度拍摄得到的真实图像的相似程度却大为下降,以至于无法很好的模拟真实图像。造成以上问题的主要原因是:虽然从不同视角拍摄的两幅图像之间的变换关系确实可以通过一个3×3的矩阵来表示,但是这一矩阵是一个普通矩阵,它具有一个最一般的表示形式,其中的9个元素的取值是随机的,并无一定的规律。而如公式(1)所示的矩阵A中的一些元素的取值是存在规律的,即无论四个参数(θ,λ1,λ2)的取值如何变化,矩阵A的第三行始终是(0,0,1)。这一特点导致了矩阵A与标准图像和从一定视角拍摄的另外一幅真实图像之间的变换关系不完全等价,也就使得基于这一变换所生成的样本图像无法完全模拟从对应视角拍摄得到的真实图像。

从以下角度也可以对已有方法在生成图像样本方面的缺陷:由于人眼成像和摄像机成像都符合透视投影关系,因此对于两条平行的直线,当从一个较偏的视角对其进行拍摄时,这两条直线在所拍摄得到的真实图像上的像已经不再平行,而是存在一个交点。然而,采用已有方法处理两条平行直线的标准图像时,二者在所生成的样本图像上的像仍然是平行的。以上现象也说明了已有方法所生成的图像样本无法完全模拟真实图像的缺陷。

发明内容

有鉴于此,本发明的主要目的在于为模式识别、机器学习领域中的有监督学习过程提供一种样本图像生成方法,采用此方法生成的样本图像能够完全模拟从相应视角拍摄的真实图像,可以为模式识别、机器学习提供更准确的先验知识储备,进而获得更高的物体识别成功率,由此可以解决诸如在战场中短时间内实现从目标物体先验知识储备到成功识别目标物体的问题,从而提供一种基于一幅标准图像生成各视角下样本图像的方法,这一方法克服了已有方法在生成样本图像的过程中所用的变换矩阵不能完全表示两幅图像之间变换关系的缺陷,提高了所生成的样本图像与真实图像的相似程度。

本发明的技术方案是:

通过分析在两个不同视角下所拍摄得到的两幅真实图像之间的变换与一些参数的关系,进而用这些参数来表示这两幅真实图像之间的变换关系,由此便可以通过将由这些参数表示的变换关系作用于第一幅图像的方式,来生成一幅样本图像,而这幅样本图像就可以被用来完全模拟在第二个视角下拍摄的真实图像。具体由以下几部分组成:

第一步,采用四个参数(θ,Φ,Ψ,r)来表征摄像机在对目标物体进行拍摄时所处的空间三维位置,四个参数的所有取值组合能够覆盖摄像机在三维空间中所处的所有位置,并且每一组取值都与空间的某一个位置唯一对应。

第二步,在步骤一的基础上,假设针对目标物体拍摄一幅标准图像时摄像机的空间位置(记为位置0)所对应的四个参数的一组取值为(θ0,Φ0,Ψ0,r0),则目标物体所在的空间坐标系与标准图像坐标系之间的变换关系可以由(θ0,Φ0,Ψ0,r0)来表示。同理,设摄像机在另外的某一个视角进行拍摄时的空间位置(记为位置t)所对应的四个参数的一组取值为(θt,Φt,Ψt,rt),则目标物体所在的空间坐标系与在该视角下拍摄的图像坐标系之间的变换关系可以由(θt,Φt,Ψt,rt)来表示。由于两幅图像是针对同一空间下的同一目标物体进行拍摄,因此以上两个由目标物体空间坐标系到图像坐标系的变换关系中的物体空间坐标系为同一个,因此,由标准图像坐标系到另外一幅图像的坐标系之间的变换关系就可以由(θ0,Φ0,Ψ0,r0)和(θt,Φt,Ψt,rt)两组参数值来表示。

第三步,在已知一幅标准图像和一组参数值(θ0,Φ0,Ψ0,r0)的情况下,给四个参数(θ,Φ,Ψ,r)赋予不同于(θ0,Φ0,Ψ0,r0)的另外的一组值,例如(θt,Φt,Ψt,rt),则根据第二步就可以由(θ0,Φ0,Ψ0,r0)和(θt,Φt,Ψt,rt)计算出一个由标准图像到另外一幅图像的变换关系。将这一变换关系作用到标准图像上之后,可以生成一幅样本图像。该样本图像就可以被用来完全模拟摄像机在位置t时对目标物体所拍摄得到的真实图像。

第四步,给四个参数(θ,Φ,Ψ,r)赋予任意组不同的值,记为(θi,Φi,Ψi,ri),可以得到各种由(θ0,Φ0,Ψ0,r0)和(θi,Φi,Ψi,ri)表示的由标准图像到多个样本图像的变换关系,将这些变换作用到标准图像上,就可以生成各种不同的样本图像,这些样本图像可以被用来模拟摄像机在与不同的参数值(θi,Φi,Ψi,ri)所对应的各个空间位置拍摄的真实图像。

本发明的基于一幅标准图像生成各视角下样本图像的方法具有以下优点:

(1)在本发明的技术方案中,由于是首先通过反向推导的方法即分析两幅从不同视角拍摄得到的真实图像之间的变换关系以及如何利用参数来表示这一变换关系,并将这一变换关系应用到标准图像来生成样本图像,因此采用本发明所述方法生成的样本图像与标准图像的相似程度远高于采用已有方法生成的样本图像与标准图像的相似程度,具体对比结果可以参见附图6、附图7和附图8的对比结果以及附图9中的对比结果。因此,可以为模式识别、机器学习提供更准确的先验知识储备,进而获得更高的物体识别成功率。

(2)如技术方案中的第一步所述,四个参数的所有取值能够覆盖摄像机可能在三维空间中所处的所有位置,并且每一组取值都与空间的某一个位置唯一对应,即每一组值对应一幅从特定视角拍摄的图像。因此,生成某种视角下的样本图像是可控的,即可以通过控制四个参数(θ,Φ,Ψ,r)的取值来生成所需的特定视角下的图像。例如,根据要求生成从左侧某一角度下观察目标时候的图像,或者从某一特定距离下观察目标时候的图像。

附图说明

图1为本发明中的三维空间坐标系、摄像机在这一坐标系下的位置以及用来表示这一位置的四个参数(θ,Φ,Ψ,r)之间的关系示意图。

图2为本发明中摄像机在两个不同的空间位置对目标进行拍摄时摄像机坐标系、世界坐标系之间的空间位置关系示意图。

图3-a为一幅从物体正面拍摄的真实图像,即标准图像。图3-b为针对同一物体在另外一个视角下拍摄的真实图像。

图4为基于图3-a这幅标准图像并采用已有的方法所生成的样本图像。

图5为基于图3-a这幅标准图像并采用本发明所述的方法所生成的样本图像。

图6-a为采用两对直线(直线L1和L2,直线L3和L4)标识出标准图像中的矩形“福字画”的两对平行边的示意图。图6-b为采用两对直线(直线L1和L2,直线L3和L4)标识出图3-b所示图像中的矩形“福字画”的两对边的示意图。

图7为采用两对直线(直线L1和L2,直线L3和L4)标识出如图4所示图像中的矩形“福字画”的两对边的示意图。

图8为采用两对直线(直线L1和L2,直线L3和L4)标识出如图5所示图像中的矩形“福字画”的两对边的示意图。

图9-a为采用SIFT特征点的匹配数量来衡量通过已有方法所生成的样本图像与从相应视角拍摄的真实图像的相似程度的示意图。图9-b为采用SIFT特征点的匹配数量来衡量通过本发明所述方法所生成的样本图像与从相应视角拍摄的真实图像的相似程度的示意图。

具体实施方式

下面结合附图和实施例对本发明做详细说明。

这里以一个平面物体作为目标物体进行优选方案的实施。并作以下假设:物体平面与世界坐标系的XOY平面重合,并且为了确保在生成样本图像时原标准图像的最大部分可以被包括进视野中,目标物体平面的中心与视野的中心重合。

下面参照附图对本发明作进一步详细的说明。

图1为本发明中的三维空间坐标系、摄像机在这一坐标系下的位置以及用来表示这一位置的四个参数(θ,Φ,Ψ,r)之间的关系示意图。图中各符号具体含义如下:

Ow为世界坐标系的原点。

Xw,Yw和Zw分别是世界坐标系的三个坐标轴。

A点表示摄像机在对目标进行拍摄时所处的某一空间位置。

Zct为摄像机坐标系的Z轴(即摄像机的光轴)。

θ,Φ,Ψ,r是如本发明技术方案中所述的用来确定摄像机在三维空间中位置的四个参数,其中:

θ为包含Zw轴和Zct轴的平面与ZwOwXw平面的夹角;

Φ为Zct轴与XwOwYw平面的夹角;

Ψ为摄像机绕Zct轴做旋转运动时的角度;

r为A点与Ow点之间的距离。

如图1所示,四个参数(θ,Φ,Ψ,r)的不同取值决定了摄像机在空间中的不同位置,且取值与空间位置一一对应。

图2为本发明中摄像机在两个不同的空间位置对目标进行拍摄时摄像机坐标系、世界坐标系之间的空间位置关系示意图。图中各符号具体含义如下:

Mc0表示在拍摄标准图像时的摄像机坐标系。

0c0,Xc0,Yc0和Zc0分别是Mc0坐标系的原点和三个坐标轴。

Mct表示在另外的某一个视角进行拍摄时的摄像机坐标系。

0ct,Xct,Yct和Zct分别是Mct坐标系的原点和三个坐标轴。

Mw表示世界坐标系。

0w,Xw,Yw和Zw分别是Mw坐标系的原点和三个坐标轴。

右上角带有一个圆点的方框表示的是在拍摄时的图像平面。

H表示标准图像与另外一幅图像之间的变换关系矩阵。

U表示目标物体的平面,且该平面与Xw0wYw平面重合。

假设对应于目标物体上的一个三维点坐标(记为P),它在标准图像上所成的像点坐标为p0,设矩阵K是表示摄像机自身内部参数(包括焦距,成像的CCD参数等)的矩阵,K矩阵的取值固定,不随摄像机的空间位置改变而变化。矩阵R0,T0表示拍摄标准图像时摄像机坐标系Mc0与世界坐标系Mw之间的变换关系,λ0为一个实数,表示比例关系,根据投影几何关系,有如下式子成立:

λ0p0=K[R0 T0]P    (2)

同理,设三维点P在另外一幅图像上的像点坐标为pt,矩阵Rt,Tt表示拍摄第二幅图像时摄像机坐标系Mct与世界坐标系Mw之间的变换关系,λt为一个实数,表示比例关系,根据投影几何关系,有如下式子成立:

λtpt=K[Rt Tt]P    (3)

则合并公式(2)和(3),即可得出标准图像上的像点p0和另外一幅图像上的像点pt之间的变换关系,表示如下:

其中,(K[R0 T0])-1表示对括号中的矩阵取逆运算。

公式(4)表示的是当摄像机从标准位置和另外一个视角对同一个目标物体进行拍摄时,目标上的一个三维点在标准图像上的像点与它在另外一幅图像上的像点之间的变换关系,把公式(4)表示的关系从一个像点推广到整幅图像,就可以得到从标准图像变换到另外一幅图像的变换关系。

下面将推导如何用四参数(θ,Φ,Ψ,r)来表示公式(4)中的R,T矩阵。

如图(1)所示,A点在世界坐标系下的坐标可以用四参数(θ,Φ,Ψ,r)来表示如下:

A=(rcosφcosθ,rcosφsinθ,rsinφ)T    (5)

其中,Φ∈(0,90°),θ,ψ∈(0,360°),r>0。

设摄像机坐标系Mct的三个坐标轴Xct,Yct和Zct的单位向量分别表示为和世界坐标系Mw的三个坐标轴Xw,Yw和Zw的单位向量分别表示为和则有:

kct=OwA|OwA|=OwAr---(6)

jct=AB|AB|,AB=(-rcosφcosθ,-rcosφsinθ,rsinφ-rsinφ)T---(7)

ict=jct×kct---(8)

其中,B点是由A点向Zw轴作垂线时,该垂线与Zw轴的交点,且B点坐标为:

B=(0,0,rsinφ)T---(9)

由此,根据两坐标系之间的变换与二者的各坐标轴单位向量之间的关系并结合公式(6)-(8),可以将摄像机坐标系Mct与世界坐标系Mw之间的变换关系表示如下:

Rt=Rψi0·icti0·jcti0·kctj0·ictj0·jctj0·kctk0·ictk0·jctk0·kct---(10)

Tt=(0  0  -r)T

其中,“·”表示点积,RΨ是一个3×3的矩阵,是用来表示摄像机绕摄像机坐标系的Z轴进行旋转的旋转矩阵,并且具有以下形式:

Rψ=cosψsinψ0-sinψcosψ0001---(11)

由此,结合公式(4)-(10),即可以得到用四个参数(θ,Φ,Ψ,r)来表示的从标准图像到另外一幅图像的变换关系:

λt0pt=Hp0    (12)

其中,λt0=λt0,如图2中所示,H为两幅图像之间的变换关系矩阵,且有:

H=K[Rt Tt]·(K[R0 T0])-1    (13)

其中,

RtTt=Rψti0·icti0·jcti0·kctj0·ictj0·jctj0·kctk0·ictk0·jctk0·kct00-rt---(14)

R0T0=Rψ0i0·ic0i0·jc0i0·kc0j0·ic0j0·jc0j0·kc0k0·ic0k0·jc0k0·kc000-r0---(15)

且和分别是在拍摄标准图像时对应的摄像机坐标系Mc0的三个坐标轴Xc0,Yc0和Zc0的单位向量,这三个单位向量可以通过参数值(Φ0=90°,θ0=0°,Ψ0=0°,r=r0)来唯一表示;r0表示的是拍摄标准图像时摄像机距离目标物体平面的距离,该距离需要预先进行测量并记录。根据图1所示,对应于拍摄标准图像时摄像机的空间位置的四个参数的值分别为Φ=Φ0=90°,θ=θ0=0°,Ψ=Ψ0=0°,r=r0

对四个参数(θ,Φ,Ψ,r)赋予不同的数值,则对应于摄像机从不同的空间位置对目标物体进行拍摄,则公式(12)中的矩阵H的取值就会不同,将这些不同的变换矩阵H作用于标准图像后可以生成各种不同的样本图像,所生成的这些样本图像就可以被用来完全模拟在相应的视角下拍摄的真实图像。

下面,以图3-a所示的图像作为标准图像来实施本发明所述的样本图像生成方法,并对其与已有方法生成的样本图像的对比结果进行说明。

对四个参数(θ,Φ,Ψ,r)赋予一组数值,并根据公式(13)计算出相应的变换矩阵H,将变换矩阵H作用于图3-a所示的标准图像,可以生成一幅如图5所示的样本图像。

图3-b为针对与图3-a中的同一物体在另外一个视角下拍摄的真实图像。为了说明所生成的样本图像与图3-b所示的真实图像具有更高的相似程度,下面分别采用两种方法进行说明。

方法一:图6-a为采用两对直线(直线L1和L2,直线L3和L4)标识出标准图像中的矩形“福字画”的两对平行边的示意图,如图6-a所示,直线L1与L2平行,直线L3与L4平行。图6-b为采用两对直线(直线L1和L2,直线L3和L4)标识出图3-b所示图像中的矩形“福字画”的两对边的示意图,由于图3-b是从另外一个角度对物体进行拍摄并且符合透视投影原理,因此如图6-b所示,直线L1与L2不平行,直线L3与L4不平行。

图7为采用两对直线(直线L1和L2,直线L3和L4)标识出如图4所示的采用已有方法生成的样本图像中的矩形“福字画”的两对边的示意图。如图7所示,直线L1与L2平行,直线L3与L4平行。由此说明采用已有方法所生成的样本图像不符合透视投影原理。

图8为采用两对直线(直线L1和L2,直线L3和L4)标识出如图5所示的采用本发明所述方法生成的样本图像中的矩形“福字画”的两对边的示意图。如图8所示,直线L1与L2不平行,直线L3与L4不平行,这一现象与图6-b中真实图像中的现象一致。由此说明采用本发明所述方法所生成的样本图像符合透视投影原理的性质,与图6-b所示的从一定视角拍摄的真实图像具有很高的相似度。

方法二:SIFT特征点提取方法可以从图像中提取出最能够表征图像信息的有代表性的像素点,在两幅图像中提取出SIFT特征点,并把同时出现在两幅图像中的同一个特征点用红色线相连接,连接正确的红色线越多说明了两幅图像的相似程度越高。如图9-a所示,连接正确的红色线的数量为32条,即上下两幅图像中相同的SIFT特征点有32个;如图9-b所示,连接正确的红色线的数量为268条,即上下两幅图像中相同的SIFT特征点有268个,达到了图9-a中相应数量的8倍多。以上对比结果说明采用本发明所述方法生成的样本图像与标准图像的相似程度远高于采用已有方法生成的样本图像与标准图像的相似程度。

以上对本发明所提供的基于一幅标准图像生成各视角下样本图像的方法进行了详细介绍,文中对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号