首页> 中国专利> 前景区域标注与深度次序推理的联合学习方法

前景区域标注与深度次序推理的联合学习方法

摘要

本发明公开了一种前景区域标注与深度次序推理的联合学习方法,包括,分割图像,构造分割图像的图模型,建立基于多类三元组预测的联合框架,基于结构化支持向量机进行最大幅度训练,从而得出图像中各个区域的深度次序关系以及前后景标记。针对单目图像的深度估计和前景区域标记进行回顾和总结,并基于其单一推测的局限性和缺陷作出改进和优化,提出一种联合估计的框架,并且使用了Geometric Context数据集和Cornell Depth?Order数据集的部分图片验证算法的正确性和有效性。达到提升推测结果的有效性的目的。

著录项

  • 公开/公告号CN105809671A

    专利类型发明专利

  • 公开/公告日2016-07-27

    原文格式PDF

  • 申请/专利号CN201610119870.X

  • 发明设计人 马健翔;周瑜;宋桂岭;

    申请日2016-03-02

  • 分类号G06T7/00(20060101);

  • 代理机构11249 北京中恒高博知识产权代理有限公司;

  • 代理人宋敏

  • 地址 214135 江苏省无锡市新区菱湖大道97号大学科技园创新研发楼二期C楼

  • 入库时间 2023-06-19 00:13:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-16

    授权

    授权

  • 2016-08-24

    实质审查的生效 IPC(主分类):G06T7/00 申请日:20160302

    实质审查的生效

  • 2016-07-27

    公开

    公开

说明书

技术领域

本发明涉及图像处理领域,具体地,涉及一种前景区域标注与深度次序推理的联 合学习方法。

背景技术

深度估计的研究一直是计算机视觉领域中基础又重要的问题。研究者们一开始着 重于发掘图像的绝对深度次序,后来由于精确估计的困难性,并发现可以通过有效提取单 目图像的深度线索,如遮挡和几何信息等,来推测物体之间的相对深度次序,并用于处理像 显著性检测和三维场景理解等高级视觉问题。

现有技术大多使用各种从轮廓和T角点结构提取出的局部线索来计算相对深度次 序。然而,这一方法自然是有缺陷的,例如天空、地面这样的背景区域显然是在图像场景的 最后面,而从边界和角点进行深度次序推断时却没有考虑图像场景区域的前景背景的布局 特征,并且某一区域的几何信息有助于理解相邻区域间的相对深度布局。当估计区域标签 时,成对区域的相对深度次序也提高了它的区域标签推测的正确性。D.Hoiem等 (“Recoveringocclusionboundariesfromanimage”,InternationalJournalof ComputerVision,91(3):328-346,2011)的研究就得到了极大的关注。他们推测物体区域 间的相对深度次序,并计算推测这一过程的场景布局置信度,对其分析效果。实验结果表明 有了几何置信度线索的帮助,推测效果有了极大的改善。然而,一旦几何置信度被估计出 来,相对深度次序的结果非常依赖于几何置信度的准确性。

深度估计是计算机视觉领域中最有挑战性的问题之一。传统研究中大部分都聚焦 在基于多视角的图像和运动线索估计精确深度值这一方面。然而,只依靠单目图像,这一任 务很难完成。于是,研究者们使用各种从单目图像的轮廓和T角点结构提取出的局部线索来 计算相对深度次序。然而,从角点和边界估计出的深度次序由于没有考虑到图像中区域前 景背景的布局特征而具有天生的缺陷。

D.Hoiem等人的研究在传统单目线索的基础上添加了几何置信度线索,从而改善 了推测效果。然而,一旦几何置信度被估计出来,相对深度次序的结果非常依赖于几何置信 度的准确性。若几何置信度的偏差较大,则会严重影响最终的效果,使得系统缺乏较强的鲁 棒性。深度次序估计和前景区域的标记是相辅相成的,然而现有的技术方法并未考虑到这 一点,使得未能体现出它们的联系。

发明内容

本发明的目的在于,针对上述问题,提出一种前景区域标注与深度次序推理的联 合学习方法,以实现提升推测结果的有效性的优点。

为实现上述目的,本发明采用的技术方案是:

一种前景区域标注与深度次序推理的联合学习方法,包括以下步骤:

步骤1、分割图像,对图像进行物体级别的分割,即保留图像物体区域间的遮挡边 界,并提取图像中区域和边界的特征向量;

步骤2、构造分割图像的图模型,即给定分割图像X,分割图像X是由N个区域和区域间边界E={(i,j)|jN(i)^i=1,...,N}组成,将分割图像X抽象建立成一个 无向图模型,图的顶点代表区域,边表示需要被预测的深度次序,从而确定区域标签R={ri|i=1,...,N}∈{0,1}N和相对深度次序B={bij|(i,j)E}{0,1}|E|;

步骤3、建立基于多类三元组预测的联合框架,为了衡量图模型表示的图像中区域 间深度次序和几何关系的判别能力,基于步骤1提取的区域和边界的特征向量和步骤2构造 的图模型,定义一个线性判别函数F(X,B,R;w,v);

其中,w和v为相应特征的权系数向量,然后训练一个把区域标签R和相对深度次序 B联合起来的特征映射到联合标签的单一分类器,即定义一个三元组标签集T,并将线性判 别函数进行更新为F(X,T;W);

步骤4、基于结构化支持向量机进行最大幅度训练,从而估计线性判别函数F(X,T; W)中的权系数矩阵W,根据估计的权系数矩阵W得出图像中各个区域的深度次序关系以及前 后景标记。

优选的,所述步骤1中的区域的特征向量中区域的特征,包括颜色、纹理、位置和形 状,所述边界的特征向量中边界的特征,包括几何、凹凸性、位置和显著度。

优选的,步骤1中还包括,使用视觉词特征代表每一归属区域的后验概率。

优选的,步骤2中,对于区域标签R={ri|i=1,...,N}∈{0,1}N和相对深度次序 其中bij=0代表区域xi在xj前面;否则,bij=1;且当xi为 背景区域时,ri=0;否则,ri=1。

优选的,三元组标签集T={tij=(bij,ri,rj)|i,jE},

且三元组标签集的约束条件为:给定一个角点由三个 顶点xi、xj和xk组成,则对所有角点J在边界标签上都要满足如下的环形不等式: 1Σ(i,j)Jbij2,JJ;

则线性判别函数为:

F(X,T;W)=Σ(i,j)EU(tij;xi,xj,W)=Σ(i,j)E<W,φijjoint(xi,xj)>,

其中,W为权系数矩阵,U(tij;xi,xj,W)即为线性判别函数,φij表示从分割图像提取出的边界特征向量,ψij分别表示从区域i和j提取的区域特征向 量。

本发明的技术方案具有以下有益效果:

本发明技术方案针对单目图像的深度估计和前景区域标记进行回顾和总结,并基 于其单一推测的局限性和缺陷作出改进和优化,提出一种联合估计的框架,并且使用了 GeometricContext数据集和CornellDepth-Order数据集的部分图片验证算法的正确性 和有效性。

具体效果如下:

(1)提出了一种联合的深度次序推测和前景区域标记的共同学习框架,利用它们 之间的关联信息,维持物理场景中近似真实的物体区域布局,从而提升推测结果的有效性; (2)建立一个无向图模型进行图像分割表达,并将为区域和边缘分配二值标签转化成带有 约束的整数规划问题进行求解;(3)创新性地定义一个三元组变量用来描述相邻区域对以 及之间的边缘,从而将问题转化成对多类别三元组量进行预测分类的问题,并且将原来不 可解的硬约束规划问题转化成可解的软约束规划问题,从而简单有效的在全局上惩罚边界 和区域标记推测不一致的情况。(4)由于定义的判别函数是线性的,因而使用结构化支持向 量机技术进行参数学习,再用线性规划松弛化方法去求解,从而进行有效推测。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例所述的前景区域标注与深度次序推理的联合学习方法的流程 示意图;

图2为本发明实施例所述的分割图像示意图;

图3a和图3b为本发明实施例所述的无向图模型示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实 施例仅用于说明和解释本发明,并不用于限定本发明。

如图1所示,本技术方案主要从以下四个步骤进行说明:分割图像,构造图模型,建 立基于多类三元组预测的联合框架和基于结构化支持向量机的最大幅度训练。

1.分割图像:

首先,对图像进行物体级别的分割,也就是保留物体区域间的遮挡边界,并提取区 域和边界特征向量用作之后的推测。一方面,区域特征包含颜色、纹理、位置和形状特征。除 此以外,还使用视觉词特征来代表每一归属区域的后验概率。另一方面,边缘特征向量则用 来估计深度次序,包括几何、凹凸性、位置和显著度特征。

2.构造图模型:

给定分割图像X,它是由N个区域和区域之间的边界组成。将其抽象建立成一个无 向图模型G=(V,E),图的顶点代表区域,边表示需要被预测的深度次序,从而确定区域标签 R和相对深度次序B。

3.建立基于多类三元组预测的联合框架:

为了衡量图模型表示的图像中区域间深度次序和几何关系的判别能力,基于第一 步骤提取的相应特征向量和第二步骤构造的图模型,定义一个线性判别函数F(X,B,R;w, v)。

在给定的图模型中,每一个二值标签必须满足物理上的近似真实条件,即三个相 邻区域两两之间的前景/背景关系是有效的,为此对区域间标签是有效深度次序关系进行 数学化定义。另外,区域标签也必须和相对深度次序一致,从而前景区域保持在背景区域的 前面。因此,需要联合估计,即训练一个能把它们联合起来的特征映射到联合标签的单一分 类器,而不是对区域和边缘标签分别训练各自的分类器。为此,定义一个三元组标签集T,从 而把问题转化成包含8个类别的多类分类问题,并将线性判别函数进行更新为F(X,T;W)。

既然深度次序必须物理上近似真实的,对三元组变量的约束应当遵循上述定义的 有效的深度次序关系。因而,寻求最佳三元组标签的最优化问题可进行公式化,并利用线性 规划的松弛变量法进行求解,从而得出最优三元组标签T*,因而最佳相对深度次序推测B* 可由最优三元组标签T*直接确定出来。但是,区域标签R由于包含多种三元组变量组合情况 而无法直接得出,于是通过多数投票机制来确定最优区域标签R*,这一机制在经验上是有 效的。

4.基于结构化支持向量机的最大幅度训练:

这一步骤利用基于结构化支持向量机的技术进行大幅度的训练。为了估计线性判 别函数F(X,T;W)中的权系数矩阵W,参考I.Tsochantaridis等(“Largemarginmethods forstructuredandinterdependentoutputvariables”,JMLR,6:1453–1484,2005)利 用真实标签Tn和预测标签T并基于汉明损失函数求解相应的约束最优化问题。而此最优化 问题涉及到关于T维度的指数级约束。因此,使用割平面算法降低约束的数量级。从而,可定 义出关于第n个训练数据的最违反约束标签,然后把它添加到约束集中。得出约束集后,最 优化问题可由二次规划解决,从而求出最终结果。

以下结合实际应用对本发明技术方案具体说明如下:

分割图像:

首先,对图像进行物体级别的分割,也就是保留物体区域间的遮挡边界,如图2所 示,,并提取区域和边界特征向量用作之后的深度推测。一方面,区域特征是一个52维的低 层次的特征向量(D.Hoiemetal,“Recoveringsurfacelayoutfromanimage”,IJCV, 75(1):151–172,2007),包含颜色、纹理、位置和形状特征。除此以外,还使用150维的视觉词 特征(D.Batraetal,“Learningclass-

specificaffinitiesforimagelabelling”,CVPR,2008)来代表每一归属区域 的后验概率。另一方面,边缘特征向量则用来估计深度次序,包括几何(4维)、凹凸性(2维)、 位置(2维)和显著度特征(27维)。

构造图模型:

给定分割图像X,它是由N个区域和区域间边界 E={(i,j)|jN(i)^i=1,...,N}组成。将其抽象建立成一个无向图模型G=(V,E),图 的顶点代表区域,边表示需要被预测的深度次序,从而确定区域标签R={ri|i=1,...,N} ∈{0,1}N和相对深度次序如图3a和图3b所示,其中bij= 0代表区域xi在xj前面;否则,bij=1。当xi为背景区域时,ri=0;否则,ri=1。

建立基于多类三元组预测的联合框架:

为了衡量图模型表示的图像中区域间深度次序和几何关系的判别能力,定义如下 线性判别函数:

其中,w和v为相应特征的权系数向量,D(xi,xi;w)用来衡量哪一区域在前面,得出 较大的负值意味着区域xi在前面,反之较大正值意味着xj在前面。类似地,E(xi;v)若为负值 则意味xi为前景区域,正值则为背景区域。φij和分别表示从分割图像提取出的边缘特征 向量和区域特征向量。

在给定的图模型中,每一个二值标签必须满足物理上的近似真实条件。三个相邻 区域两两之间的适当前景/背景关系的可靠例子如表1所示,“0”意味着第i个分割区域在前 面,“1”意味着第j个分割区域在前面。

表1、环形深度次序的标签有效性表。

区域间标签bij的约束可据如下数学化定义:

定义1(有效的深度次序关系)给定一个角点它由三个 顶点xi、xj和xk组成,则对所有角点J在边界标签上都要满足如下的环形不等式:

1Σ(i,j)Jbij2,JJ---(2)

除了上述约束,区域标签R也必须和相对深度次序B一致,从而前景区域保持在背 景区域的前面。因此,R和B必须联合估计,即训练一个能把它们联合起来的特征映射到联合 标签的单一分类器,而不是对区域和边缘标签分别训练各自的分类器。为此,定义一个三元 组标签集既然ri和bij都是二值的,那么tij则可以 有8种不同的值,从而对于它的推测可被考虑成包含8个类别的多类分类问题。加入这一约 束后的判别函数可定义成:

F(X,T;W)=Σ(i,j)EU(tij;xi,xj,W)=Σ(i,j)E<W,φijjoint(xi,xj)>---(3)

其中,W为权系数矩阵,U(tij;xi,xj,W)即为线性判别函数,联合特征φjoint就是把 边缘特征和区域特征相连接形成,即

既然深度次序必须物理上近似真实的,对三元组变量的约束应当遵循等式(2)。因 而,寻求最佳三元组标签的最优化问题可公式化为:

T*=arg>maxTTF(X,T;W),s.t.1Σ(m,n)Jbmn(tmn)2,JJ---(4)

这里,

bmn(tmn)=0if>tmn41otherwise---(5)

利用线性规划的松弛变量法,等式(4)可通过如下方式求解:

Z*=arg>maxZΣ(i,j)EΣtij=07<W,φijjoint(xi,xj)>zijtij,s.t.Σtij=07zijtij=1,0zijtij,1Σ(m,n)J[Σtmn4zmntmn+Σtmn<4(1-zmntmn)]2,JJ,tij=0,...,7---(6)

这里,

得出的Z*即为最优三元组标签T*,并且tij和bij之间是一一对应的,因而B*可由T* 直接确定出来。但是,R由于包含多种三元组变量组合情况而无法直接得出,于是通过多数 投票机制来确定区域标签R*,这一机制在经验上是有效的。

4.基于结构化支持向量机的最大幅度训练

这一步骤利用基于结构化支持向量机的技术进行大幅度的训练。为了估计线性判 别函数F(X,T;W)中的权系数矩阵W,参考I.Tsochantaridis等的研究方法(“Largemargin methodsforstructuredandinterdependentoutputvariables”,JMLR,6:1453–1484, 2005)求解如下的约束最优化问题:

minw,ξ12||w||2+CNΣn=1Nξn,s.t.d(Xn,T;W)Δ(Tn,T)-ξn,TT\Tn,n,ξn0,n---(8)

其中,d(Xn,T;W)表示真实标签Tn和预测标签T之间的判别函数值的差,例如

d(Xn,T;W)=F(Xn,Tn;W)-F(Xn,T;W)(9)

ξn是用来允许Xn存在训练误差的松弛变量,C是用来权衡训练误差最小化和幅度最 大化的平衡系数。损失函数Δ(Tn,T)用来在给定正确标签Tn的情况下对预测标签T进行误差 衡量。这里利用的是改进的汉明损失函数(S.Kimetal,“Task-specificimage partitioning”,2012)。

公式(8)的最优化问题涉及到关于T维度的指数级约束。因此,使用割平面算法降 低约束的数量级。从而,关于第n个训练数据的最违反约束标签可由如下定义式得出:

Tn=arg>maxTT\Tn[Δ(Tn,T)-d(Xn,T;W)]---(10)

然后把它添加到约束集中。这里考虑的损失函数可在测试边缘上分解从而对进 行有效推测。得出约束集后,最优化问题可由二次规划解决,从而求出最终结果。

综上所述,本发明的有益效果具体可通过表2看出:

表2列出了是本发明方法和其余两种方法进行前景/后景推理的比较结果,结果的 数值越大表示推理的结果越准确。另外对于推理前的准备步骤,即图像分割,本发明技术方 案采用了两种不同的分割算法:“Seg-ho”为D.Hoiem等使用的图像分割算法,而“GTseg”则 表示Z.Jia等(“Alearning-basedframeworkfordepthordering”,CVPR,2012,pp:294- 301)使用的基于真实标记的分割。从表2中可以看出,本发明方法都取得了优于其它方法的 最高准确率。其中(I)D.Hoiem等提出的方法,(II)Z.Jia等提出的方法,(III)本技术方案提 出的方法。

表1基于GeometricContext和CornellDepth-Order数据集的前景/后景推理的 准确率。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明, 尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可 以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号