首页> 中国专利> 基于样本学习和深度图像传播的2D视频立体化方法

基于样本学习和深度图像传播的2D视频立体化方法

摘要

本发明公开一种基于样本学习和深度图像传播的2D视频立体化方法,主要解决现有2D视频立体化过程中计算复杂度高、适用性差的问题。其实现步骤为:(1)输入两帧2D视频图像;(2)利用基于样本学习的方法得到第一帧视频图像各个像素位置的最佳深度值;(3)对最佳深度值进行后处理;(4)利用深度传播技术得到输入的第二帧视频图像在各个像素位置的深度值;(5)利用基于深度图像绘制技术,结合输入的视频图像和得到的各个像素位置的深度值,生成左右格式的3D视频。本发明的计算复杂度低,可得到运动前景突出、边缘清晰、结构自然的高质量深度图像,从而生成立体视觉效果良好的3D视频,可广泛应用于3D电视相关的视频处理中。

著录项

  • 公开/公告号CN103716615A

    专利类型发明专利

  • 公开/公告日2014-04-09

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN201410010043.8

  • 申请日2014-01-09

  • 分类号H04N13/00(20060101);H04N13/02(20060101);

  • 代理机构61205 陕西电子工业专利中心;

  • 代理人王品华;朱红星

  • 地址 710071 陕西省西安市太白南路2号

  • 入库时间 2024-02-19 23:10:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-17

    授权

    授权

  • 2014-05-07

    实质审查的生效 IPC(主分类):H04N13/00 申请日:20140109

    实质审查的生效

  • 2014-04-09

    公开

    公开

说明书

技术领域

本发明属于视频处理技术领域,涉及一种视频立体化方法,可用于将2D视频转换为 3D立体视频。

背景技术

随着3D电视技术的快速发展,人们可以通过3D电视收看到更加立体逼真的影视节目, 但是由于3D资源的匮乏,极大的限制了3D电视的发展。现有技术中通过使用3D立体摄像 机拍摄获得3D内容,然而该方法的成本过于昂贵,专业要求较高。因此有人提出了将现 有的2D资源转换为3D立体格式,来弥补3D资源的不足。

将2D资源转换为3D立体格式,就是对2D视频立体化,即通过从视频序列中估计深度 图像,并通过基于深度图像绘制技术生成3D立体视频的技术。目前,该技术根据是否需 要人工操作分为两大类:半自动化技术和自动化技术。半自动技术由于加入了人工操作, 得到的深度图像更加的精确,3D立体效果更好,但更加的费时费力;而自动化技术是通 过采用各种深度线索来估计深度图像,尽管各个线索都有其局限性,但已经在技术上取 得了一定突破,通过优化和硬件实现,可以实时将2D视频转换为3D立体格式,已经在3D 数字电视领域获得广泛应用。

现有的将2D资源自动转换为3D立体格式的方法,一般采用两个或者多个深度线索融 合的方式来估计深度图像。这些方法可以有效利用多深度线索的优势,提高深度图像估 计的准确性,但并不适用于任意场景。

近年来,随着机器学习理论的不断发展,基于学习的视频立体化方法被提出,可以 应用于任意图像的深度图像估计。Konrad等人提出了一种基于学习的图像立体化方法, 其方法是基于相似结构的图像具有相似的深度图像这一假设,通过特征提取和匹配,从 已有的彩色-深度图像对RGB-D的数据库中提取出与输入图像结构相似的彩色图像,然后 利用中值滤波技术融合这些彩色图像对应的深度图像。这种方法尽管计算复杂度小,但 无法保持深度图像的边界信息,从而引起3D格式的图像边界扭曲变形而失真。同时如果 直接将上述方法应用于2D视频的立体化,对每一帧图像都进行处理,需要大量的计算时 间,同时由于视频两帧之间的变化,很难保证3D图像在时间上的连续性。

发明内容

本发明的目的在于针对上述现有技术的不足,提出一种基于学习和深度传播的2D视 频立体化方法,以保持深度图像的边界信息,提高3D图像的边缘纹理清晰度,并保持 3D图像在时间上的一致性,降低计算复杂度。

实现本发明目的的技术方案是:对输入视频的一帧图像提取其方向梯度直方图特征 向量,通过特征匹配从已有的彩色-深度图像对RGB-D的数据库中检索出最相似的28幅 彩色参考图像和其对应的深度图像;利用中值滤波技术融合得到的参考图像对应的深度 图像,得到初始深度图像,并结合运动估计、最小生成树分割和联合双边滤波对初始深 度图进行后处理;对于视频的下一帧图像,通过运动补偿方法来估计其深度图像;利用 得到的深度图像和对应的视频图像,使用基于深度图像绘制技术来生成左右格式的3D图 像,其具体步骤包括如下:

(1)提取图像特征:

1a)输入一帧大小为320×240的2D视频图像I1,并提取其方向梯度直方图特征向 量

1b)从彩色-深度图像对RGB-D数据库中提取出大小为320×240的所有彩色图像 1≤i≤N,N为数据库中彩色图像的数量,并提取这些彩色图像的方向梯度直方 图特征向量

(2)从RGB-D数据库中检索相似的参考图像:

2a)分别计算输入的视频图像I1与RGB-D数据库中各个彩色图像的特征向量的 欧式距离:其中,1≤i≤N;

2b)将得到的所有距离Si按从小到大的顺序排列,取前28个值所对应的彩色图像 作为参考图像Jk,其中,1≤k≤28;

(3)利用中值滤波方法,从得到的28幅参考图像Jk对应的深度图像Dk中,确定输 入的视频图像I1中各个像素位置的最佳深度值:d1(x)=median{Dk(x)},1≤k≤28,其中 d1(x)表示输入的视频图像I1在像素位置x处的最佳深度值,median表示中值滤波运算;

(4)对输入的视频图像I1中各个像素位置的最佳深度值d1(x)进行后处理:

4a)对输入的视频图像I1与其下一帧视频图像I2,利用稠密光流估计方法计算出 视频图像I1在像素位置x的运动矢量V(x)=(ux,vx),并计算像素位置x的运动强度m(x), 其中,ux表示像素位置x处的水平方向的运动分量,vx表示像素位置 x处的垂直方向的运动分量;

4b)设置运动强度阈值T1=20,根据像素位置x的最佳深度值d1(x)和运动强度m(x)计 算该像素位置的基于运动改进的深度值d2(x):

若m(x)大于阈值T1,则d2(x)=w1×d1(x)+w2×m(x),其中,权重w1=0.6,w2=0.4,

若该处的运动强度m(x)小于阈值T1,则d2(x)=d1(x);

4c)将输入的视频图像I1分为大小为4×4的块,以各个块作为结点U,相临两个块 的灰度值的差的绝对值作为这两个块的边E,构建一个有权无向图G(U,E),将G(U,E)利 用克鲁斯卡尔方法构建最小生成树,将最小生成树中大于2.5的边E断开,得到的各个 连通的子树即为各个分割区域Rb,1≤b≤B,B为得到的分割区域的数量;

4d)计算像素位置x的基于分割改进的深度值d3(x):

d3(x)=Sbnum(Rb),xRb

其中,Sb表示分割区域Rb内的所有像素位置的深度值之和表示分割区域Rb内的像素个数;

4e)根据输入的视频图像I1和像素位置x的深度值d3(x),利用联合双边滤波方法, 计算像素位置x的基于滤波改进的深度值d4(x);

(5)根据步骤4a)中得到的运动矢量V(x)和步骤4e)得到的像素位置x的深度值 d4(x),得到下一帧视频图像I2在像素位置x的深度值:d5(x)=d4(x-V(x));

(6)利用深度图像绘制技术,生成输入视频图像I1和下一帧视频图像I2的左右格 式的3D视图:

6a)利用上述参数分别计算视频图像I1和下一帧视频图像I2在像素位置x处的左眼 视点L1(x)和L2(x):

L1(x)=I1(x+t2×d4(x)f),L2(x)=I2(x+t2×d5(x)f),

其中,f表示估计的拍摄输入视频的摄像机的焦距,f=300,t表示人的两只眼睛的 间距,t=6;

6b)根据各个像素位置的左眼视点得到左眼视图Lz,以输入的视频图像Iz为右眼视 图,得到左右格式的3D视图{Lz,Iz},z=1,2。

本发明与现有技术相比具有以下特点:

1.本发明通过从RGB-D数据库中利用样本学习得到输入视频图像各个像素位置的最 佳深度值,并利用运动强度、最小生成树分割和联合双边滤波对最佳深度值进行改进, 可以突出运动前景,并保持边缘清晰、内部平滑,进而提高3D图像的边缘纹理清晰度;

2.本发明在得到输入的一帧视频图像各个像素位置的深度值后,利用视频图像前后 两帧之间的相似性,通过运动补偿得到下一帧视频图像各个像素位置的深度值,可以减 小计算复杂度,并保持深度在时间上的一致性,进而保持3D图像在时间上的一致性;

3.本发明通过扩充或者优化RGB-D数据库来提高得到的深度值的精度,能克服传统 方法对输入视频图像兼容性不强的问题。

仿真实验结果表明,本发明结合样本学习和深度传播,能获得具有清晰边缘、内部 平滑,前景突出的深度图像,进而生成视觉效果良好的左右格式的3D视图,计算复杂度 低,是一种鲁棒性良好的视频立体化方法。

附图说明

图1是本发明的流程图;

图2是本发明中对各个像素位置的深度值后处理子流程图;

图3是本发明仿真实验中使用的两个测试视频图像;

图4是利用本发明方法得到的测试视频图像的深度图像;

图5是利用现有方法和本发明方法生成的测试视频图像的深度图像对比图。

具体实施方式

参照图1,本发明的实现步骤如下:

步骤1、提取图像特征

1a)输入两帧大小为320×240的2D视频图像I1和I2,并提取视频图像I1的方向梯 度直方图特征向量具体步骤如下:

(1a1)将视频图像I1分为大小为40×40的单元,每个单元内统计9个方向的梯度 直方图,相邻的四个单元组成一个大小为80×80块,连接一个块内四个单元的梯度直方 图得到该块的梯度直方图特征向量;

(1a2)连接所有块的梯度直方图特征向量,得到的视频图像I1的方向梯度直方图特 征向量

1b)从彩色-深度图像对RGB-D数据库中提取出大小为320×240的所有彩色图像 1≤i≤N,N为数据库中彩色图像的数量,并提取这些彩色图像的方向梯度直方 图特征向量具体步骤如下:

(1b1)将彩色图像分为大小为40×40的单元,每个单元内统计9个方向的梯度 直方图,相邻的四个单元组成一个大小为80×80块,连接一个块内四个单元的梯度直方 图得到该块的梯度直方图特征向量;

(1b2)连接所有块的梯度直方图特征向量,得到的彩色图像的方向梯度直方图 特征向量1≤i≤N,N为数据库中彩色图像的数量。

步骤2、利用特征匹配从RGB-D数据库中检索相似的参考图像

2a)分别计算输入的视频图像I1与RGB-D数据库中各个彩色图像的特征向量的 欧式距离:其中,1≤i≤N;

2b)将得到的所有距离Si按从小到大的顺序排列,取前28个值所对应的彩色图像 作为参考图像Jk,其中,1≤k≤28。

步骤3、计算像素位置x的最佳深度值d1(x)。

利用中值滤波方法,从得到的28幅参考图像Jk对应的深度图像Dk中,确定输入的 视频图像I1中像素位置x的最佳深度值d1(x):

d1(x)=median{Dk(x)},1≤k≤28,

其中,median表示中值滤波运算;

步骤4、对最佳深度值d1(x)进行后处理

参照图2,本步骤的具体实现如下:

4a)利用运动强度计算像素位置x的基于运动改进的深度值:

(4a1)对输入的视频图像I1与其下一帧视频图像I2,利用稠密光流估计方法计算出 视频图像I1在像素位置x的运动矢量V(x)=(ux,vx),并计算像素位置x的运动强度m(x), 其中,ux表示像素位置x处的水平方向的运动分量,vx表示像素位置 x处的垂直方向的运动分量;

(4a2)设置运动强度阈值T1=20,根据像素位置x的最佳深度值d1(x)和运动强度 m(x)计算该像素位置的基于运动改进的深度值d2(x):

若m(x)大于阈值T1,则d2(x)=w1×d1(x)+w2×m(x),其中,权重w1=0.6,w2=0.4;

若该处的运动强度m(x)小于阈值T1,则d2(x)=d1(x);

4b)利用最小生成树分割计算像素位置x的基于分割改进的深度值d3(x):

(4b1)将输入的视频图像I1分为大小为4×4的块,以各个块作为结点U,相临两 个块的灰度值的差的绝对值作为这两个块的边E,构建一个有权无向图G(U,E),将G(U,E) 利用克鲁斯卡尔方法构建最小生成树,将最小生成树中大于2.5的边E断开,得到的各 个连通的子树即为各个分割区域Rb,1≤b≤B,B为得到的分割区域的数量;

(4b2)计算像素位置x的基于分割改进的深度值d3(x):

d3(x)=Sbnum(Rb),xRb

其中,Sb表示分割区域Rb内的所有像素位置的深度值之和,表示分割区域Rb内的像素个数;

4c)利用联合双边滤波方法,计算像素位置x的基于滤波改进的深度值d4(x):

(4c1)根据输入的视频图像I1,以像素位置x为中心取大小为5×5的窗口Ω(x), 对Ω(x)内的像素位置xj,1≤j≤25,计算像素位置xj与像素位置x的距离权重w3(xj)和 灰度值权重w4(xj):

w3(xj)=e-0.5×|xj-x|2σ12,

w4(xj)=e-0.5×|I1(xj)-I1(x)|2σ22,

其中,σ1表示距离的标准差σ1=12,σ2表示灰度值的标准差σ2=0.05;

(4c2)将窗口Ω(x)内的所有像素位置的深度值进行加权平均,得到像素位置x的 基于滤波改进的深度值d4(x):

d4(x)=1N(x)×ΣxjΩ(x)d3(xj)×w3(xj)×w4(xj),

其中,N(x)表示滤波的归一化系数,

步骤5、利用运动补偿,计算下一帧视频图像I2在像素位置x的深度值d5(x)。

根据步骤4a1)中得到的运动矢量V(x)和步骤4c2)得到的像素位置x的深度值d4(x), 计算下一帧视频图像I2在像素位置x的深度值d5(x):

d5(x)=d4(x-V(x))。

步骤6、利用基于深度图像绘制技术,生成左右格式的3D图像。

6a)根据步骤4c2)中得到的视频图像I1在像素位置x的深度值d4(x)和步骤5)中 得到的下一帧视频图像I2在像素位置x的深度值d5(x),分别计算视频图像I1和下一帧视 频图像I2在像素位置x处的左眼视点L1(x)和L2(x):

L1(x)=I1(x+t2×d4(x)f),

L2(x)=I2(x+t2×d5(x)f),

其中,f表示估计的拍摄输入视频的摄像机的焦距,f=50,t表示人的两只眼睛的间 距,t=6;

6b)根据各个像素位置的左眼视点得到左眼视图Lz,以输入的视频图像Iz为右眼视 图,得到左右格式的3D视图{Lz,Iz},z=1,2。

本发明的效果可以通过以下仿真实验进一步说明:

1.仿真条件:

在CPU为Intel(R)CoreTM2核处理器E6550:主频2.33GHZ,内存2G,操作系统: WINDOWS7,仿真平台:Qt4。

仿真选择图3所示的两个测试视频图像,其中:

图3(a)为第一测试视频图像中的第一帧视频图像,

图3(b)为第一测试视频图像中的第二帧视频图像,

图3(c)为第二测试视频图像中的第一帧视频图像,

图3(d)为第二测试视频图像中的第二帧视频图像。

2.仿真内容:

仿真实验中,利用本发明方法与现有的Konrad’sMethod方法在测试视频图像上进行 2D视频立体化仿真。

Konrad,’sMethod参见文献:J.Konrad,M.Wang,P.Ishwar,“2D-to-3Dimage conversion  by learning depth from examples.In CVPR Workshops’12,pp.16—22,2012

仿真1,利用本发明方法分别对图3所示的第一测试视频图像和第二测试视频图像 进行仿真,得到两个测试视频图像的深度图像如图4所示,其中:

图4(a)为使用本发明方法对图3(a)生成的深度图像,

图4(b)为使用本发明方法对图3(b)生成的深度图像,

图4(c)为使用本发明方法对图3(c)生成的深度图像,

图4(d)为使用本发明方法对图3(d)生成的深度图像。

由图4(a)与图4(b)和图4(c)与图4(d)对比可见,本发明方法在得到一帧视频图像的深 度图像后,利用视频图像前后两帧之间的相似性,通过运动补偿得到下一帧视频图像的 深度图像,避免对下一帧视频图像进行重复计算,减小计算复杂度,并保持深度在时间 上的一致性,进而保持3D图像在时间上的一致性。

仿真2,利用本发明方法与现有的Konrad’s Method方法分别对图3(a)所示的第一测 试视频图像和图3(c)所示的第二测试视频图像进行仿真,得到两个测试视频图像的深度 图像如图5所示,其中:

图5(a)为使用现有的Konrad’s Method方法对图3(a)生成的深度图像,

图5(b)为使用现有的Konrad’s Method方法对图3(c)生成的深度图像,

图5(c)为用本发明方法对图3(a)生成的深度图像,

图5(d)为用本发明方法对图3(c)生成的深度图像。

由图5(a)与图5(c)和图5(b)与图5(d)的对比可见,本发明方法得到的深度图像边缘清 晰,深度效果更加自然,能有效的分离出视频图像中前景和背景的深度;而Konrad’s  Method方法得到的深度图像缺失前景和边缘信息,导致得到的深度图像存在大量冗余失 真,特别是前景物体的深度与背景的深度融为一体,导致3D视觉效果的失真。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号