首页> 中国专利> 基于样本学习和深度图像传播的2D视频立体化方法

基于样本学习和深度图像传播的2D视频立体化方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开一种基于样本学习和深度图像传播的2D视频立体化方法，主要解决现有2D视频立体化过程中计算复杂度高、适用性差的问题。其实现步骤为：（1）输入两帧2D视频图像；（2）利用基于样本学习的方法得到第一帧视频图像各个像素位置的最佳深度值；（3）对最佳深度值进行后处理；（4）利用深度传播技术得到输入的第二帧视频图像在各个像素位置的深度值；（5）利用基于深度图像绘制技术，结合输入的视频图像和得到的各个像素位置的深度值，生成左右格式的3D视频。本发明的计算复杂度低，可得到运动前景突出、边缘清晰、结构自然的高质量深度图像，从而生成立体视觉效果良好的3D视频，可广泛应用于3D电视相关的视频处理中。

著录项

公开/公告号CN103716615A

专利类型发明专利
公开/公告日2014-04-09

原文格式PDF
申请/专利权人西安电子科技大学;
展开▼

申请/专利号CN201410010043.8
发明设计人郑喆坤;焦李成;王磊;马晶晶;马文萍;侯彪;
展开▼

申请日2014-01-09
分类号H04N13/00(20060101);H04N13/02(20060101);
代理机构61205 陕西电子工业专利中心;
代理人王品华;朱红星
地址 710071 陕西省西安市太白南路2号
入库时间 2024-02-19 23:10:49

法律信息

法律状态公告日

法律状态信息

法律状态
2015-06-17

授权

授权
2014-05-07

实质审查的生效 IPC(主分类):H04N13/00 申请日:20140109

实质审查的生效
2014-04-09

公开

公开

说明书

技术领域

本发明属于视频处理技术领域，涉及一种视频立体化方法，可用于将2D视频转换为 3D立体视频。

背景技术

随着3D电视技术的快速发展，人们可以通过3D电视收看到更加立体逼真的影视节目，但是由于3D资源的匮乏，极大的限制了3D电视的发展。现有技术中通过使用3D立体摄像机拍摄获得3D内容，然而该方法的成本过于昂贵，专业要求较高。因此有人提出了将现有的2D资源转换为3D立体格式，来弥补3D资源的不足。

将2D资源转换为3D立体格式，就是对2D视频立体化，即通过从视频序列中估计深度图像，并通过基于深度图像绘制技术生成3D立体视频的技术。目前，该技术根据是否需要人工操作分为两大类：半自动化技术和自动化技术。半自动技术由于加入了人工操作，得到的深度图像更加的精确，3D立体效果更好，但更加的费时费力；而自动化技术是通过采用各种深度线索来估计深度图像，尽管各个线索都有其局限性，但已经在技术上取得了一定突破，通过优化和硬件实现，可以实时将2D视频转换为3D立体格式，已经在3D 数字电视领域获得广泛应用。

现有的将2D资源自动转换为3D立体格式的方法，一般采用两个或者多个深度线索融合的方式来估计深度图像。这些方法可以有效利用多深度线索的优势，提高深度图像估计的准确性，但并不适用于任意场景。

近年来，随着机器学习理论的不断发展，基于学习的视频立体化方法被提出，可以应用于任意图像的深度图像估计。Konrad等人提出了一种基于学习的图像立体化方法，其方法是基于相似结构的图像具有相似的深度图像这一假设，通过特征提取和匹配，从已有的彩色-深度图像对RGB-D的数据库中提取出与输入图像结构相似的彩色图像，然后利用中值滤波技术融合这些彩色图像对应的深度图像。这种方法尽管计算复杂度小，但无法保持深度图像的边界信息，从而引起3D格式的图像边界扭曲变形而失真。同时如果直接将上述方法应用于2D视频的立体化，对每一帧图像都进行处理，需要大量的计算时间，同时由于视频两帧之间的变化，很难保证3D图像在时间上的连续性。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于学习和深度传播的2D视频立体化方法，以保持深度图像的边界信息，提高3D图像的边缘纹理清晰度，并保持 3D图像在时间上的一致性，降低计算复杂度。

实现本发明目的的技术方案是：对输入视频的一帧图像提取其方向梯度直方图特征向量，通过特征匹配从已有的彩色-深度图像对RGB-D的数据库中检索出最相似的28幅彩色参考图像和其对应的深度图像；利用中值滤波技术融合得到的参考图像对应的深度图像，得到初始深度图像，并结合运动估计、最小生成树分割和联合双边滤波对初始深度图进行后处理；对于视频的下一帧图像，通过运动补偿方法来估计其深度图像；利用得到的深度图像和对应的视频图像，使用基于深度图像绘制技术来生成左右格式的3D图像，其具体步骤包括如下：

（1）提取图像特征：

1a)输入一帧大小为320×240的2D视频图像I₁，并提取其方向梯度直方图特征向量

1b)从彩色-深度图像对RGB-D数据库中提取出大小为320×240的所有彩色图像 1≤i≤N，N为数据库中彩色图像的数量，并提取这些彩色图像的方向梯度直方图特征向量

（2）从RGB-D数据库中检索相似的参考图像：

2a)分别计算输入的视频图像I₁与RGB-D数据库中各个彩色图像的特征向量的欧式距离：其中，1≤i≤N；

2b)将得到的所有距离S_i按从小到大的顺序排列，取前28个值所对应的彩色图像作为参考图像J_k，其中，1≤k≤28；

（3）利用中值滤波方法，从得到的28幅参考图像J_k对应的深度图像D_k中，确定输入的视频图像I₁中各个像素位置的最佳深度值：d₁(x)＝median{D_k(x)}，1≤k≤28，其中 d₁(x)表示输入的视频图像I₁在像素位置x处的最佳深度值，median表示中值滤波运算；

（4）对输入的视频图像I₁中各个像素位置的最佳深度值d₁(x)进行后处理：

4a）对输入的视频图像I₁与其下一帧视频图像I₂，利用稠密光流估计方法计算出视频图像I₁在像素位置x的运动矢量V(x)＝(u_x,v_x)，并计算像素位置x的运动强度m(x)，其中，u_x表示像素位置x处的水平方向的运动分量，v_x表示像素位置 x处的垂直方向的运动分量；

4b）设置运动强度阈值T1=20，根据像素位置x的最佳深度值d₁(x)和运动强度m(x)计算该像素位置的基于运动改进的深度值d₂(x)：

若m(x)大于阈值T₁，则d₂(x)＝w₁×d₁(x)+w₂×m(x)，其中，权重w₁＝0.6，w₂＝0.4，

若该处的运动强度m(x)小于阈值T₁，则d₂(x)=d₁(x)；

4c）将输入的视频图像I₁分为大小为4×4的块，以各个块作为结点U，相临两个块的灰度值的差的绝对值作为这两个块的边E，构建一个有权无向图G(U,E)，将G(U,E)利用克鲁斯卡尔方法构建最小生成树，将最小生成树中大于2.5的边E断开，得到的各个连通的子树即为各个分割区域R_b，1≤b≤B，B为得到的分割区域的数量；

4d）计算像素位置x的基于分割改进的深度值d₃(x)：

$d_{3} (x) = \frac{S_{b}}{num (R_{b})}, x \in R_{b}$

其中，S_b表示分割区域R_b内的所有像素位置的深度值之和表示分割区域R_b内的像素个数；

4e）根据输入的视频图像I₁和像素位置x的深度值d₃(x)，利用联合双边滤波方法，计算像素位置x的基于滤波改进的深度值d₄(x)；

（5）根据步骤4a）中得到的运动矢量V(x)和步骤4e）得到的像素位置x的深度值 d₄(x)，得到下一帧视频图像I₂在像素位置x的深度值：d₅(x)＝d₄(x-V(x))；

（6）利用深度图像绘制技术，生成输入视频图像I₁和下一帧视频图像I₂的左右格式的3D视图：

6a）利用上述参数分别计算视频图像I₁和下一帧视频图像I₂在像素位置x处的左眼视点L₁(x)和L₂(x)：

$(\begin{matrix} L_{1} (x) = I_{1} (x + \frac{t}{2} \times \frac{d_{4} (x)}{f}), & L_{2} (x) = I_{2} (x + \frac{t}{2} \times \frac{d_{5} (x)}{f}), \end{matrix})$

其中，f表示估计的拍摄输入视频的摄像机的焦距，f=300，t表示人的两只眼睛的间距，t=6；

6b）根据各个像素位置的左眼视点得到左眼视图L_z，以输入的视频图像I_z为右眼视图，得到左右格式的3D视图{L_z,I_z}，z＝1,2。

本发明与现有技术相比具有以下特点：

1.本发明通过从RGB-D数据库中利用样本学习得到输入视频图像各个像素位置的最佳深度值，并利用运动强度、最小生成树分割和联合双边滤波对最佳深度值进行改进，可以突出运动前景，并保持边缘清晰、内部平滑，进而提高3D图像的边缘纹理清晰度；

2.本发明在得到输入的一帧视频图像各个像素位置的深度值后，利用视频图像前后两帧之间的相似性，通过运动补偿得到下一帧视频图像各个像素位置的深度值，可以减小计算复杂度，并保持深度在时间上的一致性，进而保持3D图像在时间上的一致性；

3.本发明通过扩充或者优化RGB-D数据库来提高得到的深度值的精度，能克服传统方法对输入视频图像兼容性不强的问题。

仿真实验结果表明，本发明结合样本学习和深度传播，能获得具有清晰边缘、内部平滑，前景突出的深度图像，进而生成视觉效果良好的左右格式的3D视图，计算复杂度低，是一种鲁棒性良好的视频立体化方法。

附图说明

图1是本发明的流程图；

图2是本发明中对各个像素位置的深度值后处理子流程图；

图3是本发明仿真实验中使用的两个测试视频图像；

图4是利用本发明方法得到的测试视频图像的深度图像；

图5是利用现有方法和本发明方法生成的测试视频图像的深度图像对比图。

具体实施方式

参照图1，本发明的实现步骤如下：

步骤1、提取图像特征

1a)输入两帧大小为320×240的2D视频图像I₁和I₂，并提取视频图像I₁的方向梯度直方图特征向量具体步骤如下：

（1a1）将视频图像I₁分为大小为40×40的单元，每个单元内统计9个方向的梯度直方图，相邻的四个单元组成一个大小为80×80块，连接一个块内四个单元的梯度直方图得到该块的梯度直方图特征向量；

（1a2）连接所有块的梯度直方图特征向量，得到的视频图像I₁的方向梯度直方图特征向量

1b)从彩色-深度图像对RGB-D数据库中提取出大小为320×240的所有彩色图像 1≤i≤N，N为数据库中彩色图像的数量，并提取这些彩色图像的方向梯度直方图特征向量具体步骤如下：

（1b1）将彩色图像分为大小为40×40的单元，每个单元内统计9个方向的梯度直方图，相邻的四个单元组成一个大小为80×80块，连接一个块内四个单元的梯度直方图得到该块的梯度直方图特征向量；

（1b2）连接所有块的梯度直方图特征向量，得到的彩色图像的方向梯度直方图特征向量1≤i≤N，N为数据库中彩色图像的数量。

步骤2、利用特征匹配从RGB-D数据库中检索相似的参考图像

2a)分别计算输入的视频图像I₁与RGB-D数据库中各个彩色图像的特征向量的欧式距离：其中，1≤i≤N；

2b)将得到的所有距离S_i按从小到大的顺序排列，取前28个值所对应的彩色图像作为参考图像J_k，其中，1≤k≤28。

步骤3、计算像素位置x的最佳深度值d₁(x)。

利用中值滤波方法，从得到的28幅参考图像J_k对应的深度图像D_k中，确定输入的视频图像I₁中像素位置x的最佳深度值d₁(x)：

d₁(x)=median{D_k(x)}，1≤k≤28，

其中，median表示中值滤波运算；

步骤4、对最佳深度值d₁(x)进行后处理

参照图2，本步骤的具体实现如下：

4a）利用运动强度计算像素位置x的基于运动改进的深度值：

（4a1）对输入的视频图像I₁与其下一帧视频图像I₂，利用稠密光流估计方法计算出视频图像I₁在像素位置x的运动矢量V(x)＝(u_x,v_x)，并计算像素位置x的运动强度m(x)，其中，u_x表示像素位置x处的水平方向的运动分量，v_x表示像素位置 x处的垂直方向的运动分量；

（4a2）设置运动强度阈值T₁=20，根据像素位置x的最佳深度值d₁(x)和运动强度 m(x)计算该像素位置的基于运动改进的深度值d₂(x)：

若m(x)大于阈值T₁，则d₂(x)＝w₁×d₁(x)+w₂×m(x)，其中，权重w₁＝0.6，w₂＝0.4；

若该处的运动强度m(x)小于阈值T₁，则d₂(x)=d₁(x)；

4b）利用最小生成树分割计算像素位置x的基于分割改进的深度值d₃(x)：

（4b1）将输入的视频图像I₁分为大小为4×4的块，以各个块作为结点U，相临两个块的灰度值的差的绝对值作为这两个块的边E，构建一个有权无向图G(U,E)，将G(U,E) 利用克鲁斯卡尔方法构建最小生成树，将最小生成树中大于2.5的边E断开，得到的各个连通的子树即为各个分割区域R_b，1≤b≤B，B为得到的分割区域的数量；

（4b2）计算像素位置x的基于分割改进的深度值d₃(x)：

$d_{3} (x) = \frac{S_{b}}{num (R_{b})}, x \in R_{b}$

其中，S_b表示分割区域R_b内的所有像素位置的深度值之和，表示分割区域R_b内的像素个数；

4c）利用联合双边滤波方法，计算像素位置x的基于滤波改进的深度值d₄(x)：

（4c1）根据输入的视频图像I₁，以像素位置x为中心取大小为5×5的窗口Ω(x)，对Ω(x)内的像素位置x_j，1≤j≤25，计算像素位置x_j与像素位置x的距离权重w₃(x_j)和灰度值权重w₄(x_j)：

$w_{3} (x_{j}) = e^{- 0.5 \times \frac{{| x_{j} - x |}^{2}}{{σ_{1}}^{2}}},$

$w_{4} (x_{j}) = e^{- 0.5 \times \frac{{| I_{1} (x_{j}) - I_{1} (x) |}^{2}}{{σ_{2}}^{2}}},$

其中，σ₁表示距离的标准差σ₁＝12，σ₂表示灰度值的标准差σ₂＝0.05；

（4c2）将窗口Ω(x)内的所有像素位置的深度值进行加权平均，得到像素位置x的基于滤波改进的深度值d₄(x)：

$d_{4} (x) = \frac{1}{N (x)} \times \underset{x_{j} \in Ω (x)}{Σ} d_{3} (x_{j}) \times w_{3} (x_{j}) \times w_{4} (x_{j}),$

其中，N(x)表示滤波的归一化系数，

步骤5、利用运动补偿，计算下一帧视频图像I₂在像素位置x的深度值d₅(x)。

根据步骤4a1）中得到的运动矢量V(x)和步骤4c2）得到的像素位置x的深度值d₄(x)，计算下一帧视频图像I₂在像素位置x的深度值d₅(x)：

d₅(x)=d₄(x-V(x))。

步骤6、利用基于深度图像绘制技术，生成左右格式的3D图像。

6a）根据步骤4c2）中得到的视频图像I₁在像素位置x的深度值d₄(x)和步骤5）中得到的下一帧视频图像I₂在像素位置x的深度值d₅(x)，分别计算视频图像I₁和下一帧视频图像I₂在像素位置x处的左眼视点L₁(x)和L₂(x)：

$L_{1} (x) = I_{1} (x + \frac{t}{2} \times \frac{d_{4} (x)}{f}),$

$L_{2} (x) = I_{2} (x + \frac{t}{2} \times \frac{d_{5} (x)}{f}),$

其中，f表示估计的拍摄输入视频的摄像机的焦距，f=50，t表示人的两只眼睛的间距，t=6；

6b）根据各个像素位置的左眼视点得到左眼视图L_z，以输入的视频图像I_z为右眼视图，得到左右格式的3D视图{L_z,I_z}，z＝1,2。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

在CPU为Intel(R)Core^TM2核处理器E6550：主频2.33GHZ，内存2G，操作系统： WINDOWS7，仿真平台：Qt4。

仿真选择图3所示的两个测试视频图像，其中：

图3(a)为第一测试视频图像中的第一帧视频图像，

图3(b)为第一测试视频图像中的第二帧视频图像，

图3(c)为第二测试视频图像中的第一帧视频图像，

图3(d)为第二测试视频图像中的第二帧视频图像。

2.仿真内容：

仿真实验中，利用本发明方法与现有的Konrad’sMethod方法在测试视频图像上进行 2D视频立体化仿真。

Konrad,’sMethod参见文献：J.Konrad,M.Wang,P.Ishwar,“2D-to-3Dimage conversion by learning depth from examples.In CVPR Workshops’12,pp.16—22,2012

仿真1，利用本发明方法分别对图3所示的第一测试视频图像和第二测试视频图像进行仿真，得到两个测试视频图像的深度图像如图4所示，其中：

图4(a)为使用本发明方法对图3(a)生成的深度图像，

图4(b)为使用本发明方法对图3(b)生成的深度图像，

图4(c)为使用本发明方法对图3(c)生成的深度图像，

图4(d)为使用本发明方法对图3(d)生成的深度图像。

由图4(a)与图4(b)和图4(c)与图4(d)对比可见，本发明方法在得到一帧视频图像的深度图像后，利用视频图像前后两帧之间的相似性，通过运动补偿得到下一帧视频图像的深度图像，避免对下一帧视频图像进行重复计算，减小计算复杂度，并保持深度在时间上的一致性，进而保持3D图像在时间上的一致性。

仿真2，利用本发明方法与现有的Konrad’s Method方法分别对图3(a)所示的第一测试视频图像和图3(c)所示的第二测试视频图像进行仿真，得到两个测试视频图像的深度图像如图5所示，其中：

图5(a)为使用现有的Konrad’s Method方法对图3(a)生成的深度图像，

图5(b)为使用现有的Konrad’s Method方法对图3(c)生成的深度图像，

图5(c)为用本发明方法对图3(a)生成的深度图像，

图5(d)为用本发明方法对图3(c)生成的深度图像。

由图5(a)与图5(c)和图5(b)与图5(d)的对比可见，本发明方法得到的深度图像边缘清晰，深度效果更加自然，能有效的分离出视频图像中前景和背景的深度；而Konrad’s Method方法得到的深度图像缺失前景和边缘信息，导致得到的深度图像存在大量冗余失真，特别是前景物体的深度与背景的深度融为一体，导致3D视觉效果的失真。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于样本学习和深度图像传播的2D视频立体化方法 [P] . 中国专利： CN103716615B . 2015.06.17
2. 基于样本学习和深度图像传播的2D视频立体化方法 [P] . 中国专利： CN103716615A . 2014-04-09
3. Method for operating depth image-camera system, involves determining depth map based on data of light propagation time camera, and another depth image based on data of two-dimensional images of two-dimensional image acquisition [P] . 德国专利： DE102013208106A1 . 2013-11-28

机译：用于操作深度图像相机系统的方法，包括基于光传播时间相机的数据确定深度图，以及基于二维图像采集的二维图像的数据确定另一深度图像。
4. NEURAL NETWORK LEARNING METHOD AND APPARATUS USING UNSUPERVISED LEARNING BASED ON ARCHITECTURE VARIATION AND SUPERVISED LEARNING BASED ON SELECTIVE ERROR PROPAGATION [P] . 韩国专利： KR20200063041A . 2020-06-04

机译：基于体系结构变异的无监督学习和基于选择性误差传播的监督学习的神经网络学习方法及装置
5. Large-area sample analyzer for video-based equipment, sample analyzer for video-based equipment that uses differences in medium characteristics, and methods for measuring and analyzing samples using this [P] . JP2021525896A . 2021-09-27

机译：基于视频设备的大型样本分析仪，用于使用中等特征差异的基于视频设备的样本分析仪，以及使用此测量和分析样品的方法