首页> 中国专利> 基于人机交互生成视频深度图序列的方法及系统

基于人机交互生成视频深度图序列的方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出一种基于人机交互生成视频深度图序列的方法和系统，其中，方法包括以下步骤：从视频帧序列中提取出关键帧和非关键帧；对视频帧序列的每一帧进行图像过分割以获得多个过分割块；设置关键帧中的部分过分割块的深度值；根据部分过分割块的深度值获取其余过分割块的深度值，从而获得关键帧的深度图；将关键帧和关键帧对应的深度图作为训练样本，通过机器学习算法获取非关键帧的深度图；以及对关键帧和非关键帧的深度图进行后处理，以获得最终的视频深度图序列。根据本发明实施例的基于人机交互生成视频深度图序列的方法和系统，既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

著录项

公开/公告号CN102196292A

专利类型发明专利
公开/公告日2011-09-21

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN201110174037.2
发明设计人戴琼海;晏希;
展开▼

申请日2011-06-24
分类号H04N13/00(20060101);G06K9/46(20060101);G06K9/62(20060101);
代理机构北京清亦华知识产权代理事务所(普通合伙);
代理人张大威
地址 100084 北京市海淀区100084-82信箱
入库时间 2023-12-18 03:17:32

法律信息

法律状态公告日

法律状态信息

法律状态
2013-03-06

授权

授权
2011-11-23

实质审查的生效 IPC(主分类):H04N13/00 申请日:20110624

实质审查的生效
2011-09-21

公开

公开

说明书

技术领域

本发明涉及计算机多媒体技术领域，特别涉及一种基于人机交互生成视频深度图序列的方法及系统。

背景技术

立体视频能够给人们带来更真实的视觉体验，被越来越广泛地应用在家庭娱乐、影视制作、虚拟现实等诸多领域。虽然我们可以借助立体摄像机来直接拍摄新的立体视频，但对于现有的众多平面视频资源，无法都通过重新拍摄来获取其相应的立体版本。在这种情况下，将平面视频转为立体视频就成为立体内容生成的一个极其重要的途径。

其中，深度图的获取是平面视频转立体视频中必不可少的部分，而深度图的质量也直接决定了观众所能感受到的立体效果。

目前，有许多种不需要用户干预，由计算机自动生成视频深度图序列的方法，这些方法存在的问题是，由于没有任何先验信息，很难直接从原视频帧序列中提取出相应的深度线索并生成正确的深度图。针对上述问题，也有人提出了一些需要用户干预的半自动的深度图生成方法，这些方法通常能够生成更高质量的视频深度图序列，和完全通过图像编辑软件逐帧制作深度图的方法相比也提高了不少效率，但它们所带来的额外的用户操作依然很多、很繁琐。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一。

为此，本发明的一个目的在于提出一种基于人机交互生成视频深度图序列的方法，该方法既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

本发明的另一个目的在于提出一种基于人机交互生成视频深度图序列的系统，该系统既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

根据本发明的一方面，提出了一种基于人机交互生成视频深度图序列的方法，包括以下步骤：A1：从视频帧序列中提取出关键帧和非关键帧；A2：对所述视频帧序列的每一帧进行图像过分割以获得多个过分割块；A3：设置所述关键帧中的部分过分割块的深度值；A4：根据所述部分过分割块的深度值获取所述关键帧的其余过分割块的深度值，从而获得所述关键帧的深度图；A5：根据所述关键帧和所述关键帧对应的深度图获取所述非关键帧的深度图；以及A6：对所述关键帧的深度图和所述非关键帧的深度图进行后处理，以获得最终的视频深度图序列。

根据本发明实施例的基于人机交互生成视频深度图序列的方法，通过用户对关键帧的检测结果进行修正，并为关键帧中的部分过分割块指定深度值，再借助深度扩散算法及机器学习算法获得关键帧及非关键帧的深度图，能够同时满足精度和效率上的要求，较好地完成将平面视频转为立体视频的任务。

本发明另一方面还提供一种基于人机交互生成视频深度图序列的系统，包括：检测模块，用于从平面视频帧序列中检测出镜头变化帧以作为关键帧，其中所述镜头变化帧包括镜头切变帧和镜头渐变帧；过分割模块，用于对所述视频帧序列的每一帧进行图像过分割；人机交互模块，用于提供用户操作界面以便用户对所述检测模块的检测结果进行修正，并对所述关键帧对应的部分过分割块设置深度值；关键帧深度图生成模块，用于根据所述关键帧对应的部分过分割块的深度值生成关键帧的深度图；非关键帧深度图生成模块，用于根据所述关键帧的深度图，通过机器学习算法生成非关键帧的深度图；以及后处理模块，用于对所述关键帧和非关键帧的深度图进行后处理，得到最终的视频深度图序列。

根据本发明实施例的基于人机交互生成视频深度图序列的系统，既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例的基于人机交互生成视频深度图序列的方法的流程示意图；

图2为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤101的流程图；

图3为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤102的流程图；

图4为本发明一个实施例的用户为关键帧中部分过分割块指定深度值的示意图；

图5为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤104的流程图；

图6为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤105的流程图；以及

图7为本发明一个实施例的基于人机交互生成视频深度图序列的系统的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，根据本发明实施例的基于人机交互生成视频深度图序列的方法，包括以下步骤：

步骤101，从平面视频帧序列中提取出关键帧和非关键帧。

步骤102，对关键帧中的每一帧进行图像过分割以获得多个过分割块。

步骤103，设置关键帧中的部分过分割块的深度值。

步骤104，根据部分过分割块的深度值获取其余过分割块的深度值，从而获得关键帧的深度图。

步骤105，将关键帧和关键帧对应的深度图作为训练样本，通过机器学习算法获取非关键帧的深度图。

步骤106，对关键帧的深度图和非关键帧的深度图进行后处理，以获得最终的视频深度图序列。

下面将结合附图详细说明本发明实施例的方法中的各个步骤的具体实现方式。

如图2所示为步骤101的流程图，具体包括以下步骤：

步骤201，读取当前帧。

步骤202，判断当前帧是否为镜头变化帧。

具体地，采用镜头检测算法中的双阈值法，由计算机自动判断当前帧是否为镜头变化帧。在本发明的一个实施例中，镜头变化帧包括镜头切变帧和镜头渐变帧。

步骤203，如果当前帧为镜头变化帧，则将当前帧作为关键帧。

步骤204，如果当前帧不为镜头变化帧，则将当前帧作为非关键帧。

步骤205，如果当前帧不为视频帧序列中的最后一帧，则继续读取当前帧的下一帧，重复执行步骤202-204。

步骤206，由用户通过人机交互对当前帧检测结果进行修正。

具体地，对于冗余或错误检测出的镜头变化帧，由用户将其人工标定为非关键帧；对于未检测出的镜头变化帧，由用户将其人工标定为关键帧。

在本发明的一个实施例中，采用基于K均值聚类的方法对视频的每一帧进行图像分割，如图3所示，具体包括以下步骤：

步骤301，将原图划分为多个大小和形状相同的矩形块，这些矩形块被当作原图中所有像素点的初始聚类。

例如，可选矩形块的大小为16×16。

步骤302，执行K均值算法，获得原图中所有像素点的最终聚类。

步骤303，执行区域连通算法，将属于同一聚类的像素点所构成的一个连通区域划分成一个过分割块。

步骤304，对步骤303的划分结果进行拆分和/或合并，以得到原图像的最终分割结果。

具体地，可将面积大于第一给定阈值的过分割块进行拆分，将面积小于第二给定阈值的分割块进行合并。其中，例如将第一给定阈值设置为600，将第二给定阈值设置为100。

图4示出了步骤103中用户通过人机交互为关键帧对应的部分过分割块指定深度值的一个例子。用户通过计算机屏幕，利用自编软件或其他图像编辑软件提供的图形界面，在原图像上勾划出7条灰度曲线。其中，3条曲线的灰度值为255，1条曲线的灰度值为180，3条曲线的灰度为0，它们分别代表了每条曲线所经过的过分割块的深度值。深度值为255的过分割块在场景中距离观测者最近，深度值为0的过分割块在场景中距离观测者最远，而深度值为180的过分割块居于两者之间。应理解，图4所示的仅为示意性的例子，并不用于限制本发明，用户可改变勾划曲线的条数和位置等。

在本发明的一个实施例中，采用深度扩散算法获取其余过分割块的深度值，如图5所示，具体包括以下步骤：

步骤501：迭代开始前的初始化。

在本发明的一个实施例中，对于已指定了深度值的过分割块，初始深度值即为其被指定的深度，深度值的置信度设为1；对于其余过分割块，初始深度值都设为0，深度值的置信度也设为0。

步骤502：针对每两个相邻的过分割块，计算它们在颜色、纹理上的相似性度量。

具体地，首先分别计算这两个过分割块中所有像素点的RGB(红绿蓝)颜色平均值，进而求取这两个颜色平均值在颜色空间中的欧式距离D_colour。

然后，分别统计这两个过分割块的RGB颜色直方图，进而求取这两个颜色直方图的Bhattacharyya距离D_B。

接着，利用六个方向上的边缘滤波器以及Laws纹理模板对原图像进行滤波，分别计算这两个过分割块中所有像素点针对不同滤波器的响应平均值，每个过分割块的响应平均值各自构成一个矢量；进而求取这两个矢量之间的欧式距离D_texture；

最后，根据公式S＝exp(-αD_color-βD_B-γD_textrue)计算这两个过分割块在颜色、纹理上的相似性度量，其中，D_colour、D_B和D_texture均被事先归一化到0～255之间，α、β、γ可取为0.2。

步骤503：开始进行迭代，在每轮迭代中，更新其余每个过分割块的深度值。

具体地，对于其余的一个过分割块i，它在第t+1轮迭代后的深度值D^t+1(i)由如下公式决定：

$D^{t + 1} (i) = \frac{\underset{j \in N (i)}{Σ} w_{ji}^{t} D^{t} (j)}{\underset{j \in N (i)}{Σ} w_{ji}^{t}}$

其中，N(i)表示由过分割块i以及所有和它相邻的过分割块所构成的集合，D^t(j)表示分割块j在第t轮迭代后的深度值，权重由过分割块i和过分割块j在颜色、纹理上的相似性度量S_ji以及过分割块j在第t轮迭代后的深度值的置信度共同决定。在本发明的一个示例中，可按照来计算权重

对于每一轮迭代，在更新完过分割块i的深度值后，同时更新过分割块i的深度值的置信度c_i，将其设定为此轮迭代中权重w_ji的最大值，即

重复上述迭代更新过程，直到其余过分割块的深度值均不发生变化，或者迭代次数达到了给定的阈值。在本发明的一个示例中，可将阈值设定为200。

图6显示了步骤105中通过机器学习算法获得非关键帧的深度图的方法的流程，该方法具体包括以下步骤：

步骤601：对于某一个非关键帧，寻找在此之前的与它距离最近的关键帧。

步骤602：针对此关键帧中的每个过分割块，计算过分割块的特征向量。

在本发明的一个实施例中，过分割块的特征向量包括：过分割块中所有像素点在R、G、B颜色通道上的平均值、过分割块中所有像素点针对9个不同的Laws纹理模板的响应平均值、过分割块中光流大小的平均值、过分割块重心的横坐标及纵坐标、过分割块到图像上、下、左、右四个边缘的最短路径距离。由此，可获得1个19维的特征向量，代表了过分割块在颜色、纹理、位置、运动、遮挡上的特征。

步骤603：根据关键帧中所有过分割块的特征向量及深度值，训练SVM多分类器。

具体地，将过分割块的深度值作为类别标签，和步骤602中所求得的特征向量一起作为训练样本，采取“一类对其余”或者“一对一”的方法，训练SVM多分类器。

步骤604：计算非关键帧中每个过分割块所对应的特征向量。

具体地，可采取和步骤602相同的方法，也获取19维的特征向量。

步骤605：利用训练好的SVM多分类器对非关键帧中的过分割块进行分类，从而得到它们各自所对应的深度值。

步骤106中对求得的每一帧深度图进行后处理具体包括以下步骤：

1)按照“之”字形的顺序遍历深度图中的每个像素，若前后两个属于不同过分割块的像素在深度值上的差异小于给定阈值，则将后一个像素所属的过分割块的深度值设置为和前一个像素的深度值相等。例如，可将阈值设定为30；

2)对整个深度图使用中等强度的高斯滤波，例如，可将滤波窗口设置9×9的大小。

综上所述，本发明实施例提供的基于人机交互生成视频深度图序列的方法，由用户对关键帧的检测结果进行修正，并为关键帧中的部分过分割块指定深度值，再借助深度扩散算法及机器学习算法获得关键帧及非关键帧的深度图。该方法能够同时满足精度和效率上的要求，较好地完成将平面视频转为立体视频的任务。

为实现上述实施例，本发明另一方面还提出一种基于人机交互生成视频深度图序列的系统，参见图7，该系统包括：检测模块701、过分割模块702、人机交互模块703、关键帧深度图生成模块704、非关键帧深度图生成模块705和后处理模块706。

检测模块701用于从平面视频帧序列中检测出镜头变化帧以作为关键帧，其中所述镜头变化帧包括镜头切变帧和镜头渐变帧。过分割模块702用于对平面视频帧序列中的每一帧进行图像过分割以获得多个过分割块。人机交互模块703用于提供用户操作界面，使用户能够对检测模块701的检测结果进行修正，并对关键帧中的部分过分割块指定深度值。关键帧深度图生成模块704用于根据关键帧中部的部分过分割块的深度值获得其余过分割块的深度值，并根据关键帧中的所有过分割块的深度值生成关键帧的深度图。非键帧深度图生成模块705用于以关键帧和关键帧的深度图为训练样本，通过机器学习算法生成非关键帧的深度图。后处理模块706用于对所述关键帧深度图生成模块及非键帧深度图生成模块生成的深度图进行后处理，得到最终的视频深度图序列。

其中，人机交互模块703可包括关键帧标注单元和深度值赋值单元。关键帧标注单元用于对检测模块701的检测结果进行修正，将未检测出的镜头变化帧标注为关键帧，将冗余的或错误检测出的镜头变化帧标注为非关键帧。深度值赋值单元用于向用户提供图形编辑界面，使用户能够在原图像上勾划出多条灰度曲线，其中每条曲线的灰度值代表该条曲线所经过的过分割块的深度值。

此外，本领域技术人员可以理解实施例中的系统中的模块可以按照实施例描述分布于实施例的系统中，也可以进行相应变化位于不同于本实施例的一个或多个系统中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于人机交互生成视频深度图序列的方法及系统 [P] . 中国专利： CN102196292B . 2013.03.06
2. 一种基于2D视频序列的手势识别及人机交互方法和系统 [P] . 中国专利： CN104992171A . 2015-10-21
3. Method for extracting image of object e.g. suspicious person from image sequence generated by video system e.g. CCTV system, involves generating images of object on basis of scene background information of image sequences [P] . 德国专利： DE102011089033A1 . 2013-06-20

机译：提取物体图像的方法视频系统生成的图像序列中的可疑人，例如CCTV系统，涉及基于图像序列的场景背景信息生成对象的图像
4. VIDEO-BASED SYSTEMS AND METHODS FOR GENERATING COMPLIANCE-ANNOTATED MOTION TRAILS IN A VIDEO SEQUENCE FOR ASSESSING RULE COMPLIANCE FOR MOVING OBJECTS [P] . US2021233255A1 . 2021-07-29

机译：基于视频的系统和方法，用于在视频序列中生成合规注释的运动路径，以评估移动对象的规则合规性
5. Systems and methods for generating video test sequences based upon captured video data [P] . 美国专利： US8054331B2 . 2011-11-08

机译：用于基于捕获的视频数据生成视频测试序列的系统和方法