首页> 中国专利> 基于三维空时特征的鲁棒视频指纹方法

基于三维空时特征的鲁棒视频指纹方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于三维空时特征的鲁棒视频指纹提取方法，主要解决现有方法对于视频时间方向上特征利用不足的缺陷。其特点是将三维空时特征引入到指纹提取中，即首先提取待检测视频连续帧中的三维空时特征点，并通过特征强度和特征尺度选择获得每一帧中最稳定的特征区域；然后通过降采样得到特征区域；最后，用对比度直方图进行区域表示并归一化为矢量形式的待检测视频指纹序列；利用待检测视频的指纹序列与数据库中的候选指纹序列进行距离匹配，在数据库中得到与待检测视频相关的候选视频。本发明同时体现了视频的空间特性和时间特性，具有很好的鲁棒性，可用于视频内容认证和近视频检测。

著录项

公开/公告号CN102176208A

专利类型发明专利
公开/公告日2011-09-07

原文格式PDF
申请/专利权人西安电子科技大学;
展开▼

申请/专利号CN201110046524.0
发明设计人邓成;高新波;张一凡;黄东宇;安玲玲;李洁;朱楠;
展开▼

申请日2011-02-28
分类号G06F17/30(20060101);G06K9/46(20060101);
代理机构61205 陕西电子工业专利中心;
代理人王品华;朱红星
地址 710071 陕西省西安市太白南路2号
入库时间 2023-12-18 03:08:57

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-10

未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20121226 终止日期:20190228 申请日:20110228

专利权的终止
2012-12-26

授权

授权
2011-11-16

实质审查的生效 IPC(主分类):G06F17/30 申请日:20110228

实质审查的生效
2011-09-07

公开

公开

说明书

技术领域

本发明属于信息安全技术领域，涉及数字视频指纹提取和检测匹配方法，该方法可以抵抗常规的视频攻击和处理，用于互联网上的内容认证和近视频检测领域。

背景技术

随着多媒体技术和网络技术的发展，视频信息的数字化给视频信息的存取，拷贝和修改提供了极大的便利，同时使得信息传输和表达的效率以及准确性有了显著的提高。但是，由于大量的视频信息可以方便的从互联网上随意下载和发布，并且可以通过处理软件进行任意的修改，再加上一些传播存储过程中的非人为攻击，这就造成了网络上存在大量经过非法复制，剪辑，修改和攻击的视频以及片段，而这些视频片段的原始信息经常是未知的。人们在生活与工作中对得到的未知视频片段感兴趣，并且想找到视频的来源信息进一步了解和使用，这就涉及到了视频内容认证的问题。而针对如何检测视频是否受到版权侵害而被非法复制，剪辑和分发，即检测互联网上是否有与受版权保护内容一致的视频内容，或者需要对同一类视频进行检索，这涉及到了近视频检测的问题。因此，解决目前网络上视频信息数字化所面临的问题迫在眉睫，而如何有效的进行数字视频内容认证和近视频检测也就是关键所在。数字视频指纹作为一项新兴的并且很有潜力的手段，在最近几年受到了学术界和商业界的广泛关注。不同于数字水印技术，一方面数字指纹并不在视频中嵌入任何信息，所以也不会导致视频内容上的变化和扭曲；另一方面，数字水印技术对于大量已存的未嵌入水印的视频无效，而视频指纹是数字视频本身特性的表征，直接对数字视频提取，弥补了数字水印的不足。

视频指纹的基本思想是从数字视频内容到一段指纹序列的映射，也就是数字视频视觉内容上的特征摘要，用一段简单的摘要序列最大程度上表征一段视频的内容，类似于一个指纹代表一个人的身份的概念，一段视频指纹也就代表了一段视频的内容。这样视频指纹就可以用于独一无二的表征一段视频并且与其他内容不同的视频进行区分，也就可以有效的完成视频内容认证和近视频检测两大问题，以便认证未知视频内容和提供产品的附加信息，或者保护数字视频的版权内容和跟踪盗版。鲁棒的视频指纹必须可以抵抗常见的视频攻击，在受到攻击前后都必须能保持指纹序列的成对独立性，在匹配过程中还必须具有搜索效率。

鲁棒视频指纹技术的过程主要分为指纹提取和指纹匹配两个环节，其中指纹提取是视频指纹技术的主要环节，又可分为帧提取，特征提取，矢量量化三个部分，最终得到矢量形式的视频指纹。帧提取目前主要有关键帧提取，降采样提取等等，主要是为了减少冗余和计算量，用最少的帧内容来唯一表示一段视频，体现了视频指纹的意义所在。视频指纹研究的重点在于特征提取和矢量量化，目前大部分方法都是针对单独帧提取特征，也就是在二维空间上提取特征并量化为指纹向量。例如文献Sunil Lee and D.Yoo Chang，″Robust Video Fingerprinting for Content-Based Video Identification，″IEEE Trans.Circuits and Systems for Video Technology，vol.18，no.7，pp.983-988，July2008.先把每一帧分成若干块，然后每一块的梯度方向质心作为指纹，所有块组成指纹向量进行范围搜索和匹配。这些方法基本可以抵抗大部分常见的视频攻击，但是，这些方法并没有注意到视频的空时性和冗余性，也就是仅仅对图像序列的简单排列，忽略了视频的时间信息，没有做到最大程度上代表一段视频，影响了数字视频指纹的独立性和鲁棒性，最终限制了在近复制视频检测时的检索精度以及检索效率。

发明内容

本发明的目的在于克服上述已有技术的不足，提供一种基于三维空时特征的鲁棒视频指纹方法，以有效利用视频的时间信息，用一段向量最大程度表征视频内容，提高视频指纹针对常见攻击时的独立性和鲁棒性，进而提高在视频内容认证的精度以及近复制视频检测时的检索精度以及检索效率。

实现本发明目的的技术方案包括指纹提取和指纹匹配。

一、基于三维空时特征的鲁棒视频指纹提取方法，包括如下步骤：

(1)将视频Q转换到灰度域，即将待检测视频每一帧图像变成灰度图像，得到一组灰度图像序列Z；

(2)将灰度图像序列Z的宽和高调整为固定值，得到一组大小统一的图像序列I；

(3)提取图像序列I的三维空时特征点，并在提取特征点的每一帧图像中提取一个特征强度最大的特征点H；

(4)对提取特征点后的图像序列H进行降2采样，获得降2采样后的视频帧以及每一帧中的空时特征点P；

(5)将每一帧中的空时特征点P周围圆形区域用对比度直方图表示，得到48维向量序列c＝(c₁，c₂，…c₄₈)；

(6)将向量序列c归一化，得到视频指纹序列f＝(f₁，f₂，…f₄₈)。

二、基于三维空时特征的鲁棒视频指纹匹配方法，包括如下步骤：

1)将待检测视频Q转换到灰度域，即将待检测视频每一帧图像变成灰度图像，得到一组灰度图像序列Z；

2)将灰度图像序列Z的宽和高调整为固定值，得到一组大小统一的图像序列I；

3)提取图像序列I的三维空时特征点，并在提取特征点的每一帧图像中提取一个特征强度最大的特征点H；

4)对提取特征点后的图像序列H进行降2采样，获得降2采样后的待检测视频帧以及每一帧中的空时特征点P；

5)将每一帧中的空时特征点P周围圆形区域用对比度直方图表示，得到48维向量序列c＝(c₁，c₂，…c₄₈)；

6)将向量序列c归一化，得到待检测视频指纹序列f_query＝(f₁，f₂，…f₄₈)；

7)用待检测视频指纹序列f_query在指纹数据库中进行广泛的搜索，将待检测视频指纹序列f_query与数据库中所有的候选指纹序列X进行逐一求距离d(f_query，X)，当二者距离d(f_query，X)低于设定的阈值T时，即找到待检测视频的原始信息完成匹配，否则继续进行搜索比较，若在数据库中未找到与待检测视频指纹序列之间距离低于阈值T的视频指纹序列时，匹配失败，即数据库中没有与待检测视频相近或相同的候选视频。

本发明具有以下优点：

(1)本发明由于将视频转换到灰度域使得视频指纹对于颜色变化具有鲁棒性；

(2)本发明由于将灰度图像序列调整为统一固定大小使得视频指纹可以抵抗视频大小变化；

(3)本发明由于结合了视频空域和时域的特征，利用三维空时特征检测算子和特征选择策略获得一组稳定的特征区域，同时反映了视频空间与时间维度上的内容，对旋转、缩放、平移以及噪声干扰等具有较好的鲁棒性，并且进一步做到了数字视频指纹最大程度表征一段视频的目的；

(4)本发明由于对视频帧序列进行降2采样，使得视频指纹对帧速率变化具有鲁棒性；

(5)本发明由于用对比度直方图唯一的将特征区域描述为一个48维向量，使得相同或相似的视频指纹具有成对独立性，并且使得视频指纹具有高效的检索精度以及检索效率；

(6)本发明由于在指纹匹配过程中直接计算指纹向量序列之间的距离并与阈值T比较，进一步提高了检索精度以及检索效率。

附图说明

图1是本发明的流程图；

图2是用本发明形成特征区域的仿真示意图；

图3是用本发明对特征点周围区域分割结果示意图；

图4是本发明在一些常见的视频攻击下的PR曲线。

具体实施方案

参照图1，本发明包括指纹提取和指纹匹配，具体步骤如下：

步骤1，将视频Q转换到灰度域，即将视频Q每一帧图像变换为灰度图像，从而得到灰度图像序列Z。

视频每一帧图像采用RGB图像，RGB图像中每一个点由三原色RGB按不同比例组成，其中R(0～255)代表红色道，G(0～255)代表绿色道，B(0～255)代表蓝色道，而灰度图像是单色道Gray(0～255)，按照如下公式：Gray＝(R+G+B)/3，将RGB图像中每一点转换到灰度域，最后得到灰度图像序列Z。

步骤2：将灰度图像序列Z的每一帧灰度图像大小调整为固定值为240×320像素，得到一组大小统一的图像序列I，如图2(a)所示，以抵抗视频大小调整对视频指纹性能造成的影响。

步骤3：提取图像序列I的三维空时特征点，并在提取特征点的每一帧图像中提取一个特征强度最大的特征点H。

图像序列的三维空时特征点由三维空时特征检测算子提取，是二维Harris-Laplace检测算子的三维拓展，提取的特征点对常见的视频攻击例如旋转、缩放、平移以及噪声干扰具有较好的鲁棒性，具体步骤包括特征点提取和尺度自适应选择，该步骤的实现采用现有的三维空时特征点检测算子，具体过程如下所示：

3.1)特征点提取

首先，给出三维尺度空间表示为：

$> L (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * f (x, y, t)$ >

式中，是一个高斯核函数卷积原始视频后的尺度空间表示，x，y是每帧图像中的像素位置，t是时间信息，代表位于视频的第几帧，σ_l是空间微分尺度，τ_l是时间微分尺度，这里和是初始给定的候选尺度，是高斯卷积核，表示为：

$> g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{2} σ_{l}^{4} τ_{l}^{2}}} \times \exp (- (x^{2} + y^{2}) / 2 σ_{l}^{2} - t^{2} / 2 τ_{l}^{2})$ >

f(x，y，t)代表视频第t帧中坐标为x，y的点的像素值；

然后，将视频三维空时域的角函数表示为：

H＝det(μ)-k·trace³(μ)

式中det(·)和trace(·)分别表示矩阵的行列式和矩阵的迹，k是常数，取0.001，μ为自相关矩阵，表示为：

$> μ = g (\cdot; σ_{i}^{2}, τ_{i}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix})$ >

式中，σ_i为空间积分尺度，τ_i为时间积分尺度，L_x为尺度空间表示L对x方向的偏导数，L_y为尺度空间表示L对y方向的偏导数，寻找每一帧中像素值同时在空域和时域方向上变化最大的点，也就是寻找角函数H的局部极值；

最后，得到满足要求的候选特征点：p＝(x，y，t)及统一的初始微分尺度

3.2)选择自适应尺度

对每个候选特征点，采用自适应迭代法确定特征点位置及其特征尺度：

Step 1：j＝1...N是角函数H在间隔选择的初始化空间微分尺度序列和时间微分尺度序列以及空间积分尺度和时间积分尺度上取极值时确定的候选特征点；

Step 2：对于每一个候选特征点p_j，j＝1...N，计算在相邻尺度上其位置(x_j，y_j，t_j)处的空时拉普拉斯算子的值，表示为：

式中，δ＝-0.25，0，0.25，L_xx为尺度空间表示L对x方向的二阶偏导数，L_yy为尺度空间表示L对y方向的二阶偏导数，L_tt为尺度空间表示L对t方向的二阶偏导数；

Step 3：选择使得最大的尺度也就是在相邻空域尺度和时域尺度达到最大；

Step 4：如果或者尺度未达到局部极值，需要在新的积分尺度和新的微分尺度和下重新检测兴趣点找到最接近p_j＝(x_j，y_j，t_j)的令重复Step 2～Step 4直到

以上步骤得到每个特征点的坐标以及特征强度和特征尺度(x，y，t，val，σ_l，σ_τ)，这里val是特征强度，即的值，根据时间尺度σ_τ确定特征点在t+2σ_τ帧中都存在，这里每帧中只选取特征强度val最大的点并以特征点的特征尺度σ_l的一定倍数为半径构造圆形特征区域。最后提取特征点的每一帧图像中提取一个特征强度最大的特征点H以及H周围稳定的圆形特征区域。

参照图2所示，大小统一的灰度图像序列I如图2(a)所示，对其提取三维空时特征点，并根据空间尺度形成圆形区域如图2(b)所示，然后通过尺度自适应形成不同点具有不同的尺度，如图2(c)所示，最后通过选择特征强度获得一组稳定的特征点和特征区域，如图2(d)所示。

步骤4：对提取特征点后的图像序列H进行降2采样，获得降2采样后的视频帧以及空时特征点P，方便存储与匹配。

步骤5：将每一帧中的空时特征点P周围圆形区域用对比度直方图表示，得到指纹向量序列c＝(c₁，c₂，…c_M)。

参照图3，本步骤的实现采用现有的对比度直方图表示特征区域，具体过程如下：

5.1)以特征点为圆心，将特征点周围区域划分成极坐标的形式，包括8个方向区间：三个半径区间：0～5，5～3σ_l，3σ_l～10σ_l，一共24个相邻但不重叠的区域；

5.2)以特征点的主方向作为对比度直方图下极坐标的零度角以抵抗旋转攻击，将特征点周围分割区域的零度角与此特征点的主方向对齐，以使得区域随着视频帧的转动而转动，从而区域不变，不影响直方图的统计；

5.3)统计每个区域R_i，i＝1，2，...24中与圆心特征点的正负两个对比度直方图H_Ri+(p_c)，H_Ri-(p_c)：

$> H_{R_{i}^{+}} (p_{c}) = \frac{Σ {C (p) | p \in R_{i} andC (p) \geq 0}}{R_{i}^{+}_{#}}$ >

$> H_{R_{i}^{-}} (p_{c}) = \frac{Σ {C (p) | p \in R_{i} andC (p) < 0}}{R_{i}^{-}_{#}}$ >

其中，p_C是圆心特征点，p是圆心特征点周围区域中某一点，H_Ri+(·)是对特征点周围区域中与中心特征点的灰度值差值为正的直方图统计，H_Ri-(·)是对特征点周围区域中与中心特征点的灰度值差值为负的直方图统计，R_i为圆心特征点周围第i个划分区域，为区域R_i中对比度差值C(p)为正的个数，为区域R_i中对比度差值C(p)为负的个数，C(p)是特征点周围区域中某一点p的灰度值I(p)与特征点的灰度值I(p_C)的对比度差值，表示为：

C(p)＝I(p)-I(p_C)

统计时，是在每一帧中的每个区域统计两个对比度直方图H_Ri+和H_Ri-，其区域统计顺序为半径从小到大，角度从小到大，即固定半径区间，角度区间从小到大遍历；然后增加半径区间，再遍历角度区间，例如，第一个区域R₁的半径区间为0～5，角度区间为第二个区域R₂的半径区间为0～5，角度区间为以此类推。

参照图3中标号顺序，在24个区域依次统计正负两个对比度直方图，把得到的对比度直方图依次排列，得到一组48维的向量c(p_C)＝(H_R1+，H_R1-，H_R2+，H_R2-，...，H_R24+，H_R24-)；

由此将图像序列的第i帧图像中的空时特征点P周围的圆形区域表示成向量c_i，将图像序列用向量序列c＝(c₁，c₂，…c₄₈)表示。

步骤6：将指纹向量序列c＝(c₁，c₂，…c₄₈)归一化为：

$> f_{i} = \frac{c_{i} - μ_{c_{i}}}{σ_{c_{i}}}$ >

式中，为指纹向量c_i的均值，为指纹向量c_i的方差，最后得到向量形式的视频指纹序列f＝(f₁，f₂，…f₄₈)。

通过上述步骤1～步骤6可完成数据库中视频指纹的提取，视频内容的认证以及近复制视频的检测本质上就是待检测视频指纹向量序列与数据库中候选视频指纹序列之间的匹配。

步骤7：将待检测视频Q转换到灰度域，即将待检测视频每一帧图像变成灰度图像，得到一组灰度图像序列Z；

步骤8：将灰度图像序列Z的宽和高调整为固定值，得到一组大小统一的图像序列I；

步骤9：提取图像序列I的三维空时特征点，并在提取特征点的每一帧图像中提取一个特征强度最大的特征点H；

步骤10：对提取特征点后的图像序列H进行降2采样，获得降2采样后的待检测视频帧以及每一帧中的空时特征点P；

步骤11：将每一帧中的空时特征点P周围圆形区域用对比度直方图表示，得到48维向量序列c＝(c₁，c₂，…c₄₈)；

步骤12：将向量序列c归一化，得到待检测视频指纹序列f_query＝(f₁，f₂，…f₄₈)；

步骤13：用待检测指纹序列f_query＝(f₁，f₂，…f₄₈)在数据库中进行广泛搜索，以距离d(f_query，X)作为待检测视频与候选视频之间的距离测度，X为候选指纹序列，d(f_query，X)表示为：

$> d (f_{query}, X) = Σ_{i = 1}^{48} {\min_{1 \leq j \leq 48} {| | f_{query} (i) - X (j) | |}_{1}}$ >

式中，d(f_query，X)为待检测视频指纹序列和数据库候选视频指纹序列之间的距离，i为待检测视频指纹序列中指纹向量的标号，j为数据库候选指纹序列中指纹向量的标号，||f_query(i)-X(j)||₁即为计算待检测视频指纹序列f_query中第i个指纹向量与数据库中候选指纹序列X中第j个指纹向量的L₁距离。

当距离d(f_query，X)低于设定的阈值T时，认为候选视频片段与待检测视频片段相同或相似，即找到与待检测视频相近或相同的视频，否则继续进行搜索匹配，若在数据库中未找到与待检测视频指纹序列之间距离低于设定阈值的视频指纹序列，则认为匹配失败，即数据库中没有与待检测视频相近或相同的视频。所述的阈值T是可变的，T越大则在数据库中搜索匹配到的视频越少，查全率越高，但查准率越小，反之亦然，阈值T的选择需要在查全率与查准率之间做一个权衡。

本发明的优点可通过以下仿真实验进一步说明：

本发明在大量彩色以及黑白视频上进行了测试实验，其中包括标准测试视频，经典电影片段，YouTube网络视频。并且给予常见的视频攻击，例如，高高斯噪声，椒盐噪声，中值滤波，剪切，帧平均，掉帧。以在不同攻击下视频指纹匹配效率以及鲁棒性作为本发明性能优劣的评测依据。

本发明以客观指标Precision-Recall Curve作为评判依据，测试在不同攻击下的数据库的匹配能力，其中查准率Precision，查全率Recall是视频检索时的评判指标，表示为：

$> Precision = \frac{TP}{TP + FP}$ >

$> Recall = \frac{TP}{TP + FN}$ >

式中，TP是指从数据库中提取出来与待检测视频相关的视频数量，而FP是指提取出来的与待检测视频不相关的视频数量，FN是指数据库中除了检测出来的相关视频还剩下的相关视频数量，阈值不同，提取出来的视频数量不同，随着阈值T的变化和提取出来视频片段总数的变化，Precision和Recall也随之变化，最终形成一条曲线，即Precision-Recall曲线。这里查全率与查准率之间存在着相反的依赖关系，即如果提高输出的查全率，查准率就会下降，反之亦然。所以当查全率与查准率中一方提高时另一方下降的越慢说明系统性能越好，表现在坐标系曲线中即随着横坐标值的增加纵坐标值下降的慢，也就是曲线更接近坐标系原点的对角。

本发明在高斯噪声，椒盐噪声，中值滤波，剪切，帧平均，掉帧六种常见视频攻击下的Precision-Recall曲线仿真结果如图4所示，其中图4(a)为本发明受到高斯噪声攻击后的Precision-Recall曲线仿真结果，实线代表视频受到高斯噪声的方差为0.005，虚线代表视频受到高斯噪声的方差为0.01；图4(b)为本发明受到椒盐噪声攻击后的Precision-Recall曲线仿真结果，实线代表视频受到椒盐噪声的方差为0.01，虚线代表视频受到椒盐噪声的方差为0.02；图4(c)为本发明受到中值滤波攻击后的Precision-Recall曲线仿真结果，实线代表视频中20％的帧数受到中值滤波攻击，虚线代表视频中40％的帧数受到中值滤波攻击；图4(d)为本发明受到剪切攻击后的Precision-Recall曲线仿真结果，实线代表视频中每帧被剪切掉5％的图像块，虚线代表视频中每帧被剪切掉10％的图像块；图4(e)为本发明受到帧平均攻击后的Precision-Recall曲线仿真结果，实线代表视频中10％的帧数受到帧平均攻击，虚线代表视频中20％的帧数受到帧平均攻击；图4(f)为本发明受到掉帧攻击后的Precision-Recall曲线仿真结果，实线代表视频丢失5％的帧数，虚线代表视频丢失10％的帧数。

由图4可见，本发明针对常见的视频攻击鲁棒性较好，每个图中实线都高于虚线，即本发明的匹配性能随着攻击强度的增加而降低，本发明对于常见的全局攻击鲁棒性能较好，由于本发明是基于内容的局部特征，所以对于剪切等局部攻击效果较好。由于空时特征点是利用视频连续帧的时间信息，但是帧平均和掉帧影响了视频帧的时间连续性，导致性能有所下降。

综上，本发明提高了视频指纹针对常见攻击时的鲁棒性，提高了视频内容认证的精度以及近复制视频检测时的检索精度以及检索效率。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于三维空时特征的鲁棒视频指纹方法 [P] . 中国专利： CN102176208B . 2012.12.26
2. 基于三维空时特征的鲁棒视频指纹方法 [P] . 中国专利： CN102176208A . 2011-09-07
3. A ROBUST AUTOMATED FINGERPRINT IDENTIFICATION SYSTEM (AFIS) BASED ON CASCADED QUALITY CHECKS AND MULTIPLE FEATURE SETS AT THREE LEVELS [P] . IN2011MU01302A . 2012-06-01

机译：基于级联质量检查和三级多个特征集的鲁棒自动指纹识别系统（AFIS）
4. Temporal segment based extraction and robust matching of video fingerprints [P] . 美国专利： US9177209B2 . 2015-11-03

机译：基于时间段的视频指纹提取和鲁棒匹配
5. TEMPORAL SEGMENT BASED EXTRACTION AND ROBUST MATCHING OF VIDEO FINGERPRINTS [P] . 欧洲知识产权局专利： EP2240871A4 . 2014-04-09

机译：基于时间段的视频指纹提取和鲁棒匹配