首页> 中国专利> 用于从视频帧序列中提取出平均亮度方差的方法和设备

用于从视频帧序列中提取出平均亮度方差的方法和设备

摘要

本发明提出一种用于从视频帧序列中提取出平均亮度方差的方法和设备。提出一种用于从帧间编码帧中提取出平均亮度值的方法和设备,其中所述帧间编码帧是视频帧序列的部分,所述方法包括:基于围绕序列的参考帧中的参考块的各帧内编码宏块的DC系数来对所述帧间编码帧的各宏块的DC系数进行近似,其中所述帧间编码帧的各宏块的运动矢量指向所述参考块;以及基于被近似的DC系数来计算所述平均亮度值。

著录项

  • 公开/公告号CN101742307A

    专利类型发明专利

  • 公开/公告日2010-06-16

    原文格式PDF

  • 申请/专利权人 索尼株式会社;

    申请/专利号CN200910206404.5

  • 申请日2009-11-12

  • 分类号H04N7/26;H04N7/34;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人胡莉莉

  • 地址 日本东京都

  • 入库时间 2023-12-18 00:31:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-01-04

    未缴年费专利权终止 IPC(主分类):H04N7/26 授权公告日:20120718 终止日期:20151112 申请日:20091112

    专利权的终止

  • 2012-07-18

    授权

    授权

  • 2010-09-01

    实质审查的生效 IPC(主分类):H04N7/26 申请日:20091112

    实质审查的生效

  • 2010-06-16

    公开

    公开

说明书

技术领域

本发明的实施例涉及一种用于从视频帧序列中提取出平均亮度方差的方法和设备。

背景技术

帧平均亮度是重要的视频特性,其代表在帧内所包含的亮度的总量。

当今大多数视频数据都是以压缩形式传送的,比如以MPEG-2(运动画面专家组)形式传送。在MPEG-2中,在空间域内执行运动补偿,也就是说在对所需参考帧进行了解码之后执行运动补偿。为了能够对任意帧进行运动补偿,首先必须对作为重建该帧的基础的参考帧进行解码及缓冲。

在本说明书中,“帧”也可以被称作“画面”或“图像”。

随后利用当前帧的运动矢量,从相应的已解码的参考帧中取得所需的像素信息并且将该像素信息置于当前帧中。此外,对于利用了差分误差编码的预测帧,所传送的误差被解码并且被添加到运动估计中。

然而,在压缩域内,出于一个基本原因而无法应用这一运动补偿过程:在空间域内,对应于参考帧的所有像素都是可用的(这是因为这些像素先前已经被解码),而在压缩域内,只可使用每个先前定界的宏块的DCT系数。在大多数情况下,运动矢量所指向的参考区域并不与唯一的宏块相匹配,而是与数个宏块重叠。

存在几种针对数字视频的MPEG标准:MPEG-1、MPEG-2、MPEG-4。MPEG-2意图用于针对从视频会议到高清晰度电视的高数据速率视频应用。

与任何压缩算法一样,MPEG-2试图减少视频数据中的冗余。

一般来说,未压缩的视频数据包括在不同时刻(instant in time)取得的连续帧的序列。在MPEG-2中,每帧以分层的方式被分成切片(slice)、宏块(MB)、块和像素(像元)。所述像元(或像素)是最小的图像单元,并且其代表亮度和色度(其在RGB标准中等效于红色、绿色和蓝色的色彩强度)的各个样本值。块是8x8像元的集合,宏块包括4个块或者16x16个像元,而切片是1xn个宏块的水平阵列,其中n是从1到最大水平宏块数目(the maximum number ofmacro-blocks horizontally)的宏块数目。

与JPEG图像压缩算法一样,MPEG-2采用基于块的二维离散余弦变换(DCT)。8x8像元的块被变换成8x8的DCT系数块。

在具有均匀的亮度和颜色的像元块中,比如一片天空,少数几个DCT系数将集中所有的能量,而剩下的DCT系数将为零或几乎为零。因此,经常出现的情况是对于每个64帧块只需要传送少数几个DCT系数,从而大大减少了信息量。因此,对于单色块来说,仅有左上角的系数(其也被称作DC系数)会是非零的,而对于具有很多纹理或噪声的块来说,右下角部分会包含一些非零值。在量化之后,从右上角系数开始按照Z字形方式扫描所得到的非零系数,并且利用可变长度编码(VLC)对其进行编码。

由于相邻帧之间的相似性而存在时间冗余。在MPEG-2中存在3种主要的帧类型:I帧、P帧和B帧。在I帧中,所有宏块都被帧内编码(intra-code),这意味着所有宏块的经过量化的DCT系数都被传送。在P帧中,宏块可以被帧内编码、被前向预测或者被跳过,这取决于该宏块关于先前帧的改变程度。类似地,B帧宏块可以被帧内编码、被跳过、被前向预测、被后向预测或者被双向预测。

每个前向预测过的宏块都得自运动矢量(MV)所指向的先前参考帧(I或P帧)的宏块和估计误差。也就是说,取代传送所述宏块的DCT系数,指向该宏块的先前位置的运动矢量与这个预测的估计误差一起被提供。这样,先前参考帧的DCT系数信息被用来导出当前的宏块信息。按照相同的方式,后向预测过的宏块包括指向该宏块在下一个参考帧中的位置的运动矢量。

双向预测过的宏块包含两个运动矢量,其中一个运动矢量来自先前参考帧,而另外一个运动矢量来自下一参考帧。

在所述压缩过程期间,通过把每个宏块与所述先前参考帧和/或下一参考帧中的一些或所有其它宏块进行比较来计算所述运动矢量。可以通过几种方式来获得运动矢量。

最常见的方法是帧间混合编码。利用这种方法,于空间域内在运动估计器中获得运动矢量,也就是说利用未压缩的视频信息来获得运动矢量。随后将对所述运动矢量进行差分编码:每个所传送的运动矢量代表关于先前传送的运动矢量的差。最后,经过运动补偿的预测器获得基于运动矢量的重建与原始帧之间的差。为此目的,必须对所述已编码的DCT系数进行逆量化和逆变换。对差分误差进行VLC编码并且与所述运动矢量和标志一起发送,其中该标志表明是否存在这样的误差信息。MPEG-2既可以应对逐行视频(Progrssive video)也可以应对隔行视频。

画面或帧被组织成画面组(GOP)。GOP是一个I帧以及零个或更多个P和B帧的组合,其通常(但是也不一定)在整个视频序列期间周期性地重复。GOP至少包含一个也仅仅包含一个I帧,其位于该GOP的开头。

在压缩视频格式中,例如在MPEG-2中,很难提取出平均亮度,这是因为所述DCT系数只有在I帧中而不是在P和B帧中完全可用。

因此,需要有一种改进的方法和设备以用于在压缩域内提取出平均亮度方差。

发明内容

这一目的是通过以下方法和设备来解决的:

一种用于从帧间编码帧中提取出平均亮度值的方法,其中所述帧间编码帧是视频帧序列的部分,所述方法包括:

基于围绕所述序列的参考帧中的参考块的各帧内编码宏块的DC系数来对所述帧间编码帧的各宏块的DC系数进行近似,其中所述帧间编码帧的各宏块的运动矢量指向所述参考块;

基于被近似的DC系数来计算所述平均亮度值。

一种用于从帧间编码帧中提取出平均亮度值的设备,其中所述帧间编码帧是视频帧序列的部分,所述设备包括:

近似单元,其被配置成基于围绕序列的参考帧中的参考块的各帧内编码宏块的DC系数来对所述帧间编码帧的各宏块的DC系数进行近似,其中所述帧间编码帧的各宏块的运动矢量指向所述参考块;以及

计算器,其被配置成基于被近似的DC系数来计算所述平均亮度值。

一种计算机程序产品,其包括使得计算机执行一种用于从帧间编码帧中提取出平均亮度值的方法的计算机程序指令,其中所述帧间编码帧是视频帧序列的部分,所述方法包括:

基于围绕序列的参考帧中的参考块的各帧内编码宏块的DC系数来对所述帧间编码帧的各宏块的DC系数进行近似,其中所述帧间编码帧的各宏块的运动矢量指向所述参考块;

基于被近似的DC系数来计算所述平均亮度值。

通过考虑附图和后面的描述,本发明的其它细节将变得显而易见。

附图说明

附图旨在提供对各实施例的进一步了解,并且被合并在本说明书中而且构成本说明书的一部分。附图图示了各实施例,并且与描述一起用来解释各实施例的原理。参照后面的详细描述可以很容易设想到其它实施例以及各实施例的多个预定优点。附图的各要素不一定是相对于彼此按比例绘制的。相同的附图标记指代相应的类似部件。

图1示出了根据本发明的实施例的方法的示意性流程图。

图2示意性地示出了根据本发明的另一实施例的设备。

图3示出了根据本发明的另一实施例的方法的示意性流程图。

图4示意性地示出了根据本发明的另一实施例的设备。

图5示意性地示出了根据本发明的另一实施例的DC系数近似。

图6示意性地示出了根据本发明的另一实施例的DC系数近似。

图7示意性地示出了根据本发明的另一实施例的平均亮度值提取的结果。

图8a示意性地示出了根据本发明的另一实施例的没有经过预处理的平均亮度值提取的结果。

图8b示意性地示出了根据本发明的另一实施例的经过预处理的平均亮度值提取的结果。

图9a示意性地示出了根据本发明的另一实施例的没有经过预处理的平均亮度值提取的结果。

图9b示意性地示出了根据本发明的另一实施例的经过预处理的平均亮度值提取的结果。

具体实施方式

下面将描述本发明的各实施例。很重要的是应当注意到:可以按照任意方式来组合下面所描述的所有实施例,也就是说并没有关于所描述的特定实施例不可与其它实施例组合的限制。此外还应当注意到:各图中相同的附图标记指代相同的或类似的元件。

应当理解的是,还可以利用其它实施例,并且在不偏离本发明的范围的情况下可以做出结构上的或逻辑上的改变。因此,下面的详细描述不应被视为限制性的,而是本发明的范围由所附权利要求书限定。

还应当理解的是,除非另行声明,这里所描述的各实施例的特征可以彼此组合。

在图1中描绘了一种用于从帧间编码帧中提取出平均亮度值的方法。在S100中,基于视频帧序列的帧内编码帧的各宏块的DC系数对于所述帧间编码帧的各宏块的DC系数进行近似。基于围绕所述序列的参考帧中的参考块的各帧内编码宏块的DC系数来对所述帧间编码帧的各宏块的DC系数进行近似,其中所述帧间编码帧的各宏块的运动矢量指向所述参考块。

所述DC系数是最低频系数。但是,获得对剩余DCT系数的近似的过程是类似的。此外,所述算法将在子块级别上工作。每个宏块包括4个这种亮度子块,其中每个亮度子块包括8x8个DCT系数。第一系数是最低频分量或DC系数。每个子块将被分配与其所属的宏块相同的宏块类型。除了场宏块(field macro-block)的情况之外,每个子块将被分配其相应宏块的运动矢量。所述运动矢量包括(x,y)对,其代表关于当前子块位置的水平位移和垂直位移。

DC系数近似的总体过程可以分成两个部分。首先,根据帧类型、宏块类型和运动矢量,必须定位参考区域以及多达4个周围子块。随后,将根据这些周围子块当中的一个或几个来对当前预测的DC系数进行近似。对于每个将要预测的宏块重复这一过程。

对于每个子块,如下确定各相对应的参考子块的位置。

如果已解码的帧为P类型,则根据宏块类型,下列情况适用:

-前向预测:运动矢量指向先前参考帧中的参考区域

-跳过:运动矢量为零并且指向先前参考帧中的参考区域

如果已解码的帧为B类型,则根据宏块类型,下列情况适用:

-前向预测:运动矢量指向先前参考帧中的参考区域

-后向预测:运动矢量指向下一参考帧中的参考区域

-双向预测:传送两对运动矢量,其中一对指向先前参考帧,另而一对指向下一参考帧的参考区域

-跳过:运动矢量和宏块类型与先前计算的未跳过的子块完全相同。在从相应的先前未跳过的子块中拷贝了运动矢量和宏块类型信息之后,前面的其中一种情况应当适用。

针对取决于连续帧中的改变的其它压缩域视频特征(比如亮度直方图差、镜头边界检测、边缘改变比等等)也可以应用这种数据近似。其仅仅为P帧和B帧提供使得能够也从中获得特征的缺失信息。

在S102中,基于S100的被近似的DC系数来计算平均亮度值。

在图2中描绘了用于从帧间编码帧中提取出所述平均亮度值的设备200,其中,所述帧间编码帧是视频帧序列的部分。所述设备200包括近似单元202,其被配置成基于所述序列的帧内编码帧的各宏块的DC系数对于所述帧间编码帧的各宏块的DC系数进行近似。所述设备还包括计算器,其被配置成基于所述被近似的DC系数来计算所述平均亮度值。

在图3中描绘了另一种方法的流程图。在S300中,基于帧内编码帧的各宏块的DC系数来计算该帧内编码帧的平均亮度值,而在S302中,计算所述序列的各帧间编码帧以及各帧内编码帧的平均亮度值的方差。

所提出的这种方法从压缩过的视频数据中直接提取出平均亮度方差,并且因此该方法并不需要进行完全视频解码。此外,这种方法利用了在编码器侧获得的DC系数。所述DC系数是8x8亮度像素块的平均值的经过缩放的版本。因此,与传统方法相比,可以更快地获得帧的平均亮度。

关于可替换的视频亮度特征的另一优点在于:上述方法确实提供关于在时间上滑动的窗内的所有帧的前后关系(contextual)信息。此外还有可能使用居中的在时间上滑动的窗,即考虑到未来和过去的相同数目的帧的围绕当前帧的窗口。对于许多应用来说,针对单独的帧,亮度在特定时间段内的变化比起亮度的值要重要得多。

在图4中描绘了包括剪切单元402的另一种示意性设备400,所述剪切单元402被配置成在所述近似单元202中对DC系数进行近似之前剪切出所述帧的边界。在剪切所述边界时可以得到两方面的正面效果:

1)避免了可能的边界效应。已经观察到,许多文件或帧在帧的最外部具有与原始帧并不相对应的残留条带。由于其尺寸很小,因此所述条带并不会对平均亮度造成很大影响,但是会对如单色帧检测之类的其它特征造成很大影响。

2)平均亮度值与信箱模式(letterbox)的存在无关。如果没有剪切信箱模式,则具有信箱模式的视频序列将呈现出较低的平均亮度。这就增大了该特征与信箱模式检测特征之间的相关性。为了提供良好的性能,各特征应当与分类(在本情况下是广告片段)高度相关,而在其之间则应当无关。

可以通过一种“最近子块选择”方法来计算帧间编码帧的宏块的DC系数,下面将参照图5更加详细地解释这种方法。举例来说,有可能确定属于所述帧间编码帧的参考帧的块。该块与所述宏块的参考块具有最大的重叠。随后基于该块或所述参考帧的DC系数来确定所述宏块的DC系数。

基于当前子块(SBCur)位置和运动矢量(MV),选择出与所述参考区域最近的子块,并且将其DC系数拷贝在SBCur中。这种方法的优点在于快速,这是因为只需要进行很少的计算。

在图6中描绘了另一种对DC系数进行近似的方法,其也被称作“加权和”。

利用这种“加权和”方法,通过围绕原始参考区域的多达4个子块的DC系数的加权和来对当前子块(SBCur)的DC系数进行近似:

DC(SBCur)=Σi=14wi·DC(SBi)+DCErr---(1)

其中,权重wi代表每个子块的SBi面积与所述参考子块区域重叠的小部分,而DCErr代表所传送的已编码误差DC系数。一般来说,这种方法代表了在均方误差(MSE)方面的良好近似。但是,这并不意味着其对于后来的视频特征提取来说是更好的。对于所述单色帧检测而言尤其是这种情况,这是因为通过考虑所有宏块而引入的误差即使其与所述参考区域间隔非常远,也仍然可能会导致所重建宏块的DC值不同于预期情况。此外,这种近似方法还有要求很高计算能力的缺点。为了对每个子块进行近似,首先必须计算相应的重叠面积,随后必须建立所述加权和。与此相比,所述最近子块选择方法仅仅需要对于每个运动矢量分量执行取整除法(round division)来找到所选的子块,随后只是拷贝DC系数。

在空间域内,帧的平均亮度是每个像素的亮度强度的平均值。在压缩域内,可以从各亮度子块的DCT系数获得一种等效计算。平均亮度给出对于由观众所感知到的帧强度的估计。由于TV广播中的视频内容的高度多样性,在亮度强度与所显示的内容种类之间没有直接关系。但是一般来说,纪录片、电影和系列所呈现出的亮度强度比新闻、演出或广告要低。在广告块中既可以找到试图引起观看者注意的具有高亮度的短剧,也可以找到在暗背景上显示出品牌名称或符号的具有非常低的亮度分布的短剧。

正如将要证明的那样,压缩域内的平均亮度可以从最低频DCT系数来计算。在空间域内则如下计算平均亮度。令p(x,y)是空间域内的帧k的(Nx x Ny)亮度像素值的其中之一,其中x属于{0,...,Nx-1},y属于{0,...,Ny-1},则平均亮度如下:

λspatial(k)=1NxNyΣx=0Nx-1Σy=0Ny-1p(x,y)---(2)

例如对于具有N=8x8个像素的子块如下定义DCT变换F(u,v):

F(u,v)=2K(u)K(v)8Σx=07Σy=07f(x,y)cosπu(2x+1)16cosπv(2y+1)16---(3)

其中,u、v、x和y属于{0,1,...,N-1},(x,y)是样本域内的空间坐标,(u,v)是变换域内的坐标,并且有下式:

从这一定义可以导出如下式中所示的特定子块fu,v(i,j)(i属于{0,...,7}而j属于{0,...,7})的最低频DCT系数或DC系数cu,v(0,0),其中u属于{0,...,Nx/8-1},而v属于{0,...,Ny/8-1}:

cu,v(0,0)=18Σi=07Σj=07fu,v(i,j)---(5)

帧k的所有DC系数的平均值如下式:

λcomp(k)=1Nx8Ny8Σu=0Nx8-1Σv=0Ny8-1cu,v(0,0)---(6)

组合全部两个等式则得到下式:

λcomp(k)=1Nx8Ny8Σu=0Nx8-1Σv=0Ny8-1(18Σi=07Σj=07fu,v(i,j))=

=8NxNyΣx=0Nx-1Σy=0Ny-1p(x,y)=8λspatial(k)---(7)

正如从该等式(7)中所导出的那样,特定帧的DC系数的平均值仅仅是空间域内的平均亮度的经过缩放的版本。I帧的DC系数从比特流中直接获得,而P帧和B帧的DC系数则根据所述最近子块选择近似方法获得。图7示出了压缩域内的平均亮度特征的一个实例。孤立的黑色帧由于其非常低的平均亮度而很容易可以被识别出。闪光则得到具有非常高亮度的帧。

对于一些数字视频处理应用来说,各帧在特定时间段内的亮度变化是关于视频中正在发生的内容的良好指标。视频监控摄影机可以在具有恒定亮度的视频(没有活动)与其中某人正走过摄影机前方的视频(从而将产生帧平均亮度中的方差)之间进行区分。例如对于广告检测任务来说,已经知道在广告块期间,背景和内容从一点到下一点完全改变,平均亮度也是如此。这在通常的节目中并不常发生,在通常的节目中,背景和内容在较长时间段期间保持相似。

未经处理的平均亮度对于每一帧给出亮度DC系数的平均值。为了聚集这一特征的前后关系信息以便提供具有更高抽象级别的特征(中级特征),可以执行预处理步骤,这样可以更好地帮助所监控的学习算法执行其任务。取代单独地考虑每一帧,所述经过预处理的特征考虑特定时间间隔内的各周围帧特性。

针对上述目的已经检验了两种不同方法。

1)滑动窗内的平均亮度的平均值

已经知道,广告帧并不单独出现,而是以帧序列的形式出现,因此与单独考虑帧的亮度的情况相比,特定窗口内的所有帧的亮度平均值可以给出更多信息。所述求平均是在以当前所处理的特征位置为中心的滑动窗内进行的,在边界处(文件的开头和末尾)则不是这样,在边界处所述窗口在靠近所述边界的一侧逐渐减小。令wsize为所述窗口的尺寸(奇数),为帧k的平均亮度,而M为该视频文件的帧总数。则对于8x8像素块尺寸,平均亮度的平均值为下式:

其中

wh=wsize-12---(9)

同图8a中的未经处理的平均亮度特征相比,图8b示出了经过求平均之后的平均亮度。

2)滑动窗内的平均亮度的方差

平均亮度的方差(MLV)代表所述平均亮度特征在特定的居中滑动窗内的变化。令M、wsize、wh和代表帧的平均亮度,则对于8x8像素块尺寸有下式:

图9示出了图9a中的未经处理的平均亮度特征与图9b中的经过预处理的平均亮度方差之间的比较。

帧平均亮度是一种重要的视频特性,其代表在帧内所包含的亮度的总量。但是对于许多应用来说,帧的具体平均亮度(paricular meanluminance)没有这一亮度在特定时间段内的变化那么重要。所提出的MLV代表一种视频特性(帧平均亮度)在特定时间间隔内的变化。所述MLV特征可以从压缩数字视频比特流中所包含的信息直接获得。该方法已经被应用于MPEG-2压缩视频,但是其也可以被应用于利用了频域变换(比如离散余弦变换或小波变换)的任何其它数字视频压缩标准。

所述帧平均亮度的计算是利用帧内的每个子块的最低亮度DC系数来进行的。该最低亮度系数(或亮度DC系数)代表相应的子块内的所有亮度像素的(经过缩放的)平均值。但是,所述DC系数仅仅对于I帧完全可用。在压缩视频比特流中还有交织在一种被称作画面组(GOP)的重复结构中的B帧和P帧。这一组帧包括至少一个I帧以及可变数目的交织的P帧和B帧。P帧和B帧通常被运动补偿,并且因此,其各子块的DC系数一般来说不可用。这会把对所述帧平均亮度的提取仅限于I帧。为了克服这一问题,还提出一种基于运动补偿的快速DC系数近似方法。

对所述MLV的提取可以分为三步:

a)基于可用的I帧DC系数和运动矢量获得P帧和B帧的各宏块的DC系数的近似。这被称作通过运动补偿(MC)的DC近似。

b)仅仅基于I帧的原始DC系数以及在P帧和B帧的被近似的DC系数中来计算所述帧平均亮度。

c)计算先前提取的帧平均亮度在居中滑动的窗内的方差。

提出了一种用于在压缩域内提取帧平均亮度方差(MLV)视频特征的方法和设备。帧平均亮度是一种重要的视频特性,其代表在帧内所包含的亮度的总量。但是对于许多应用来说,帧的具体平均亮度没有这个亮度在特定时间段内的变化那么重要。所提出的MLV代表视频特性(帧平均亮度)在特定时间间隔(居中滑动的窗)内的变化。所述MLV特征可以从压缩数字视频比特流中所包含的信息直接获得。为此目的,对P帧和B帧的DC系数进行近似。该方法已经被应用于MPEG-2压缩视频,但是其也可以被应用于利用了频域变换(比如离散余弦变换或小波变换)的任何其它数字视频压缩标准。

虽然在这里图示并描述了具体实施例,但是本领域技术人员应当认识到,在不偏离所述实施例的范围的情况下,可以用许多替换和/或等效实现方式来替代所示出并描述的具体实施例。本申请意图包含这里所讨论的具体实施例的任何适配或变型。因此,本发明的范围仅由权利要求书及其等效表述限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号