首页> 中国专利> 一种基于多级感兴趣区域的多视点视频编码方法

一种基于多级感兴趣区域的多视点视频编码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于多级感兴趣区域的多视点视频编码方法，包括以下步骤：对深度图进行基于宏块的深度显著性计算，获得深度显著性值SMB；基于所述深度显著性值SMB、多级感兴趣区域的分割标准计算分割阈值；通过所述分割阈值对多视点视频进行分割，获取感兴趣级别不同的多个视频区域；根据感兴趣级别SL调整量化参数QP，通过调整后的量化参数对多个视频区域分别进行编码，得到重建视频。本方法在保证重建视频的整体质量的前提下降低了码率，提高了多视点视频的编码效率。

著录项

公开/公告号CN103179405A

专利类型发明专利
公开/公告日2013-06-26

原文格式PDF
申请/专利权人天津大学;
展开▼

申请/专利号CN201310099999.5
发明设计人雷建军;吴媺民;侯春萍;冯坤;胡春悦;李帅;
展开▼

申请日2013-03-26
分类号H04N7/26(20060101);H04N13/00(20060101);H04N15/00(20060101);
代理机构12201 天津市北洋有限责任专利代理事务所;
代理人温国林
地址 300072 天津市南开区卫津路92号
入库时间 2024-02-19 19:37:31

法律信息

法律状态公告日

法律状态信息

法律状态
2016-02-24

授权

授权
2013-07-24

实质审查的生效 IPC(主分类):H04N7/26 申请日:20130326

实质审查的生效
2013-06-26

公开

公开

说明书

技术领域

本发明涉及多视点视频编码领域，特别涉及一种基于多级感兴趣区域的多视点视频编码方法。

背景技术

随着3D技术的迅速崛起与快速发展，多视点视频由于其生动丰富的视觉体验，吸引了越来越多的注意力，并成为下一代多媒体系统的关键技术之一，这些应用包括自由视点电视（FTV）和三维立体电视（3DTV）等。多视点视频是指由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号，是 3D视频的一种有效表示方法。而随着相机数目的增加，多视点视频的海量数据已成为制约其广泛应用的一个瓶颈。为此，国际电信联盟远程通信标准化组织（ITU-T）和动态图像专家组（MPEG）组成的联合视频工作组（JVT）提出了多视点视频编码（MVC）的概念来有效处理多视点视频。目前MVC标准以 H.264/AVC视频编码标准补篇的形式出现，并兼容H.264/AVC标准。这确保了 MVC标准技术的先进性以及应用实施的可行性。

现存的MVC方法主要是在数字信号处理理论和香农信息论的基础上通过减少时间和视点间的冗余来提高率失真性能，但是忽略了人类视觉系统（HVS）对视频场景感知的多样性。尽管HVS的神经资源有限，但依然能够实时分析复杂场景，因为HVS可以将部分输入场景选择为“显著区域”。因此，如何结合 HVS的视觉感知特性来提高编码效率，具有非常重要的理论意义和实用价值。基于视觉注意的MVC编码方法可以根据视频内容的不同有效改善比特率的分布，并且能够在不影响视频质量主观评价的前提下提高编码效率。

大量的人类视觉生理学和心理学研究结果表明，人眼对视频图像中的不同内容并非一视同仁，而是表现出选择性和迁移性。人眼会下意识地将一幅图像分为若干个不同的区域，并将注意力集中在人眼感兴趣区域（ROI）。如果感兴趣区域的数目多于一个，注意力在这些区域会有一个转移的过程，即注意力首先集中在最感兴趣区域，一段之间之后再转移到次感兴趣区域，依此类推。人类视觉的这种特性对图像观察者理解图像内容和评价图像质量起着至关重要的作用。利用视觉显著性模型来计算图像中的感兴趣区域，并将其表示为显著性图，这是得到视觉注意区域的一种有效方式。

为了基于视觉显著性实现MVC比特分配优化，首先需要得到准确的ROI。大多数ROI检测方法都是针对一个具体对象，通过建立显著性模型来决定ROI。传统ROI提取方法将一帧划分为两部分：ROI和非ROI，而这两者之间的视频质量的巨大差别会导致重建帧图像不平滑。目前研究者提出了一些基于多级 ROI的视频编码的方法：Zhou[1]等提出了一种多级ROI模型，该模型由眼鼻中心区域、脸部轮廓区域，边缘区域和背景区域组成，然后将视频场景分为感兴趣程度不同的区域。Kim[2]和Lee[3]等将屏幕的中心区域设定为优先权最高的主要ROI，其他区域根据其与主要ROI的距离来成比例地分配优先性。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

上述方法应用在背景简单、对象单一的视频场景时取得了较好的效果；当应用在复杂的视频场景时，提取到的ROI不准确，进而导致视频编码质量较差、整体编码效率较低。

发明内容

本发明提供了一种基于多级感兴趣区域的多视点视频编码方法，本方法通过多级ROI分割，提高了视频编码的效率和质量，详见下文描述：

一种基于多级感兴趣区域的多视点视频编码方法，所述方法包括以下步骤：

（1）对深度图进行基于宏块的深度显著性计算，获得深度显著性值S_MB；

（2）基于所述深度显著性值S_MB、多级感兴趣区域的分割标准计算分割阈值；

（3）通过所述分割阈值对多视点视频进行分割，获取感兴趣级别不同的多个视频区域；

（4）根据感兴趣级别S_L调整量化参数QP，通过调整后的量化参数对多个视频区域分别进行编码，得到重建视频。

所述对深度图进行基于宏块的深度显著性计算，获得深度显著性值S_MB具体为：

$S_{MB} = \frac{1}{16 \times 16} Σ_{x = 1}^{16} Σ_{y = 1}^{16} d (x, y)$

其中，d(x,y)是当前编码宏块中像素(x,y)的深度值，x和y分别是像素的水平和垂直坐标。

所述基于所述深度显著性值S_MB、多级感兴趣区域的分割标准计算分割阈值的步骤具体包括：

1）基于深度显著性值S_MB计算深度显著性值分布p(s)；

2）通过分析宏块深度显著性值的分布p(s)和多级感兴趣区域的分割标准为各级感兴趣区域确定阈值T_k；

3）通过各级感兴趣区域确定阈值T_k获取最感兴趣区域、多个延展感兴趣区域和背景区域。

所述多级感兴趣区域的分割标准具体为：

分割多级区域以对象为原则，保证一个对象主体包含在感兴趣级别相同的区域。

各级感兴趣区域的阈值T_k具体为：

$T_{k} = \max_{x \in {R_{i} | i = 0,1, . . ., n - 1}} {x | P (x) > Σ δ_{k}}, k = 1,2 . . ., K - 1$

P(x)是p(s)的累积分布函数；R_i是p(s)的二阶差分取最大值时所对应的s值； n代表了p(s)极大值的总数目；δ_k是常数；K是划分级数的总数。

宏块的感兴趣级别S_L判断公式如下：

$S_{L} = (\begin{matrix} 1 & if S_{MB} > T_{1} \\ . . . & . . . \\ k & if T_{k} < S_{MB} < T_{k - 1} \\ K & if S_{MB} < T_{K - 1} \end{matrix})$

其中，T₁，T_k-1，...，T_K-1分别为当视频序列被分为K个级别时所计算得到的各级感兴趣区域的分割阈值。

所述根据感兴趣级别S_L调整量化参数QP的步骤具体为：

$QP = (\begin{matrix} {QP}^{h} & S_{L} = 1 \\ {QP}^{h} + (S_{L} - 1) \times ΔQP & S_{L} \geq 2 \end{matrix})$

${QP}^{h} = (\begin{matrix} bQP + 3, & ifh = 1 \\ {QP}^{h - 1} + 1, & ifh > 1 \end{matrix})$

bQP是基础量化参数；h是分层B帧的分层等级；ΔQP是相邻感兴趣级别之间的量化参数差值。

本发明提供的技术方案的有益效果是：本方法提出的基于宏块深度显著性的多级ROI提取和比特分配优化方法能够更有效地满足人眼视觉要求。既可以通过多视点视频的深度信息，较为便捷地获得精确可靠的多级ROI；又能在对应的比特优化分配策略的配合下，提高视频ROI与边界的平滑性，在保证重建视频的整体质量的前提下降低码率，提高多视点视频的编码效率。

附图说明

图1给出了视频序列Ballet第0个视点第一帧的多级ROI分割结果；

图2给出了视频序列Ballet和Breakdancers采用JMVC原始编码方法与本方法在不同QP的情况下，第0个视点重建ROI的率失真对比结果；

图3给出了视频序列Ballet和Breakdancers采用JMVC原始编码方法与本方法在不同QP的情况下，八个视点重建视频的平均率失真对比结果；

图4为一种基于多级感兴趣区域的多视点视频编码方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了提高视频编码的效率和质量，本发明实施例提供了一种基于多级感兴趣区域的多视点视频编码方法，将多视点视频有效分割为多级ROI，然后给出了基于多级ROI分割结果进行量化参数调整、进而实现编码比特优化分配的策略，参见图4，详见下文描述：

101：对深度图进行基于宏块的深度显著性计算，获得深度显著性值S_MB；

深度图是由深度照相机捕获或者通过立体匹配计算得到的8比特灰度图。深度图中的每个像素代表了视频对象和相机之间的相对距离。深度图像的特征与纹理图像有较大的区别：首先，一个对象的深度值通常不会有剧烈的变化；其次，深度值在边界区域是不连续的。多视点视频具有深度信息，而且深度信息十分接近于语义信息，有利于视频对象检测。人们通常对视频场景中凸现的区域更加感兴趣，感兴趣程度会随着区域远离而下降，也即视频区域的深度值越大，人们对该区域越感兴趣。因此，本方法采用深度值来划分视频场景中区域的重要级别，对深度图进行基于宏块的深度显著性计算，获得深度显著性值S_MB。

S_MB定义为每个宏块的平均深度值，即

$S_{MB} = \frac{1}{16 \times 16} Σ_{x = 1}^{16} Σ_{y = 1}^{16} d (x, y)$

其中，d(x,y)是当前编码宏块中像素(x,y)的深度值，x和y分别是像素的水平和垂直坐标。

102：基于深度显著性值S_MB、多级感兴趣区域的分割标准计算分割阈值；

其中，该步骤具体包括：

1）通过深度显著性值S_MB获取每个宏块的深度显著性值分布p(s)；

其中，每个宏块的深度显著性值分布p(s)由以下公式决定：

$p (s) = H_{a} (s) \frac{16 \times 16}{M \times N}$

其中，M×N是视频图像的大小；a是采样区间大小；是采样后的深度显著性值；H_a(s)是采样区间大小为a时宏块深度显著性值的直方图。

2）多级感兴趣区域的分割标准；

在本方法中采用了深度显著性值分布p(s)来实现多级ROI的分割，分割多级区域以对象（例如：人、物体等）为原则，保证一个对象的主体包含在感兴趣级别相同的区域。场景中最前方的对象包含在最感兴趣区域内。分割结果为：最感兴趣区域、多个延展感兴趣区域和背景区域，该些区域的具体定义为本领域技术人员所公知，本发明实施例在此不做赘述。

3）通过分析宏块深度显著性值的分布p(s)和多级感兴趣区域的分割标准来为各级ROI确定合适的阈值T_k；

候选范围定义为：

$R_{i} = \underset{s \in [m_{i}, m_{i + 1}]}{\arg \max} {p (s + 2) - 2 p (s + 1) + p (s)}, i = 0,1, . . ., n - 1$

其中，m_i和m_i+1是p(s)的两个极大值；p(s+2)-2p(s+1)+p(s)是p(s)的二阶差分；R_i是p(s)的二阶差分取最大值时所对应的s值；n代表了p(s)极大值的总数目。

当一个视频序列被划分为多级ROI时，分配到每一级的宏块数目取决于划分级数的总数K，K为一个正整数。为了保证视频中场景最前方的对象包含在最感兴趣区域，且一个对象的主体部分是在同一感兴趣级别，假定为每一层感兴趣区域级别至少分配δ_k%的宏块，由此，可以计算得到多级ROI的分割阈值：

$T_{k} = \max_{x \in {R_{i} | i = 0,1, . . ., n - 1}} {x | P (x) > Σ δ_{k}}, k = 1,2 . . ., K - 1$

其中，P(x)是p(s)的累积分布函数，定义为：

$P (x) = Σ_{s = x}^{s = 255} p (s)$

103：通过分割阈值对多视点视频进行分割，获取感兴趣级别不同的多个视频区域；

宏块的感兴趣级别S_L判断公式如下：

$S_{L} = (\begin{matrix} 1 & if S_{MB} > T_{1} \\ . . . & . . . \\ k & if T_{k} < S_{MB} < T_{k - 1} \\ K & if S_{MB} < T_{K - 1} \end{matrix})$

其中，T₁，T_k-1，...，T_K-1分别为当视频序列被分为K个级别时所计算得到的各级ROI的分割阈值。

104：根据感兴趣级别S_L调整量化参数QP，通过调整后的量化参数对多个视频区域分别进行编码，得到重建视频。

MVC充分利用了每个视点的时间冗余和相邻视点间的视点间冗余，考虑到多视点视频的海量数据，通过对一些不易察觉的视频质量做出妥协能进一步提高压缩效率，这可以通过调整量化参数QP来实现。较小的QP值可以更加精确地接近块的空间频谱，从而较好地保持图像质量，但是要以消耗更多的比特为代价。较大的QP值使得空间细节累积，于是所耗比特下降，但是失真和质量损失会增加。

在编码过程中，传统多视点视频编码方法不考虑人眼对不同区域、不同深度的感知差异特性，采用全局性量化参数。基于ROI的多视点视频编码中一个待解决的问题就是怎样在保持重建视频图像质量的前提下通过调整QP来优化比特分配。在本方法中，为最感兴趣区域分配最小的QP值；延展ROI和背景区域的QP值随着感兴趣级别S_L的增加而增加。假定JMVC（MVC参考软件）中基础量化参数为bQP，那么不同时间层的QP值由下式决定：

${QP}^{h} = (\begin{matrix} bQP + 3, & ifh = 1 \\ {QP}^{h - 1} + 1, & ifh > 1 \end{matrix})$

其中h是分层B帧的分层等级，在此基础上，不同等级的多个ROI区域的 QP值可以由下式得到：

$QP = (\begin{matrix} {QP}^{h} & S_{L} = 1 \\ {QP}^{h} + (S_{L} - 1) \times ΔQP & S_{L} \geq 2 \end{matrix})$

其中ΔQP是相邻感兴趣级别之间的量化参数差值，是一个正数。视频压缩率和感知质量会随着ΔQP值的变化而变化。ROI区域的QP值与JMVC相比保持不变，由此可以保证ROI的重建视频质量。

在本方法中编码最终采用的QP值QP_MVC进一步限定为：

QP_MVC=min{51,QP}

下面以一个实验来验证本发明实施例提供的一种基于多级感兴趣区域的多视点视频编码方法的可行性，详见下文描述：

首先采用微软研究院（MSR）提供的Ballet序列进行多级ROI提取实验。图1 是使用本方法对Ballet序列第0个视点第一帧的多级ROI区域分割结果。其中要求最感兴趣区域分配的宏块至少为宏块总数的10%，其他感兴趣区域至少分配 20%。（a）为S_L=1的最感兴趣区域；（b）为最感兴趣区域与S_L=2的延展感兴趣区域；（c）为最感兴趣区域与S_L=2、S_L=3的延展感兴趣区域；（d）为最感兴趣区域与S_L=2、S_L=3、S_L=4的延展感兴趣区域。实验表明本专利中提出的多级ROI分割方法有效、可行。

为使本发明实施例的效果具有可比性，进一步进行多视点视频编码对比实验。实验基于JMVC8.5多视点视频编码参考软件，选取MSR提供的2组多视点视频序列Ballet和Breakdancers进行实验。测试序列每个视点包含56帧，图像组（GOP）长度设为8，实验中在本方法的基础上将各视频序列分割为3级感兴趣级别不同的区域。

在实验中，设置bQP为{12,15,18,21,24,27,30,33}。考虑到ΔQP较大会节省更多比特，但是会导致严重的质量差异。为了保证质量下降和比特节省之间的平衡，设置ΔQP为2。相邻宏块之间的QP变化不宜过大，实验中相邻宏块之间QP的差异最大允许值设为3。这里，ROI区域（包括延展ROI）的编码性能采用峰值信噪比（PSNR）进行评价，整体编码性能采用Engelke等人提出的区域选择性客观图像质量评价标准预测平均意见得分峰值信噪比（PMOS_PSNR）进行评价。

图2给出了JMVC原始编码方法和本方法中各测试序列第0视点ROI区域的率失真曲线图，该失真采用PSNR度量，其中（a）为Ballet序列；（b）为Breakdancers 序列。由图可见，本方法可以在与JMVC保持码率一致的情况下，大幅度提高最感兴趣区域和延展感兴趣区域的图像质量。同时由于人们对背景区域不甚关注，背景的质量下降并不容易被观看者察觉，这样就可以保证视频质量的一致性。

图3给出了JMVC原始编码方法和本方法中测试序列Ballet和Breakdancers的率失真曲线，该失真是由测试序列八个视点的PMOS_PSNR平均值来度量，其中，（a）为Ballet序列；（b）为Breakdancers序列。可以看到在高码率的情况下，本方法优于JMVC，且在低码率时性能与JMVC保持一致。在码率大于2000kbps时，本方法能够实现非常有效的编码增益。

综上所述，本方法提出的基于宏块深度显著性的多级ROI提取和比特分配优化方法能够更有效地满足人眼视觉要求。既可以通过多视点视频的深度信息，较为便捷地获得精确可靠的多级ROI；又能在对应的比特优化分配策略的配合下，提高视频ROI与边界的平滑性，在保证重建视频的整体质量的前提下降低码率，提高多视点视频的编码效率。

参考文献

[1]Q.Zhou,J.Liu,Z.Guo,A multilevel region-of-interest based rate control scheme for video communication,Proceedings of SPIE7498(2009) 74984W-1-74984W-8.

[2]C.Kim,T.Na,J.Lim,Y.Joo,K.Kim,J.Byun,M.Kim,An ROI/xROI based rate control algorithm in H.264/AVC for video telephony applications,Lecture Notes in Computer Science5414(2009)1010-1021.

[3]J.H.Lee,C.Yoo,Scalable ROI algorithm for H.264/SVC-based video streaming,IEEE Transactions on Consumer Electronics57(2)(2011)882-887.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多级感兴趣区域的多视点视频编码方法 [P] . 中国专利： CN103179405B . 2016.02.24
2. 一种自由视点视频深度图感兴趣区域编码方法 [P] . 中国专利： CN108513131B . 2020.10.20
3. Motion vector estimation method, multi-view video encoding method, multi-view video decoding method, motion vector estimation device, multi-view video encoding device, multi-view video decoding device, motion vector estimation program, multi-view video encoding program, and multi Viewpoint video decoding program [P] . 日本专利： JPWO2011105297A1 . 2013-06-20

机译：运动矢量估计方法，多视点视频编码方法，多视点视频解码方法，运动矢量估计设备，多视点视频编码设备，多视点视频解码设备，运动矢量估计程序，多视点视频编码程序，和多视点视频解码程序
4. Motion vector estimation method, multi-view video encoding method, multi-view video decoding method, motion vector estimation device, multi-view video encoding device, multi-view video decoding device, motion vector estimation program, multi-view video encoding program, and multi Viewpoint video decoding program [P] . 日本专利： JP5237500B2 . 2013-07-17

机译：运动矢量估计方法，多视点视频编码方法，多视点视频解码方法，运动矢量估计设备，多视点视频编码设备，多视点视频解码设备，运动矢量估计程序，多视点视频编码程序，和多视点视频解码程序
5. Coding method of video multiple visions, method for video decoding of multiple visions, apparatus of video encoding of multiple views, video decoding apparatus, and program for multiple views. [P] . BR112012020993A2 . 2016-05-03

机译：视频多视点的编码方法，用于多视点的视频解码的方法，多视点的视频编码设备，视频解码设备以及用于多视点的程序。