首页> 中国专利> 基于恰可识别视差错误估计的三维视频深度图编码方法

基于恰可识别视差错误估计的三维视频深度图编码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于恰可识别视差错误估计的三维视频深度图编码方法，包括以下步骤；（1）输入一帧三维视频深度图以及对应的纹理图像；（2）合成虚拟视点的纹理图像；（3）计算所述虚拟视点的纹理图像的恰可识别误差图；（4）计算三维视频深度图的恰可识别视差错误的范围；（5）进行三维视频深度图的帧内和帧间预测，选择三维视频深度图的预测残差能量最小的预测模式；（6）进行三维视频深度图的预测残差调整，获得方差最小的三维视频深度图的预测残差块；（7）对当前帧的三维视频深度图进行编码。本发明可以在保持虚拟合成视频图像PSNR不变的前提下，极大地降低了深度图编码的码率，同时，还可以显著提高虚拟合成视点的主观质量。

著录项

公开/公告号CN103826135A

专利类型发明专利
公开/公告日2014-05-28

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201310722516.2
发明设计人田翔;罗雷;陈耀武;
展开▼

申请日2013-12-24
分类号H04N19/625;H04N19/103;H04N19/12;
代理机构杭州天勤知识产权代理有限公司;
代理人胡红娟
地址 310027 浙江省杭州市西湖区浙大路38号
入库时间 2024-02-20 00:15:49

法律信息

法律状态公告日

法律状态信息

法律状态
2017-02-08

授权

授权
2014-06-25

实质审查的生效 IPC(主分类):H04N19/625 申请日:20131224

实质审查的生效
2014-05-28

公开

公开

说明书

技术领域

本发明涉及三维视频编码领域，具体涉及一种基于恰可识别视差错误估计的三维视频深度图编码方法。

背景技术

在过去一个多世纪的时间里，人类对于视觉观感要求的不断提高推动着影像视频技术的不断发展，从最初的黑白无声电影发展到如今广泛应用的数字高清视频(HDTV)技术，可以说当今的视频技术已经带给人们非常优越的视觉观看体验。

即便如此，人们对于视觉体验的要求也并没有得到充分的满足。随着计算机和信息技术的不断发展，人们对于视觉体验提出了更高的要求，希望在观看视频的同时获得更加逼真的视觉效果，即是说观看者追求一种“身临其境”的感觉。然而，传统的二维(Two Dimensional，2D)视频技术无法提供给用户这样的视觉体验。于是，一种更为先进的视频技术—三维视频(Three Dimensional Video，3DV)技术应运而生。

在三维视频系统中，深度图用于表示实际三维场景的空间几何信息。深度图实际并不被终端用户直接观看，而是作为辅助信息实现虚拟视点的合成，而合成的虚拟视点的视频质量极大地依赖于深度图的质量。因此，为了在解码端得到高质量的虚拟合成视点，高效率的深度图编码技术对于实际的三维视频应用至关重要。

考虑到深度图仅仅是用来为虚拟视点合成提供几何信息这一特性，深度图编码算法仅仅需要保证压缩后的深度图不会在合成的虚拟视点中造成不可容忍的失真，而并不需要保证深度图压缩后保持足够高的像素重建精度。之前的大多数方法都集中在如何优化深度图编码算法，而极少有方法关注如何优化深度图信号本身，使得其具有更好的可压缩性。

通过深度图的不关注区域(Don’t Care Region，DCR)在DCT变换域寻找深度图的稀疏表示，实现了深度图的高效压缩，并利用DCR对原始深度图信号预处理以实现更加高效的编码。该方法首先针对深度图的每一个像素计算出对应的DCR，然后利用DCR来降低深度图编码过程中运动预测残差的能量。对于给定的阈值T，每一个深度像素的DCR被定义为一个特定的范围。所有位于该范围内的深度值都使得合成虚拟视点的失真不超过T。DCR使得压缩后的深度图只需要位于一个粗略的范围之内，从而极大地提高了深度图的编码效率。

值得注意的是，人类视觉系统(Human Vision System，HVS)对不同类型图像的感知特性是不一样的。例如，纹理丰富的区域相比与纹理细节较少的区域可以隐藏更多的失真。因此，对于合成虚拟视点中的所有像素点设置统一的阈值T是不合适的，虽然DCR可以使得合成视点中的所有像素的客观失真值(如MSE)均小于T，但是仍然可能产生许多会被人眼察觉出的严重失真。此外，DCR方法采用的残差能量最小的策略并不能保证最优的率失真性能。

发明内容

本发明提供了一种基于恰可识别视差错误估计的三维视频深度图编码方法，可以在保持虚拟合成视频图像PSNR不变的前提下，极大地降低了深度图编码的码率，同时，还可以显著提高虚拟合成视点的主观质量。

一种基于恰可识别视差错误估计的三维视频深度图编码方法，包括以下步骤；

（1）输入一帧三维视频深度图以及该三维视频深度图对应的纹理图像；

（2）通过三维视频深度图和其对应的纹理图像合成虚拟视点的纹理图像；

（3）计算所述虚拟视点的纹理图像的恰可识别误差图；

（4）根据步骤（3）得到的恰可识别误差图计算三维视频深度图的恰可识别视差错误的范围；

（5）根据步骤（4）得到的恰可识别视差错误的范围进行三维视频深度图的帧内和帧间预测，选择三维视频深度图的预测残差能量最小的预测模式；

（6）根据步骤（4）得到的恰可识别视差错误的范围进行三维视频深度图的预测残差调整，获得方差最小的三维视频深度图的预测残差块；

（7）根据步骤（5）选择的预测模式和步骤（6）获得的预测残差块对当前帧的三维视频深度图进行编码。

重复步骤（1）～（7），对三维视频中所有帧进行编码。

作为优选，所述步骤（3）中，计算所述虚拟视点的纹理图像的恰可识别误差图，具体包括以下步骤：

3-1、计算虚拟视点的纹理图像中每个像素(x,y)处的背景亮度掩盖效应值T_l(x,y)；

3-2、计算虚拟视点的纹理图像中每个像素(x,y)处的纹理掩盖效应值T_t(x,y)；

3-3、计算虚拟视点的纹理图像中每个像素(x,y)处的恰可识别误差JND_v(x,y)，恰可识别误差JND_v(x,y)的表达式如下：

JND_v(x,y)＝T_l(x,y)+T_t(x,y)-C_l,tmin{T_l(x,y),T_t(x,y)}

式中，C_l,t为常数，表示背景亮度掩盖效应和纹理掩盖效应的重叠影响权重；所述C_l,t取值0.5。

3-4、计算所有像素处的恰可识别误差，得到恰可识别误差图。

作为优选，所述步骤（4）中，计算三维视频深度图的恰可识别视差错误的范围，具体包括以下步骤：

4-1、在三维图像变换中，定义Δd_L(x_r,y_r)和Δd_R(x_r,y_r)分别表示参考视点像素(x_r,y_r)在左右两个方向上允许的最大视差错误，使得任何虚拟视点图像中位于(x_r-Δd_L(x_r,y_r),y_r)和(x_r+Δd_R(x_r,y_r),y_r)之间的任意像素(x′_v,y′_v)均满足：

|I_v(x′_v,y′_v)-I_r(x_r,y_r)|≤JND_v(x′_v,y′_v)

其中，I_v(x′_v,y′_v)表示虚拟视点图像像素值；

I_r(x,y)表示参考视点图像像素值；

JND_v(x′_v,y′_v)为像素(x′_v,y′_v)处的恰可识别误差；

4-2、计算三维视频深度图的恰可识别视差错误的范围[JNDE_min,JNDE_max]，其中

$(\begin{matrix} {JNDE}_{\min} (x_{r}, y_{r}) = D (x_{r}, y_{r}) - \frac{255 \cdot Δ d_{L} (x_{r}, y_{r})}{f \cdot δ_{x} \cdot (\frac{1}{Z_{near}} - \frac{1}{Z_{far}})} \\ {JNDE}_{\max} (x_{r}, y_{r}) = D (x_{r}, y_{r}) + \frac{255 \cdot Δ d_{R} (x_{r}, y_{r})}{f \cdot δ_{x} \cdot (\frac{1}{Z_{near}} - \frac{1}{Z_{far}})} \end{matrix})$

其中，D(x_r,y_r)为三维视频深度图中参考视点像素(x_r,y_r)的像素值；

f表示参考视点摄像机的焦距；

δ_x表示参考视点和虚拟视点在水平方向上的偏移距离；

Z_far表示三维场景中最远点的实际深度值；

Z_near表示三维场景中最近点的实际深度值。

作为优选，所述步骤（5）中，进行三维视频深度图的帧内和帧间预测时，利用下式计算预测残差值R(i,j)：

$R (i, j) = (\begin{matrix} {JNDE}_{\max} (i, j) - P (i, j), & ifP (i, j) > {JNDE}_{\max} (i, j) \\ {JNDE}_{\min} (i, j) - P (i, j), & ifP (i, j) < {JNDE}_{\min} (i, j) \\ 0, & otherwise \end{matrix})$

其中，P(i,j)为像素点(i,j)的预测值。

作为优选，所述步骤（6）中，进行三维视频深度图的预测残差调整的具体步骤如下：

6-1、输入需要调整的残差块，将残差块中各个像素点对应的残差值按由大到小的顺序重新排列，每个残差值相应获得一个顺序号；

6-2、对重新排列后的所有残差值，除首个残差值外，依次进行如下调整；

6-2-1、取当前残差值记为M(i)，前一顺序号的残差值记为M(i-1)，当前残差值M(i)对应的[JNDE_min，JNDE_max]范围内各数值记为P（n）；

6-2-2、遍历P（n）选取|P（n）-M(i)-M(i-1)|值最小时的P（n）值，若此时|P（n）-M(i)-M(i-1)|＜M(i-1)-M(i)，则用P（n）-M(i)代替M(i)，否则保持M(i)不变。

本发明在不严重损坏虚拟合成三维视频质量的前提下，允许压缩后的深度图仅仅只是重建到一个可容忍的范围之内，实现了非常显著的深度码率节省。此外，本发明通过基于恰可识别视差错误估计的预测残差调整策略，降低了编码块的预测残差方差，进一步节省了码率。

本发明考虑到人类视觉系统的感知特性，对每一种特征的图像采用自适应的失真门限值，实现了更为优异的主观合成质量。

附图说明

图1为三维视频深度图的恰可识别视差错误的范围的示意图；

图2为Kendo序列的率失真曲线；

图3为Balloons序列的率失真曲线；

图4为BookArrival序列的率失真曲线；

图5为Newspaper序列的率失真曲线；

图6为Kendo序列的局部主观质量对比；

图7为Balloons序列的局部主观质量对比；

图8为BookArrival序列的局部主观质量对比；

图9为Newspaper序列的局部主观质量对比。

图6～图9中，各图中：

（a）为原始的三维视频（一帧）；

（b）利用JM编码方法（即H.264/AVC标准模型JM18.0方法）获得的图像；

（c）利用DCR编码方法（即基于DCR的深度图编码方法）获得的图像；

（d）利用JNDE编码方法（本发明方法）获得的图像。

具体实施方式

一种基于恰可识别视差错误估计的三维视频深度图编码方法，包括以下步骤；

（1）输入一帧三维视频深度图以及该三维视频深度图对应的纹理图像；

（2）通过三维视频深度图和其对应的纹理图像合成虚拟视点的纹理图像；

步骤（1）和步骤（2）采用现有技术进行，对于每一帧三维视频来说，具有相互对应的深度图以及纹理图像。

（3）计算虚拟视点的纹理图像的恰可识别误差图，具体包括以下步骤：

3-1、依据人眼视觉系统的响应特性，计算虚拟视点的纹理图像中每个像素(x,y)处的背景亮度掩盖效应值T_l(x,y)；

$T_{l} (x, y) = (\begin{matrix} 17 (1 - \sqrt{\frac{I_{avg} (x, y)}{127}}) + 3, & if I_{avg} (x, y) \leq 127 \\ \frac{3}{128} (I_{avg} (x, y) - 127) + 3, & otherwise \end{matrix})$

其中，I_avg(x,y)为纹理图像中像素(x,y)的5x5邻域内的平均像素值，具体计算公式如下：

$I_{avg} (x, y) = \frac{1}{32} Σ_{i = 1}^{5} Σ_{j = 1}^{5} I (x - 3 + i, y - 3 + j) \cdot W (i, j)$

其中，W(i,j)为5x5的加权低通滤波器矩阵，表达式如下：

$W = (\begin{matrix} 1 & 1 & 1 & 1 & 1 \\ 1 & 2 & 2 & 2 & 1 \\ 1 & 2 & 0 & 2 & 1 \\ 1 & 2 & 2 & 2 & 1 \\ 1 & 1 & 1 & 1 & 1 \end{matrix})$

3-2、依据人眼视觉系统的响应特性，计算虚拟视点的纹理图像中每个像素(x,y)处的纹理掩盖效应值T_t(x,y)；

T_t(x,y)＝η·G(x,y)·W_e(x,y)

式中：η为控制参数，取值为0.7；

G(x,y)为纹理图像中像素(x,y)处的最大加权平均梯度值，具体计算公式为：

$G (x, y) = \max_{k = 1,2,3,4} {| {grad}_{k} (x, y) |}$

其中，grad_k(x,y)为纹理图像中像素(x,y)在k方向上的梯度值，具体计算公式为：

${grad}_{k} (x, y) = \frac{1}{16} Σ_{i = 1}^{5} Σ_{j = 1}^{5} I (x - 3 + i, y - 3 + j) \cdot g_{k} (i, j)$

g_k(i，j)为四个方向（分别对应k=1，2，3，4）的高通滤波器矩阵，分别为：

$g_{1} = (\begin{matrix} 0 & 0 & 0 & 0 & 0 \\ 1 & 3 & 8 & 3 & 1 \\ 0 & 0 & 0 & 0 & 0 \\ - 1 & - 3 & - 8 & - 3 & - 1 \\ 0 & 0 & 0 & 0 & 0 \end{matrix}), g_{2} = (\begin{matrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 8 & 3 & 0 & 0 \\ 1 & 3 & 0 & - 3 & - 1 \\ 0 & 0 & - 3 & - 8 & 0 \\ 0 & 0 & - 1 & 0 & 0 \end{matrix}),$

$g_{3} = (\begin{matrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 3 & 8 & 0 \\ - 1 & - 3 & 0 & 3 & 1 \\ 0 & - 8 & - 3 & 0 & 0 \\ 0 & 0 & - 1 & 0 & 0 \end{matrix}), g_{4} = (\begin{matrix} 0 & 1 & 0 & - 1 & 0 \\ 0 & 3 & 0 & - 3 & 0 \\ 0 & 8 & 0 & - 8 & 0 \\ 0 & 3 & 0 & - 3 & 0 \\ 0 & 1 & 0 & - 1 & 0 \end{matrix})$

W_e(x,y)为边缘自适应的权重值矩阵，具体计算公式为：

W_e＝E*Γ

式中，E为虚拟视点的纹理图像经过Canny边缘算法检测得到的边缘图像；

Г为7x7的高斯低通滤波器，其标准差取值为0.8；

*表示图像的卷积运算。

3-3、根据步骤3-1和步骤3-2得到的背景亮度掩盖效应值和纹理掩盖效应值，结合两种掩盖效应的重叠影响，计算虚拟视点的纹理图像中每个像素(x,y)处的恰可识别误差JND_v(x,y)，恰可识别误差JND_v(x,y)的表达式如下：

JND_v(x,y)＝T_l(x,y)+T_t(x,y)-C_l,tmin{T_l(x,y),T_t(x,y)}

式中，C_l,t为常数，表示背景亮度掩盖效应和纹理掩盖效应的重叠影响权重，C_l,t取值0.5。

3-4、计算所有像素处的恰可识别误差，得到恰可识别误差图。

（4）根据步骤（3）得到的恰可识别误差图计算三维视频深度图的恰可识别视差错误的范围，具体包括以下步骤：

|I_v(x′_v,y′_v)-I_r(x_r,y_r)|≤JND_v(x′_v,y′_v)

其中，I_v(x′_v,y′_v)表示虚拟视点图像像素值；

I_r(x,y)表示参考视点图像像素值；

JND_v(x′_v,y′_v)为像素(x′_v,y′_v)处的恰可识别误差；

4-2、计算三维视频深度图的恰可识别视差错误的范围[JNDE_min,JNDE_max]，其中

其中，D(x_r,y_r)为三维视频深度图（步骤（1）中原始的三维视频深度图）中参考视点像素(x_r,y_r)的像素值；

f表示参考视点摄像机的焦距；

δ_x表示参考视点和虚拟视点在水平方向上的偏移距离；

Z_far表示三维场景（三维视频所对应的真实场景）中最远点的实际深度值；

Z_near表示三维场景中最近点的实际深度值。

（5）根据步骤（4）得到的恰可识别视差错误的范围进行三维视频深度图的帧内和帧间预测，选择三维视频深度图的预测残差能量最小的预测模式；

进行三维视频深度图的帧内和帧间预测时，利用下式计算预测残差值R(i,j)：

其中，P(i,j)为像素点(i,j)的预测值。

将当前编码帧所有像素点的预测残差值R(i,j)进行加和，得到当前编码帧的预测残差能量，选择预测残差能量最小的预测模式。

（6）根据步骤（4）得到的恰可识别视差错误的范围进行三维视频深度图的预测残差调整，获得方差最小的三维视频深度图的预测残差块，具体步骤如下：

6-1、输入需要调整的残差块，将残差块中各个像素点对应的残差值按由大到小的顺序重新排列，每个残差值相应获得一个顺序号；

每个编码块对应一个残差块，每个残差块包括多个像素点，每个像素点对应一个残差值，排序时，将各个像素的残差值按照由大到小的顺序进行排列。

6-2、对重新排列后的所有残差值，除首个残差值外，依次进行如下调整；

6-2-1、取当前残差值记为M(i)，前一顺序号的残差值记为M(i-1)，当前残差值M(i)对应的[JNDE_min，JNDE_max]范围内各数值记为P（n）；i为重新排序后的残差值的序号，n为[JNDE_min，JNDE_max]中由小到大所取数值（区间内所有整数）的序号；

6-2-2、遍历P（n）选取|P（n）-M(i)-M(i-1)|值最小时的P（n）值，若此时|P（n）-M(i)-M(i-1)|＜M(i-1)-M(i)，则用P（n）-M(i)代替M(i)，否则保持M(i)不变。

若n不同但|P（n）-M(i)-M(i-1)|相同，则P（n）值较小时的P（n）-M(i)代替M(i)。

例如，某一残差块中包含四个像素，四个像素的残差值分别为1，4，2，6，依据残差值重新排列后的顺序为6，4，2，1，除6外，依次调整剩余的4，2，1，使这四个残差值的之间的方差最小。

针对残差值4而言，若残差值4对应的[JNDE_min，JNDE_max]范围为[2， 12]，则能够找到数值10，数值10与残差值4的差值与前一顺序残差值6相等，则将残差值4的值替换为6，同理进行下一残差值2的调整。

（7）根据步骤（5）选择的预测模式和步骤（6）获得的预测残差块对当前帧的三维视频深度图进行编码。

采用本发明(JNDE)对Kendo、Balloons、BookArrival以及Newspaper这4个三维视频测试序列进行实验结果验证，这些序列的分辨率均为1024×768，编码帧数均为100帧。

图2、3、4、5分别为Kendo、Balloons、BookArrival以及Newspaper四个序列的率失真曲线；图6、7、8、9分别为Kendo、Balloons、BookArrival以及Newspaper四个序列的局部主观质量对比。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于恰可识别视差错误估计的三维视频深度图编码方法 [P] . 中国专利： CN103826135B . 2017.02.08
2. 基于恰可识别视差错误估计的三维视频深度图编码方法 [P] . 中国专利： CN103826135A . 2014-05-28
3. METHOD AND DEVICE FOR FILLING IN THE ZONES OF OCCULTATION OF A MAP OF DEPTH OR OF DISPARITIES ESTIMATED ON THE BASIS OF AT LEAST TWO IMAGES [P] . 欧洲知识产权局专利： EP2304686B1 . 2018-04-18

机译：用于基于至少两个图像估计的深度图或视差图的填充区域和方法
4. METHOD AND DEVICE FOR FILLING IN THE ZONES OF OCCULTATION OF A MAP OF DEPTH OR OF DISPARITIES ESTIMATED ON THE BASIS OF AT LEAST TWO IMAGES [P] . 韩国专利： KR101594888B1 . 2016-02-17

机译：用于基于至少两个图像估计的深度图或视差图的填充区域和方法
5. METHOD AND DEVICE FOR FILLING IN THE ZONES OF OCCULTATION OF A MAP OF DEPTH OR OF DISPARITIES ESTIMATED ON THE BASIS OF AT LEAST TWO IMAGES [P] . 韩国专利： KR20110036591A . 2011-04-07

机译：用于基于至少两个图像估计的深度图或视差图的填充区域和方法