首页> 中国专利> 一种基于4D光场的深度估计方法

一种基于4D光场的深度估计方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于4D光场的深度估计方法，其能够解决初始深度值的可靠性问题、深度过平滑问题、深度值融合问题。这种基于4D光场的深度估计方法，包括步骤：(1)初始深度估计；(2)检测可计算像素；(3)深度值计算；(4)深度值传播；(5)深度值扩散；(6)判断图像分辨率是否小于10×10，是则执行步骤(8)，否则执行步骤(7)；(7)下采样原图像，并用标准差为0.5、5×5大小的高斯滤波做平滑处理避免失真，跳转至步骤(2)；(8)赋予公式(11)计算的深度值，结束。

著录项

公开/公告号CN104966289A

专利类型发明专利
公开/公告日2015-10-07

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201510324490.5
发明设计人王立春;樊东灵;孔德慧;尹宝才;
展开▼

申请日2015-06-12
分类号G06T7/00(20060101);
代理机构11253 北京中北知识产权代理有限公司;
代理人冯梦洪
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-12-18 11:19:06

法律信息

法律状态公告日

法律状态信息

法律状态
2017-12-26

授权

授权
2015-11-11

实质审查的生效 IPC(主分类):G06T7/00 申请日:20150612

实质审查的生效
2015-10-07

公开

公开

说明书

技术领域

本发明属于多媒体技术与计算机图形学的技术领域，具体地涉及一种基于4D光场的深度估计方法。

背景技术

光场的概念最早出现在计算机图形学中，Gershun在其经典文章“三维空间光的无线电特性”里正式使用“光场”这个术语，用以描述光在三维空间中的辐射传输特性。E.Adelson和J.Bergen根据人眼对外部光线的视觉感知，在1991年提出用七维函数来表征空间分布的几何光线，称为全光函数。全光函数P(x，y，z，θ，ψ，λ，t)中七个变量的含义分别是：(x，y，z)为场景中任一物理点的三维坐标，(θ，ψ)为光线的传输方向，λ是光线的波长，t为时间。如果只考虑光线在空间中的自由传输，它的颜色(波长)一般不会发生改变，美国北卡罗来纳大学的麦克米兰(McMillan)不考虑全光函数的波长和时间维，将七维全光函数降到五维函数I(x，y，z，θ，ψ)来描述。随后，Levoy和 Hanraham等人忽略光线在传输过程中的衰减将五维的全光函数(光场)降至四维，提出了四维光场的概念。

Leovy等人给出的4D光场L(u，v，s，t)其实就是自由空间中任意点沿着一定方向的光线的辐射度值，该空间所有的有向光线的集合就构成了光场的一个数据集。4D光场的参数化有2SP参数法、PDP参数法和2PP参数法。

普通相机所拍摄的二维图像是4D光场的一个二维切片，它记录了投影到当前像素位置的物理点所发射光线的强度及方向信息，因此物理点的位置信息可以基于4D光场估计得到。

已有的基于光场估计深度信息的方法通常将深度分为多个等级，对每个像素点估计能量优化函数值，与最小能量值对应的深度等级作为估计像素的深度值，这种方法求得的深度值是预先设定的等级数值之一，因此会造成深度过平滑问题。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于4D光场的深度估计方法，其能够解决初始深度值的可靠性问题、深度过平滑问题、深度值融合问题。

本发明的技术解决方案是：这种基于4D光场的深度估计方法，包括以下步骤：

(1)初始深度估计：通过公式(3)、(4)计算得到视差的初值d₀：

d₀＝J_xx-J_yy (3)

$(\begin{matrix} G_{σ} * I_{x} I_{x} & G_{σ} * I_{x} I_{y} \\ G_{σ} * I_{x} I_{y} & G_{σ} * I_{y} I_{y} \end{matrix}) = (\begin{matrix} J_{xx} & J_{xy} \\ J_{xy} & J_{yy} \end{matrix}) - - - (4)$

其中G_σ是尺度为σ的高斯平滑算子，I_x、I_y为是尺度为ρ的梯度算子；

(2)检测可计算像素：

边缘置信系数C_e通过公式(5)获得：

C_e(x，y，s，t)＝∑_{(x′，y′，s，t)∈W(x，y，s，t)}||L(x，y，s，t)-L(x′，y′，s，t)||² (5)

其中W(x，y，s，t)表示(s，t)视点下获得图像的某个像素点在该图像上的9×9邻域窗口，L(x，y，s，t)表示该像素点对应的光线辐射值，由C_e值对该像素点计算得到一个二值模板M_e，C_e值大于阈值0.04时模板M_e对应位置取值1，否则取值0，其中值为1表示对应置信像素能够进行深度估计运算；

(3)深度值计算：选取视点下获得图像的置信点进行深度计算

光线颜色值采样集合定义为公式(6)

$(\begin{matrix} R (x, y, \hat{s}, \hat{t}, d) = {L (x + (\hat{s} - s) d, y + (\hat{t} - t) d, \hat{s}, \hat{t}) | s = 1, . . ., n; t = \\ 1, . . ., m} \end{matrix}) - - - (6)$

其中为视点坐标，n、m分别对应水平和垂直方向视点的个数，表示在视点下像素点对应的光线辐射值，为公式(7)的深度打分函数

$S (x, y, \hat{s}, \hat{t}, d) = \frac{1}{| R (x, y, \hat{s}, \hat{t}, d) |} Σ_{r \in R (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r}) - - - (7)$

其中核函数K(W)为公式(8)

$K (x) = (\begin{matrix} 1 - {| | \frac{x}{h} | |}^{2} & | | \frac{x}{h} | | \leq 0 \\ 0 & otherwise \end{matrix}) - - - (8)$

其中的计算根据公式(9)，核函数带宽为0.02是利用 mean-shift算法迭代计算得到的

$\frac{Σ_{r \in (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r}) r}{Σ_{r \in (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r})} \to \overline{r} - - - (9)$

针对视点下的图像上每个可信像素，将该像素所在水平方向EPI 面上9×9邻域窗口和垂直方向EPI面上9×9邻域窗口所有置信像素的视差上下限作为视差区间，对区间内按步长为0.01的每个视差d都计算相应打分函数值，其中根据公式(10)使得打分函数值最高的d值作为该像素的深度估计值：

$D (x, y, \hat{s}, \hat{t}) = \arg \max_{d} S (x, y, \hat{s}, \hat{t}, d) - - - (10)$

对每个可信像素计算其与邻域中其它可信像素的颜色值差，将颜色差值小于指定阈值ε的可信像素深度值排序，根据公式(11) 取该序列的中值作为深度估计值：

$(\begin{matrix} D (x, y, \hat{s}, \hat{t}) = medium {D (x^{'}, y^{'}, \hat{s}, \hat{t}) | (x^{'}, y^{'}, \hat{s}, \hat{t}) \in W (x, y, \hat{s}, \hat{t}), \\ | | L (x, y, \hat{s}, \hat{t}) - L (x^{'}, y^{'}, \hat{s}, \hat{t}) | | < ϵ, \\ M_{e} (x^{'}, y^{'}, \hat{s}, \hat{t}) = 1} \end{matrix}) - - - (11);$

(4)深度值传播：

根据公式(12)得到深度可信评分系数C_d

$C_{d} (x, y, \hat{s}, \hat{t}) = C_{e} (x, y, \hat{s}, \hat{t}) | | S_{\max} - \overline{S} | | - - - (12)$

其中 $S_{\max} = \max_{d} S (x, y, \hat{s}, \hat{t}), \overline{S} = Σ_{d} S (x, y, \hat{s}, \hat{t}),$

深度可信评分系数大于阈值的深度值定义为置信深度，将置信深度传播给公式(6)集合R中的其他置信像素，对于集合中被传播的置信像素点，判断 $| | L (x, y, \hat{s}, \hat{t}) - L (x^{'}, y^{'}, \hat{s}, \hat{t}) | | < ϵ$ 是否成立，对满足判断条件的置信像素点赋以当前传播的置信深度值；

(5)深度值扩散：

对于未获得置信深度值的像素，搜索其所在扫描线上与该像素相邻最近的可靠深度值作为上下限；

(6)判断图像分辨率是否小于10×10，是则执行步骤(8)，否则执行步骤(7)；

(7)下采样原图像，并用标准差为0.5、5×5大小的高斯滤波做平滑处理避免失真，跳转至步骤(2)；

(8)赋予公式(11)计算的深度值，结束。

本发明对边缘像素计算视差作为深度估计初始值，利用2PP参数化4D 光场的独特数据结构特性通过水平、垂直两个EPI面对初始深度值进行求精计算，对确定的深度值进行扩散进而求得所有像素点的深度值，从而能够解决初始深度值的可靠性问题、深度过平滑问题、深度值融合问题。

附图说明

图1是4D光场(2PP参数化形式)的示意图。

图2a示出了用于水平的光场图像集；图2b示出了水平3D光场；图2c 示出了水平EPI。

图3a示出了用于垂直的光场图像集；图3b示出了垂直3D光场；图3c 示出了垂直EPI。

图4是根据本发明的基于4D光场的深度估计方法的流程图。

具体实施方式

如图4所示，这种基于4D光场的深度估计方法，包括以下步骤：

(1)初始深度估计：通过公式(3)、(4)计算得到视差的初值d₀：

d₀＝J_xx-J_yy (3)

$(\begin{matrix} G_{σ} * I_{x} I_{x} & G_{σ} * I_{x} I_{y} \\ G_{σ} * I_{x} I_{y} & G_{σ} * I_{y} I_{y} \end{matrix}) = (\begin{matrix} J_{xx} & J_{xy} \\ J_{xy} & J_{yy} \end{matrix}) - - - (4)$

其中G_σ是尺度为σ的高斯平滑算子，I_x、I_y为是尺度为ρ的梯度算子；

(2)检测可计算像素：

边缘置信系数C_e通过公式(5)获得：

C_e(x，y，s，t)＝∑_{(x′，y′，s，t)∈W(x，y，s，t)}||L(x，y，s，t)-L(x′，y′，s，t)||² (5)

(3)深度值计算：选取视点下获得图像的置信点进行深度计算光线颜色值采样集合定义为公式(6)

$(\begin{matrix} R (x, y, \hat{s}, \hat{t}, d) = {L (x + (\hat{s} - s) d, y + (\hat{t} - t) d, \hat{s}, \hat{t}) | s = 1, . . ., n; t = \\ 1, . . ., m} \end{matrix}) - - - (6)$

其中为视点坐标，n、m分别对应水平和垂直方向视点的个数，表示在视点下像素点对应的光线辐射值，为公式(7)的深度打分函数

$S (x, y, \hat{s}, \hat{t}, d) = \frac{1}{| R (x, y, \hat{s}, \hat{t}, d) |} Σ_{r \in R (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r}) - - - (7)$

其中核函数K(W)为公式(8)

$K (x) = (\begin{matrix} 1 - {| | \frac{x}{h} | |}^{2} & | | \frac{x}{h} | | \leq 0 \\ 0 & otherwise \end{matrix}) - - - (8)$

其中的计算根据公式(9)，核函数带宽为0.02是利用 mean-shift算法迭代计算得到的

$\frac{Σ_{r \in (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r}) r}{Σ_{r \in (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r})} \to \overline{r} - - - (9)$

$D (x, y, \hat{s}, \hat{t}) = \arg \max_{d} S (x, y, \hat{s}, \hat{t}, d) - - - (10)$

(4)深度值传播：

根据公式(12)得到深度可信评分系数C_d

$C_{d} (x, y, \hat{s}, \hat{t}) = C_{e} (x, y, \hat{s}, \hat{t}) | | S_{\max} - \overline{S} | | - - - (12)$

其中 $S_{\max} = \max_{d} S (x, y, \hat{s}, \hat{t}), \overline{S} = Σ_{d} S (x, y, \hat{s}, \hat{t}),$

(5)深度值扩散：

对于未获得置信深度值的像素，搜索其所在扫描线上与该像素相邻最近的可靠深度值作为上下限；

(6)判断图像分辨率是否小于10×10，是则执行步骤(8)，否则执行步骤(7)；

(7)下采样原图像，并用标准差为0.5、5×5大小的高斯滤波做平滑处理避免失真，跳转至步骤(2)；

(8)赋予公式(11)计算的深度值，结束。

优选地，所述步骤(3)中迭代数次为5次。

优选地，所述步骤(3)中阈值ε＝0.1。

以下具体说明本发明：

光场记录空间中一个点在各个方向上的光线辐射度，是一个五维函数其中(x，y，z)描述点的位置，(θ，φ)描述当前光辐射度值对应的光线方向。在假定光线传播区域无遮挡的前提下，Leovy和Hanrahan等人给出了光场的四维表示模型L(u，v，s，t)，即三维场景中某个物理点发出的光线可以用穿过空间两个平行面即视点面Π(s，t)和像面Ω(x，y)的一条直线描述，如图1所示。

其中，视点面Π包含视点信息，像面Ω包含辐射度信息，一个4D光场可以描述为式(1)：

L：Π(s，t)*Ω(x，y)(x，y，s，t)→L(x，y，s，t) (1)

普通相机拍摄的二维图像是光场的一个二维切片，是光线R_{x，y，s，t}穿过视点面Π(s，t)和像面Ω(x，y)在像面的投影。

将在一组水平视点{(s₁，t*)，(s₂，t*)，(s₃，t*)，......(s_n，t*)}下获取的图像 (图2a)按照视点顺序顺次叠放在一起构成水平3D光场(如图2b所示)，水平3D光场的横切面构成一个极平面图像(EPI)(图2c)。EPI面可参数化为p(x，s)，其中x为像平面的水平分辨率，s为视点面水平方向的视点个数。

类似地，在垂直视点方向也可获得EPI。将在一组垂直视点下获取的图像{(t₁，s*)，(t₂，s*)，(t₃，s*)，......(t_n，s*)}(如图3a)按照视点顺序顺次叠放在一起构成垂直3D光场(如图3b所示)，垂直3D光场的横切面构成一个极平面图像(EPI)(图3c)。EPI面可参数化为p(y，t)，其中y为像平面的水平分辨率，t为视点面垂直方向的视点个数。

本发明可以分为以下步骤：

1、初始深度估计

由于任意空间场景点在不同视点下的投影对应EPI上的一条线段，因此该场景点的深度计算定义为式(2)：

$m = \frac{1}{d} = \frac{z}{fb} - - - (2)$

其中d为视差，m为EPI上线段的斜率，f为相机焦距，b为相邻相机间距，z为所求深度，也就是说利用EPI求得视差就可以计算点的深度为叙述方便，后续内容中视差d即视为深度值。

视差的初值利用式(3)计算得到：

d₀＝J_xx-J_yy (3)

其中，J_xx和J_yy利用式(4)定义的结构张量获得：

$(\begin{matrix} G_{σ} * I_{x} I_{x} & G_{σ} * I_{x} I_{y} \\ G_{σ} * I_{x} I_{y} & G_{σ} * I_{y} I_{y} \end{matrix}) = (\begin{matrix} J_{xx} & J_{xy} \\ J_{xy} & J_{yy} \end{matrix}) - - - (4)$

G_σ是尺度为σ的高斯平滑算子，I_x、I_y为是尺度为ρ的梯度算子。

2、检测可计算像素

定义边缘置信系数c_e如式(5)：

C_e(x，y，s，t)＝∑_{(x′，y′，s，t)∈W(x，y，s，t)}||L(x，y，s，t)-L(x′，y′，s，t)||² (5)

其中W(x，y，s，t)表示(s，t)视点下获得图像的某个像素点在该图像上的 9×9邻域窗口，L(x，y，s，t)表示该像素点对应的光线辐射值，由C_e值可对该像素点计算得到一个二值模板M_e，C_e值大于阈值0.04时模板M_e对应位置取值1，否则取值0，其中值为1表示对应置信像素可以进行深度估计运算。

3、深度值计算

首先选取视点下获得图像的置信点进行深度计算。光线颜色值采样集合定义如式(6)：

$(\begin{matrix} R (x, y, \hat{s}, \hat{t}, d) = {L (x + (\hat{s} - s) d, y + (\hat{t} - t) d, \hat{s}, \hat{t}) | s = 1, . . ., n; t = \\ 1, . . ., m} \end{matrix}) - - - (6)$

其中为视点坐标，n、m分别对应水平和垂直方向视点的个数。表示在视点下像素点对应的光线辐射值。

定义作为深度打分函数如式(7)：

$S (x, y, \hat{s}, \hat{t}, d) = \frac{1}{| R (x, y, \hat{s}, \hat{t}, d) |} Σ_{r \in R (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r}) - - - (7)$

其中核函数K(W)如公式(8)定义：

$K (x) = (\begin{matrix} 1 - {| | \frac{x}{h} | |}^{2} & | | \frac{x}{h} | | \leq 0 \\ 0 & otherwise \end{matrix}) - - - (8)$

其中的计算如公式(9)，核函数带宽为0.02是利用 mean-shift算法迭代计算得到的，一般迭代数次(本文为5次)即可。

$\frac{Σ_{r \in (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r}) r}{Σ_{r \in (x, y, \hat{s}, \hat{t}, d)} K (r - \overline{r})} \to \overline{r} - - - (9)$

针对视点下的图像上每个可信像素，将该像素所在水平方向EPI 面上9×9邻域窗口和垂直方向EPI面上9×9邻域窗口所有置信像素的视差上下限作为视差区间，对区间内按步长为0.01的每个视差d都计算相应打分函数值，其中使得打分函数值最高的d值作为该像素的深度估计值，即如式(10)：

$D (x, y, \hat{s}, \hat{t}) = \arg \max_{d} S (x, y, \hat{s}, \hat{t}, d) - - - (10)$

对每个可信像素计算其与邻域中其它可信像素的颜色值差，将颜色差值小于指定阈值ε(0.1)的可信像素深度值排序，取该序列的中值作为深度估计值，即如式(11)：

4、深度值传播

定义深度可信评分系数C_d，如式(12)：

$C_{d} (x, y, \hat{s}, \hat{t}) = C_{e} (x, y, \hat{s}, \hat{t}) | | S_{\max} - \overline{S} | | - - - (12)$

其中 $S_{\max} = \max_{d} S (x, y, \hat{s}, \hat{t}), \overline{S} = Σ_{d} S (x, y, \hat{s}, \hat{t}) .$

深度可信评分系数大于阈值0.1的深度值定义为置信深度，将置信深度传播给式(6)集合R中的其他置信像素，对于集合中被传播的置信像素点，判断 $| | L (x, y, \hat{s}, \hat{t}) - L (x^{'}, y^{'}, \hat{s}, \hat{t}) | | < ϵ$ (ε为指定的相似程度0.1) 是否成立，对满足判断条件的置信像素点赋以当前传播的置信深度值。

当视点下所有置信像素点得到深度值后，选取新的视点(s^*，t^*)对没有置信深度的置信像素点重复步骤3-4，直到在当前分辨率下所有置信像素点都经过计算或者经过传播中得到置信深度。

5、深度值扩散

对于未获得置信深度值的像素，搜索其所在扫描线上与该像素相邻最近的可靠深度值作为上下限。然后下采样原图像，并用标准差为0.5、5×5 大小的高斯滤波做平滑处理避免失真。针对新的空间分辨率图像重复步骤 2-5，直到图像小于10×10时直接赋予其公式(11)计算的深度值。

通过这样从高到低持续迭代计算的方法，直到当分辨率小于10×10时不再考虑置信度直接对其赋值计算得到的深度值。最终通过上采样逐层赋值给未获得深度值的像素点从而获得整个4D光场的深度。

本发明对上述方法进行了实验验证，并取得了明显的效果。在实验中，所用光场数据为4D HCI light field data，数据为多幅9×9×768×768(9×9 的多视角相机矩阵数据集，每张图像大小为768×768)，根据以上计算流程得到较好的结果。通过与真实深度图(Ground Truth Map)的量化比较。如果与真实视差值的差值超过一定阈值T即认为其是错误深度估计，从而统计错误估计所占的百分比。

表1

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于4D光场的深度估计方法 [P] . 中国专利： CN104966289B . 2017.12.26
2. 一种基于联合估计模糊变量的光场去模糊和深度估计方法 [P] . 中国专利： CN108389171A . 2018-08-10
3. Depth estimation method based on light-field data distribution [P] . 美国专利： US10346997B2 . 2019-07-09

机译：基于光场数据分布的深度估计方法
4. DEPTH ESTIMATION METHOD BASED ON LIGHT FIELD DATA DISTRIBUTION [P] . 世界知识产权组织专利： WO2016184099A1 . 2016-11-24

机译：基于光场数据分布的深度估计方法
5. 4D polynomial model for depth estimation based on two-photo matching [P] . 日本专利： JP5273408B2 . 2013-08-28

机译：基于两张照片匹配的深度估计的4D多项式模型