首页> 中国专利> 一种基于改进的卡尔曼滤波的实时数字视频稳像方法

一种基于改进的卡尔曼滤波的实时数字视频稳像方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种数字视频稳像方法，一种基于改进的卡尔曼滤波的实时数字视频稳像方法，包括以下步骤：步骤1、建立帧间运动模型，步骤2、对图像进行分块，步骤3、改进的菱形快速块匹配，步骤4、基于最小二乘的全局运动估计，步骤5、利用改进的卡尔曼滤波器对图像序列进行补偿，步骤6、对含抖动的图像序列进行补偿；本发明对传统的菱形搜索进行了优化，在达到同样或是较好的估计效果的条件下，能减少块匹配算法的运行时间；在运动补偿方面，也能很好的去除抖动分量、很好地保留追拍分量。

著录项

公开/公告号CN104144283A

专利类型发明专利
公开/公告日2014-11-12

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN201410389926.4
发明设计人宋继飞;马晓红;
展开▼

申请日2014-08-10
分类号H04N5/21(20060101);H04N5/14(20060101);
代理机构21208 大连星海专利事务所;
代理人王树本
地址 116024 辽宁省大连市高新园区凌工路2号
入库时间 2023-12-17 02:14:13

法律信息

法律状态公告日

法律状态信息

法律状态
2017-07-21

授权

授权
2014-12-10

实质审查的生效 IPC(主分类):H04N5/21 申请日:20140810

实质审查的生效
2014-11-12

公开

公开

说明书

技术领域

本发明涉及一种数字视频稳像方法，更具体地说，涉及一种基于改进的卡尔曼滤波的实时数字视频稳像方法。

背景技术

数字稳像技术(Digital Image Stabilization,DIS)是图像处理领域中一项新技术，它能将抖动的视频序列中的抖动分量很好地滤除，同时能将有意的追拍分量进行保留。它的这些特点使其在视频监控、手持和机载摄像、遥感领域有着重要的应用价值。在当前的研究背景下，提出一种有效、鲁棒性强的算法，也是本专利的主旨所在。

典型的数字稳像系统包括运动估计单元和运动补偿单元。运动估计单元中，传统的运动估计算法包括块匹配法、位平面匹配法、灰度投影法、特征点匹配等算法。其中，菱形快速搜索算法因具有快速性和较优异的性能而得到了广泛的应用。但传统意义上的菱形搜索算法的性能还有待进一步优化；运动补偿单元中，常用的补偿算法包括卡尔曼滤波器、比例积分差分控制器(Proportional Integral Differential,PID)、运动矢量累加(Motion Vector Integration,MVI)、低通滤波器和帧间位置平滑(Frame Position Smooth,FPS)等方法。然而，FPS方法需要消耗大量的时间来重构相机长时间的运动情况，因此不满足实时稳像的要求；MVI等方法可以很好地对帧间抖动进行平滑，但会对追拍分量造成损失，同时有较明显的时滞现象；传统的卡尔曼滤波器方法和PID方法会对追拍分量有一定的保留，但仍然有明显的丢边现象存在，同时对抖动的平滑效果不如MVI性能好。因此，传统卡尔曼滤波器很难做到在平滑抖动分量的同时，对主观的追拍分量进行很好地保留。

发明内容

为了克服现有技术中存在的不足，本发明目的是基于Similarity运动模型，在传统的菱形搜索块匹配算法的基础上，提供一种基于改进的卡尔曼滤波的实时数字视频稳像方法。该方法对传统的菱形搜索算法和卡尔曼滤波器进行了改进，即便是有高速的主观追拍运动存在时，该方法依然能很好地保留追拍分量，同时取得较好的平滑效果，对丢边现象的抑制明显优于其他补偿算法。

为了实现上述发明目的，解决现有技术中所存在的问题，本发明采取的技术方案是：一种基于改进的卡尔曼滤波的实时数字视频稳像方法，包括以下步骤：

步骤1：建立帧间运动模型：选用Similarity运动模型对图像序列的运动进行描述，以反映图像序列帧间的平移、绕光轴旋转和变焦运动，其运动模型为：

$(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = s (\begin{matrix} \cos θ & \sin θ \\ - \sin & \cos θ \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} d_{x} \\ d_{y} \end{matrix}) - - - (1)$

其中，(x,y)和(x',y')分别表示每个像素点在参考帧和当前帧的坐标，s代表摄像机的变焦系数，θ代表帧间图像的旋转角度，d_x、d_y分别代表水平和垂直方向的偏移量；对于安防监控或手持成像小幅抖动的情况下，图像序列帧间的偏转角θ 很小，认为cosθ≈1，sinθ≈θ；同时，变焦系数s保持不变，设为1，这样，(1)式的简化模型为：

$(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = s (\begin{matrix} 1 & θ \\ - θ & 1 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} d_{x} \\ d_{y} \end{matrix}) - - - (2)$

步骤2：对图像进行分块：将图像分成一系列8×8的图像块，图像块应选在具有明显图像特征且不为运动前景目标的区域；

步骤3：改进的菱形快速块匹配：按照绝对平均误差函数(Mean Absolute Difference,MAD)准则进行匹配；选取以当前帧选定子块为中心的8×8个像素点，进行对应上一帧的相同位置和周围8个方向的搜索，使用菱形搜索算法大模板，搜索的单位步长为2，具体包括以下子步骤(a)、(b)及(c)；

步骤(a)：若匹配后，最小位置为9个位置中的中心位置，则执行步骤(c)，否则，最小位置为外围的8个位置，则执行步骤(b)；

步骤(b)：记录当前最小位置的MAD值，记为MAD₀，并沿着该最小位置的方向再进行一次匹配，得到新的MAD值，记为MAD₁，若MAD₁小于MAD₀，则循环执行步骤(b)，若MAD₁大于或等于MAD₀，则跳转到步骤3；

步骤(c)：匹配后，最小位置为9个位置中的中心位置，则以步骤(a)得到的最小MAD值的位置为初始位置，进行对应上一帧的相同位置和周围4个方向的搜索，使用菱形搜索算法小模板，得到当前的最小MAD值即为最佳匹配位置：

$MAD (i, j) = \frac{1}{64} Σ_{m = 1}^{8} Σ_{n = 1}^{8} | f_{k} (m, n) - f_{k - 1} (m + i, n + j) | - - - (3)$

步骤4：基于最小二乘的全局运动估计：对式(1)进行整理，得到的矩阵方程：

$(\begin{matrix} x & - y & 1 & 0 \\ y & x & 0 & 1 \end{matrix}) (\begin{matrix} s \cos θ \\ s \sin θ \\ d_{x} \\ d_{y} \end{matrix}) = (\begin{matrix} x^{'} \\ y^{'} \end{matrix}) - - - (4)$

根据每个8×8的图像块得到的运动矢量及匹配点对，利用随机采样一致性 (Random Sample Consensus,RANSAC)剔除错误的匹配点对，并利用保留下来的正确值以及式(4)对参数s,θ,d_x,d_y进行最小二乘估计；利用最小二乘估计思想估计出的全局运动参数，即得到了当前帧相对于上一帧的全局运动向量，即 GMV＝[GMV_s,GMV_θ,GMV_x,GMV_y]＝[s,θ,d_x,d_y]；

步骤5：利用改进的卡尔曼滤波器对图像序列进行补偿，具体包括子步骤(a)、 (b)、(c)、(d)、(e)及(f)；

步骤(a)：根据状态空间理论对稳像系统进行建模，系统的状态方程和观测方程分别为：

$(\begin{matrix} x (k + 1) = Φx (k) + Γu (k) + v (k) \\ y (k + 1) = Hx (k) + w (k) \end{matrix}) - - - (5)$

其中，Φ、Γ和H分别为传递矩阵、输入矩阵和观测矩阵；x(k)、y(k)和u(k) 分别为状态向量、观测向量和控制向量，而v(k)和w(k)代表噪声向量；为了简化起见，采用具有两个状态和单观测的线性系统进行建模，其中Φ，Γ和H的取值如下：

$Φ = (\begin{matrix} 1 & 1 \\ 0 & 1 \end{matrix}), Γ = (\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}), H = (\begin{matrix} 1 & 0 \end{matrix}) - - - (6)$

步骤(b)：用PGMV表示全局运动矢量GMV的累加量，PGMV(k-1)表示 GMV从第1帧到第k帧的累加值，将PGMV的各个分量分别送入一维的卡尔曼滤波器中进行滤波，则得到：

$(\begin{matrix} {JMV}_{s} (k - 1) = {CMV}_{s} (k - 1) = {PGMV}_{s} (k - 1) - {Ko}_{s} (k - 1) \\ {JMV}_{θ} (k - 1) = {CMV}_{θ} (k - 1) = {PGMV}_{θ} (k - 1) - {Ko}_{θ} (k - 1) \\ {JMV}_{x} (k - 1) = {CMV}_{x} (k - 1) = {PGMV}_{x} (k - 1) - {Ko}_{x} (k - 1) \\ {JMV}_{y} (k - 1) = {CMV}_{y} (k - 1) = {PGMV}_{y} (k - 1) - {Ko}_{y} (k - 1) \end{matrix}) - - - (7)$

其中，Ko(k-1)＝[Ko_s(k-1),Ko_θ(k-1),Ko_x(k-1),Ko_y(k-1)]表示四个卡尔曼滤波器在第k-1时刻的输出，PGMV(k-1)和Ko(k-1)两个矢量之间的差表示第k-1帧的运动补偿矢量，CMV(k-1)＝[CMV_s(k-1),CMV_θ(k-1),CMV_x(k-1),CMV_y(k-1)]第k-1帧的抖动运动矢量用JMV(k-1)＝[JMV_s(k-1),JMV_θ(k-1),JMV_x(k-1),JMV_y(k-1)]表示，其在数值上与第k-1帧的运动补偿矢量CMV(k-1)相等；

步骤(c)：根据卡尔曼滤波器理论对状态进行预测；

$(\begin{matrix} \hat{x} (k + 1 | k) = Φ \hat{x} (k | k) + Γu (k) \\ P (k + 1 | k) = ΦP (k) Φ^{T} + R_{1} \end{matrix}) - - - (8)$

其中，和是根据k时刻对k+1时刻的估值，而P(k)为协方差矩阵，P(k+1|k)是其根据当前时刻对下一时刻的估值，另外，噪声信号v(k)和 w(k)认为是不相关的，R₁为噪声信号v(k)的方差；

步骤(d)：引入场景识别参数，λ＝[λ_s,λ_θ,λ_x,λ_y]，来识别当前场景为追拍运动或是抖动运动，λ值由下式确定：

$(\begin{matrix} λ_{x} = \frac{| \max (Σ_{i = k - L}^{k - 1} {JMV}_{x} (i)) + \min (Σ_{i = k - L}^{k - 1} {JMV}_{x} (i)) |}{2} \\ λ_{y} = \frac{| \max (Σ_{i = k - L}^{k - 1} {JMV}_{y} (i)) + \min (Σ_{i = k - L}^{k - 1} {JMV}_{y} (i)) |}{2} \\ λ_{θ} = \frac{| \max (Σ_{i = k - L}^{k - 1} {JMV}_{θ} (i)) + \min (Σ_{i = k - L}^{k - 1} {JMV}_{θ} (i)) |}{2} \end{matrix}) - - - (9)$

其中，L表示选取一定时间段内JMV的窗长，当某一个参量方向上存在追拍运动时，参数λ在这个方向上的数值大，反之，λ将是一个接近于0的很小值；

步骤(e)：根据λ的值确定第k帧观测噪声方差R(k)的值：

$(\begin{matrix} R_{s} (k) = f (λ_{s}) \\ R_{θ} (k) = f (λ_{θ}) \\ R_{x} (k) = f (λ_{x}) \\ R_{y} (k) = f (λ_{y}) \end{matrix}) - - - (10)$

其中f(·)为非线性函数，而且随着λ的增大而递减，这里给出一个参考的非线性函数，参考函数中，参量k_p的经验值取100；

$(\begin{matrix} R_{s} (k) = f (λ_{s}) = \frac{k_{p}}{λ_{s}^{2}} \\ R_{θ} (k) = f (λ_{θ}) = \frac{k_{p}}{λ_{θ}^{2}} \\ R_{x} (k) = f (λ_{x}) = \frac{k_{p}}{λ_{x}^{2}} \\ R_{y} (k) = f (λ_{y}) = \frac{k_{p}}{λ_{y}^{2}} \end{matrix}) - - - (11)$

当某一个参数方向存在追拍时，由参量确定的R(k)会很小，因而能很好的发挥卡尔曼滤波器的跟踪特性；反之，当前只存在随机抖动，R(k)的值很大，能很好的发挥卡尔曼滤波器的平滑作用；

步骤(f)：利用改进的卡尔曼滤波器和步骤(e)确定的观测噪声方差R(k)，对状态进行更新：

$(\begin{matrix} K (k) = P (k | k - 1) C^{T} {(H (k) P (k | k - 1) H {(k)}^{T} + R (k))}^{- 1} \\ \hat{x} (k | k) = \hat{x} (k | k - 1) + K (k) (y (k) - C \hat{x} (k | k - 1)) \\ P (k + 1) = (1 - K (k) C (k)) P (k + 1 | k) \end{matrix}) - - - (12)$

这里，R(k)为标量而非矢量，这是由于采用系统模型是单观测的，若采用多观测的系统模型，则应用R(k)来表示观测噪声的协方差矩阵；

步骤6：对含抖动的图像序列进行补偿：将运动补偿得到的运动补偿向量的各个参量，CMV＝[s',θ',d'_x,d'_y]以及原图像的像素位置代入下式，进行补偿：

$(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = s^{'} (\begin{matrix} \cos θ^{'} & - \sin θ^{'} \\ \sin θ^{'} & \cos θ^{'} \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} {d_{x}}^{'} \\ {d_{y}}^{'} \end{matrix}) - - - (13)$

并将像素赋给新的坐标位置(x',y')，即完成了稳像；如果采取简化后的模型，应用下式进行补偿：

$(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = (\begin{matrix} 1 & - θ^{'} \\ θ^{'} & 1 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} {d_{x}}^{'} \\ {d_{y}}^{'} \end{matrix}) - - - (14)$

本发明有益效果是：一种基于改进的卡尔曼滤波的实时数字视频稳像方法，包括以下步骤：步骤1、建立帧间运动模型，步骤2、对图像进行分块，步骤3、改进的菱形快速块匹配，步骤4、基于最小二乘的全局运动估计，步骤5、利用改进的卡尔曼滤波器对图像序列进行补偿，步骤6、对含抖动的图像序列进行补偿；与已有技术相比，本发明对传统的菱形搜索进行了优化，在达到同样或是较好的估计效果的条件下，能减少块匹配算法的运行时间；在运动补偿方面，也能很好的去除抖动分量、很好地保留追拍分量。

附图说明

图1是改进的菱形搜索(大模板)的示意图。

图2是菱形搜索(小模板)的示意图。

图3是基于优化的菱形搜索和改进的卡尔曼滤波的实时数字视频稳像方法的系统框图。

图4是原始视频(A)参考帧图像图。

图5是原始视频(A)当前帧图像图。

图6是用传统菱形搜索算法处理后图像图。

图7是用本发明方法改进的菱形搜索算法处理后图像图。

图8是原始视频(B)参考帧图像图。

图9是原始视频(B)当前帧图像。

图10是用本发明方法处理后图像图。

图11是原始视频(C)的连续图像序列图。

图12是用本发明方法改进的卡尔曼滤波器处理后连续图像序列图。

图13是用传统的卡尔曼滤波器处理后的连续图像序列图。

图14是利用PID、MVI、传统的卡尔曼滤波器和本方法存在追拍时的补偿效果对比图。

具体实施方式

下面结合附图对本发明作进一步说明。

一种基于改进的卡尔曼滤波的实时数字视频稳像方法，包括以下步骤：

步骤1：建立帧间运动模型：选用Similarity运动模型对图像序列的运动进行描述，以反映图像序列帧间的平移、绕光轴旋转和变焦运动，其运动模型为：

$(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = s (\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} d_{x} \\ d_{y} \end{matrix}) - - - (15)$

$(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = s (\begin{matrix} 1 & θ \\ - θ & 1 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} d_{x} \\ d_{y} \end{matrix}) - - - (16)$

步骤2：对图像进行分块：将图像分成一系列8×8的图像块，图像块应选在具有明显图像特征且不为运动前景目标的区域；

步骤(a)：若匹配后，最小位置为9个位置中的中心位置，则执行步骤(c)，否则，最小位置为外围的8个位置，则执行步骤(b)；

$MAD (i, j) = \frac{1}{64} Σ_{m = 1}^{8} Σ_{n = 1}^{8} | f_{k} (m, n) - f_{k - 1} (m + i, n + j) | - - - (17)$

步骤4：基于最小二乘的全局运动估计：对式(1)进行整理，得到的矩阵方程：

$(\begin{matrix} x & - y & 1 & 0 \\ y & x & 0 & 1 \end{matrix}) (\begin{matrix} s \cos θ \\ s \sin θ \\ d_{x} \\ d_{y} \end{matrix}) = (\begin{matrix} x^{'} \\ y^{'} \end{matrix}) - - - (18)$

步骤5：利用改进的卡尔曼滤波器对图像序列进行补偿，具体包括子步骤(a)、 (b)、(c)、(d)、(e)及(f)；

步骤(a)：根据状态空间理论对稳像系统进行建模，系统的状态方程和观测方程分别为：

$(\begin{matrix} x (k + 1) = Φx (k) + Γu (k) + v (k) \\ y (k + 1) = Hx (k) + w (k) \end{matrix}) - - - (19)$

$Φ = (\begin{matrix} 1 & 1 \\ 0 & 1 \end{matrix}), Γ = (\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}), H = (\begin{matrix} 1 & 0 \end{matrix}) - - - (20)$

步骤(c)：根据卡尔曼滤波器理论对状态进行预测；

$(\begin{matrix} \hat{x} (k + 1 | k) = Φ \hat{x} (k | k) + Γu (k) \\ P (k + 1 | k) = ΦP (k) Φ^{T} + R_{1} \end{matrix}) - - - (22)$

步骤(d)：引入场景识别参数，λ＝[λ_s,λ_θ,λ_x,λ_y]，来识别当前场景为追拍运动或是抖动运动，λ值由下式确定：

其中，L表示选取一定时间段内JMV的窗长，当某一个参量方向上存在追拍运动时，参数λ在这个方向上的数值大，反之，λ将是一个接近于0的很小值；

步骤(e)：根据λ的值确定第k帧观测噪声方差R(k)的值：

$(\begin{matrix} R_{s} (k) = f (λ_{s}) \\ R_{θ} (k) = f (λ_{θ}) \\ R_{x} (k) = f (λ_{x}) \\ R_{y} (k) = f (λ_{y}) \end{matrix}) - - - (24)$

其中f(·)为非线性函数，而且随着λ的增大而递减，这里给出一个参考的非线性函数，参考函数中，参量k_p的经验值取100；

步骤(f)：利用改进的卡尔曼滤波器和步骤(e)确定的观测噪声方差R(k)，对状态进行更新：

这里，R(k)为标量而非矢量，这是由于采用系统模型是单观测的，若采用多观测的系统模型，则应用R(k)来表示观测噪声的协方差矩阵；

步骤6：对含抖动的图像序列进行补偿：将运动补偿得到的运动补偿向量的各个参量，CMV＝[s',θ',d'_x,d'_y]以及原图像的像素位置代入下式，进行补偿：

并将像素赋给新的坐标位置(x',y')，即完成了稳像；如果采取简化后的模型，应用下式进行补偿：

表1是本发明提出的实时数字视频稳像方法处理不同分辨率视频的耗时(每帧取36个图像块)。

本发明优点在于：即便是有高速的主观追拍运动存在时，该方法依然能很好地保留追拍分量，同时取得较好的平滑效果，对丢边现象的抑制明显优于其他补偿算法。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于改进的卡尔曼滤波的实时数字视频稳像方法 [P] . 中国专利： CN104144283B . 2017.07.21
2. 一种基于改进的KLT和卡尔曼滤波的电子稳像方法 [P] . 中国专利： CN107222662A . 2017-09-29
3. METHOD FOR RECOGNIZING AND TRACING VEHICLE IN REAL TIME BY USING KALMAN FILTER AND CLUSTERING ALGORITHM BASED ON HAAR-LIKE FEATURE AND ADABOOST [P] . 韩国专利： KR20150002038A . 2015-01-07

机译：基于哈尔特征和ADABOOST算法的卡尔曼滤波和聚类算法的车辆实时识别与跟踪方法
4. METHOD FOR MOVING OBJECT DETECTION BY A KALMAN FILTER-BASED APPROACH [P] . 美国专利： US2017263005A1 . 2017-09-14

机译：一种基于卡尔曼滤波的运动目标检测方法
5. System and method of video Telecommunication to compress and decompress The Video Data of color digitalThe present Invention relates to a method for compressing a digital color Video Data in a Telecommunication System Video that has a means for generating a video signal that is uN means for generating a video signal to a Plurality of color video framerate,With Every Frame Image consisting of a Plurality of Scanning Lines composed of a Plurality of pixelsAnd each pixel in the image Frame consists of the components of color digitalThe Method comprises the steps of determining a function); Luminance pixel based on at least one of the three components of color digital(b) identify at least one parameter decision for at least a significant portion of pixels in the scanlines of a Table of current image based on the difference ofThe role in Luminance between the pixels at a Predetermined distance from at least one pixel in each Scan line and at least a (c) comparison of decision parameter with [P] . MX166516B . 1993-01-11

机译：用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法，该方法具有用于生成视频信号的装置，该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率，每个帧图像由多个扫描线组成，扫描线由多个像素组成，图像中的每个像素由彩色数字分量组成（该方法包括确定功能的步骤）;基于彩色数字（b）的三个分量中的至少一个的亮度像素，基于两个像素之间的亮度差异，针对当前图像表的扫描线中的至少大部分像素，确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素，以及至少（c）比较决策参数与