首页> 中国专利> 一种基于字典学习残差重建的压缩感知视频重建方法

一种基于字典学习残差重建的压缩感知视频重建方法

摘要

本发明涉及压缩感知和视频编解码领域,是一种基于字典学习残差重建的压缩感知视频重建方法。该方法先对视频划分图像组(Group of Picture,GOP),每组指定关键帧和非关键帧,关键帧和非关键帧采用不同采样率、不同方法逐帧逐块顺序编码。在解码端,取一个GOP,先采用多参考帧加权平均获得其初始重建;再采取迭代法获得GOP的最终重建。在迭代中先使用多参考帧对当前帧进行运动估计获得其运动补偿图像;接着采用多参考帧残差域字典学习,获得当前帧各个块的残差域自适应基,进行残差重建;最后,根据各帧的运动补偿图像和残差,得到该GOP的最终重建,进而得到重建视频,实现压缩感知视频的高质量重建。该方法可广泛应用于基于压缩感知的视频重建等多个领域。

著录项

  • 公开/公告号CN104822063A

    专利类型发明专利

  • 公开/公告日2015-08-05

    原文格式PDF

  • 申请/专利权人 长沙理工大学;

    申请/专利号CN201510180111.X

  • 申请日2015-04-16

  • 分类号H04N19/114(20140101);H04N19/573(20140101);H04N19/177(20140101);H04N19/61(20140101);

  • 代理机构

  • 代理人

  • 地址 410004 湖南省长沙市雨花区万家丽南路2段960号长沙理工大学

  • 入库时间 2023-12-18 09:57:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-05

    未缴年费专利权终止 IPC(主分类):H04N19/114 授权公告日:20170915 终止日期:20180416 申请日:20150416

    专利权的终止

  • 2017-09-15

    授权

    授权

  • 2015-09-02

    实质审查的生效 IPC(主分类):H04N19/114 申请日:20150416

    实质审查的生效

  • 2015-08-05

    公开

    公开

说明书

技术领域

本发明涉及压缩感知和视频重建领域,是一种基于字典学习残差重建的压缩感知视频重建方法。

背景技术

压缩感知(Compressed Sensing, CS)是近年来提出的一种新颖的信号采样模式,一经提出便受到国内外学者的广泛关注。传统的奈奎斯特采样定理要求至少以高于信号最高频率两倍的频率对信号进行采样,才能对信号进行完整重建。CS打破了这一理论,它表明只要信号在某个正交空间中是稀疏的,就可以使用较低频率采样信号,同时以高概率重构该信号。CS的主要思想是对稀疏信号进行同步压缩和采样,在确保获得重构原信号所需信息的前提下,用非自适应线性投影的方式对信号进行采样,即把原信号投影到一个低维的空间获得观测值,然后根据一定类型的线性或非线性解码机制对测量值进行解码就可高概率精确重建原始信号。

具体地,设有长度为N的一维信号                                                在正交空间上是稀疏的,即有:

                                                    (1)

其中,为在上的变换系数,若中至多有个非0项,则称为-稀疏的,即为上的-稀疏信号。那么,压缩感知可以分为以下三步进行:第一步,求出变换系数;第二步,设计一个()维的感知矩阵,对进行感知测量得到测量值

                                             (2)

以获得信号的部分信息;第三步,信号重构,即利用l0-范数下的最优化问题求解的精确值或近似逼近:

                            (3)

Donoho和Elad已证明若在上是-稀疏的,且感知矩阵与稀疏基是非相干的,则欠定方程(3)有唯一确定解。然而,式(3)作为一个最小化l0-范数问题是NP难解的,之后Candès和Donoho等人又证明了若与满足有限约束等距性(Restricted Isometry Property, RIP),则式(3)可等价为最小化l1-范数问题:

                               (4)

式(4)是一个凸优化问题,可在多项式时间内求解。

压缩感知的核心问题之一就是如何对原始信号进行精确重构,即对上述最后一步中式(3)或式(4)的求解,是近年来的研究热点。针对图像重建的现有的主要解决算法有:凸优化算法、贪婪算法、非凸最小化方法、组合优化算法、迭代阈值算法和布莱格曼迭代算法、利用图像的梯度属性作为先验的基于最小全变差(Total Variation, TV)的方法等;针对视频文件时主要对视频文件的每一帧利用上述解决算法进行图像重建,最后得到整个视频文件的重建视频。尽管这些压缩感知重建算法都取得了一定的重建效果,为压缩感知理论的推广应用奠定了良好基础,但是这些稀疏性先验知识主要是在一些固定基下的稀疏性,适应性较差,用于解决内容多变的压缩感知图像的解码重建时,重建图像的质量极其不稳定,同时,它们并没有充分挖掘并利用图像块间的相关性等,因此得到的对图像的一次重建图像的质量较差。当针对视频文件时,由于没有充分利用帧间的时域相关性,更加使得重建视频精度低、质量差。

发明内容

本发明实施例是提供一种基于字典学习残差重建的压缩感知视频重建方法,可以更精确地对压缩感知视频进行重建,提高重建视频质量。

本发明解决上述技术问题的技术方案如下:一种基于字典学习残差重建的压缩感知视频重建方法,其特征在于,该方法具体步骤如下:

步骤一:在编码端,把视频序列的若干帧划分为一个图像组 (Group of Picture, GOP),每个GOP的首帧为关键帧,其它所有帧为非关键帧。关键帧和非关键帧采用不同采样率,不同方法逐帧逐块顺序编码。关键帧采用独立的基于块的压缩感知方法编码,非关键帧采用基于块的差值编码。具体地:

1)将每一帧划分为多个不重叠的大小的块,并将每块行先拉伸为一个向量,其中i表示块的序号。对于关键帧,取一个行正交的规范化随机矩阵的前行构成感知矩阵,直接对每块进行压缩感知编码,即,其采样率为;

2)对于非关键帧,采用一个行正交的规范化随机矩阵的前行构成感知矩阵,对每块进行差值感知编码。首先将非关键帧减去相邻关键帧,第2至第K/2帧减去当前GOP的关键帧,第K/2+1至K帧减去下一GOP的关键帧,即第K+1帧。然后差值基于块进行感知编码,形式化表示为:,其采样率为。同时,由于非关键帧采用关键帧进行编码,我们一般对关键帧采用较高的采样率以提高重建性能,而非关键帧采用较低的采样率以提高压缩率,即。

步骤二:在解码端,采用一种字典学习的基于运动估计与运动补偿(motion estimation/motion compensation, ME/MC)多帧参考的残差重建方法,采用学习的自适应残差域稀疏基来表示预测残差,逐帧进行视频恢复。自适应残差域稀疏表示基从当前GOP中已重建块的帧间差值中采用KL变换(Karhunen–Loeve transform, KLT)方法生成,残差重建采用迭代方式。具体步骤包括:

1) 在首次迭代中,首先对当前GOP和下一个GOP的关键帧采用固定稀疏基逐块进行独立重建。即求解,第i块估计值为,帧图像估计值为 ,这里是一个固定稀疏基。对于非关键帧,首次迭代中,采用基于固定基的残差重建方法进行恢复。以当前GOP的关键帧和下一个GOP的关键帧或与之邻近多个已重建帧加权平均值作为当前帧的预测,首先计算,,其中为已解码邻近的关键帧,第2至第K/2帧中为当前GOP的关键帧,第K/2+1至K帧为下一GOP的关键帧。求解,得到残差的估计,由此得到当前非关键帧的首次估计值;

2) 对于当前编码帧,把当前GOP中与之邻近多个已重建帧作为参考帧,构建KLT字典,得到自适应稀疏基,;

3) 对于当块编码帧第i块,把当前GOP中与之邻近多个已重建帧作为参考帧,将所有参考帧进行对称扩展个像素。以上次迭代中的估计值为当前帧,在所有扩展参考帧中以第i块为中心的矩形搜索窗口中进行运动估计,找到与当前块最匹配的块作为运动补偿块,所有运动补偿块构成运动补偿帧;

4)计算当前帧与运动补偿帧的残差测量值,对于关键帧,由于采用了直接编码,因此其残差测量值为;对于非关键帧,由于采用差值编码其测量值,解码端得到的测量值为当前帧与关键帧的差值的测量值,因此其残差测量值为;

5) 逐帧逐块的求解压缩感知非线性优化问题,得到残差的估计,对于关键帧,求解,得到残差的估计,对于非关键帧,求解,得到残差的估计;

6)得到本次迭代当前解码帧的估计,即,对于关键帧,对于非关键帧;

7)重复2)-6),直到迭代条件满足。

本发明的有益效果是:本发明所述的一种基于字典学习残差重建的压缩感知视频重建方法,该方法在编码端将视频序列划分为GOP,对每组GOP指定关键帧与非关键帧,对关键帧以较高采样率进行采样,提高关键帧的保真度;对非关键帧以较低采样率进行采样,增大压缩度,同时以当前GOP或下一个GOP的关键帧为参考进行差值编码,由于残差更加稀疏,所以进一步提高了压缩比。在解码端,采用迭代方式进行字典学习的基于运动估计与运动补偿多帧参考的残差重建。具体地,在首次迭代时,首先对关键帧的图像块以块为单位采用固定基进行独立解码,得到初始估计,接着,对非关键帧的残差测量值采用基于块固定基进行重建,将重建结果与其参考关键帧进行求和得各非关键帧的初始估计,提高了非关键帧初始估计的精确性;最后,利用得到的初始估计迭代地对小组内的所有帧采用基于块的多参考运动补偿及字典学习残差重建方法进行解码重建,得到最终的重建图像,由于使用了多参考帧进而充分挖掘了视频图像帧的时域相关性,同时,在进行基于运动补偿的残差重建方法时,由于所使用的重建基是通过字典学习获得的各个块的自适应稀疏基,它增强了残差块的稀疏性,更加适用于当前块的残差重建,较大幅度的提高了重建视频的质量。另外,由于使用迭代重建,使得每一帧的重建图像进行了多次精炼,进一步提高了重建视频的质量。总之,该方法可广泛应用于基于压缩感知的视频重建等多个领域,完成对压缩感知视频的高质量重建。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述的对非关键帧编码时计算差值,所采用的方法是当前编码帧的参考帧进行对称扩展个像素,当前GOP的第2至第K/2帧的参考帧为当前GOP的关键帧,第K/2+1至K帧的参考帧为下一个GOP的关键帧,在所有扩展参考帧中以第i块为中心的矩形搜索窗口中进行运动估计,找到与当前编码块最匹配的块,然后当前编码块减去最匹配块得到差值。

进一步,所述对当前帧构建自适应稀疏基,所采用的方法是利用KL变换在梯度域进行的,获得每个块的自适应残差域稀疏基,具体步骤如下:

1)  分别计算单个参考帧和参考帧之间的相邻参考块间的梯度,作为初始的帧内和帧间残差原子;

2)  通过如下式(5)计算所有原子的平均值,得到原子的估计的相关矩阵:

                         (5)

其中,表示残差原子的相关矩阵,表示第个原子,表示其转置,为原子个数,由块大小和搜索窗口大小决定,假定块大小和搜索窗口大小分别为和,则;

3)  对相关矩阵进行奇异值分解(singular value decomposition, SVD),得到,其中为特征向量矩阵,为的转置,是由的特征值组成的对角矩阵;

4)  确定当前块的自适应残差域稀疏基,即。

 附图说明

图1为本发明涉及的一种基于字典学习残差重建的压缩感知视频重建方法的总流程图;

图2为本发明涉及的基于压缩感知的视频编码的步骤流程图;

图3为本发明涉及的获取图像组(Group of Picture, GOP)初始重建的步骤流程图;

图4为本发明涉及的获取GOP最终重建的步骤流程图;

图5为本发明涉及的采用多参考帧获取运动补偿方法的步骤流程图;

图6为本发明涉及的多参考帧梯度字典学习方法的步骤流程图;

图7为本发明涉及的残差重建方法的步骤流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

如图1所示为本发明涉及一种基于字典学习残差重建的压缩感知视频重建方法的总流程图;图2为发明涉及的基于压缩感知的视频编码的步骤流程图;图3为本发明涉及的获取GOP初始重建的步骤流程图;图4为本发明涉及的获取GOP最终重建的步骤流程图;图5为本发明涉及的采用多参考帧获取运动补偿方法的步骤流程图;图6为本发明涉及的多参考帧字典学习方法的步骤流程图;图7为本发明涉及的残差重建方法的步骤流程图。如图1、2、3、4、5、6、7所示,一种基于字典学习残差重建的压缩感知视频重建方法具体步骤如下:

由用户提供视频文件。

步骤一:在编码端,把视频序列的若干帧划分为一个GOP(Group of Picture,图像组),每个GOP的首帧为关键帧,其它所有帧为非关键帧。关键帧和非关键帧采用不同采样率,不同方法逐帧逐块顺序编码。关键帧采用独立的基于块的压缩感知方法编码,非关键帧采用基于块的差值编码。具体地:

1)  输入视频序列,顺序地每8帧划分为一个GOP,每组图像的首帧指定为关键帧,后续的其它帧为非关键帧;

2)  将每一帧划分为多个不重叠的16×16大小的块,并将每块行先拉伸为一个长度为256的向量,其中i表示块的序号;

3)  设定关键帧的采样率0.3,非关键帧的采样率0.05;

4)  生成行列数等于256且均值为0、方差为1的高斯正交方阵,根据关键帧采样率0.3,选取前[0.3×256]=77行形成关键帧的感知矩阵,对于非关键帧,根据其采样率,采用同样的方法构建其感知矩阵;

5)  逐帧逐块顺序地对视频进行编码。对于关键帧,直接对每块进行压缩感知编码,即关键帧中第i块的测量值为。对于非关键帧,首先将其减去相邻关键帧,第2至第4帧减去当前GOP的关键帧,第5至8帧减去下一GOP的关键帧;然后对差值进行基于块的感知编码,即第nk个非关键帧中第i块的差值测量值为;

6)  对得到的GOP测量值进行量化;

7)  将感知矩阵和量化后的测量值同步(存储或传输)到解码端。

 步骤二:在解码端,采用一种字典学习的基于运动估计与运动补偿(motion estimation/motion compensation, ME/MC)多帧参考的残差重建方法,采用学习的自适应稀疏基来表示预测残差,逐帧进行视频恢复。自适应稀疏表示基从当前GOP中已重建块的帧间差值中采用KL变换(Karhunen–Loeve transform,KLT)方法生成,残差重建采用迭代方式。具体步骤包括:

1) 取关键帧的感知矩阵和非关键帧的感知矩阵;

2) 构造DCT固定稀疏基;

3) 取第一个GOP数据,标记为当前编码的GOP;

4) 取当前GOP中的关键帧即第一帧的量化值,对其进行反量化,依次对每个块解码重构。具体地,采用平滑投影Landweber(Block-Based Smooth Projected Landweber,SPL)方法求解问题,得到第i块估计值为,表示关键帧k的第i块的反量化值。解码完所有块后,得到整个帧的估计值,即重建图像, ,,n为当前帧总共划分的块数;

5) 取下一个GOP的关键帧量化测量值,重复步骤4),得到下一个GOP关键帧的重建图像;

6) 取当前GOP的非关键帧并分为两组,第2至第4帧为第一组,第5至8帧为第二组,对每一帧依次进行基于固定基的多参考差值重建得到初始估计值。具体地,以当前GOP的关键帧和下一个GOP的关键帧或与之邻近多个已重建帧加权平均值作为当前帧的预测,首先计算,,其中为已解码邻近的关键帧,第2至第4帧中为当前GOP的关键帧,第4至8帧为下一GOP的关键帧。求解,得到残差的估计,由此得到当前非关键帧的首次估计值;

7) 取当前GOP的第k帧,把当前GOP中与之邻近的所有已重建帧作为参考帧,构建KLT字典。首先,计算相邻两个参考帧的差值(残差),;然后,提取所有参考帧差值中的重叠16×16大小的块作为原子,向量化后构成一个原子矩阵D,进行KL变换,即计算原子矩阵的相关矩阵后进行奇异值分解(singular value decomposition, SVD),得到特征向量向量矩阵,将作为自适应基。具体地,先计算原子矩阵的协方差矩阵,表示原子矩阵的第j列,即第j个原子,然后进行奇异值分值,,;

8) 通过依次寻找当前解码帧的每个编码块的最匹配块得到当前帧的运动补偿帧。具体地, 对于当块编码帧第i块,把当前GOP中与之邻近的已重建帧作为参考帧,将所有参考帧对称扩展32个像素,在所有扩展参考帧中以第i块为中心的32×32矩形搜索窗口中采用全搜索方式进行运动估计,找到与当前块最匹配的块作为运动补偿块,所有运动补偿块构成运动补偿帧;

9) 计算当前帧与运动补偿帧的残差测量值,如果当前编码帧为关键帧,由于采用了直接编码,因此其残差测量值为;如果当前编码帧为非关键帧,由于采用差值编码其测量值,解码端得到的测量值为当前帧与关键帧的差值的测量值,因此其残差测量值为,其中为当前编码帧对应的关键帧的重建图像,在第一组中为当前GOP的关键帧,在第二组中为下一个GOP的关键帧;

10) 采用SPL方法求解压缩感知非线性优化问题,得到残差的估计,如果当前编码帧为关键帧,求解,得到残差的估计,如果当前编码帧为非关键帧,求解,得到残差的估计;

11) 得到本次迭代当前解码帧的估计,即,如果当前编码帧为关键帧,则,如果当前编码帧为非关键帧,则;

12) 对当前GOP的所有非关键帧重复6)至11),直到达到最大迭代次数;

13) 取下一个GOP的数据,标记为当前解码的GOP,重复4)至13),直至得到输入视频中所有GOP的重建GOP,进而得到重建视频,实现对输入视频的重建。

以上所述仅为本发明的较佳实施实例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号