首页> 中国专利> 一种基于人类视觉系统的多描述视频编码方法

一种基于人类视觉系统的多描述视频编码方法

摘要

本发明提供了一种基于人类视觉系统的多描述视频编码方法,其过程包括:首先读入一视频序列,对其进行奇偶帧分离,得到主信息奇数帧子序列X1和偶数帧子序列X2;根据JND错误预测机制分别得到重建出来的偶数帧序列和奇数帧序列经过编码模式选择模块处理后得到奇数帧一路的冗余信息Y2和偶数帧一路的冗余信息Y1;将主信息X1,X2和冗余信息Y1,Y2分别通过标准编码器和冗余信息编码器进行编码;编码后,X1和Y2形成描述1,X2和Y1形成描述2,通过不同信道传输到解码端进行解码。

著录项

  • 公开/公告号CN103501441A

    专利类型发明专利

  • 公开/公告日2014-01-08

    原文格式PDF

  • 申请/专利权人 北京交通大学长三角研究院;

    申请/专利号CN201310413810.5

  • 申请日2013-09-11

  • 分类号H04N19/89(20140101);H04N7/64(20060101);H04N7/66(20060101);

  • 代理机构11255 北京市商泰律师事务所;

  • 代理人毛燕生

  • 地址 212009 江苏省镇江市高新园区南纬四路产业聚集区C16号楼

  • 入库时间 2024-02-19 21:18:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-28

    未缴年费专利权终止 IPC(主分类):H04N19/89 授权公告日:20160817 终止日期:20170911 申请日:20130911

    专利权的终止

  • 2016-08-17

    授权

    授权

  • 2014-02-12

    实质审查的生效 IPC(主分类):H04N19/89 申请日:20130911

    实质审查的生效

  • 2014-01-08

    公开

    公开

说明书

技术领域

本发明涉及数字视频处理技术领域,具体涉及一种基于人类视觉 系统的多描述视频编码方法。

背景技术

近年来随着因特网的爆炸式发展,视频传输应用越来越广泛。然 而,网络拥塞、随机比特错误和数据包丢失将导致视频压缩数据质量 严重下降,这就给视频传输带来了极大挑战。因此,需要开发一种视 频编解码方案,它不仅要有高压缩效率还要保证视频传输的鲁棒性。

多描述编码作为一种能在易错信道上提高传输鲁棒性的技术,吸 引了越来越多的学者研究。可以假设在信源和信宿之间存在着很多信 道,不可能所有信道同时在一个视频帧出错,多描述编码是在这个假 设的基础上提出来的。在编码端信源产生多个比特流(称之为描述), 每个比特流具有同样的优先级,在多个相互独立的信道上进行传输。 在解码端,每一个描述都能被独立解码,重建用户可接受质量的视频 序列;随着接收到描述数量的增加,重建视频序列质量也随之提高。

多描述视频编码的基本思想是如何利用描述的冗余信息来提高 传输的鲁棒性。因此,在多描述视频编码中需要一些必要的冗余,尽 管这样会降低压缩效率。在过去几年里,设计一个多描述编解码方法 的主要目标是在传输比特率和重建质量之间折衷。经典多描述编码方 法是利用变换和量化。根据多描述标量量化原则,设计了不同的多描 述视频编码方法。多描述相关性变换被用来设计运动补偿多描述视频 编码。有文献提出了X树非平衡保护多描述编码方法。尽管上述方 法取得了较好的实验结果,但是这些方法不能兼容广泛应用的标准编 解码器,如H.26x和MPEG系列。为了解决这个问题,国外文献中 多描述视频编码通过应用H.264/AVC标准中先进的视频编码工具来 引入描述间的冗余信息。此外,很多方法都是针对于某一种确定的标 准编解码器而提出的,如H.264/AVC。为了提高性能,针对H.264/AVC 采用了片级和宏块级的多描述视频编码方法。根据多描述采样原则, 有文献提出了基于交织抽取与分块压缩感知策略的图像多描述编码 方法,但是压缩效率不是很高。有文献提出了一种适用于丢包信道的 小波编码图像传输方法,利用分层多描述编码来提高信源编码的容错 性能,但它依赖于信源编码的结构。还有文献提出的方法只针对特定 图像。上述方法都取得很好的效果,但是都没有考虑到人类视觉系统 的特性,忽略了无论图像还是视频,最终的接收者都是人类视觉系统。

发明内容

本发明的目的在于针对上述技术中存在的问题,提供一种基于人 类视觉系统的多描述视频编码方法。为每个描述分配必要的冗余信 息,避免可能产生的视觉失真,设计了不同的编码模式来生成冗余信 息并用JND(Just Noticeable Distortion)调整残差信息,实现丢失视 频帧的高质量恢复。

为了实现上述目的,本发明采用的技术方案为:

一种基于人类视觉系统的多描述视频编码方法,其过程包括:

(1)首先读入一视频序列,对其进行奇偶帧分离,得到主信息 奇数帧子序列X1和偶数帧子序列X2

(2)根据JND错误预测机制分别得到重建出来的偶数帧序列和奇数帧序列

(3)经过编码模式选择模块处理后得到奇数帧一路的冗余信息 Y2和偶数帧一路的冗余信息Y1

(4)将主信息X1,X2和冗余信息Y1,Y2分别通过标准编码器和 冗余信息编码器进行编码;

(5)编码后,X1和Y2形成描述1,X2和Y1形成描述2,通过不 同信道传输到解码端进行解码。

其中,所述JND错误预测机制的重建过程为:

在编码端,对于奇数帧构成的视频子序列,首先用奇数帧视频序 列通过帧内插方式重建出偶数帧视频序列,如图2所示,然后对重建 出来的偶数帧进行分块,取块大小为a×b,结合真实的偶数帧和JND 信息,求出每一块中变化范围超过JND值的像素所占的比例T;

对于偶数帧视频子序列,用偶数帧序列通过帧内插方式重建出奇 数帧序列,然后对重建出来的奇数帧进行分块,取块大小为a×b,结 合真实的奇数帧和JND信息,求出每一块中变化范围超过JND值的 像素所占的比例T。

JND(Just Noticeable Distortion)即刚能觉察到的失真,对于视频 图像来说,它表示人眼不能觉察到的最大的图像失真。JND揭示了人 眼对图像中某个点的像素值改变的容忍度阈值。心理学实验表明,由 于HVS(Human Vision System)对时间和空间频率的敏感性和掩藏 特性,人眼很难感觉到低于JND阈值的变化。这里的JND指的是时 空域的JND。

其中,所述JND信息包括空域JND信息和时空域JND信息,JND 信息的获取过程也包括这两方面信息的获取。

空域JND的获取

空域JND主要由两部分决定,即背景亮度自适应和纹理掩藏效 应。HVS对亮度对比度的敏感性远高于对绝对亮度值的敏感性。由 于纹理区域的非均一性,导致了纹理区域比平坦区域可以隐藏更多信 号失真。在任何视频序列当中,这两种特性都是共同作用的。

JNDs(x,y)=Tl(x,y)+Tt(x,y)-Clt×min{Tl(x,y),Tt(x,y)}

其中,Tl(x,y)和Tt(x,y)分别表示背景亮度自适应和纹理掩藏的效 果;Clt用来调整两个因素之间的叠加程度,0<Clt<1,在本发明中取 Clt=0.3。

其中,是像素点(x,y)处的局部平局亮度值。它由(x,y)周围 5×5邻域内像素值的加权得到,如下所示:

I(x,y)=132Σi=15Σj=15I(x-3+i,y-3+j)·B(i,j)

式中I(x,y)是像素点(x,y)位置处的像素值,B(i,j)是如图3(a)所示 的加权低通滤波器。

Tt(x,y)=η·G(x,y)·We(x,y)

其中,η是控制参数,在本发明中取η=0.117,G(x,y)是(x,y)处像 素在如图3(b)(c)(d)(e)高通滤波器所示的四个方向上的最大梯度值, We(x,y)是与边缘相关的像素加权值。

G(x,y)=maxk=1,2,3,4{|gradk(x,y)|}

式中gradk(x,y)是(x,y)处像素在某一个方向上的梯度值。

gradk(x,y)=116Σi=15Σj=15I(x-3+i,y-3+j)·gk(i,j)

其中,gk(i,j)是如图3(b)(c)(d)(e)所示的高通滤波器。

We=L*h

式中L是原始视频帧的边缘信息,h是一个k×k的高斯低通滤波 器,在本发明中k=7且σ=0.8。

时空域JND的获取

时域效果可以作为空域JND幅值的伸缩因子。一般来说,帧间 差异越大,其时域隐藏效果也越强,因此时空域的JND模型可以表 示为

JND(x,y,t)=f(ild(x,y,t))·JNDs(x,y)

式中ild(x,y,t)代表了第t帧和第t-1帧之间的像素值差异,

ild(x,y,t)=12(I(x,y,t)-I(x,y,t-1)+I(x,y,t)-I(x,y,t-1))

函数f(x)为一个经验函数,如图4所示。

其中,所述编码模式选择包括:

下面以奇数帧一路为例来阐述编码模式的选择。根据JND错误 预测机制重建的模块中所得比例T,设置阈值T1,如果重建块中像素 变化超过JND值的像素所占的比例T<T1,该模式定义为Mode1;如果 重建块中像素变化超过JND值的像素所占的比例T≥T1,该模式定义 为Mode2,此时需要对重建块进行补偿;如果重建块在经过Mode2 中的补偿之后其像素变化超过JND值的像素所占的比例还是T≥T1, 该模式定义为Mode3,如图5所示。

(1)Mode1时,重建块中像素变化超过JND值的像素所占的比 例T<T1,说明不需要任何冗余信息只依靠主信息的重建质量就能达 到满意效果,采用灵活的Skip模式,降低了码率;

(2)Mode2时,重建块中像素变化超过JND值的像素所占的比 例T≥T1,说明重建块需要一部分冗余信息来提高块的重建质量,把 运动矢量MV作为冗余信息传送到解码端,过程如下:用I(t)的当前 块通过运动估计在I(t-1)中寻找差异最小块,记录其运动矢量MV,如 图6所示;

(3)Mode3时,经过Mode2中运动矢量的补偿后重建块中像素 变化超过JND值的像素所占的比例T≥T1,说明块的重建质量很差, 需要传送Mode2中的运动矢量MV,还需要传送残差信息,运动矢量 MV的获取过程同Mode2,找到运动矢量MV后,用当前块减去I(t-1) 中差异最小块得到另一部分冗余信息,即残差数据。

由于运动矢量要无失真地传输到解码端,所以直接对运动矢量信 息进行算术编码,而对于残差数据,首先用JND信息进行调整,即 残差大于对应的JND值时保持不变,小于对应的JND值时直接置0, 这样残差的熵就变小了,然后再进行DCT变换,量化取整,而后进 行算术编码,传送到解码端进行解码。

其中,所述编码模式中的参数T1的选择:

由于阈值T1的选择直接和冗余信息多少相关,T1大致和冗余信息 多少呈反比关系,即T1取值太小,冗余信息就会很多;T1取值太大, 冗余信息就会很少,对视频序列的重建质量提高不明显。所以可以根 据信道带宽的大小或者用户要求的视频的主观重建质量确定冗余多 少,进而确定阈值T1

其中,本发明的多描述编码方法采用PSPNR(Peak Signal  Perceptual Noise Ratio,PSPNR)作为评价标准,由于PSPNR只考虑失

PSPNR(t)=10log10255×255·····1MNΣx=1MΣy=1N(|I(x,y,t)-I^(x,y,t)|-JND(x,y,t))2δ(x,y,t)

真超过JND阈值的情况,它能更好的的反应人眼对重建视频的评价:

其中,I(x,y,t)和分别代表原始视频序列第t帧和重建视频 序列第t帧

有益效果

本发明的多描述视频编码方法的主要优点:

在编码端通过预测单路解码,为每个描述分配必要的冗余信息, 避免可能产生的视觉失真;

考虑到视频编码压缩效率问题,进一步设计了不同的编码模式来 生成冗余信息并用JND(Just Noticeable Distortion)调整残差信息;

在解码端可以充分利用冗余信息,从而实现丢失视频帧的高质量 恢复。

附图说明

图1为本发明的多描述视频编码方法示意框图;

图2为用奇数帧视频序列通过帧内插方式重建出偶数帧视频序 列的具体过程的示意图;

图3为本发明的编码方法中获取空域JND所用的低通和高通滤 波器,图3(a)为加权低通滤波器,图3(b)(c)(d)(e)为高通滤波器;

图4为本发明的编码方法中获取时空域JND所用经验函数f(x)

图5为本发明的编码方法中编码模式的选择过程的示意框图;

PSPNR(t)=10log10255×255·····1MNΣx=1MΣy=1N(|I(x,y,t)-I^(x,y,t)|-JND(x,y,t))2δ(x,y,t)

图6为重建块中获取运动矢量和残差的过程示意图;

图7为各视频序列在收到一个描述和两个描述且丢包率为0时本 发明方法和传统方法比较的示意图;

图8为Soccer序列在不同丢包率的情况下本发明方法和传统方 法比较的示意图;

图9为4个视频序列在丢包率为0,QP=25的情况下本发明方法 对各视频序列的主观重建质量的示意图。

具体实施方式

下面结合附图对本发明进行详细阐述,以使本发明的优点和特征 能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为 清楚明确的界定。

为了验证本发明方法的有效性和先进性,我们采用如表1所示4 个具有不同格式空间分辨率的标准视频序列来测试本系统的性能。将 本发明方法和文献提出的方法(传统方法)在不同条件下视频主观的 重建质量(Y分量的PSPNR平均值)进行了比较。为了比较公平起 见,在处理过程中,两种方法均选取各视频序列的前100帧,块大小 都取为16×16,冗余信息取主信息码率的10%左右。其中,主信息 均通过HEVC(HM-8.2,GOPsize设置为4,MaxCUWidth和 MaxCUHeight设置为64,IntraPeriod设置为-1,TransformSkip和 TransformSkipFast设置为0)进行编码,冗余信息用采用算术编码 (Arith06)方法进行编码。表2以接收到两个描述为例给出了本发明 方法和传统方法在不同丢包率下的情况下重建视频质量的比较,为了 保证取值的准确性,每个数据均测试10次,然后求其平均值。

表1输入的视频序列

序列名称 序列格式 序列分辨率 输入帧数和帧率 News QCIF 176×144 100@30fps Paris CIF 352×288 100@30fps Soccer 4CIF 704×576 100@30fps City 720P 1280×720 100@60fps

表2不同丢包率下两种方法的比较

表2列出了本发明方法和传统方法在相同码率不同丢包率下视 频序列的重建情况。从表中可以看出随着丢包率的增加本发明方法相 比于传统方法的增益逐渐减小,这是因为随着丢包率的增加主信息会 遭到越来越严重的破坏,补偿所起的作用会越来越小,因此重建视频 质量将会随之下降。但是soccer序列在丢包率为10%,比特率为 450kpbs时仍然有0.2dB以上的提高,说明了本发明方法在比较高的 丢包率情况下有很好的鲁棒性。

如图7(a)和(b)所示,在丢包率为0的情况下,对于小分辨率视频 序列如qcif和cif格式,在低码率情况下,传统方法比本发明方法有 0.5dB的增益。但是,在高码率情况下,本发明方法比传统方法有1-2dB 以上的提高。另外,如图7(c)和(d)所示,对于大分辨率视频序列,在 4cif格式下平均可以提高1.3-2dB,在720p格式下,本发明方法一个 描述比传统方法两个描述的重建质量还要好,在高码率下甚至有6dB 左右的提高,其原因主要是由于高码率情况下本发明方法的冗余分配 能够起到更好的作用。由图8可以看出,即使存在丢包的情况下本发 明方法依然优于传统方法。图9给出了各视频序列的主观重建质量, 从图中可以看出,News、Paris和City只需要一个完整的描述就可以 保证重建质量,Soccer序列在一个描述时重建质量很差,其原因是视 频序列中的运动过于剧烈。从而验证了本发明方法的有效性和先进 性。

本申请中,所用soccer、city等英文为视频编码领域的通用标准 测试序列,一般也都以英文出现。

最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明 所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人 员来说,在上述说明的基础上还可以做出其它不同形式的变化或变 动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的 显而易见的变化或变动仍处于本发明的保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号