首页> 中国专利> 一种基于多级感兴趣区域的多视点视频编码方法

一种基于多级感兴趣区域的多视点视频编码方法

摘要

本发明公开了一种基于多级感兴趣区域的多视点视频编码方法,包括以下步骤:对深度图进行基于宏块的深度显著性计算,获得深度显著性值SMB;基于所述深度显著性值SMB、多级感兴趣区域的分割标准计算分割阈值;通过所述分割阈值对多视点视频进行分割,获取感兴趣级别不同的多个视频区域;根据感兴趣级别SL调整量化参数QP,通过调整后的量化参数对多个视频区域分别进行编码,得到重建视频。本方法在保证重建视频的整体质量的前提下降低了码率,提高了多视点视频的编码效率。

著录项

  • 公开/公告号CN103179405A

    专利类型发明专利

  • 公开/公告日2013-06-26

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201310099999.5

  • 申请日2013-03-26

  • 分类号H04N7/26(20060101);H04N13/00(20060101);H04N15/00(20060101);

  • 代理机构12201 天津市北洋有限责任专利代理事务所;

  • 代理人温国林

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2024-02-19 19:37:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-02-24

    授权

    授权

  • 2013-07-24

    实质审查的生效 IPC(主分类):H04N7/26 申请日:20130326

    实质审查的生效

  • 2013-06-26

    公开

    公开

说明书

技术领域

本发明涉及多视点视频编码领域,特别涉及一种基于多级感兴趣区域的多 视点视频编码方法。

背景技术

随着3D技术的迅速崛起与快速发展,多视点视频由于其生动丰富的视觉体 验,吸引了越来越多的注意力,并成为下一代多媒体系统的关键技术之一,这 些应用包括自由视点电视(FTV)和三维立体电视(3DTV)等。多视点视频是 指由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号,是 3D视频的一种有效表示方法。而随着相机数目的增加,多视点视频的海量数据 已成为制约其广泛应用的一个瓶颈。为此,国际电信联盟远程通信标准化组织 (ITU-T)和动态图像专家组(MPEG)组成的联合视频工作组(JVT)提出了 多视点视频编码(MVC)的概念来有效处理多视点视频。目前MVC标准以 H.264/AVC视频编码标准补篇的形式出现,并兼容H.264/AVC标准。这确保了 MVC标准技术的先进性以及应用实施的可行性。

现存的MVC方法主要是在数字信号处理理论和香农信息论的基础上通过 减少时间和视点间的冗余来提高率失真性能,但是忽略了人类视觉系统(HVS) 对视频场景感知的多样性。尽管HVS的神经资源有限,但依然能够实时分析复 杂场景,因为HVS可以将部分输入场景选择为“显著区域”。因此,如何结合 HVS的视觉感知特性来提高编码效率,具有非常重要的理论意义和实用价值。 基于视觉注意的MVC编码方法可以根据视频内容的不同有效改善比特率的分 布,并且能够在不影响视频质量主观评价的前提下提高编码效率。

大量的人类视觉生理学和心理学研究结果表明,人眼对视频图像中的不同 内容并非一视同仁,而是表现出选择性和迁移性。人眼会下意识地将一幅图像 分为若干个不同的区域,并将注意力集中在人眼感兴趣区域(ROI)。如果感兴 趣区域的数目多于一个,注意力在这些区域会有一个转移的过程,即注意力首 先集中在最感兴趣区域,一段之间之后再转移到次感兴趣区域,依此类推。人 类视觉的这种特性对图像观察者理解图像内容和评价图像质量起着至关重要的 作用。利用视觉显著性模型来计算图像中的感兴趣区域,并将其表示为显著性 图,这是得到视觉注意区域的一种有效方式。

为了基于视觉显著性实现MVC比特分配优化,首先需要得到准确的ROI。 大多数ROI检测方法都是针对一个具体对象,通过建立显著性模型来决定ROI。 传统ROI提取方法将一帧划分为两部分:ROI和非ROI,而这两者之间的视频 质量的巨大差别会导致重建帧图像不平滑。目前研究者提出了一些基于多级 ROI的视频编码的方法:Zhou[1]等提出了一种多级ROI模型,该模型由眼鼻中 心区域、脸部轮廓区域,边缘区域和背景区域组成,然后将视频场景分为感兴 趣程度不同的区域。Kim[2]和Lee[3]等将屏幕的中心区域设定为优先权最高的主 要ROI,其他区域根据其与主要ROI的距离来成比例地分配优先性。

发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:

上述方法应用在背景简单、对象单一的视频场景时取得了较好的效果;当 应用在复杂的视频场景时,提取到的ROI不准确,进而导致视频编码质量较差、 整体编码效率较低。

发明内容

本发明提供了一种基于多级感兴趣区域的多视点视频编码方法,本方法通 过多级ROI分割,提高了视频编码的效率和质量,详见下文描述:

一种基于多级感兴趣区域的多视点视频编码方法,所述方法包括以下步骤:

(1)对深度图进行基于宏块的深度显著性计算,获得深度显著性值SMB

(2)基于所述深度显著性值SMB、多级感兴趣区域的分割标准计算分割阈 值;

(3)通过所述分割阈值对多视点视频进行分割,获取感兴趣级别不同的多 个视频区域;

(4)根据感兴趣级别SL调整量化参数QP,通过调整后的量化参数对多个 视频区域分别进行编码,得到重建视频。

所述对深度图进行基于宏块的深度显著性计算,获得深度显著性值SMB具体 为:

SMB=116×16Σx=116Σy=116d(x,y)

其中,d(x,y)是当前编码宏块中像素(x,y)的深度值,x和y分别是像素的水 平和垂直坐标。

所述基于所述深度显著性值SMB、多级感兴趣区域的分割标准计算分割阈值 的步骤具体包括:

1)基于深度显著性值SMB计算深度显著性值分布p(s);

2)通过分析宏块深度显著性值的分布p(s)和多级感兴趣区域的分割标准为 各级感兴趣区域确定阈值Tk

3)通过各级感兴趣区域确定阈值Tk获取最感兴趣区域、多个延展感兴趣区 域和背景区域。

所述多级感兴趣区域的分割标准具体为:

分割多级区域以对象为原则,保证一个对象主体包含在感兴趣级别相同的 区域。

各级感兴趣区域的阈值Tk具体为:

Tk=maxx{Ri|i=0,1,...,n-1}{x|P(x)>Σδk},k=1,2...,K-1

P(x)是p(s)的累积分布函数;Ri是p(s)的二阶差分取最大值时所对应的s值; n代表了p(s)极大值的总数目;δk是常数;K是划分级数的总数。

宏块的感兴趣级别SL判断公式如下:

SL=1ifSMB>T1......kifTk<SMB<Tk-1KifSMB<TK-1

其中,T1,Tk-1,...,TK-1分别为当视频序列被分为K个级别时所计算得到 的各级感兴趣区域的分割阈值。

所述根据感兴趣级别SL调整量化参数QP的步骤具体为:

QP=QPhSL=1QPh+(SL-1)×ΔQPSL2

QPh=bQP+3,ifh=1QPh-1+1,ifh>1

bQP是基础量化参数;h是分层B帧的分层等级;ΔQP是相邻感兴趣级别 之间的量化参数差值。

本发明提供的技术方案的有益效果是:本方法提出的基于宏块深度显著性 的多级ROI提取和比特分配优化方法能够更有效地满足人眼视觉要求。既可以通 过多视点视频的深度信息,较为便捷地获得精确可靠的多级ROI;又能在对应的 比特优化分配策略的配合下,提高视频ROI与边界的平滑性,在保证重建视频的 整体质量的前提下降低码率,提高多视点视频的编码效率。

附图说明

图1给出了视频序列Ballet第0个视点第一帧的多级ROI分割结果;

图2给出了视频序列Ballet和Breakdancers采用JMVC原始编码方法与本 方法在不同QP的情况下,第0个视点重建ROI的率失真对比结果;

图3给出了视频序列Ballet和Breakdancers采用JMVC原始编码方法与本 方法在不同QP的情况下,八个视点重建视频的平均率失真对比结果;

图4为一种基于多级感兴趣区域的多视点视频编码方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。

为了提高视频编码的效率和质量,本发明实施例提供了一种基于多级感兴 趣区域的多视点视频编码方法,将多视点视频有效分割为多级ROI,然后给出了 基于多级ROI分割结果进行量化参数调整、进而实现编码比特优化分配的策略, 参见图4,详见下文描述:

101:对深度图进行基于宏块的深度显著性计算,获得深度显著性值SMB

深度图是由深度照相机捕获或者通过立体匹配计算得到的8比特灰度图。深 度图中的每个像素代表了视频对象和相机之间的相对距离。深度图像的特征与 纹理图像有较大的区别:首先,一个对象的深度值通常不会有剧烈的变化;其 次,深度值在边界区域是不连续的。多视点视频具有深度信息,而且深度信息 十分接近于语义信息,有利于视频对象检测。人们通常对视频场景中凸现的区 域更加感兴趣,感兴趣程度会随着区域远离而下降,也即视频区域的深度值越 大,人们对该区域越感兴趣。因此,本方法采用深度值来划分视频场景中区域 的重要级别,对深度图进行基于宏块的深度显著性计算,获得深度显著性值SMB

SMB定义为每个宏块的平均深度值,即

SMB=116×16Σx=116Σy=116d(x,y)

其中,d(x,y)是当前编码宏块中像素(x,y)的深度值,x和y分别是像素的水 平和垂直坐标。

102:基于深度显著性值SMB、多级感兴趣区域的分割标准计算分割阈值;

其中,该步骤具体包括:

1)通过深度显著性值SMB获取每个宏块的深度显著性值分布p(s);

其中,每个宏块的深度显著性值分布p(s)由以下公式决定:

p(s)=Ha(s)16×16M×N

其中,M×N是视频图像的大小;a是采样区间大小;是采样后的 深度显著性值;Ha(s)是采样区间大小为a时宏块深度显著性值的直方图。

2)多级感兴趣区域的分割标准;

在本方法中采用了深度显著性值分布p(s)来实现多级ROI的分割,分割多 级区域以对象(例如:人、物体等)为原则,保证一个对象的主体包含在感兴 趣级别相同的区域。场景中最前方的对象包含在最感兴趣区域内。分割结果为: 最感兴趣区域、多个延展感兴趣区域和背景区域,该些区域的具体定义为本领 域技术人员所公知,本发明实施例在此不做赘述。

3)通过分析宏块深度显著性值的分布p(s)和多级感兴趣区域的分割标准来 为各级ROI确定合适的阈值Tk

候选范围定义为:

Ri=argmaxs[mi,mi+1]{p(s+2)-2p(s+1)+p(s)},i=0,1,...,n-1

其中,mi和mi+1是p(s)的两个极大值;p(s+2)-2p(s+1)+p(s)是p(s)的二阶差 分;Ri是p(s)的二阶差分取最大值时所对应的s值;n代表了p(s)极大值的总数 目。

当一个视频序列被划分为多级ROI时,分配到每一级的宏块数目取决于划 分级数的总数K,K为一个正整数。为了保证视频中场景最前方的对象包含在 最感兴趣区域,且一个对象的主体部分是在同一感兴趣级别,假定为每一层感 兴趣区域级别至少分配δk%的宏块,由此,可以计算得到多级ROI的分割阈值:

Tk=maxx{Ri|i=0,1,...,n-1}{x|P(x)>Σδk},k=1,2...,K-1

其中,P(x)是p(s)的累积分布函数,定义为:

P(x)=Σs=xs=255p(s)

103:通过分割阈值对多视点视频进行分割,获取感兴趣级别不同的多个视 频区域;

宏块的感兴趣级别SL判断公式如下:

SL=1ifSMB>T1......kifTk<SMB<Tk-1KifSMB<TK-1

其中,T1,Tk-1,...,TK-1分别为当视频序列被分为K个级别时所计算得到 的各级ROI的分割阈值。

104:根据感兴趣级别SL调整量化参数QP,通过调整后的量化参数对多个 视频区域分别进行编码,得到重建视频。

MVC充分利用了每个视点的时间冗余和相邻视点间的视点间冗余,考虑到 多视点视频的海量数据,通过对一些不易察觉的视频质量做出妥协能进一步提 高压缩效率,这可以通过调整量化参数QP来实现。较小的QP值可以更加精确 地接近块的空间频谱,从而较好地保持图像质量,但是要以消耗更多的比特为 代价。较大的QP值使得空间细节累积,于是所耗比特下降,但是失真和质量损 失会增加。

在编码过程中,传统多视点视频编码方法不考虑人眼对不同区域、不同深 度的感知差异特性,采用全局性量化参数。基于ROI的多视点视频编码中一个 待解决的问题就是怎样在保持重建视频图像质量的前提下通过调整QP来优化 比特分配。在本方法中,为最感兴趣区域分配最小的QP值;延展ROI和背景 区域的QP值随着感兴趣级别SL的增加而增加。假定JMVC(MVC参考软件) 中基础量化参数为bQP,那么不同时间层的QP值由下式决定:

QPh=bQP+3,ifh=1QPh-1+1,ifh>1

其中h是分层B帧的分层等级,在此基础上,不同等级的多个ROI区域的 QP值可以由下式得到:

QP=QPhSL=1QPh+(SL-1)×ΔQPSL2

其中ΔQP是相邻感兴趣级别之间的量化参数差值,是一个正数。视频压缩 率和感知质量会随着ΔQP值的变化而变化。ROI区域的QP值与JMVC相比保持 不变,由此可以保证ROI的重建视频质量。

在本方法中编码最终采用的QP值QPMVC进一步限定为:

QPMVC=min{51,QP}

下面以一个实验来验证本发明实施例提供的一种基于多级感兴趣区域的多 视点视频编码方法的可行性,详见下文描述:

首先采用微软研究院(MSR)提供的Ballet序列进行多级ROI提取实验。图1 是使用本方法对Ballet序列第0个视点第一帧的多级ROI区域分割结果。其中要求 最感兴趣区域分配的宏块至少为宏块总数的10%,其他感兴趣区域至少分配 20%。(a)为SL=1的最感兴趣区域;(b)为最感兴趣区域与SL=2的延展感兴 趣区域;(c)为最感兴趣区域与SL=2、SL=3的延展感兴趣区域;(d)为最感 兴趣区域与SL=2、SL=3、SL=4的延展感兴趣区域。实验表明本专利中提出的多 级ROI分割方法有效、可行。

为使本发明实施例的效果具有可比性,进一步进行多视点视频编码对比实 验。实验基于JMVC8.5多视点视频编码参考软件,选取MSR提供的2组多视点视 频序列Ballet和Breakdancers进行实验。测试序列每个视点包含56帧,图像组 (GOP)长度设为8,实验中在本方法的基础上将各视频序列分割为3级感兴趣 级别不同的区域。

在实验中,设置bQP为{12,15,18,21,24,27,30,33}。考虑到ΔQP较大会节省更多 比特,但是会导致严重的质量差异。为了保证质量下降和比特节省之间的平衡, 设置ΔQP为2。相邻宏块之间的QP变化不宜过大,实验中相邻宏块之间QP的差 异最大允许值设为3。这里,ROI区域(包括延展ROI)的编码性能采用峰值信 噪比(PSNR)进行评价,整体编码性能采用Engelke等人提出的区域选择性客观 图像质量评价标准预测平均意见得分峰值信噪比(PMOS_PSNR)进行评价。

图2给出了JMVC原始编码方法和本方法中各测试序列第0视点ROI区域的 率失真曲线图,该失真采用PSNR度量,其中(a)为Ballet序列;(b)为Breakdancers 序列。由图可见,本方法可以在与JMVC保持码率一致的情况下,大幅度提高最 感兴趣区域和延展感兴趣区域的图像质量。同时由于人们对背景区域不甚关注, 背景的质量下降并不容易被观看者察觉,这样就可以保证视频质量的一致性。

图3给出了JMVC原始编码方法和本方法中测试序列Ballet和Breakdancers的 率失真曲线,该失真是由测试序列八个视点的PMOS_PSNR平均值来度量,其中, (a)为Ballet序列;(b)为Breakdancers序列。可以看到在高码率的情况下,本 方法优于JMVC,且在低码率时性能与JMVC保持一致。在码率大于2000kbps时, 本方法能够实现非常有效的编码增益。

综上所述,本方法提出的基于宏块深度显著性的多级ROI提取和比特分配优 化方法能够更有效地满足人眼视觉要求。既可以通过多视点视频的深度信息, 较为便捷地获得精确可靠的多级ROI;又能在对应的比特优化分配策略的配合 下,提高视频ROI与边界的平滑性,在保证重建视频的整体质量的前提下降低码 率,提高多视点视频的编码效率。

参考文献

[1]Q.Zhou,J.Liu,Z.Guo,A multilevel region-of-interest based rate control  scheme for video communication,Proceedings of SPIE7498(2009) 74984W-1-74984W-8.

[2]C.Kim,T.Na,J.Lim,Y.Joo,K.Kim,J.Byun,M.Kim,An ROI/xROI based  rate control algorithm in H.264/AVC for video telephony applications,Lecture  Notes in Computer Science5414(2009)1010-1021.

[3]J.H.Lee,C.Yoo,Scalable ROI algorithm for H.264/SVC-based video  streaming,IEEE Transactions on Consumer Electronics57(2)(2011)882-887.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明 实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号