首页> 中国专利> 用于对视频颜色增强数据进行编码的方法和设备,以及用于对视频颜色增强数据进行解码的方法和设备

用于对视频颜色增强数据进行编码的方法和设备,以及用于对视频颜色增强数据进行解码的方法和设备

摘要

越来越多地使用优于传统的8比特颜色深度的可见亮度和对比度的高精度重现,促进了被称作高比特深度的增强动态范围的发展。本发明提供了一种编码方法,用于对M比特RGB像素的第一低比特深度视频图像(IMBL)和N比特RGB像素的第二高比特深度视频图像(IMEL)进行编码,M<N,其中,第一和第二视频图像具有相同的空间分辨率,所述编码方法包括:基于第一和第二视频图像的颜色直方图(HistBL,HistEL)产生第一转换函数(LUTinter);基于第一转换函数(LUTinter)产生第二转换函数(LUTfinal);将第二转换函数(LUTfinal)应用(TR)到第一视频图像,其中,产生变换的第一视频图像(IMTR,BL);对残差(IMres)f进行计算并编码;对第一视频图像(IMBL)进行编码;以及发送编码的第一视频图像(IMBL)、第二转换函数(LUTfinal)和编码的差值。

著录项

  • 公开/公告号CN101507284A

    专利类型发明专利

  • 公开/公告日2009-08-12

    原文格式PDF

  • 申请/专利权人 汤姆森许可贸易公司;

    申请/专利号CN200680055369.6

  • 发明设计人 高永英;武宇文;陈颖;

    申请日2006-07-17

  • 分类号H04N7/50(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人王波波

  • 地址 法国布洛涅-比郎库尔

  • 入库时间 2023-12-17 22:23:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-18

    专利权的转移 IPC(主分类):H04N7/50 登记生效日:20190529 变更前: 变更后: 申请日:20060717

    专利申请权、专利权的转移

  • 2019-06-18

    专利权人的姓名或者名称、地址的变更 IPC(主分类):H04N7/50 变更前: 变更后: 申请日:20060717

    专利权人的姓名或者名称、地址的变更

  • 2012-06-27

    授权

    授权

  • 2009-10-07

    实质审查的生效

    实质审查的生效

  • 2009-08-12

    公开

    公开

说明书

技术领域

本发明涉及一种用于对视频颜色增强数据进行编码的方法和设备,本发明还涉及一种用于对视频颜色增强数据进行解码的方法和设备。

背景技术

近年来,优于传统的8比特颜色深度的可见亮度和对比度的高精度重现逐渐使用在诸如医学成像、高质量支持视频的计算机游戏和专业摄影室等许多领域以及家庭影院相关应用中。该处理促进了增强动态范围(为了便于与传统8比特颜色深度相比较,这里被称作高比特深度)的发展。与为捕获和显示设备产生极高像素分辨率的电子传感器、处理器和存储器件的发展对比,数字成像系统的颜色功能进展缓慢。自第一代数字化可视内容的出现起,8比特颜色深度成为捕获和显示设备的主要技术。

考虑到未来相当长时间内标准8比特和更高比特数字成像系统将同时存在于消费者市场的事实,颜色比特深度可扩展性是有益的。不同的颜色比特深度对于例如多媒体内容传送期间的终端显示设备尤为重要。

发明内容

本发明提供了一种用于实现视频颜色空间可扩展性的方法和设备。根据本发明的一个方面,提供了一种用于对颜色增强层进行编码的方法和设备,该方法和设备有差别地对该颜色增强层进行编码。本发明的另一方面是一种用于对视频信号进行解码来获得传统颜色比特深度图像或增强颜色比特深度图像的方法和设备。

原则上,本发明的编码方面包括以下步骤:产生转换函数,例如以适于建立输入颜色值到输出颜色值的映射的查找表(LUT)的形式,该输入颜色值和输出颜色值均包括2M种不同颜色;向具有较低或传统颜色比特深度的第一视频图像应用转换函数;在转换后的视频图像和具有较高颜色比特深度(N比特,N>M;但与第一视频图像的空间分辨率相同)的第二视频图像之间产生差值图像或残差;并且对残差进行编码。然后,将编码后的第一视频图像、转换函数的参数(例如,LUT本身)和编码后的残差发送到接收机。也可以对转换函数的参数进行编码。另外,也如此表示转换函数的参数。

第一和第二图像可以分别视作颜色基本层和颜色增强层。

特别地,可以通过将第一和第二视频图像的颜色直方图进行比较来获得转换函数,为此,将具有2M个bin的第一图像的颜色直方图变换成具有2N个bin(N>M)的“平滑”颜色直方图,并且从平滑的直方图和定义了平滑的颜色直方图的值和颜色增强层直方图的值之间的变换的颜色增强层直方图来确定转换函数。针对红、绿和蓝基本显示颜色来分别进行所述过程。

根据本发明的解码方面,一种用于解码的方法包括:从比特流中提取第一和第二视频图像的视频数据,提取颜色增强控制数据,还对第一视频图像进行解码和重建,其中,获得具有各为M比特的颜色像素值的重建的第一视频图像,并且从颜色增强控制数据中重建实现转换函数的映射表。然后,将该映射表应用到重建的第一视频图像的每一个像素,产生的变换视频图像作为预测图像,随后利用解码的第二视频图像对该预测图像进行更新。解码的第二视频图像是残差图像,并且更新产生了具有各为N比特(N>M)的像素的增强视频图像,并因此产生比重建的第一视频图像更高的颜色空间。

针对红、绿和蓝基本视频颜色分别执行上述步骤。因此,完整的视频信号可以包括:针对每一幅图像的编码的低颜色分辨率图像,以及针对这些颜色中每一项的残差图像和转换函数的参数,上述均用于产生更高颜色分辨率图像。有利地,基于原始视频图像的R-G-B值来执行产生转换函数和残差图像,因此产生转换函数和残差图像独立于进一步的视频编码。因此,然后可以使用任何传统编码对低颜色分辨率图像进行编码,例如根据MPEG或JVT标准(AVC、SVC等)。同样,在解码端,基于传统解码来执行颜色增强,因此独立于编码格式进行解码。

因此,具有比特深度显示功能的设备(例如,8比特显示器)仅需要对具有较低颜色比特深度的颜色基本层进行解码,而具有增强颜色比特深度显示功能的高级设备(例如,12比特显示器)还可以对颜色增强层和红、绿和蓝的变换表进行解码,并产生具有完全颜色空间应用的图像。

本发明涉及一种新型的视频可扩展性(即,颜色比特深度可扩展性),并且提供了一种颜色比特深度预测解决方案,可以应用在颜色比特深度可缩放的编解码器的中间层预测以提高编码效率。使用转换函数来在产生残差图像之前产生预测图像的优点在于,由于预测图像更加匹配相应的颜色增强层图像,因此编码更加有效。例如,由颜色基本层中8比特值9Ahex描述的特定绿色值可以映射到颜色增强层中16种不同的12比特颜色值(从9A0hex到9AFhex)。尽管在一个图像中这16个值中的一个可以在颜色增强层中起主导作用,其可以是其他图像的其他值。因此,本发明实现了颜色增强层的优化编码。

在从属权利要求、以下说明书和附图中公开了本发明的有利实施例。

附图说明

参照附图对本发明的示例性实施例进行描述,附图中

图1是颜色比特深度可伸缩视频编码和解码的结构;

图2是编码处理的流程图;

图3是平滑直方图规范的流程图;

图4是直方图平滑的示例;

图5是解码处理的流程图;以及

图6是完整增强层解码器的概要。

具体实施方式

图1示出了颜色比特深度可伸缩视频编码和解码的总体结构。编码器ENC以M比特的传统颜色分辨率和N比特(N>M)的增强颜色分辨率对每一幅视频图像接收两次。不同于产生两个独立分离的视频流,而是产生颜色基本层和颜色增强层,其中颜色增强层依赖于颜色基本层。如图1所示,在编码器和解码器中执行中间层预测,用于预测更高比特深度的颜色。

图1中的基本层编码器方框包含所有传统编码步骤,例如任意空间和/或时间冗余度缩减技术,例如产生分离的亮度和色度值、DCT变换等。在解码器端,基本层解码器执行相应的解码。“基本层”和“增强层”仅指颜色比特深度。有利地,任何视频编码和解码方法可以独立于本发明所实现的颜色增强处理而用于基本层。基本层解码器的输出适于传统显示设备,而增强层解码器的输出适于能够针对红、绿和蓝部分图像中的每一项显示2N(N>M)个不同的颜色值的高质量显示器。如果M例如为8,则N的示例为10、12或16比特,而原则上可以实现M和N(N>M)的所有组合。诸如质量可扩展性、空间可扩展性和时域可扩展性、中间层预测等类似的其他类型的可扩展性显著影响编码效率。

本发明提出了一种基于平滑直方图规范的颜色比特深度预测的空间均匀方法。考虑描述相同场景的两幅图像。对于这两幅图像,相应的像素(这里“相应的像素”表示分别属于两幅图像但在图像坐标系统中具有相同坐标的两个像素)指出相同的场景位置。相应的像素之间的唯一不同是颜色比特深度。假设利用M比特长度的码字对一副图像的每一种颜色进行编码,而利用N比特长度的码字对其他图像进行编码,其中M<N。遵照使预测N比特图像和原始N比特图像之间的差值最小化的准则,逆颜色映射的任务是从M比特图像中产生N比特图像的预测版本。可以通过例如被广泛接受并使用在视频压缩领域的PSNR的任意方法来测量预测的N比特图像和原始N比特图像之间的差值。另外,在这种情况下,最重要的方面是预测图像如何有效地用于随后的残差数据压缩,而不是预测图像看起来是什么样子的。

图2示出了本发明一个实施例的总体编码过程。使用实现映射函数的查找表LUTfinal对基本层图像IMBL进行变换TR。变换TR的结果是变换的基本层图像IMTR,BL。查找表LUTfinal从另一中间查找表LUTinter产生,该中间查找表LUTinter从基本层图像(优选地,重建的基本层图像)的颜色直方图、和增强层图像的颜色直方图产生。由于这些图像的不同颜色分辨率,这些图像的颜色直方图不仅具有不同数量的bin(一个bin用于每一个可能的颜色),而且针对每一种基本层颜色、和序列的每一幅图像,分布在增强层图像的bin之间的值也可以不同。例如,如果基本层具有M比特并且增强层具有N比特,基本层直方图的每一个bin与增强层直方图的2N-M个bin相对应,即每一个基本层像素值将按照惯例用来预测2N-M个像素值中的一个。通过考虑两幅图像的颜色直方图可以优化这种预测。如下所述,中间查找表LUTinter实现了描述增强层图像的颜色直方图HistEL和从基本层图像IMBL产生的颜色直方图SmHistBL之间的变换的直方图转换函数。

变换的基本层图像IMTR,BL用于预测增强层图像IMEL,计算差值或残差Δ,编码的IMres并发送,所有这些处理分别用于R、G和B。

图3示出了提出的空间均匀逆颜色映射的细节。为了更好的理解,将基本层(M比特)图像命名为“输入图像”NI,而增强层(N比特)图像被重新命名为“期望图像”DI。一个基本思想是将直方图规范1(1R.C.Gonzalez and R.E.Woods,“Digital image processing”,2ndedition,pp.94-102,Prentice Hall,2002)的算法应用到NI和DI。产生查找表来转换NI,从而使其具有如DI的直方图规定的特定直方图。

然而,当对颜色比特深度预测采用经典直方图规范时,存在两个主要缺陷。首先,由于直方图具有离散值,因此转换的NI不能具有与DI完全相同的直方图。相反,转换的NI的直方图近似于DI的直方图。其次,两个直方图的不同bin大小(由不同比特深度所引起)破坏了它们之间的匹配(bin大小表示每一个颜色分量的级的数目,例如,8比特图像的bin大小为256)。这是经考虑的颜色比特深度预测中的特定缺陷。例如,在NI是DI简单比特移位的情况下,通过直方图规范获得的转换NI的PSNR通常低于通过简单逆比特移位获得的转换NI的PSNR。

为了克服这些缺陷,提出在规范NI的直方图之前将其“平滑”。平滑的直方图SmHistBL具有与DI的直方图HistEL相同的bin大小,DI的直方图HistEL充当直方图规范处理的期望直方图。将经典直方图规范算法应用到平滑直方图和期望直方图上。最后,执行被称作“概率映射”的后处理来获得LUT。图3示出了平滑的直方图规范的流程图。px(xk),k=0,1,…,2M-1表示NI的直方图HistBL,通过pz(zk),k=0,1,…2N-1描述DI的直方图HistEL

在图3中,对于低比特(M比特)图像NI,一个颜色通道的直方图是px=(x)。通过使用方程(5)来平滑该直方图,并且产生具有与高比特(N比特)图像DI的直方图相同的bin大小的平滑直方图px′(x)。累加该值,从而产生sk(对于图3的示例,k=1,...,16)。可以将sk表示为函数F(xk′)。高比特(N比特)图像DI具有相同颜色通道的直方图Pz(z),累积该直方图pz(z)来产生vk(k与如上所述的k相同)。可以将vk表示为函数G(zk)。然后,确定分布vj,针对sk的每一值(从高比特图像DI的vk值)给出最佳匹配值vl。该分布vj建立从值sk(因此xk′)到值vk的变换,并且是变换G的逆。

以下,对直方图平滑的处理进行描述。直方图平滑的目的是“拉伸(stretch)”输入直方图,从而使其具有与期望直方图相同的bin大小。这是直方图规范处理的必备条件。以下为图3中的表示,px(xk)的值均匀分布到相应的范围[xk′,xk′+1,…,xk′+2(N-M)-1]中,如方程(5)所示:

为了确保“均匀分布”,使用非归一化的直方图。图4中示出了平滑直方图的简单示例。图4a)示出了具有2比特的颜色比特深度的基本层输入图像的颜色直方图,即,特定颜色(例如,红色)的22=4个可能颜色值。直方图平滑处理将直方图“拉伸”到4比特颜色比特深度,即24=16个可能的颜色值。输入图像的单个bin中的值的数目是具有该特定颜色值的输入图像之内的像素数目,例如,与值0相对应的最左边的值40表示具有值为0的“红色”(在该直方图中指“红”色)的输入图像的40个像素。平滑处理将这些值分布到平滑直方图的2N-M个相应的bin。在该示例中,根据2N-M=4,平滑直方图的前4个bin与原始直方图的第一个bin相对应。如图4b)所示,根据方程(5),原始直方图的值40被平均地分布到平滑直方图的4个相应的bin。

平滑的思想在于,提高了输入直方图的连续性,从而直方图规范将更加有效。详细地,将图3中所示的方程(1)、(2)和(4)的可选描述成连续的灰度图像:

s=F(x)=0xpx(u)du---(1)

v=G(z)=0zpz(w)dw---(2)

y=G-1(s)=G-1[F(x)]                     (4′)

在连续灰度级的情况下,可以将输入直方图规范为与期望的直方图完全相同。然而,如上所述,对于离散灰度级,仅可以实现近似期望的直方图。此外,由于灰度级的数目接近无穷,因此近似接近精确匹配。因此,理论上,平滑过程等同于在输入直方图的离散化期间增加采样率,平滑过程优于具有不同bin大小的两个直方图之间的直接直方图规范。

平滑直方图仅是该算法中的中间步骤。不存在与其相对应的图像。

以下对概率映射处理进行描述。一旦已经将经典直方图规范算法应用到平滑直方图px′(x)和期望直方图pz(z),就产生中间LUTyk′=LUTinter(xk′)。下个问题是从其相应范围[xk′,xk′+1,…,xk′+2(N-M)-1]的多个映射值中选择唯一映射值xk。示例地,提出了两种不同准则作为概率映射的准则,如等式(6)和(7)所示:

yk=argmaxyl{pz(yl),yl=LUTinter(xl),xl[xk,xk+1,···,xk+2(N-M)-1]}---(6)

其中,yk是映射值xk。产生最终LUTyk=LUTfinal(xk)来将原始直方图映射到期望直方图,其中,k=0,1,…,2M-1,yk∈{zl,l=0,1,…,2N-1}。

方程(6)表示,在与xk相对应的2N-M个值之间,选择在期望直方图Pz(y1′)中具有最大值的一个值。

方程(7)表示,在与xk相对应的2N-M个值之间,使用小于或等于其平均值的最接近的整数作为最终的映射值。

由于LUTinter将输入图像的平滑直方图映射到期望图像的直方图,因此LUTinter是“一对一”映射。然而,如果考虑输入图像的直接直方图,可以看到每一个xk与2N-M个值相对应。“概率映射”的任务是仅从2N-M个值中选择一个值作为最终映射值xk。因此,LUTfinal仍旧是“一对一”映射:将每一个值xk映射到一个值yk。LUT的映射是可逆的,这是因为期望图像的全部值(2N)中仅2M个值具有相应的xk

当将上述算法应用到输入图像和期望图像时,计算两幅图像的直方图。然后,平滑输入直方图,产生“平滑直方图”。在保留步骤(经典直方图规范和概率映射)完成之后,产生最终LUT来将输入直方图的级映射到期望直方图的级。然后,通过将LUT应用到输入图像的每一个像素来产生预测图像。

图6示出了具有针对R、G和B图像的分离分支的完整增强层编码器的概述。对基本层进行传统编码。

本发明可用于视频编码器和视频解码器,并且特别可用于对颜色基本层和具有最优效率的相同空间分辨率的颜色增强层进行编码/解码。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号