首页> 中国专利> 多视点视频编码方法、多视点视频解码方法、多视点视频编码装置、多视点视频解码装置及程序

多视点视频编码方法、多视点视频解码方法、多视点视频编码装置、多视点视频解码装置及程序

摘要

在伴随相机间的局部的亮度、颜色的失谐的多视点视频中,也实现高效率的编码方法。根据多视点视频的编码对象视点中与编码对象帧同时刻被拍摄的、与编码对象视点不同的参考视点中已经编码完毕的参考视点帧,合成出与编码对象帧对应的视点合成图像。按预定大小的每个处理单位区域,搜索出与视点合成图像对应的、编码对象视点中已经编码完毕的参考帧上的参考区域。根据对应处理单位区域的视点合成图像和对应参考区域的参考帧,推断出校正相机间失谐的校正参数。利用已推断出的校正参数,校正对应处理单位区域的视点合成图像。利用已校正的视点合成图像,预测编码编码对象视点的视频。

著录项

  • 公开/公告号CN102918846A

    专利类型发明专利

  • 公开/公告日2013-02-06

    原文格式PDF

  • 申请/专利权人 日本电信电话株式会社;

    申请/专利号CN201180010368.0

  • 发明设计人 志水信哉;木全英明;松浦宣彦;

    申请日2011-02-21

  • 分类号H04N13/00;H04N7/32;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人何欣亭

  • 地址 日本东京都

  • 入库时间 2024-02-19 17:52:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-09-09

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):H04N13/00 申请日:20110221

    实质审查的生效

  • 2013-02-06

    公开

    公开

说明书

技术领域

本发明涉及对多视点图像或多视点动态图像进行编码的多视点视频编码方法及多视点视频编码装置、将多视点图像或多视点动态图像进行解码的多视点视频解码方法及多视点视频解码装置、以及程序。

本申请对2010年2月24日向日本申请的日本特愿2010-038680号主张优先权,并在此援引其内容。

背景技术

多视点图像是指用多个相机拍摄同一景物(被写体)和其背景的多个图像,多视点动态图像(多视点视频)是指其动态图像。在一般的视频编码中,采用利用了视频的中的拍摄时刻不同的帧间存在的高的相关的、运动补偿预测,实现有效率的编码。运动补偿预测是H.264中所代表的近年视频编码方式的国际标准规格所采用的方法。即,运动补偿预测是这样的方法:在编码对象帧和已经编码完毕的参考帧之间对景物的运动进行补偿而生成图像,在该生成的图像和编码对象帧之间取得帧间差分,对其差分信号和运动向量进行编码。

在多视点视频编码中,不仅在拍摄时刻不同的帧间存在高的相关,而且在视点不同的帧间也存在高的相关。因此,采用的是在不补偿运动而补偿视点间的视差而生成的图像(帧)和编码对象帧之间取得帧间差分,对差分信号和视差向量进行编码的称为视差补偿预测的方法。视差补偿预测作为H.264 Annex.H而被采用于国际标准规格(例如,参考非专利文献1)。

这里所采用的视差是指在以不同的位置、朝向配置的相机的图像平面上,景物上的相同位置所投影的位置之差。在视差补偿预测中,以二维向量体现它并进行编码。如图7所示,由于视差是依赖于相机的视点位置和从相机起的景物的距离(深度:depth)而产生的信息,所以存在利用该原理的称为视点合成预测(视点插值预测)的方式。

视点合成预测(视点插值预测)是这样的方式:根据相机、景物的三维的位置关系,利用已经结束处理而得到解码结果的多视点视频的一部分,合成(插值)针对进行编码或者解码处理的别的视点的帧,将通过合成而得到的图像用作为预测图像(例如,参考非专利文献2)。为了体现景物的三维的位置,往往采用按每个像素体现从相机到景物为止的距离(深度)的深度图(map)(有距离图像、视差图像、称为视差图(disparity map)的部分)。除了深度图以外,能够采用景物的多边形(polygon)信息或景物空间的体单元(voxel)信息。

再者,取得深度图的方法可以大致分为:利用红外线脉冲等来进行测定,从而生成深度图的方法;以及基于相同的景物被照到多视点视频上这一点利用三角测量的原理推断深度,在此基础上生成深度图的方法。使用以哪种方法得到的深度图,在视点合成预测中并不是大的问题。此外,只要能得到深度图,在哪里推断也不是大的问题。

但是,在进行预测编码的情况下,一般而言,在编码侧采用的深度图和解码侧采用的深度图不一致的情况下,会产生称为漂移(drift)的编码失真。因此,采用将在编码侧采用的深度图向解码侧传送或在编码侧和解码侧采用完全相同的数据和手法推断深度图的方法。

在视差补偿预测或视点合成预测中,如果相机的摄像元件的响应上存在个体差,或者按每个相机进行增益控制、伽玛校正,或者场景(scene)上有方向依赖的照明效果,则编码效率就恶化。这是因为以编码对象帧和参考帧上景物的颜色相同的前提进行预测。

作为致力于能应对这样的景物的亮度、颜色的变化的方式,有亮度补偿或称为颜色校正的方式。这是将参考帧的亮度、颜色进行校正后作为预测中使用的帧,从而将编码的预测残差抑制在低水平的方式。在非专利文献1中记载的H.264中,采用利用一次函数来校正的加权预测(Weighted Prediction)。此外,还提出与此不同的利用颜色表(colour table)进行校正的方式(例如,参考非专利文献3)。

此外,由于这些景物的亮度、颜色在相机间的失谐(miss match)是景物依赖的局部问题,原本就希望采用局部上不同的校正参数(校正用的参数)进行校正。此外,这些失谐并不是因为单纯的增益等的差异而产生,还因为聚焦的差异等多少复杂的模型而产生。因此,希望采用将投影过程等模型化的复杂的校正模型,而不采用单纯的校正模型。

而且,为了对应局部的变化,需要准备多组(set)校正参数。一般而言,复杂的校正模型体现为具有许多参数。因此,在传送校正参数的进场(approach)中,即便能够改善失谐,也需要大量的编码量,因此不能达成较高的编码效率。

作为不增加校正参数的编码量而能够应对失谐的局部性、复杂性的方法,有在解码侧推断校正参数而使用的手法。例如,假定处理对象块的邻接区域中拍摄相同的景物,并推断将邻接区域中的视点合成图像和解码图像之差最小化的校正参数,作为该块的校正参数而使用的手法(例如,参考非专利文献4)。在该方式中,由于校正参数无需全部送出,所以如果能够减少失谐,即便增加了总校正参数数量也不会增加发生编码量。

非专利文献

非专利文献1:Rec. ITU-T H.264 “Advanced video coding for generic audiovisual services,” March 2009;

非专利文献2:S. Shimizu, M. Kitahara, H. Kimata, K. Kamikura, and Y. Yashima, “View Scalable Multiview Video Coding Using 3-D Warping with Depth Map, ” IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp. 1485-1495, November, 2007;

非专利文献3:K. Yamamoto, M. Kitahara, H. Kimata, T. Yendo, T. Fujii, M. Tanimoto, S. Shimizu, K. Kamikura, and Y. Yashima, “Multiview Video Coding Using View Interpolation and Color Correction, ” IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp. 1436-1449, November, 2007;

非专利文献4:S. Shimizu, H. Kimata, and Y. Ohtani, “Adaptive Appearance Compensated View Synthesis Prediction for Multiview Video Coding, ” Proceedings of ICIP2009, pp. 2949-2952, November 2009。

发明内容

在上述现有技术中,通过利用在解码时能参考的邻接块的信息推断校正参数,从而无需对校正参数进行编码而能够校正相机间的失谐。因此,能够实现多视点视频的有效率的压缩编码。

但是,在照出与邻接块中处理对象块不同的景物的情况下,存在的问题是所得到的校正参数不能够适当地校正对于照在处理对象块的景物的失谐。此外,还存在不仅不能适当地校正失谐,反而令失谐放大从而使编码效率恶化的可能性。

作为针对该课题的解决对策,能够容易想到对表示是否按每个块进行校正的标志(flag)进行编码的方法。但是,在这种方法中,虽然能防止失谐的增加,却需要对标志进行编码,所以不能显著改善编码效率。

本发明考虑到这些情况而构思,其目的在于提供一种多视点视频编码方法、多视点视频解码方法、多视点视频编码装置、多视点视频解码装置及程序,即便在伴随相机间局部的亮度、颜色的失谐的多视点视频中,也无需另行对校正参数进行编码/解码而能够实现有效率的多视点图像、多视点动态图像的编码/解码。

为了解决上述课题,本发明的第一观点是一种对多视点视频进行编码的多视点视频编码方法,其中包括:视点合成图像生成步骤,根据所述多视点视频的编码对象视点中与编码对象帧同时刻被拍摄的、与所述编码对象视点不同的参考视点中已经编码完毕的参考视点帧,合成与所述编码对象视点的所述编码对象帧对应的视点合成图像;参考区域推断步骤,按预定大小的每个处理单位区域,搜索与所述视点合成图像对应的、所述编码对象视点中已经编码完毕的参考帧上的参考区域;校正参数推断步骤,根据对应所述处理单位区域的所述视点合成图像和对应所述参考区域的所述参考帧,推断校正相机间失谐的校正参数;视点合成图像校正步骤,利用所述推断的校正参数,校正对应所述处理单位区域的所述视点合成图像;以及图像编码步骤,利用所述校正的视点合成图像,预测编码所述编码对象视点的视频。

在本发明的第一观点中,也可以还包括可靠度设定步骤,对于所述视点合成图像的各像素,设定表示所述视点合成图像的确实性的可靠度;所述参考区域推断步骤基于所述可靠度,对与所述视点合成图像对应的、搜索所述参考帧上的所述参考区域时的各像素的匹配成本进行加权。

在本发明的第一观点中,也可在所述校正参数推断步骤中,基于所述可靠度,对推断所述校正参数时的各像素的匹配成本。

在本发明的第一观点中,也可以还包括推断精度设定步骤,对于所述视点合成图像的各像素设定推断精度,该推断精度表示能否正确地推断出所述参考区域,所述校正参数推断步骤中,基于所述推断精度及所述可靠度的任意一方或双方,对推断所述校正参数时的各像素的匹配成本进行加权。

此外,为解决上述课题,本发明的第二观点是一种对多视点视频进行解码的多视点视频解码方法,其中包括:视点合成图像生成步骤,根据所述多视点视频的解码对象视点中与解码对象帧同时刻被拍摄的、与所述解码对象视点不同的参考视点中的参考视点帧,合成与所述解码对象视点的所述解码对象帧对应的视点合成图像;参考区域推断步骤,按预定大小的每个处理单位区域,搜索与所述视点合成图像对应的、所述解码对象视点中已经解码完毕的参考帧上的参考区域;校正参数推断步骤,根据对应所述处理单位区域的所述视点合成图像和对应所述参考区域的所述参考帧,推断校正相机间失谐的校正参数;视点合成图像校正步骤,利用所述推断的校正参数,校正对应所述处理单位区域的所述视点合成图像;以及图像解码步骤,作为预测信号利用所述校正的视点合成图像,从对应所述解码对象视点的视频的编码数据,对所述解码对象视点中被预测编码的解码对象帧进行解码。

在本发明的第二观点中,也可以还包括可靠度设定步骤,对所述视点合成图像的各像素设定可靠度,该可靠度表示所述视点合成图像的确实性,所述参考区域推断步骤中,基于所述可靠度,对与所述视点合成图像对应的、搜索所述参考帧上的所述参考区域时的各像素的匹配成本进行加权。

在本发明的第二观点中,所述校正参数推断步骤基于所述可靠度,对推断所述校正参数时的各像素的匹配成本进行加权也可。

在本发明的第二观点中,也可以还包括推断精度设定步骤,对所述视点合成图像的各像素设定表示能否正确地推断出所述参考区域的推断精度,所述校正参数推断步骤中,基于所述推断精度及所述可靠度的任意一方或双方,对推断所述校正参数时的各像素的匹配成本进行加权。

此外,为解决上述课题,本发明的第三观点是一种对多视点视频进行编码的多视点视频编码装置,其中包括:视点合成图像生成单元,根据所述多视点视频的编码对象视点中与编码对象帧同时刻被拍摄的、与所述编码对象视点不同的参考视点中已经编码完毕的参考视点帧,合成与所述编码对象视点的所述编码对象帧对应的视点合成图像;参考区域推断单元,按预定大小的每个处理单位区域,搜索与用所述视点合成图像生成单元合成的所述视点合成图像对应的、所述编码对象视点中已经编码完毕的参考帧上的参考区域;校正参数推断单元,根据对应所述处理单位区域的所述视点合成图像和对应由所述参考区域推断单元搜索的所述参考区域的所述参考帧,推断校正相机间失谐的校正参数;视点合成图像校正单元,利用由所述校正参数推断单元推断的所述校正参数,校正对应所述处理单位区域的所述视点合成图像;以及图像编码单元,利用由所述视点合成图像校正单元校正的视点合成图像,预测编码所述编码对象视点的视频。

在本发明的第三观点中,也可以还包括可靠度设定单元,对由所述视点合成图像生成单元合成的所述视点合成图像的各像素设定可靠度,该可靠度表示所述视点合成图像的确实性,所述参考区域推断单元,基于通过所述可靠度设定单元设定的所述可靠度,对搜索与所述视点合成图像对应的、所述参考帧上的所述参考区域的匹配成本进行加权。

在本发明的第三观点中,所述校正参数推断单元,基于通过所述可靠度设定单元设定的所述可靠度,对推断所述校正参数时的各像素的匹配成本进行加权也可。

在本发明的第三观点中,也可以还包括推断精度设定单元,对由所述视点合成图像生成单元合成的所述视点合成图像的各像素,设定表示能否正确地推断出所述参考区域的推断精度,所述校正参数推断单元基于由所述推断精度设定单元设定的所述推断精度及由所述可靠度设定单元设定的所述可靠度的任意一方或双方,对推断所述校正参数时的各像素的匹配成本进行加权。

此外,为解决上述课题,本发明的第四观点是一种对多视点视频进行解码的多视点视频解码装置,其中包括:视点合成图像生成单元,根据所述多视点视频的解码对象视点中与解码对象帧同时刻被拍摄的、与所述解码对象视点不同的参考视点中的参考视点帧,合成与所述解码对象视点的所述解码对象帧对应的视点合成图像;参考区域推断单元,按预定大小的每个处理单位区域,搜索与由所述视点合成图像生成单元合成的所述视点合成图像对应的、所述解码对象视点中已经解码完毕的参考帧上的参考区域;校正参数推断单元,根据对应所述处理单位区域的所述视点合成图像和对应由所述参考区域推断单元搜索的所述参考区域的所述参考帧,推断校正相机间失谐的校正参数;视点合成图像校正单元,利用由所述校正参数推断单元推断的所述校正参数,校正对应所述处理单位区域的所述视点合成图像;以及图像解码单元,作为预测信号利用由所述视点合成图像校正单元校正的视点合成图像,由对应所述解码对象视点的视频的编码数据,对所述解码对象视点中已预测编码的解码对象帧进行解码。

此外,为解决上述课题,本发明的第五观点是一种程序,令对多视点视频进行编码的多视点视频编码装置的计算机执行以下功能:视点合成图像生成功能,根据所述多视点视频的编码对象视点中与编码对象帧同时刻被拍摄的、与所述编码对象视点不同的参考视点中已经编码完毕的参考视点帧,合成与所述编码对象视点的所述编码对象帧对应的视点合成图像;参考区域推断功能,按预定大小的每个处理单位区域,搜索与所述视点合成图像对应的、所述编码对象视点中已经编码完毕的参考帧上的参考区域;校正参数推断功能,根据对应所述处理单位区域的所述视点合成图像和对应所述参考区域的所述参考帧,推断校正相机间失谐的校正参数;视点合成图像校正功能,利用所述推断的校正参数,校正对应所述处理单位区域的所述视点合成图像;以及图像编码功能,利用所述校正的视点合成图像,预测编码所述编码对象视点的视频。

此外,为解决上述课题,本发明的第六观点是一种程序,令对多视点视频进行解码的多视点视频解码装置的计算机执行以下功能:视点合成图像生成功能,根据所述多视点视频的解码对象视点中与解码对象帧同时刻被拍摄的、与所述解码对象视点不同的参考视点中的参考视点帧,合成与所述解码对象视点的所述解码对象帧对应的视点合成图像;参考区域推断功能,按预定大小的每个处理单位区域,搜索与所述视点合成图像对应的、所述解码对象视点中已经解码完毕的参考帧上的参考区域;校正参数推断功能,根据对应所述处理单位区域的所述视点合成图像和对应所述参考区域的所述参考帧,推断校正相机间失谐的校正参数;视点合成图像校正功能,利用所述推断的校正参数,校正对应所述处理单位区域的所述视点合成图像;以及图像解码功能,作为预测信号利用所述校正的视点合成图像,从对应所述解码对象视点的视频的编码数据,对所述解码对象视点中被预测编码的解码对象帧进行解码。

依据本发明,在局部地产生相机间的亮度、颜色的失谐的情况下,也无需另行对校正参数进行编码/解码而能够实现有效率的多视点图像、多视点动态图像的编码/解码。

附图说明

图1是表示本发明第一实施方式的多视点视频编码装置的结构的框图;

图2是表示本第一实施方式的多视点视频编码装置100的视点合成图像校正部108的结构的框图;

图3是用于说明本第一实施方式的多视点视频编码装置100的动作的流程图;

图4是表示本第二实施方式的多视点视频解码装置的结构的框图;

图5是表示本第二实施方式的多视点视频解码装置200的视点合成图像校正部208的结构的框图;

图6是用于说明本第二实施方式的多视点视频解码装置200的动作的流程图;

图7是表示现有技术中的在相机间产生的视差的概念图。

具体实施方式

在本发明的实施方式中,利用所生成的视点合成图像,求出对于处理中的区域的、已经编码完毕的帧上的对应区域,以编码完毕帧中的对应区域的视频信号为基准,进行视点合成图像的亮度、颜色的校正。在本发明的实施方式中,在现有方法利用的邻接区域并未采用照出相同的景物的假定,而采用依赖于景物的颜色、亮度的失谐在时间上变化不大的假定,求出校正参数。一般而言,帧内含有多个景物,因此必定会存在超出以往的假定的区域。另一方面,只要不会因场景变换(scene change)等而场景急剧变化,由于时间上失谐不会变化,所以本发明的实施方式能有效发挥作用。即,现有的方法在校正上失败的区域中,可以进行减少失谐的校正,能够实现有效率的多视点视频编码。

以下,参照附图,对本发明的实施方式进行说明。

此外,在以下的说明中,通过将能够确定用符号[]夹持的位置的信息(坐标值、或能与坐标值对应的指针(index))附加到视频(帧)上,表示关于该位置的像素进行抽样的视频信号。

A. 第一实施方式

首先,对本发明的第一实施方式进行说明。

图1是表示本发明第一实施方式的多视点视频编码装置的结构的框图。图1中,多视点视频编码装置100具备:编码对象帧输入部101、编码对象图像存储器102、参考视点帧输入部103、参考视点图像存储器104、视点合成部105、视点合成图像存储器106、可靠度设定部107、视点合成图像校正部108、预测残差编码部109、预测残差解码部110、解码图像存储器111、预测残差算出部112及解码图像算出部113。

编码对象帧输入部101输入成为编码对象的视频帧(编码对象帧)。编码对象图像存储器102蓄积已输入的编码对象帧。参考视点帧输入部103输入与编码对象帧不同的视点(参考视点)对应的参考视频帧(参考视点帧)。参考视点图像存储器104蓄积已输入的参考视点帧。视点合成部105利用参考视点帧生成与编码对象帧对应的视点合成图像。视点合成图像存储器106蓄积所生成的视点合成图像。

可靠度设定部107设定所生成的视点合成图像的每个像素的可靠度。视点合成图像校正部108对视点合成图像的相机间失谐进行校正,输出校正视点合成图像。预测残差算出部112生成编码对象帧与校正视点合成图像之差(预测残差信号)。预测残差编码部109将所生成的预测残差信号进行编码后输出编码数据。预测残差解码部110对预测残差信号的编码数据进行解码。解码图像算出部113相加已解码的预测残差信号与校正视点合成图像,生成编码对象帧的解码图像。解码图像存储器111蓄积已生成的解码图像。

图2是表示本第一实施方式的多视点视频编码装置100的视点合成图像校正部108的结构的框图。图2中,本第一实施方式的视点合成图像校正部108具备:利用视点合成图像将与编码对象块对应的参考帧上的块作为参考区域进行搜索的参考区域设定部1081;设定表示按参考区域的每个像素是否正确地设定了对应区域的推断精度的推断精度设定部1082;推断用于校正视点合成图像中的相机间失谐的参数的校正参数推断部1083;以及根据求出的校正参数校正视点合成图像的图像校正部1084。

图3是用于说明本第一实施方式的多视点视频编码装置100的动作的流程图。按照该流程图,就多视点视频编码装置100执行的处理进行详细说明。

首先,从编码对象帧输入部101被输入编码对象帧Org,并存放于编码对象图像存储器102中(步骤Sa1)。此外,从参考视点帧输入部103被输入与编码对象帧Org同时刻在参考视点被拍摄的参考视点帧Refn(n=1,2,…,N),并蓄积在参考视点图像存储器104中(步骤Sa1)。在此输入的参考视点帧为将已经编码完毕的图像解码后的帧。这是因为通过利用与解码装置得到的信息相同的信息,能抑制漂移等的编码噪声的发生。但是,在容许这些编码噪声的发生的情况下,输入编码前的原始的信息也可。此外,n是表示参考视点的指针,N是在此能利用的参考视点的数目。

接着,在视点合成部105中,由参考视点帧的信息,合成与编码对象帧同时刻在相同的视点被拍摄的图像,将生成的视点合成图像Syn蓄积在视点合成图像存储器106中(步骤Sa2)。该视点合成图像Syn的生成法,也可采用任何方法。例如,除了参考视点帧的视频信息以外还提供与参考视点帧对应的深度信息时,能够采用前述的非专利文献2、非专利文献5(Y. Mori, N. Fukushima, T. Fujii, and M. Tanimoto, “View Generation with 3D Warping Using Depth Information for FTV, ” Proceedings of 3DTV-CON2008, pp. 229-232, May 2008.)等中记载的方法。

此外,在能得到对编码对象帧而言的深度信息的情况下,还能采用非专利文献6(S. YeaandA. Vetro, “View Synthesis Prediction for Rate-Overhead Reduction in FTV, ” Proceedings of 3DTV-CON2008, pp. 145-148, May 2008.)等中记载的方法。在完全得不到深度信息的情况下,利用记载于非专利文献7(J. Sun, N. Zheng, and H.Shum, “Stereo Matching Using Belief Propagation, ” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp. 787-800, July 2003.)等的立体法或称为深度推断法的方法,在作成参考视点帧或对于编码对象帧的深度信息后,应用前述那样的方法能够生成视点合成图像(非专利文献8:S. Shimizu, Y. Tonomura, H. Kimata, and Y.Ohtani, “Improved View Interpolation Prediction for Side Information in Multiview Distributed Video Coding, ” Proceedings of ICDSC2009, August 2009.)。还有并不明显地生成深度信息而由参考视点帧直接生成视点合成图像的方法(参考前述的非专利文献3)。

此外,在采用这些方法时,基本上需要相机的位置关系、表示相机的投影过程的相机参数。这些相机参数也可从参考视点帧进行推断。此外,在解码侧不推断深度信息、相机参数等的情况下,需要另行对编码装置内使用的这些信息进行编码后传送。

接着,在可靠度设定部107中,对于视点合成图像的各像素,生成表示以多大的确实性实现了对于该像素的合成的可靠度ρ(步骤Sa3)。在本第一实施方式中,可靠度ρ设为0~1的实数,但是在定义为越大的值时可靠度就越高的情况下,如何体现可靠度都可。例如,以1以上的8位整数体现可靠度也可。

如上所述,只要能表示多少正确地进行了合成,可靠度ρ就可以为任何值。例如,最简单的有视点合成图像的各像素采用对应的参考视点帧上的像素的像素值的离散值的方法。对应像素间像素值越接近,越能辨识相同的景物,从而能表示正确地进行了视点合成,因此离散越小表示可靠度就越高。即,可靠度可以用离散的倒数来体现。若用Refn[pn]表示为合成视点合成图像Syn[p]而使用的各参考视点帧的像素,则可以用以下数式(1)、数式(2)来表示可靠度。

【数1】

【数2】

由于离散的最小值为0,需要用函数max来定义可靠度。此外,max是对于所提供的集合返还最大值的函数。此外,其它的函数有由以下数式(3)体现的函数。

【数3】

除了离散以外,还有由以下数式(4)表示的、利用对应的参考视点帧的像素的最大值与最小值之差diff(p)的方法。此外,不用离散的倒数,而定义采用如下数式(4)’的指数函数的可靠度也可。再者,函数f可为上述的var1、var2、diff的任意种。在这种情况下,即便函数f的值域中包含0也能定义可靠度。

【数4】

这些方法虽然简单,但是由于没有考虑遮蔽(occlusion)的发生,所以未必能经常得到最佳的可靠度。因此,考虑遮蔽的发生,通过对应像素的像素值将参考视点帧集群(clustering),对于属于最大的群的参考视点帧的对应像素的像素值而言,采用离散值或计算最大值与最小值之差后使用也可。

而且作为别的方法,也可以假定视点间的对应点中误差遵循正态分布、拉普拉斯分布,将分布的平均值、离散值作为参数,利用由上述数式(4)的diff等求出的与各像素的误差量对应的概率值定义可靠度。此时分布的模型、其平均值、离散值既可采用预定的值,也可对使用的模型的信息进行编码后传送。一般而言,如果景物完全扩散反射,理论上可以认为分布的平均值为0,因此简化模型也可。

此外,也可以采用这样的方法:即,假定在能得到生成视点合成图像时的对应点的深度附近,对应像素的像素值的误差量最小,则由微小改变深度时的误差量的变化推断误差分布模型,采用该误差分布模型本身、或基于该误差分布模型和生成视点合成图像时的参考视点帧上的对应像素的像素值的值定义可靠度。

作为仅用误差分布模型的定义,有在误差的发生概率遵循其误差分布时,将误差收敛在一定范围内的概率作为可靠度的方法。作为采用误差分布模型和生成视点合成图像时的参考视点帧上的对应像素的像素值的定义,有在误差的发生概率遵循推断的误差分布的情况下,将发生由生成视点合成图像时的参考视点帧上的对应像素的像素值表示的状况的概率作为可靠度的方法。

作为别的方法,也可将在推断进行视点合成时所需要的视差(深度)时,采用称为置信传播(Belief Propagation)的方法(上述的非专利文献7)时得到的、对于视差(深度)的概率值作为可靠度。除了置信传播以外,如果对视点合成图像的各像素而言,是内部计算解的确实性的深度推断算法,就能够将该信息用作为可靠度。

在生成视点合成图像时,进行对应点搜索、立体法、深度推断的情况下,有求出对应点的信息、深度信息的处理的一部分与可靠度计算的一部分相同的情况。在这种情况下,通过同时进行视点合成图像生成和可靠度计算,能够削减运算量。

如果结束了可靠度的计算,则将编码对象帧分割成块,一边按该区域的每一个由视点合成图像校正部108进行视点合成图像的相机间失谐的校正,一边对编码对象帧的视频信号进行编码(步骤Sa4~Sa12)。即,将编码对象块指针用blk表示、将总编码对象块数用numBlks表示时,以0初始化blk后(步骤Sa4),对blk加1的同时(步骤Sa11),重复以下处理(步骤Sa5~Sa10),直到blk成为numBlks为止(步骤Sa12)。

再者,如果能够按每个编码对象块进行视点合成图像的生成、可靠度的计算,也可以按每个编码对象块作为重复处理的一部分进行这些处理。例如,与提供对应编码对象块的深度信息的情况相当。

按每个编码对象块重复的处理中,首先,在参考区域设定部1081中,用视点合成图像发现与块blk对应的参考帧上的块处的参考区域(步骤Sa5)。在此,参考帧是指将已经结束编码处理的数据解码后得到的本地解码图像。该本地解码图像的数据是被蓄积到解码图像存储器111的数据。

再者,使用本地解码图像的原因是通过在解码侧使用与能以相同的定时取得的数据相同的数据,防止称为漂移的编码失真的发生。在允许这样的编码失真的发生的情况下,不用本地解码图像而用比编码对象帧先被编码的输入帧也可。

求出参考区域的处理是,以视点合成图像Syn[blk]为模板,在解码图像存储器111中蓄积的本地解码图像上求出将适宜度最大化或将乖离度最小化的对应块的处理。在本第一实施方式中,采用表示乖离度的匹配成本。作为表示乖离度的匹配成本的具体例,有下面的数式(5)、数式(6)等。

【数5】

【数6】

在此,vec是对应块间的向量,t是表示蓄积在解码图像存储器111的本地解码图像Dec的1个的指针值。除此以外,还有采用利用DCT(Discrete Cosine Transform:离散余弦变换)、阿达玛变换等对视点合成图像和本地解码图像之间的差分值进行变换的值的方法。若将该变换用矩阵A表示,则能由以下数式(7)、数式(8)表示。此外,||X||表示X的范数(norm)。

【数7】

【数8】

即,求出将这些匹配成本最小化的块的处理,成为求出由以下数式(9)表示的(best_vec,best_t)的组。在此,argmin表示求出将提供的函数最小化的参数的处理。导出的参数的集合是由argmin的下部提供的集合。

【数9】

搜索的帧数、搜索范围及搜索的顺序或决定中止(打ち切り)的方法,可采用任意方法。但是,为了正确解码,需要采用与解码侧使用的方法同样的方法。此外,搜索范围或中止方法会对运算成本产生较大的影响。作为在更少的搜索范围内出高的匹配精度的1种方法,有适当设定搜索中心的方法。作为一个例子,有将参考视点帧上的对应区域中使用的由运动向量表示的对应点作为搜索中心的方法。

此外,作为削减与解码侧的搜索相关的运算成本的方法,有限定进行搜索的对象的帧的方法。预先确定搜索对象的帧决定法也可。例如,将最后结束了编码的帧作为搜索对象的方法与此相当。此外,作为限定搜索对象帧的别的方法,还有对表示哪个帧为对象的信息进行编码并通知解码侧的方法。在这种情况下,解码侧需要具备对表示搜索对象帧的指针值等信息进行解码,并以此为基础决定搜索对象帧的机构。

在本第一实施方式中,仅求一个与编码对象块blk对应的块。但是,必要的数据是用时间上不同的帧的视频信号来体现的编码对象块的视频信号的预测值。因此,对于编码对象块blk内的各像素,求出对应像素,将以块状排列它而作成的视频信号作为参考区域也可。此外,设定多个与编码对象块blk对应的块,将以该多个块中的视频信号的平均值表示的视频信号作为参考区域也可。由此,在噪声与搜索对象帧重叠或搜索精度低的情况下,能够降低它们的影响,并能更加有力(robustly)地设定参考区域。

若决定了参考区域Ref[blk](=Dect[blk+vec]),则在推断精度设定部1082中,按参考区域Ref[blk]的每个像素,设定表示多么正确地得到了参考区域的推断精度ψ(步骤Sa6)。推断精度可以采用任何值,但是能够采用依赖于视点合成图像及参考帧中的对应像素间的误差量的值。例如,有由数式(10)、数式(11)表示的平方误差、绝对值误差的倒数、由数式(12)、数式(13)表示的平方误差、对绝对值误差乘以负的值等。此外,作为别的例子,假定误差遵循拉普拉斯分布等,将与得到的对应像素间的图像信号的差分对应的概率用作为推断精度也可。拉普拉斯分布等的参数既可以另行提供,也可以由推断参考区域时计算的误差的分布进行推断。数式(14)是利用将平均设为0的拉普拉斯分布时的例子,φ为参数。

【数10】

【数11】

【数12】

【数13】

【数14】

若结束了推断精度的设定,在校正参数推断部1083中,推断用于校正视点合成图像Syn[blk]的校正参数(步骤Sa7)。校正方法、校正参数推断,也采用任何方法,但是有必要采用与解码侧使用的方法相同的方法。

作为校正方法的例子,有借助偏移值的校正、借助一次函数的校正、伽玛校正等。各自将校正前的值设为in、校正后的值设为out时,可由以下数式(15)、(16)、(17)表示。

【数15】

【数16】

【数17】

在这些例子,offset、(α,β)、(γ,a,b)分别为校正参数。若假定映在编码对象块blk的景物的图像信号时间上不变,则校正前的值为视点合成图像的图像信号,理想的校正后的值成为参考区域的图像信号。即,以减小由该2个图像信号的乖离度表示的匹配成本的方式求出校正参数,从而能进行精度高的校正。再者,在由2个图像信号的适宜度来表示匹配成本的情况下,以最大化匹配成本的方式求参数。

即,当表示校正处理的函数为F、表示2个图像信号的乖离度的匹配成本函数为C时,求出校正参数的处理能由以下数式(18)表示。

【数18】

在此,parF表示校正方法F的校正参数的集合,argmin表示求出将提供的函数最小化的参数的处理。导出的参数的集合为argmin的下部提供的集合。

匹配成本可以采用任何值,例如,能够采用2个信号之差的平方。此外,匹配成本中,采用视点合成图像的可靠度、参考区域的推断精度、或这两者按每个像素进行加权也可。以下数式(19)、(20)、(21)、(22)是表示在以2个信号之差的平方为乖离度时,分别在以下情况下的匹配成本函数的例子:即,完全不进行加权的情况;以视点合成图像的可靠度进行加权的情况;以参考区域的推断精度进行加权的情况;以视点合成图像的可靠度和参考区域的推断精度这两者进行加权的情况。

【数19】

【数20】

【数21】

【数22】

例如,借助偏移值的校正中,作为匹配成本函数采用数式(22)的情况下,可以用以下数式(23)来求出offset。

【数23】

在进行一次函数的校正的情况下,使用最小平方法,能够导出最小化平方误差的参数。

再者,这些校正参数既可以按每个亮度、色差信号求出,也可以按RGB等的每个颜色信道求出。此外,也可以将各信道细分,并按每个固定的范围(range)进行不同的校正(例如,按照R信道的0~127和128~255采用不同的校正参数进行校正)。

如果结束了校正参数的推断,在图像校正部1084中根据校正参数校正与块blk对应的视点合成图像,生成校正视点合成图像Pred(步骤Sa8)。这里的处理,向代入校正参数的校正模型输入视点合成图像即可。例如,在用偏移值进行校正的情况下,根据以下数式(24)生成校正视点合成图像Pred。

【数24】

若完成了块blk的视点合成图像的校正,则作为预测图像使用校正视点合成图像Pred,对编码对象帧Org[blk]进行预测编码(步骤Sa9)。即,以编码对象帧Org[blk]和校正视点合成图像Pred的差分为预测残差由预测残差算出部112生成,在预测残差编码部109中对该预测残差进行编码。采用何种编码方法都可,但H.264等的一般的编码方法中,通过对预测残差实施DCT、量化、2值化、熵编码来进行编码。

编码结果的位流,成为多视点视频编码装置100的输出,并且按每个块在预测残差解码部110中被解码,在解码图像算出部113中将解码结果和校正视点合成图像Pred相加从而构筑本地解码图像Deccur[blk]。构筑的本地解码图像,为了在今后的预测中使用,蓄积到解码图像存储器111中(步骤Sa10)。

B. 第二实施方式

接着,对本发明的第二实施方式进行说明。

图4是表示本第二实施方式的多视点视频解码装置的结构的框图。图4中,多视点视频解码装置200具备:编码数据输入部201、编码数据存储器202、参考视点帧输入部203、参考视点图像存储器204、视点合成部205、视点合成图像存储器206、可靠度设定部207、视点合成图像校正部208、预测残差解码部210、解码图像存储器211及解码图像算出部212。

编码数据输入部201输入成为解码对象的与视频帧(解码对象帧)对应的编码数据。编码数据存储器202蓄积已输入的编码数据。参考视点帧输入部203输入与解码对象帧不同的视点对应的视频帧即参考视点帧。参考视点图像存储器204蓄积已输入的参考视点帧。视点合成部205利用参考视点帧生成与解码对象帧对应的视点合成图像。视点合成图像存储器206蓄积生成的视点合成图像。

可靠度设定部207设定已生成的视点合成图像的每个像素的可靠度。视点合成图像校正部208校正视点合成图像的相机间失谐,输出校正视点合成图像。预测残差解码部210从编码数据中对解码对象帧和校正视点合成图像之差进行解码,以作为预测残差信号。解码图像存储器211蓄积解码对象帧的解码图像,该解码对象帧的解码图像是由解码图像算出部212相加已解码的预测残差信号和校正视点合成图像而获得。

再者,在上述的多视点视频解码装置200的结构中,参考视点帧输入部203、参考视点图像存储器204、视点合成部205、视点合成图像存储器206、可靠度设定部207、视点合成图像校正部208、预测误差解码部210、及解码图像存储器211,分别与第一实施方式的多视点视频编码装置100中的参考视点帧输入部103、参考视点图像存储器104、视点合成部105、视点合成图像存储器106、可靠度设定部107、视点合成图像校正部108、预测误差解码部110、及解码图像存储器111相同。

此外,视点合成图像校正部208的结构与上述第一实施方式的多视点视频编码装置100的视点合成图像校正部108(图2)相同。但是,以下说明中,如图5所示,作为参考区域设定部2081、推断精度设定部2082、校正参数推断部2083、图像校正部2084进行说明。

图6是用于说明本第二实施方式的多视点视频解码装置200的动作的流程图。按照该流程图,就多视点视频解码装置200执行的处理进行详细说明。

首先,从编码数据输入部201被输入对于解码对象帧的编码数据,并存放于编码数据存储器202中(步骤Sb1)。此外,从参考视点帧输入部203被输入与解码对象帧同时刻在参考视点被拍摄的参考视点帧Refn(n=1,2,…,N),并蓄积在参考视点图像存储器204中(步骤Sb1)。

在此输入的参考视点帧为被另行解码的图像。为了防止称为漂移的编码噪声的发生,有必要输入与编码装置中使用的帧相同的帧。但是,在容许这些编码噪声的发生的情况下,输入与编码装置中使用的帧不同的帧也可。再者,n是表示参考视点的指针,N是在此能利用的参考视点的数目。

接着,在视点合成部205中,由参考视点帧的信息合成与解码对象帧同时刻在相同的视点被拍摄的图像,将生成的视点合成图像Syn蓄积在视点合成图像存储器206中(步骤Sb2)。然后,在可靠度设定部207中,对于视点合成图像的各像素,生成表示以多大的确实性实现了对于该像素的合成的可靠度ρ(步骤Sb3)。这些处理分别与第一实施方式的步骤Sa2及步骤Sa3相同。

若结束了可靠度的计算,则按预定的每个块,由视点合成图像校正部208校正视点合成图像的相机间失谐,并且对解码对象帧的视频信号进行解码(步骤Sb4~Sb12)。即,在用blk表示解码对象块指针、用numBlks表示总解码对象块数时,用0初始化blk(步骤Sb4),其后,对blk加1的同时(步骤Sb11),重复以下处理(步骤Sb5~Sb10),直至blk成为numBlks为止(步骤Sb12)。

再者,如果能按每个解码对象块进行视点合成图像的生成或可靠度的计算,这些处理也能作为按每个解码对象块重复处理的一部分而进行。例如,与提供与解码对象块对应的深度信息的情况相当。此外,后述的步骤Sb9不按每个块进行,而事先对全部的块进行,将该结果蓄积后利用也可。但是,在此情况下,需要蓄积解码预测残差信号的存储器。

按每个解码对象块重复的处理中,首先,在参考区域设定部2081(≈参考区域设定部1081)中,利用视点合成图像,发现与块blk对应的参考帧上的块处的参考区域Ref[blk](步骤Sb5)。再者,参考帧指的是已经结束解码处理而蓄积在解码图像存储器211的数据。

该处理与第一实施方式的步骤Sa5相同。用于搜索的匹配成本、搜索对象帧的决定法、对于参考区域的视频信号的生成法等,通过使用与编码装置中用的方法相同的方式,能够防止噪声的发生。

若决定了参考区域Ref[blk](=Dect[blk+vec]),则在推断精度设定部2082(≈推断精度设定部1082)中,按参考区域Ref[blk]的每个像素,设定表示多么正确地得到了参考区域的推断精度ψ(步骤Sb6)。其后,在校正参数推断部2083(≈校正参数推断部1083)中,推断用于校正视点合成图像Syn[blk]的校正参数(步骤Sb7)。接着,在图像校正部2084(≈图像校正部1084)中,根据校正参数校正与块blk对应的视点合成图像,生成校正视点合成图像Pred(步骤Sb8)。这些处理分别与第一实施方式的步骤Sa6、Sa7、Sa8相同。

若完成了块blk的视点合成图像的校正,则通过预测误差解码部210,从编码数据对与块blk对应的预测残差信号进行解码(步骤Sb9)。这里的解码处理为与编码方法对应的处理。例如,在由H.264等的一般的编码方法编码的情况下,通过实施IDCT(Inverse Discrete Cosine Transform:反向离散余弦变换)、反向量化、多值化、熵解码等来进行解码。

最后,在解码图像算出部212中相加所得到的解码预测残差信号DecRes和校正视点合成图像Pred,构筑解码对象帧Deccur[blk]。构筑的解码对象帧,为了在今后的预测中使用,蓄积在解码图像存储器211中,并且成为多视点视频解码装置200的输出(步骤Sb10)。

依据上述第一、第二实施方式,利用生成的视点合成图像,求出对处理中的区域而言的、已经编码完毕的帧上的对应区域,以编码完毕帧中的对应区域的视频信号为基准,进行视点合成图像的亮度、颜色的校正。由此,能够进行减少失谐的校正,能够实现有效率的多视点视频编码。此外,按视点合成图像的每个像素,设定表示合成处理的确实性的可靠度,基于该可靠度按每个像素对匹配成本进行加权。由此,不会被视点合成时的误差拖累,而重视能高精度合成的像素,从而能够设定适当的对应区域。

此外,在上述第一实施方式的步骤Sa5和第二实施方式的步骤Sb5中,用参考帧Dec求出与处理对象帧(编码对象帧或解码对象帧)的视点合成图像Syn[blk]对应的参考帧上的对应块。但是,能得到参考帧的视点合成图像RefSyn的情况下,用视点合成图像RefSyn取代参考帧Dec而求出对应块也可。即,在数式(5)~(8)中,使用以RefSyn置换Dec的匹配成本,求出由数式(9)表示的(best_vec,best_t)的组,从而求出参考帧上的对应块也可。但是,在该情况下,参考区域Ref也是用参考帧Dec生成的。在视点合成处理以高精度进行的情况下,由于认为视点合成图像RefSyn与参考帧Dec相等,所以如此使用视点合成图像RefSyn搜索对应块,也能同样得到本发明的实施方式的效果。

在使用视点合成图像RefSyn的情况下,有必要输入与参考帧同时刻被拍摄的参考视点帧,生成参考帧的视点合成图像并蓄积。但是,因上述实施方式的编码及解码处理连续而适用于多个帧的情况下,通过在解码图像存储器中蓄积处理完毕帧的期间,持续对视点合成图像存储器蓄积视点合成图像,能够避免按每个处理对象帧反复合成参考帧的视点合成图像。

再者,在使用视点合成图像RefSyn的情况下,并不需要对应区域搜索(第一实施方式的步骤Sa5和第二实施方式的步骤Sb5)中蓄积在解码图像存储器的处理完毕帧,因此对应区域搜索的处理无需与编码处理、解码处理同步进行。其结果,能够进行并行运算等,能得到削减全体的运算时间的效果。

在上述第一、第二实施方式中,保持原样而使用视点合成图像、参考帧。但是,受到视点合成图像、参考帧中发生的胶片颗粒(Film grain)、编码失真等的噪声的影响,降低对应区域搜索的精度。这些噪声为特定的频率分量(特别是高频分量),因此对于用在对应区域搜索的帧(图像),进行带通滤波(噪声为高周波的情况下,低通滤波)后进行搜索,从而能够减小噪声的影响。

此外,受噪声等的影响而对应区域搜索的精度下降的情况下,表示对应区域的向量的空间相关降低。但是,在通常的视频中,由于邻接区域中照出相同的景物,所以认为区域间的向量大致相等,表示对应区域的向量的空间相关非常高。因此,对于按每个块进行推断的运动向量实施平均值滤波、中央值滤波,提高空间相关,从而提高对应区域搜索的精度也可。

在上述第一、第二实施方式中,以处理对象块与对应区域搜索的块大小相同的情形进行了说明,但是应了解到它们的大小未必要相同。由于视频的时间变化为非线性,以越小的每个块发现对应区域,相对能更正确预测到视频信号的变化。但是,在使用较小的块的情况下,不仅增加运算量,而且视频信号所包含的噪声的影响也增大。为了应付该问题,在对与较小的区域对应的对应区域进行搜索时,将较小的区域周围的数个像素也用于搜索,从而减小噪声的影响,这也是能够容易推导出的范围内的处理。

再者,在上述第一、第二实施方式中,对一个相机的1个帧进行编码或解码的处理进行了说明,但是也可以按每个帧重复该处理而实现多视点动态图像的编码或解码。而且,按每个相机重复处理,从而能够实现多个相机的多视点动态图像的编码或解码。

如上所述,在本发明的实施方式中,假设依赖于景物的颜色、亮度的失谐在时间变化不大而求出校正参数。因此,在场景变换等场景急剧变化的情况下,时间上失谐会发生变化。在这种情况下,本发明的实施方式中,无法推断出适当的校正参数,有可能因校正而增大视点合成图像与处理对象帧之差。因此,判定有无场景变换等的急剧变化,仅在判定为没有这样的急剧的视频变化的情况下,校正视点合成图像也可。此外,作为判定这样的急剧的视频变化的方法,可以采用检查作为对应区域搜索的结果而得到的对应区域的乖离度的值,在乖离度处于一个固定值以上的情况下,判定为发生了急剧的视频变化的方法。

以上说明的处理能通过计算机和软件程序实现。此外,既可以通过将该程序记录在计算机可读取的记录介质上进行提供,也可以通过网络进行提供。

此外,在上述的实施方式中,以多视点视频编码装置及多视点视频解码装置为中心进行了说明。但是通过与这些多视点视频编码装置及多视点视频解码装置的各部分的动作对应的步骤,能够实现本发明的多视点视频编码方法及多视点视频解码方法。

以上,参考附图说明了本发明的实施方式,但上述实施方式仅为本发明的例示,应当明白本发明并不被上述实施方式所限定。因而,在不超出本发明的精神及范围的范围内也可以进行构成要素的追加、省略、置换、及其它的变更。

产业上的利用可能性

本发明例如可以用于多视点图像或多视点动态图像的编码及解码。依据本发明,在局部产生相机间的亮度、颜色的失谐的情况下,也无需另行对校正参数进行编码/解码,能够实现有效率的多视点图像、多视点动态图像的编码/解码。

符号说明

100 多视点视频编码装置;101 编码对象帧输入部;102 编码对象图像存储器;103 参考视点帧输入部;104 参考视点图像存储器;105 视点合成部;106 视点合成图像存储器;107 可靠度设定部;108 视点合成图像校正部;109 预测残差编码部;110 预测残差解码部;111 解码图像存储器;112 预测残差算出部;113 解码图像算出部;1081 参考区域设定部;1082 推断精度设定部;1083 校正参数推断部;1084 图像校正部;200 多视点视频解码装置;201 编码数据输入部;202 编码数据存储器;203 参考视点帧输入部;204 参考视点图像存储器;205 视点合成部;206 视点合成图像存储器;207 可靠度设定部;208 视点合成图像校正部;210 预测残差解码部;211 解码图像存储器;212 解码图像算出部。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号