首页> 中国专利> 用于图像填充区域的视频编码和解码方法和设备

用于图像填充区域的视频编码和解码方法和设备

摘要

提供了一种视频编码方法,包括:在输入图像之外执行填充,以使得输入图像的尺寸是最大编码单元的倍数;在当前最大编码单元包括通过所述填充生成的填充区域时,通过利用输入图像和填充区域的边界分割当前最大编码单元来确定编码单元;确定指示包括在填充区域中的编码单元是否包括非零系数的信息为0;以及对包括所确定的信息的比特流进行编码。

著录项

  • 公开/公告号CN106797467A

    专利类型发明专利

  • 公开/公告日2017-05-31

    原文格式PDF

  • 申请/专利权人 三星电子株式会社;

    申请/专利号CN201580045141.8

  • 发明设计人 俞基源;金载文;罗尚权;

    申请日2015-06-26

  • 分类号H04N19/172;

  • 代理机构北京英赛嘉华知识产权代理有限责任公司;

  • 代理人王达佐

  • 地址 韩国京畿道

  • 入库时间 2023-06-19 02:27:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-05

    授权

    授权

  • 2017-06-23

    实质审查的生效 IPC(主分类):H04N19/172 申请日:20150626

    实质审查的生效

  • 2017-05-31

    公开

    公开

说明书

技术领域

一个或多个示例性实施方式涉及用于图像填充区域的视频编码和解码方法和设备,更具体地,涉及用于提高图像填充区域的视频编码和解码效率的方法和设备。

背景技术

随着开发和供应用于播放和存储高分辨率或高质量视频内容的硬件,针对用于将高分辨率或高质量视频内容高效编码或解码的视频编解码器的需求逐渐增长。根据传统的视频编解码器,基于具有预定尺寸的宏块来根据有限编码方法对视频进行编码。

经由频率转换将空间域的图像数据转换成频域的系数。根据视频编解码器,将图像分割成具有预定尺寸的块,针对每个单独的块执行离散余弦变换(DCT),并且以块为单位对频率系数进行编码,从而快速计算频率转换。与空间域的图像数据相比,频域的系数容易压缩。具体而言,由于根据视频编解码器的帧间预测或帧内预测的预测误差来表达空间域的图像像素值,因此,当在预测误差上执行频率转换时,可将大量的数据转换成0。根据视频编解码器,可通过用小尺寸的数据替换连续重复生成的数据来减少数据量。

另外,由于正在开发和供应用于再现和存储具有各种分辨率的视频内容的硬件,所以如果图像尺寸与基本处理单元的倍数不匹配,则可以通过填充来处理图像。

发明内容

问题的解决方案

视频编码方法包括:在输入图像之外执行填充,以使得输入图像的尺寸是最大编码单元的倍数;在当前最大编码单元包括通过填充生成的填充区域时,通过利用输入图像和填充区域的边界分割当前最大编码单元来确定编码单元;确定指示包括在填充区域中的编码单元是否具有非零系数的信息为0;以及对包括所确定的信息的比特流进行编码。

有益效果

视频编码方法包括:在输入图像之外执行填充,以使得输入图像的尺寸是最大编码单元的倍数;在当前最大编码单元包括通过填充生成的填充区域时,通过利用输入图像和填充区域的边界分割当前最大编码单元来确定编码单元;确定指示包括在填充区域中的编码单元是否具有非零系数的信息为0;以及对包括所确定的信息的比特流进行编码。

附图说明

通过下文结合附图对示例性实施方式的描述,这些和/或其它方面将变得清楚并且更容易理解,在附图中:

图1A是根据一些实施方式的视频编码设备的框图;

图1B是根据一些实施方式的视频编码方法的流程图;

图2A是根据一些实施方式的视频解码装置的框图;

图2B是根据一些实施方式的视频解码方法的流程图;

图3A和图3B示出根据一些实施方式对包括填充区域的图像进行编码和解码的方法的示例;

图4是用于描述根据一些实施方式对图像进行编码的方法的流程图,其中在填充区域上实施编码模式;

图5示出根据一些实施方式在图像之外执行填充的示例;

图6示出根据一些实施方式通过使用输入图像与填充区域之间的边界来分割最大编码单元的示例;

图7示出根据一些实施方式确定包括在填充区域中的编码单元的分区模式的示例;

图8是根据一些实施方式基于根据树形结构的编码单元的视频编码设备的框图;

图9是根据一些实施方式基于根据树形结构的编码单元的视频解码设备的框图;

图10是根据一些实施方式用于描述编码单元的概念的图;

图11是根据一些实施方式基于编码单元的图像编码器的框图;

图12是根据一些实施方式基于编码单元的图像解码器的框图;

图13是示出根据一些实施方式根据深度的更深编码单元和分区的图;

图14是根据一些实施方式用于描述编码单元与变换单元之间的关系的图;

图15是根据一些实施方式用于描述与编码深度相对应的编码单元的编码信息的图;

图16是根据一些实施方式的根据深度的更深编码单元的图;

图17至图19是根据一些实施方式用于描述编码单元、预测单元与变换单元之间的关系的图;

图20是根据表1的编码模式信息用于描述编码单元、预测单元与变换单元之间的关系的图;

图21示出根据一些实施方式的存储程序的盘的物理结构;

图22示出通过使用盘来记录和读取程序的盘驱动;

图23是表示提供内容分配服务的内容供应系统的整体结构的图;

图24和图25示出根据一些实施方式向其施加视频编码方法和视频解码方法的移动电话的外部结构和内部结构;

图26示出根据一些实施方式采用通信系统的数字广播系统;以及

图27示出根据一些实施方式使用视频编码设备和视频解码设备的云计算系统的网络结构。

具体实施方式

一个或多个示例性实施方式包括视频编码和解码方法,其用于通过在对图像中所包括的填充区域进行编码时实施编码模式来提高压缩效率。

另外的方面将在以下描述中部分地阐述,并且通过说明书将部分地显而易见,或者可以通过实践所提出的示例性实施方式而被习得。

根据一个或多个示例性实施方式,视频编码方法包括:在输入图像之外执行填充,以使得输入图像的尺寸是最大编码单元的倍数;在当前最大编码单元包括通过填充生成的填充区域时,通过利用输入图像和填充区域的边界分割当前最大编码单元来确定编码单元;确定指示包括在填充区域中的编码单元是否具有非零系数的信息为0;以及对包括所确定的信息的比特流进行编码。

编码单元的确定可包括:确定分区模式以使得包括在填充区域中的编码单元不再被分割。

视频编码方法还可包括:将包括在填充区域中的编码单元的量化参数确定为预测值。

视频编码方法还可包括:根据截片类型确定包括在填充区域中的编码单元的预测模式。

预测模式的确定可包括:从特定数量的预测模式候选中确定预测模式。

预测模式的确定可包括:将预测模式确定为跳跃模式。

预测模式的确定可包括:将包括在填充区域中的编码单元的合并索引确定为指示填充方向的索引。

预测模式的确定可包括:从分别指示合并候选块的索引中,将包括在填充区域中的编码单元的合并索引确定为具有最低值的索引。

视频编码方法还可包括:当所确定的编码单元包括输入图像的一部分和填充区域的一部分时,确定指示包括填充区域的所述一部分的变换单元是否具有非零系数的信息为0。

视频编码方法还可包括:当所确定的编码单元包括输入图像的所述一部分和填充区域的所述一部分时,根据截片类型从包括在所确定的编码单元中的预测单元之中,确定包括填充区域的所述一部分的预测单元的预测模式。

根据一个或多个示例性实施方式,视频解码方法包括:从接收的比特流获取包括填充区域的最大编码单元的图像数据和编码信息;基于最大编码单元的图像数据和编码信息生成恢复图像;以及从恢复图像中排除填充区域,其中指示包括在最大编码单元中的编码单元中的包括在填充区域中的编码单元是否具有非零系数的信息为0。

恢复图像的生成包括:从包括在最大编码单元中的编码单元中,将包括在填充区域中的编码单元的量化参数确定为预测值。

获取图像数据和编码信息可包括获取与填充区域有关的信息,并且填充区域的排除可包括基于与填充区域有关的信息,将通过从恢复图像排除填充区域而获取的图像确定为再现图像。

恢复图像的生成可包括:根据从特定数量的预测模式候选中确定的预测模式,预测包括在填充区域中的编码单元。

恢复图像的生成可包括:以跳跃模式对包括在填充区域中的编码单元的执行预测。

恢复图像的生成可包括:根据指示填充区域的填充方向的合并索引来预测包括在填充区域中的编码单元。

恢复图像的生成可包括:根据从分别指示合并候选块的索引中确定为具有最低值的索引的合并索引,预测包括在填充区域中的编码单元。

根据一个或多个示例性实施方式,视频编码设备包括:填充单元,配置成在输入图像之外执行填充,以使得输入图像的尺寸是最大编码单元的倍数;确定器,配置成在当前最大编码单元包括通过填充而生成的填充区域时,通过利用输入图像和填充区域的边界分割当前最大编码单元来确定编码单元,并且确定指示包括在填充区域中的编码单元是否具有非零系数的信息为0;以及编码器,配置成对包括所确定的信息的比特流进行编码。

根据一个或多个示例性实施方式,视频解码设备包括:解码器,配置成从接收的比特流获取包括填充区域的最大编码单元的图像数据和编码信息;恢复图像生成器,配置成基于最大编码单元的图像数据和编码信息生成恢复图像;以及图像再现器,配置成从恢复图像排除填充区域,其中指示最大编码单元中所包括的编码单元之中包含在填充区域中的编码单元是否具有非零系数的信息为0。

根据一个或多个示例性实施方式,非暂时性计算机可读记录介质上面记录有程序,所述程序在被计算机执行时,执行视频编码方法或视频解码方法。

本发明的实施方式

在下文中,参考图1A至图7给出有效地包括图像填充区域的视频编码技术和层间视频解码技术。此外,将参考图8至20描述根据一些实施方式的基于具有树形结构的编码单元的视频编码技术和视频解码技术,其可应用于以上给出的视频编码技术和层间视频解码技术。此外,将参考图21至图27描述可应用视频编码方法和视频解码方法的各种实施方式。

在下文中,“图像”可以表示视频的静止图像或运动图像、或视频本身。

在下文中,“样本”表示分配给图像的采样位置并且将被处理的数据。例如,空间域中的图像像素可以是样本。

如本文所使用的,术语“和/或”包括一个或多个相关所列项目的任何和所有组合。诸如“至少一个”的表达在元件列表之前时修饰整个元素列表,并且不修饰列表的各个元素。

首先,将参考图1A至图7描述根据实施方式通过实施编码模式同时对图像中所包括的填充区域进行编码而实现的具有高压缩效率的视频编码和解码方法。

图1A是根据一些实施方式的视频编码设备100的框图。

根据一些实施方式的视频编码设备100可包括填充单元12、确定器14和编码器16。另外,根据一些实施方式的视频编码设备100可包括中央处理器(未示出),所述中央处理器总体控制填充单元12、确定器14和编码器16。可替代地,填充单元12、确定器14和编码器16可以被单独处理器(未示出)操作,并且视频编码设备100可随着单独的处理器相互系统地操作而总体地操作。可替代地,填充单元12、确定器14和编码器16可以被视频编码设备100之外的外部处理器(未示出)控制。

视频编码设备100可包括至少一个数据存储单元(未示出),其用于存储填充单元12、确定器14和编码器16的输入/输出数据。视频编码设备100可包括存储器控制器(未示出),其管理数据存储单元的数据输入和输出。

视频编码设备100可以通过与内部视频编码处理器或外部视频编码处理器交互工作来执行包括变换的视频编码操作,以输出视频编码结果。视频编码设备100的内部视频编码处理器可以作为独立处理器来实现视频编码操作。此外,视频编码设备100、中央处理设备或图形处理设备可以通过包括视频编码处理模块来实现基本视频编码操作。

现在将参考图1B详细描述根据一些实施方式的视频编码设备100的操作。

图1B是根据一些实施方式的视频编码方法的流程图。

在操作11中,填充单元12可以在输入图像之外执行填充,以使得输入图像的尺寸是最大编码单元的倍数。这里,最大编码单元包括具有树形结构的编码单元,并且可以替代地被称为编码树单元、编码块树、块树、根块树、编码树、编码根或树干。可以通过分割最大编码单元来确定编码单元,并且编码单元可包括预测单元和变换单元。

另一方面,视频编码设备100可以被设计为有限状态机(FSM)以处理具有固定尺寸的最大编码单元。在这种情况下,可以简化设计以及可以减少负载,此外可以减少验证问题。然而,在FSM方法中,如果输入图像的尺寸不是最大编码单元的倍数,则可能不能够处理输入图像。

因此,根据一些实施方式的填充单元12可以在输入图像之外执行填充,使得输入图像的尺寸是最大编码单元的倍数,由此处理具有各种尺寸中的任何一种的图像。例如,可以通过在输入图像之外用相邻块值进行填补来执行填充,以使得输入图像的尺寸是最大编码单元的倍数。这里,可以通过序列参数集(SPS)将与是否对输入图像执行填充有关的信息和填充区域的尺寸传输到视频解码设备200。

另一方面,如果视频编码设备100对在其上执行填充的图像进行编码,则待处理的数据量可能增加,并且由此可能降低编码性能。因此,根据一些实施方式的视频编码设备100可以区分原始图像区域和填充区域,并且实施填充区域的编码模式以提高编码性能。此外,可以减少率开销。

在操作13中,在当前最大编码单元包括通过填充生成的填充区域时,确定器14可以通过使用输入图像与填充区域之间的边界来分割当前最大编码单元以确定编码单元。例如,确定器14可以基于输入图像与填充区域之间的边界,将当前编码单元分割成包括在输入图像中的编码单元和包括在填充区域中的编码单元。

另外,确定器14可以确定分区模式,以使得包括在填充区域中的编码单元不再被分割,因为当包括在填充区域中的具有树形结构的编码单元的数量较高时,预测单元的吞吐量可能较高,由此增加在填充区域中生成的比率。这里,比率(rate)表示每单位时间的数据生成率。

稍后将参考图6和图7详细描述视频编码设备100通过利用填充区域的边界分割最大编码单元来确定编码单元的示例。

如果包括在最大编码单元中的填充区域不是最小编码单元的倍数,则通过分割最大编码单元获取的编码单元可包括输入图像的一部分和填充区域的一部分。在这种情况下,可以基于填充区域的边界来确定包括在编码单元中的预测单元或变换单元的尺寸。

在操作15中,确定器14可以确定指示包括在填充区域中的编码单元是否包括非零系数的信息为0。例如,无论包括在填充区域中的编码单元的剩余值是什么,确定器14可以将编码块标志(CBF)确定为0。在这种情况下,视频编码设备100可以通过不向解码设备传输填充区域的剩余数据来减小包括在填充区域中的编码单元的比率。

另外,确定器14可以将包括在填充区域中的编码单元的量化参数确定为预测值。因此,视频编码设备100可以将量化参数的微分值设置为0,由此减少传输到视频解码设备200的数据量。

另外,确定器14可以根据截片类型来确定包括在填充区域中的编码单元的预测模式。例如,确定器14可以在截片类型是I型时将预测模式确定为帧内模式,在截片类型是P型或B型时将预测模式确定为帧间模式。

另外,确定器14可以从特定数量的预测模式候选中,确定包括在填充单元中的编码单元的预测模式。例如,当将预测模式确定为帧内模式时,确定器14可以使用最可能模式(MPM),以使得将当前块的预测模式确定为相邻块的预测模式中的一个。

可替代地,确定器14可以将预测模式确定为跳跃模式。此时,确定器14可以从分别指示合并候选块的索引中,将包括在填充区域中的编码单元的合并索引确定为具有最低值的索引。可替代地,确定器14可以将合并索引确定为指示填充方向的索引。因此,视频编码设备100不发送与包括在填充区域中的编码单元的运动矢量微分值、预测方向和参考图片索引相关的信息,由此可以减少传输到视频解码设备200的数据量。

在操作17中,编码器16可以对包括在操作15中确定的信息的比特流进行编码。这里,信息可包括以下中的至少一个:指示编码单元是否包括非零系数的信息、与包括在填充区域中的编码单元的分区模式有关的信息、量化参数的微分值、与预测模式有关的信息和合并索引。

图2A是根据一些实施方式的视频解码设备200的框图。

根据一些实施方式的视频解码设备200可包括解码器22、恢复图像生成器24和图像再现器26。另外,根据一些实施方式的视频解码设备200可包括中央处理器(未示出),所述中央处理器总体控制解码器22、恢复图像生成器24和图像再现器26。可替代地,解码器22、恢复图像生成器24和图像再现器26可以由被独立处理器(未示出)操作,而且视频解码设备200可以随着独立处理器相互系统地操作而总体地操作。可替代地,根据一些实施方式,解码器22、恢复图像生成器24和图像再现器26可以被视频解码设备200的外部处理器(未示出)控制。

根据一些实施方式的视频解码设备200可包括至少一个数据存储单元(未示出),其存储解码器22、恢复图像生成器24和图像再现器26的输入/输出数据。视频解码设备200可包括存储器控制器(未示出),其管理数据存储单元的数据输入/输出。

根据一些实施方式的视频解码设备200可以与内部视频解码处理器或外部视频解码处理器交互工作,以执行包括逆变换的视频解码操作,由此通过视频解码恢复视频。根据一些实施方式的视频解码设备200的内部视频解码处理器可以作为独立处理器来实现视频解码操作。此外,视频解码设备200、中央处理设备或图形处理设备可以通过包括视频解码处理模块来实现基本视频解码操作。

现在将参考图2B详细描述根据一些实施方式的视频解码设备200的操作。

图2B是根据一些实施方式的视频解码方法的流程图。

在操作21中,解码器22可以从接收的比特流中获取包括填充区域的最大编码单元的图像数据和编码信息。这里,编码信息可包括以下中的至少一个:指示编码单元是否包括非零系数的信息、与包括在填充区域中的编码单元的分区模式有关的信息、量化参数的微分值、与预测模式有关的信息和合并索引。

在操作23中,恢复图像生成器24可以基于最大编码单元的图像数据和编码信息生成恢复图像。

例如,指示最大编码单元中所包括的编码单元之中包含在填充区域中的编码单元是否包括非零系数的信息可以是0。换句话说,CBF可以是0。因此,恢复图像生成器24可以将包括在填充区域中的编码单元的变换系数确定为0。

另外,恢复图像生成器24可以从通过分割最大编码单元获取的编码单元中,将包括在填充区域中的编码单元的量化参数确定为预测值。可替代地,视频解码设备200所获取的量化参数的微分值可以是0。

另外,恢复图像生成器24可以根据从特定数量的预测模式候选中确定的预测模式,预测包括在填充区域中的编码单元。例如,当将包括在填充区域中的编码单元的预测模式确定为帧内模式时,恢复图像生成器24可以通过使用MPM中的一个来执行预测单元的预测。

另外,恢复图像生成器24可以将包括在填充区域中的编码单元预测为跳跃模式。

因此,恢复图像生成器24可以通过从相对于包括在填充区域中的编码单元的相邻块获取与运动矢量微分值、预测方向和参考图像索引相关的信息来执行预测单元的预测。

在操作25中,图像再现器26可以从恢复图像排除填充区域。例如,图像恢复器26可以从SPS获取与是否对输入图像执行填充有关的信息和与填充区域的尺寸有关的信息,并且基于与填充区域的尺寸有关的信息将通过从恢复图像排除填充区域而获取的图像确定为再现图像。因此,图像再现器26可再现所述再现图像。然而,实施方式不限于此,并且图像再现器26可以从恢复图像中移除填充区域。

现在将参考图3至图7详细描述根据一些实施方式对包括填充区域的图像进行编码的方法。

图3A和图3B示出根据一些实施方式对包括填充区域的图像进行编码和解码的方法的示例。

图3A示出包括填充区域的图像的视频编码操作,而图3B示出包括填充区域的图像的视频解码操作。

首先,根据一些实施方式的视频编码设备100可以执行填充,以使得输入图像的尺寸变成最大编码单元的倍数。这里,可以通过SPS将与是否对输入图像执行填充有关的信息和填充区域的尺寸发送到视频解码设备200。例如,SPS可以由以下的伪代码指示。

conformance_window_flag=true;

pic_width_in_luma_samples=Orig_width+padding_w

pic_height_in_luma_samples=Orig_height+padding_h

conf_win_right_offset=padding_w

conf_win_bottom_offset=padding_h

这里,conformance_window_flag是指示是否对图像执行填充的标志,并且Orig_width和Orig_height分别表示原始区域30的宽度和高度。另外,padding_w和padding_h分别表示填充区域31的宽度和高度,并且pic_width_in_luma_samples和pic_width_in_luma_samples分别表示包括填充区域31的图像的宽度和高度。另外,conf_win_right_offset和conf_win_bottom_offset表示当稍后再现恢复图像时将排除的区域偏移量(offset)。

因此,根据一些实施方式的视频解码设备200可以恢复包括填充区域31的图像,同时通过从SPS获取与是否对输入图像执行填充有关的信息和填充区域31的尺寸来排除填充区域31。

图4是用于描述根据一些实施方式对图像进行编码的方法的流程图,其中在填充区域上实施编码模式。

在操作40中,视频编码设备100可以在输入图像之外执行填充,以使得输入图像的尺寸变成最大编码单元的倍数。这里,可以用特定值来填充通过执行填充而生成的填充区域。

例如,图5示出根据一些实施方式在图像之外执行填充的示例。

参考图5,输入图像的原始区域50不是最大编码单元CTU(0)的倍数。因此,可以对最大编码单元CTU(1)、CTU(2)和CTU(3)执行填充,以使得输入图像变成最大编码单元CTU(0)的倍数。换句话说,视频编码设备100可以在填充方向52上用原始区域50的相邻块或像素值来对填充区域51进行填充。

这里,最大编码单元CTU(1)至CTU(3)各自是包括稍后描述的填充区域的最大编码单元。

另一方面,当视频编码设备100将对在其上执行填充的图像进行编码时,待处理的数据量可能增加,由此可能降低编码性能。因此,根据一些实施方式的视频编码设备100可以实施包括在填充区域中的编码单元的编码模式,以降低包括填充区域的图像的比率。

例如,可以基于相对于包括在填充区域中的编码单元的率失真优化(RDO,rate-distortion optimization)模型来预先计算最佳编码模式,并且可以对包括在填充区域中的编码单元实施所计算的最佳编码模式。

返回参考图4,在操作41中,在当前最大编码单元包括通过填充生成的填充区域时,视频编码设备100可以通过使用输入图像与填充区域之间的边界来分割当前最大编码单元。

此时,包括填充区域的当前最大编码单元的RDO模型可以由以下的公式1表示。

【公式1】

J(M)=D(M)+λ·R(M),其中,M={mode,qp,coeff}

这里,J(M)表示RDO模型,D(M)表示由于量化引起的劣化,λ表示拉格朗日乘数,以及R(M)表示压缩流比率。另外,mode表示预测模式,qp表示量化参数,以及coeff表示指示编码单元是否包括非零系数的信息。

另一方面,图6示出根据一些实施方式通过使用输入图像与填充区域之间的边界来分割最大编码单元的示例。参考图6,可以通过基于图像帧边界63将最大编码单元分割为原始区域60和填充区域61来确定编码单元。因此,可以根据包括在原始区域60中的编码单元和包括在填充区域61中的编码单元来计算率失真成本(rate-distortion cost)。

此外,如以下公式2中的那样,可以以分为原始区域和填充区域的率失真成本函数表示公式1。

【公式2】

J(M,M′)=Jorg(M)+Jpad(M′)

这里,Jorg表示相对于针对原始区域确定的编码模式的率失真成本值,并且Jpad表示相对于针对填充区域确定的编码模式的率失真成本值。

此外,Jpad(M′)可以由以下的公式3表示。

【公式3】

Jpad(M′)=Dpad(M′)+λ·Rpad(M′)

这里,Dpad(M′)表示由于填充区域的量化引起的劣化,以及Rpad(M′)表示填充区域的压缩流比率(rate)。

此外,为了基于公式3提高包括填充区域的图像的编码性能,可以引入公式4。

【公式4】

R(M)≈Rorg(M)→Rpad(M′)≈0

这里,由于在测量峰值信噪比(PSNR)时排除了填充区域,所以可以忽略Dpad(M′)。

其结果是,当确定其中Rpad(M′)接近0的编码模式M'时,可以减小填充区域的率失真成本。

另一方面,可以再次由以下的公式5表示Rpad(M′)。

【公式5】

Rpad(M′)=Rpad(mode′)+Rpad(qp′)+Rpad(coeff′)

这里,mode'表示预测模式,qp'表示量化参数,并且coeff'表示变换系数。

在操作42中,视频编码设备100可确定包括在填充区域中的编码单元的分区模式。在这种情况下,视频编码设备100可以通过限制包括在填充区域中的编码单元的分割来减小Rpad(mode′),因为与参考图片索引相关的数据和运动矢量的微分值可能与包括在填充区域中的编码单元的数量成比例地增加。

例如,图7示出根据一些实施方式确定包括在填充区域中的编码单元的分区模式的示例。

参考图7,最大编码单元70可包括原始区域71和填充区域72。当包括在最大编码单元70中的填充区域72是最小编码单元的倍数时,最大编码单元70可以被分割,以使得原始区域71和填充区域72彼此区分开。

例如,原始区域71可以被分割为具有16×16尺寸的四个块。此外,填充区域72可以被分割为具有16×16的尺寸的四个块2 73和具有32×32的尺寸的两个块74。这里,由于最大编码单元70可能以树形结构来分割,所以块74可以进一步被分割为具有16×16的尺寸的四个块,并且块73可以进一步被分割为具有8×8的尺寸的块。然而,根据一些实施方式的视频编码设备100可以通过强制不再分割包括在填充区域72中的编码单元来减小Rpad(mode′)。

因此,可以通过使用以下的公式6获取包括在填充区域中的编码单元的分区模式。

【公式6】

X=ix26+jx25+kx24,其中i、j、k=0或1

这里,X表示当填充区域是最小编码单元的倍数时,填充区域的宽度和高度之中的较小值。因此,通过根据公式6计算X,可以基于i、j和k各自为0还是1来确定编码单元的尺寸。

例如,由于在图7中填充区域72的宽度小于高度,所以宽度即X可以是25+24。因此,当确定被分割为四个块73和两个块74的填充区域72的编码单元时,可以减小Rpad(mode′)。

返回参考图4,在操作43中,视频编码设备100可以确定指示包括在填充区域中的编码单元是否包括非零系数的信息为0。例如,视频编码设备100可以将包括在填充区域中的编码单元的CBF确定为0。其结果是,视频编码设备100可以将CBF确定为0,以使得Rpad(coeff′)变成0。

在操作44中,视频编码设备100可将包括在填充区域中的编码单元的量化参数确定为预测值。因此,视频编码设备100可以将量化参数的微分值设置为0,从而将Rpad(qp′)设置为0。

在操作45至49中,视频编码设备100可以实施用于减小Rpad(mode′)的预测模式以提高填充区域的编码效率。

在操作45中,视频编码设备100可根据截片类型,将包括在填充区域中的编码单元的预测模式确定为帧间预测模式或帧内预测模式。例如,视频编码设备100可以在截片类型是I型时将预测模式确定为帧内模式,在截片类型是P型或B型时将预测模式确定为帧间模式。

然后,在操作46中,视频编码设备100确定包括在填充区域中的编码单元的预测模式是否为帧内预测模式。当预测模式是帧内预测模式时,执行操作47,并且当预测模式是帧间预测模式时,执行操作48。

在操作47中,视频编码设备100将帧内预测模式确定为MPM,以使得将当前块的预测模式确定为相邻块的预测模式中的一个。

在操作48中,视频编码设备100可将包括在填充区域中的编码单元的预测模式确定为跳跃模式。

然后,在操作49中,视频编码设备100可以从分别指示合并候选块的索引中,将包括在填充区域中的编码单元的合并索引确定为具有最低值的索引。因此,视频编码设备100可以通过不相对于包括在填充区域中的编码单元传输与运动矢量微分值、预测方向和参考图片索引相关的信息,来减少传输到视频解码设备200的数据量。

另一方面,如果包括在最大编码单元中的填充区域不是最小编码单元的倍数,则不能够从最大编码单元分割仅包括填充区域的编码单元。例如,从最大编码单元分割的编码单元可包括输入图像的一部分和填充区域的一部分。因此,在这种情况下,可以基于填充区域的边界来确定包括在编码单元中的预测单元或变换单元的尺寸。因此,以上所述的实施方式可以应用于包括填充区域的一部分的变换单元或预测单元。

此外,在根据一些实施方式的视频编码设备100中,当编码单元包括输入图像的一部分和填充区域的一部分时,编码单元中与填充区域的所述一部分对应的预测单元可以使用编码单元中与输入图像的所述一部分对应的预测单元的预测模式。

如以上所述,根据一些实施方式的视频编码设备100和视频解码设备200可以实施所述编码模式同时对图像中所包括的填充区域进行编码以提高压缩效率。

此外,以上参考图4至图7描述的操作由视频编码设备100执行,但是对于本领域普通技术人员显而易见的是,相同的操作可以由视频解码设备200来执行。

如上文所述,在根据一些实施方式的视频编码设备100和根据一些实施方式的视频解码设备200中,通过分割视频数据而获取的块可被分成具有树形结构的编码单元,而且编码单元、预测单元和变换单元可用于编码单元的层间预测或帧间预测。现将参考图8至图20描述根据一些实施方式基于变换单元和具有树形结构的编码单元的视频编码和解码方法和设备。

图8是根据一些实施方式基于根据树形结构的编码单元的视频编码设备100的框图。

根据实施方式的基于根据树形结构的编码单元的、涉及视频预测的视频编码设备100包括编码单元确定器120和输出单元130。

编码单元确定器120可基于最大编码单元来分割当前图片,所述最大编码单元是具有图像的当前图片的最大尺寸的编码单元。如果当前图片大于最大编码单元,那么当前图片的图像数据可被分割成至少一个最大编码单元。根据一些实施方式的最大编码单元可以是具有32×32、64×64、128×128、256×256等尺寸的数据单元,其中,数据单元的形状是具有2的平方的宽度和长度的正方形。

根据一些实施方式的编码单元的特征可以是最大尺寸和深度。深度表示编码单元从最大编码单元空间分割的次数,并且随着深度加深,根据深度的较深编码单元可从最大编码单元分割到最小编码单元。最大编码单元的深度是最浅深度,并且最小编码单元的深度是最深深度。由于对应于每个深度的编码单元的尺寸随着最大编码单元的深度加深而减小,因此,对应于较浅深度的编码单元可包括对应于较深深度的多个编码单元。

如上文所述,当前图片的图像数据根据编码单元的最大尺寸分割成最大编码单元,并且最大编码单元中的每个可包括根据深度分割的较深编码单元。由于根据一些实施方式的最大编码单元根据深度进行分割,因此,最大编码单元中包括的空间域的图像数据可根据深度进行分层分类。

限制最大编码单元的高度和宽度进行分层分割的总次数的编码单元的最大深度和最大尺寸可以预先确定。

编码单元确定器120对通过根据深度分割最大编码单元的区域而获得的至少一个分割区域进行编码,并且根据至少一个分割区域确定输出最终编码的图像数据的深度。换言之,通过根据当前图片的最大编码单元对根据深度的较深编码单元中的图像数据进行编码并且选择具有最小编码误差的深度,编码单元确定器120确定编码深度。所确定的编码深度和根据所确定的编码深度的编码图像数据输出到输出单元130。

最大编码单元中的图像数据基于与等于或小于最大深度的至少一个深度对应的较深编码单元进行编码,并且对图像数据进行编码的结果基于较深编码单元中的每个进行比较。在比较较深编码单元的编码误差之后,可选择具有最小编码误差的深度。针对每个最大编码单元,可选择至少一个编码深度。

随着编码单元根据深度进行分层分割,并且随着编码单元的数量增加,最大编码单元的尺寸被分割。此外,即使编码单元对应于一个最大编码单元中的相同深度,也要通过分别测量每个编码单元的图像数据的编码误差来确定是否将对应于相同深度的编码单元中的每个编码单元分割到较深深度。因此,即使在图像数据被包括在一个最大编码单元中时,编码误差也可根据一个最大编码单元中的区域而不同,因此,编码深度可根据图像数据中的区域而不同。因此,在一个最大编码单元中可确定一个或多个最大深度,并且最大编码单元的图像数据可根据至少一个编码深度的编码单元而划分。

因此,根据一些实施方式的编码单元确定器120可确定最大编码单元中包括的具有树形结构的编码单元。根据一些实施方式的“具有树形结构的编码单元”包括在最大编码单元包括的所有较深编码之中的、与确定为编码深度的深度对应的编码单元。编码深度的编码单元可根据最大编码单元的相同区域中的深度来分层确定,并且可在不同区域中独立确定。类似地,当前区域中的编码深度可独立于另一区域中的编码深度进行确定。

根据一些实施方式的最大深度是与从最大编码单元到最小编码单元的分割次数相关的索引。根据一些实施方式的第一最大深度可表示从最大编码单元到最小编码单元的总分割次数。根据一些实施方式的第二最大深度可表示从最大编码单元到最小编码单元的深度等级的总数。例如,当最大编码单元的深度为0时,最大编码单元被分割一次的编码单元的深度可设置为1,并且最大编码单元被分割两次的编码单元的深度可设置为2。此处,如果最小编码单元是最大编码单元被分割四次的编码单元,那么存在深度0、1、2、3和4的深度等级,因此,第一最大深度可设置为4,并且第二最大深度可设置为5。

预测编码和变换可根据最大编码单元来执行。预测编码和变换也根据最大编码单元基于根据等于或小于最大深度的深度的较深编码单元来执行。

由于每当最大编码单元根据深度分割时较深编码单元的数量都增加,因此,在随着深度加深而生成的所有较深编码单元上执行包括预测编码和变换在内的编码。为便于描述,现在将基于当前深度的编码单元在最大编码单元中描述预测编码和变换。

根据一些实施方式的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码,执行诸如,预测编码、变换和熵编码的操作,并且同时,可将相同的数据单元用于所有操作或者将不同的数据单元用于每个操作。

例如,视频编码设备100不仅可选择用于对图像数据进行编码的编码单元,而且可选择不同于编码单元的数据单元,从而在编码单元中的图像数据上执行预测编码。

为了在最大编码单元中执行预测编码,可基于根据一些实施方式的与编码深度对应的编码单元(即,基于不再分割成与较深深度对应的编码单元的编码单元)执行预测编码。在下文中,不再进行分割并且成为用于预测编码的基础单元的编码单元现在将被称为“预测单元”。通过分割预测单元而获得的分区可包括预测单元或者通过分割预测单元的高度和宽度中的至少一个而获得的数据单元。分区是编码单元的预测单元被分割的数据单元,并且预测单元可以是与编码单元具有相同尺寸的分区。

例如,当2N×2N(其中N是正整数)的编码单元不再分割并且成为2N×2N的预测单元时,分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。根据一些实施方式的分区类型的示例包括通过对称地分割预测单元的高度或宽度而获得的对称分区、通过不对称地分割预测单元的高度或宽度(诸如1:n或n:1)而获得的分区、通过几何分割预测单元而获得的分区以及具有任意形状的分区。

预测单元的预测模式可以是帧内模式(Intra Mode)、帧间模式(Inter Mode)和跳跃模式(Skip Mode)中的至少一个。例如,帧内模式或帧间模式可在2N×2N、2N×N、N×2N或N×N的分区上执行。此外,跳跃模式可以只在2N×2N的分区上执行。编码在编码单元中的一个预测单元上独立执行,从而选择具有最小编码误差的预测模式。

根据一些实施方式的视频编码设备100也可不仅基于用于对图像数据进行编码的编码单元而且还基于不同于编码单元的数据单元而在编码单元中的图像数据上执行变换。为了在编码单元中执行变换,可基于具有小于或等于编码单元的尺寸的变换单元来执行变换。例如,变换单元可包括用于帧内模式的数据单元和用于帧间模式的变换单元。

根据一些实施方式,编码单元中的变换单元可按与编码单元根据树形结构进行分割的类似方式递归地分割成更小尺寸的区域。因此,编码单元中的残余数据可根据具有树形结构的变换单元依据变换深度进行分割。

根据一些实施方式,表明通过分割编码单元的高度和宽度来达到变换单元的分割次数的变换深度也可设置在变换单元中。例如,在2N×2N的当前编码单元中,当变换单元的尺寸是2N×2N时变换深度可为0,当变换单元的尺寸是N×N时变换深度可为1,以及当变换单元的尺寸是N/2×N/2时变换深度可为2。换言之,具有树形结构的变换单元可根据变换深度进行设置。

根据与编码深度对应的编码单元的编码信息不仅需要与编码深度有关的信息,而且需要与预测编码和变换相关的信息。因此,编码单元确定器120不仅确定具有最小编码误差的编码深度,而且确定将预测单元中的分区类型、根据预测单元的预测模式以及用于变换的变换单元的尺寸。

下文将参考图9到图19详细描述根据一些实施方式的最大编码单元中的根据树形结构的编码单元以及确定预测单元/分区和变换单元的方法。

编码单元确定器120可通过使用基于拉格朗日乘子的率失真优化(Rate-Distortion Optimization)来测量根据深度的较深编码单元的编码误差。

输出单元130以比特流的形式输出基于由编码单元确定器120确定的至少一个编码深度进行编码的最大编码单元的图像数据以及根据深度与编码模式有关的信息。

通过对图像的残余数据进行编码可获得编码的图像数据。

根据编码深度与编码模式有关的信息可包括与编码深度有关的信息、与预测单元中的分区类型有关的信息、与预测模式有关的信息以及与变换单元的尺寸有关的信息。

与编码深度有关的信息可通过使用根据深度的分割信息进行限定,从而表明是否在较深深度而非当前深度的编码单元上执行编码。如果当前编码单元的当前深度是编码深度,那么对当前编码单元进行编码,因此,分割信息可限定为不将当前编码单元分割到较深深度。可替代地,如果当前编码单元的当前深度不是该编码深度,那么在较深深度的编码单元上执行编码,因此,分割信息可限定为分割当前编码单元,以获取较深深度的编码单元。

如果当前深度不是该编码深度,那么在分割成较深深度的编码单元的编码单元上执行编码。由于较深深度的至少一个编码单元存在于当前深度的一个编码单元中,因此,可在较深深度的每个编码单元上重复执行编码,从而可针对具有相同深度的编码单元递归地执行编码。

由于针对一个最大编码单元确定具有树形结构的编码单元并且针对编码深度的编码单元确定至少一条分割信息,因此,可针对一个最大编码单元确定至少一项分割信息。此外,最大编码单元的图像数据的编码深度可根据位置而不同,这是因为图像数据根据深度进行分层分割,因此,可针对图像数据来设置与编码深度有关的信息和分割信息。

因此,根据一些实施方式的输出单元130可将与对应编码深度和编码模式有关的编码信息分配到最大编码单元中包括的编码单元、预测单元和最小单元中的至少一个。

根据一些实施方式的最小单元是通过将构成最深深度的最小编码单元分割成4个而获取的正方形数据单元。可替代地,根据一些实施方式的最小单元可以是可被包括在最大编码单元所包括的编码单元、预测单元、分区单元和变换单元的全部中的最大正方形数据单元。

例如,由输出单元130输出的编码信息可分类成根据较深编码单元的编码信息和根据预测单元的编码信息。根据较深编码单元的编码信息可包括与预测模式有关的信息和与分区的尺寸有关的信息。根据预测单元的编码信息可包括与帧间模式的估计方向有关的信息、与帧间模式的参考图像索引有关的信息、与运动矢量有关的信息、与帧内模式的色度分量有关的信息以及与帧内模式的内插法有关的信息。

与根据图片、截片或GOP限定的编码单元的最大尺寸有关的信息以及与最大深度有关的信息可插入到比特流的标头、序列参数集或图片参数集中。

与当前视频准许的变换单元的最大尺寸有关的信息以及与变换单元的最小尺寸有关的信息也可通过比特流的标头、序列参数集或图片参数集输出。输出单元130可对与预测相关的参考信息、预测信息和截片类型信息进行编码并输出这些信息。

在根据最简单实施方式的视频编码设备100中,较深编码单元可以是通过将较浅深度的编码单元(上一层的编码单元)的高度或宽度一分为二所得到的编码单元。换言之,在当前深度的编码单元的尺寸是2N×2N时,较深深度的编码单元的尺寸是N×N。此外,具有2N×2N尺寸的具有当前深度的编码单元可包括最多四个具有所述最低深度编码单元。

因此,通过基于最大编码单元的尺寸和考虑到当前图片的特征而确定的最大深度来确定每个最大编码单元的具有最佳形状和最佳尺寸的编码单元,视频编码设备100可形成具有树形结构的编码单元。此外,由于可通过使用各种预测模式和变换中的任一个在每个最大编码单元上执行编码,因此,可通过考虑到各种图像尺寸的编码单元的特征来确定最佳编码模式。

因此,如果具有高分辨率或大数据量的图像在传统宏块中编码,那么每个图片的宏块数量过度增加。因此,针对每个宏块生成的压缩信息的数量增加,因而难以传输压缩的信息并且数据压缩效率降低。然而,通过使用根据一些实施方式的视频编码设备100,图像压缩效率可增加,这是因为在考虑图像的特征同时调整编码单元,以及在考虑图像的尺寸的同时增大编码单元的最大尺寸。

上文参考图1A描述的视频编码设备100可包括与层的数量一样多的图8的视频编码设备100,从而根据多层视频的每层对单层图像进行编码。例如,第一层编码器可包括图8中的一个视频编码设备100,而且第二层编码器可包括与第二层的数量一样多的图8中的视频编码设备100。

当视频编码设备100对第一层图像进行编码时,编码单元确定器120可针对每个最大编码单元来确定用于根据具有树形结构的编码单元进行帧间预测的预测单元,并且根据预测单元来执行帧间预测。

当视频编码设备100对第二层图像进行编码时,编码单元确定器120可对每个最大编码单元确定预测单元和基于树形结构的编码单元,并且针对每个预测单元执行帧间预测。

为了补偿亮度差,视频编码设备100可在第一层图像与第二层图像之间对亮度差进行编码。此处,可根据编码单元的编码模式来确定是否补偿亮度差。例如,可以只在具有2N×2N尺寸的预测单元上执行亮度差。

图9是根据一些实施方式基于根据树形结构的编码单元的视频解码设备200的框图。

根据实施方式的基于具有树形结构的编码单元的、涉及视频预测的视频解码设备200包括接收器210、图像数据与编码信息提取器220以及图像数据解码器230。

根据一些实施方式,用于视频解码设备200的解码操作的各种术语(诸如,编码单元、深度、预测单元、变换单元和与各种编码模式有关的信息)的定义与参考图8和视频编码设备100描述的那些定义相同。

接收器210接收并解析编码视频的比特流。图像数据与编码信息提取器220从解析的比特流中提取用于每个编码单元的编码图像数据,其中编码单元具有根据每个最大编码单元的树形结构,并且将提取的图像数据输出到图像数据解码器230。图像数据与编码信息提取器220可从与当前图片有关的标头、序列参数集或图片参数集中提取与当前图片的编码单元的最大尺寸有关的信息。

此外,图像数据与编码信息提取器220针对根据每个最大编码单元的具有树形结构的编码单元从解析的比特流中提取与编码深度和分割模式有关的信息。提取的与编码深度和分割模式有关的信息输出到图像数据解码器230。换言之,比特流中的图像数据分割成最大编码单元,使得图像数据解码器230针对每个最大编码单元将图像数据解码。

根据最大编码单元与深度信息和编码模式有关的信息可针对与编码深度对应的至少一个编码单元进行设置,并且与编码模式有关的信息可包括与对应于所述编码深度的对应编码单元的分区类型有关的信息、与预测模式有关的信息以及与变换单元的尺寸有关的信息。此外,根据深度的分割信息可被提取为与编码深度有关的信息。

由图像数据与编码信息提取器220提取的根据每个最大编码单元的与编码深度有关的信息和分割信息是被确定当诸如根据一些实施方式的视频编码设备100等编码器根据每个最大编码单元针对根据深度的每个较深编码单元重复执行编码时会生成最小编码误差的与编码深度有关的信息和分割信息。因此,视频解码设备200可通过根据生成最小编码误差的编码深度和编码模式对图像数据进行解码来重建图像。

根据一些实施方式,由于与编码深度和编码模式有关的编码信息可分配到对应编码单元、预测单元和最小单元之中的预定数据单元,因此,图像数据与编码信息提取器220可根据预定数据单元提取与编码深度有关的信息和分割信息。如果对应最大编码单元的与编码深度有关的信息和分割信息根据预定数据单元进行记录,那么可以推断,被分配相同的与编码深度有关的信息和分割信息的预定数据单元就是相同最大编码单元中包括的数据单元。

图像数据解码器230可通过基于根据每个最大编码单元的与编码深度和编码模式有关的信息将每个最大编码单元中的图像数据解码来重建当前图片。换言之,图像数据解码器230可基于与每个最大编码单元中包括的具有树形结构的编码单元之中的每个编码单元的分区类型、预测模式和变换单元有关的提取信息对编码的图像数据进行解码。解码过程可包括预测和逆变换,所述预测包括帧内预测和运动补偿。

基于与根据编码深度的编码单元的预测单元的分区模式和预测模式有关的信息,图像数据解码器230可根据每个编码单元的分区类型和预测模式来执行帧内预测或运动补偿。

此外,图像数据解码器230可读取与用于每个编码单元的根据树形结构的变换单元有关的信息,从而基于每个编码单元的变换单元来执行逆变换,进而对每个最大编码单元进行逆变换。经由逆变换,可重建编码单元的空间域的像素值。

图像数据解码器230可通过使用根据深度的分割信息来确定当前最大编码单元的编码深度。如果分割信息表明图像数据不再以当前深度分割,那么当前深度就是编码深度。因此,针对与编码深度对应的每个编码单元,图像数据解码器230可通过使用与预测单元的分区类型、预测模式和变换单元的尺寸有关的信息来对当前最大编码单元中的编码数据进行解码。

换言之,通过观察分配给编码单元、预测单元和最小单元之中的预定数据单元的编码信息集,可收集含有包括相同分割信息的编码信息的数据单元,并且可将收集的数据单元视作将由图像数据解码器230以相同编码模式解码的一个数据单元。因此,可通过获取与用于每个编码单元的编码模式有关的信息来对当前编码单元进行解码。

上文参考图2A描述的视频编码设备200可包括与视角的数量一样多数量的图9中的视频编码设备200,以通过对第一层图像流和第二层图像流进行解码来恢复第一层图像和第二层图像。

当接收到第一层图像流时,对于每个最大编码单元,视频解码设备200的图像数据解码器230可将由图像数据与编码信息提取器220从第一层图像流中提取的第一层图像的样本分割成基于树形结构的编码单元。图像数据解码器230可通过根据在用于帧间预测的每个预测单元基于第一层图像的样本的编码单元执行运动补偿来恢复第一层图像。

当接收到第二层图像流时,对于每个最大编码单元,视频解码设备200的图像数据解码器230可将由图像数据与编码信息提取器220从第二层图像流中提取的第二层图像的样本分割成基于树形结构的编码单元。图像数据解码器230可通过在用于帧间预测的预测单元基于第二层图像的样本的编码单元执行运动补偿来恢复第二层图像。

图像数据和编码信息提取器220可从比特流中获取与亮度误差相关的信息,以补偿第一层图像与第二层图像之间的亮度差。此处,可根据编码单元的编码模式来确定是否对亮度差进行补偿。例如,可只针对具有2N×2N尺寸的预测单元补偿亮度差。

因此,视频解码设备200可获取与在针对每个最大编码单元递归地执行编码时生成最小编码误差的至少一个编码单元有关的信息,并且可使用该信息来对当前图片进行解码。换言之,可对确定是每个最大编码单元中的最佳编码单元的、具有树形结构的编码单元进行解码。

因此,即使图像数据具有高分辨率和大量数据,图像数据仍可通过使用编码单元的尺寸和编码模式来高效解码和重建,所述编码单元的尺寸和编码模式是通过使用从编码器接收的最佳分割信息根据图像数据的特征而自适应地确定的。

图10是用于描述根据一些实施方式的编码单元的概念的示意图。

编码单元的尺寸可由宽度×高度来表示,并且可以是64×64、32×32、16×16和8×8。64×64的编码单元可分割成64×64、64×32、32×64或32×32的分区,并且32×32的编码单元可分割成32×32、32×16、16×32或16×16的分区,16×16的编码单元可分割成16×16、16×8、8×16或8×8的分区,以及8×8的编码单元可分割成8×8、8×4、4×8或4×4的分区。

在视频数据310中,分辨率是1920×1080,编码单元的最大尺寸是64,并且最大深度是2。在视频数据320中,分辨率是1920×1080,编码单元的最大尺寸是64,并且最大深度是3。在视频数据330中,分辨率是352×288,编码单元的最大尺寸是16,并且最大深度是1。图10所示的最大深度是指从最大编码单元到最小编码单元的总分割次数。

如果分辨率较高或数据量较大,那么编码单元的最大尺寸可能较大,从而不仅增加编码效率,而且还准确反映图像的特征。因此,分辨率比视频数据330高的视频数据310和320的编码单元的最大尺寸可以是64。

由于视频数据310的最大深度是2,因此,视频数据310的编码单元315可包括长轴尺寸为64的最大编码单元,以及长轴尺寸为32和16的编码单元,这是因为通过将最大编码单元分割两次,深度加深两个层。由于视频数据330的最大深度是1,因此,视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元,以及长轴尺寸为8的编码单元,这是因为通过将最大编码单元分割一次,深度加深一层。

由于视频数据320的最大深度是3,因此,视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元,以及长轴尺寸为32、16和8的编码单元,这是因为通过将最大编码单元分割三次,深度加深3个层。随着深度加深,可准确地表达详细信息。

图11是根据一些实施方式的基于编码单元的图像编码器400的框图。

根据一些实施方式的图像编码器400执行视频编码设备100的编码单元确定器120的操作,以对图像数据进行编码。换言之,帧内预测器420在当前帧405之中按照预测单元在编码单元上以帧内模式执行帧内预测,并且帧间预测器415通过使用当前图像405和由重建图片缓存器410获取的参考图像按照预测单元在编码单元上以帧间模式执行帧间预测。当前图片405可被分割成最大编码单元,随后最大编码单元可相继被编码。此处,可在最大编码单元中的以树形结构分割的编码单元上执行编码。

通过从待编码的当前图像405的数据中减去从帧内预测器420或帧间预测器415中输出的每个模式的编码单元的预测数据,生成残余数据,并且残余数据作为经量化的变换系数通过变换器425和量化器430按照变换单元输出。经量化的变换系数在空间域中通过逆量化器445和逆变换器450而恢复成残余数据。将空间域中的残余数据添加到从帧内预测器420或帧间预测器415中输出的每个模式的编码单元的预测数据,从而恢复成当前图像405的编码单元的空间域中的数据。空间域中的数据经过去块化单元455和样本自适应偏移(SAO)执行器460,因而生成恢复的图像。恢复的图像存储在重建图片缓存器410中。存储在重建图片缓存器410中的所恢复的图像可用作另一图像的帧间预测的参考图像。通过变换器425和量化器430获取的经量化的变换系数可通过熵编码器435而输出为比特流440。

为了将根据一些实施方式的图像编码器400应用于视频编码设备100,图像编码器400的部件(即,帧间预测器415、帧内预测器420、变换器425、量化器430、熵编码器435、逆量化器445、逆变换器450、去块化单元455和SAO执行器460)基于每个最大编码单元的具有树形结构的编码单元之中的每个编码单元来执行操作。

具体而言,帧内预测器420和帧间预测器415在考虑当前最大编码单元的最大尺寸和最大深度的同时确定具有树形结构的编码单元之中的每个编码单元的分区和预测模式,并且变换器425可确定是否根据具有树形结构的编码单元之中的每个编码单元中的四叉树来分割变换单元。

图12是根据一些实施方式的基于编码单元的图像解码器500的框图。

熵解码器515对来自比特流505的将被解码的编码图像数据和解码所需的编码信息进行解析。编码图像数据是经量化的变换系数,并且逆量化器520和逆变换器525从经量化的变换系数中恢复残余数据。

帧内预测器540根据预测单元以帧内模式在编码单元上执行帧内预测。帧间预测器535通过使用由重建图片缓存器530获取的参考图像而根据预测单元从当前图像中以帧内模式对编码单元执行帧间预测。

通过经由帧内预测器540和帧间预测器535添加每个模式的编码单元的残余数据和预测数据来恢复当前图像的编码单元的空间域中的数据,并且可通过去块化单元545和SAO执行器550将空间域中的数据输出为恢复的图像。此外,可将存储在重建图片缓存器530的所恢复的图像输出为参考图像。

为了对视频解码设备200的图像数据解码器230中的图像数据进行解码,可执行根据一些实施方式的图像解码器500的熵解码器515之后的操作。

为了将图像解码器500应用于根据一些实施方式的视频解码设备200,图像解码器500的部件(即,熵解码器515、逆量化器520、逆变换器525、帧内预测器540、帧间预测器535、去块化单元545和SAO执行器550)可针对每个最大编码单元基于具有树形结构的编码单元来执行操作。

具体而言,帧内预测器540和帧间预测器535根据具有树形结构的编码单元中的每个来确定分区模式和预测模式,并且逆变换器525可确定是否按照编码单元根据四叉树形结构来分割变换单元。

图11的编码操作和图12的解码操作分别是单个层中的视频流编码操作和视频流解码操作。因此,当图1A的编码器16对至少两层的视频流进行编码时,图1A的视频编码设备100可包括与层的数量一样多的图像编码器400。类似地,当图2A的解码器22对至少两层的视频流进行解码时,图2A的视频解码设备200可包括与层的数量一样多的图像解码器500。

图13是示出根据一些实施方式的基于深度较深的编码单元和分区的示意图。

根据一些实施方式的视频编码设备100和根据一些实施方式的视频解码设备200使用分层编码单元,从而考虑图像的特征。编码单元的最大高度、最大宽度和最大深度可根据图像的特征而自适应地确定,或者可根据用户而不同地设置。根据深度的较深编码单元的尺寸可根据编码单元的预定最大尺寸进行确定。

在根据一些实施方式的编码单元的分层结构600中,编码单元的最大高度和最大宽度均是64,并且最大深度是3。在这种情况下,最大深度是指编码单元从最大编码单元分割到最小编码单元的总次数。由于深度沿着根据一些实施方式的编码单元的分层结构600的竖直轴加深,因此,较深编码单元的高度和宽度均被分割。此外,沿着分层结构600的水平轴示出作为每个较深编码单元的预测编码的基础的预测单元和分区。

换言之,编码单元610是分层结构600中的最大编码单元,其中深度为0并且尺寸(即,高度乘宽度)为64×64。深度沿着竖直轴加深,而且编码单元620的尺寸为32×32且深度为1,编码单元630的尺寸为16×16且深度为2,以及编码单元640的尺寸为8×8且深度为3。尺寸为8×8且深度为3的编码单元640是最小编码单元。

编码单元的预测单元和分区根据每个深度沿着水平轴布置。换言之,如果尺寸为64×64且深度为0的编码单元610是预测单元,那么预测单元可分割成编码单元610中所包括的分区,即,尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614,或者尺寸为32×32的分区616。

类似地,尺寸为32×32且深度为1的编码单元620的预测单元可分割成编码单元620中包括的分区,即,尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624以及尺寸为16×16的分区626。

类似地,尺寸为16×16且深度为2的编码单元630的预测单元可分割成编码单元630中包括的分区,即,编码单元630中包括的尺寸为16×16的分区、尺寸为16×8的分区632、尺寸为8×16的分区634以及尺寸为8×8的分区636。

类似地,尺寸为8×8且深度为3的编码单元640的预测单元可分割成编码单元640中包括的分区,即,编码单元640中包括的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644以及尺寸为4×4的分区646。

为了确定构成最大编码单元610的编码单元的至少一个编码深度,根据一些实施方式的视频编码设备100的编码单元确定器120针对最大编码单元610中包括的与每个深度对应的编码单元来执行编码。

包括相同范围和相同尺寸的数据的、根据深度的较深编码单元的数量随着深度加深而增加。例如,需要四个对应于深度2的编码单元来覆盖一个对应于深度1的编码单元中包括的数据。因此,为了将根据深度的相同数据的编码结果进行比较,对应于深度1的编码单元和对应于深度2的四个编码单元均被编码。

为了针对深度之中的当前深度执行编码,可通过沿着分层结构600的水平轴、针对与当前深度对应的编码单元中的每个预测单元执行编码,为当前深度选择最小编码误差。或者,随着深度沿着分层结构600的竖直轴加深,可通过针对每个深度执行编码并根据深度来比较最小编码误差而搜索出最小编码误差。编码单元610中具有最小编码误差的深度和分区可被选作编码单元610的编码深度和分区类型。

图14是用于描述根据一些实施方式的编码单元710与变换单元720之间的关系的示意图。

根据一些实施方式的视频编码设备100或根据一些实施方式的视频解码设备200根据每个最大编码单元的、尺寸等于或小于最大编码单元的编码单元对图像进行编码或解码。在编码期间用于变换的变换单元的尺寸可基于不大于对应编码单元的数据单元进行选择。

例如,在根据一些实施方式的视频编码设备100或根据一些实施方式的视频解码设备200中,如果编码单元710的尺寸是64×64,那么可通过使用尺寸为32×32的变换单元720来执行变换。

此外,可通过在尺寸为32×32、16×16、8×8和4×4(都小于64×64)的变换单元中的每个上执行变换,从而对尺寸为64×64的编码单元710的数据进行编码,并且随后可选择具有最小编码误差的变换单元。

图15是根据一些实施方式用于描述与编码深度对应的编码单元的编码信息的图。

根据一些实施方式的视频编码设备100的输出单元130可针对与编码深度对应的每个编码单元来编码并传输与分区类型有关的信息800、与预测模式有关的信息810和与变换单元尺寸有关的信息820,以作为与编码模式有关的信息。

信息800表明与通过分割当前编码单元的预测单元而获得的分区的形状的有关信息,其中分区是用于对当前编码单元进行预测编码的数据单元。例如,尺寸为2N×2N的当前编码单元CU_0可分割成下列分区中的任一个:尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。此处,与分区类型有关的信息800设置成表示下列一个:尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。

信息810表明每个分区的预测模式。例如,信息810可表明在由信息800表明的分区上执行的预测编码的模式,即,帧内模式812、帧间模式814或跳跃模式816。

信息820表明在当前编码单元上执行变换时将依据的变换单元。例如,所述变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或者第二帧间变换单元828。

根据一些实施方式的视频解码设备200的图像数据与编码信息提取器220可提取并使用信息800、信息810和信息820,以根据每个较深编码单元进行解码。

图16是根据一些实施方式的根据深度的较深编码单元的示意图。

分割信息可用来表明深度的变化。分割信息表明当前深度的编码单元是否分割成较深深度的编码单元。

用于对深度为0且尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括下列分区类型的分区:尺寸为2N_0×2N_0的分区类型912、尺寸为2N_0×N_0的分区类型914、尺寸为N_0×2N_0的分区类型916和尺寸为N_0×N_0的分区类型918。图9只示出通过对称地分割预测单元910而获取的分区类型912到918,但分区类型不限于此,并且预测单元910的分区可包括不对称分区、具有预定形状的分区和具有几何形状的分区。

根据每种分区类型,在尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区上重复执行预测编码。可在尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区上执行帧内模式和帧间模式的预测编码。只在尺寸为2N_0×2N_0的分区上执行跳跃模式的预测编码。

如果在分区类型912至916中的一者中编码误差是最小误差,那么预测单元910可不分割成较深深度。

如果在分区类型918中编码误差是最小误差,那么在操作920中,深度从0变成1从而分割分区类型918,并且以深度为2且尺寸为N_0×N_0在编码单元930上重复执行编码,以搜索最小编码误差。

用于对深度为1且尺寸为2N_1×2N_1(=N_0×N_0)的编码单元930进行预测编码的预测单元940可包括下列分区模式的分区:尺寸为2N_1×2N_1的分区类型942、尺寸为2N_1×N_1的分区类型944、尺寸为N_1×2N_1的分区类型946和尺寸为N_1×N_1的分区类型948。

如果在分区类型948中编码误差是最小误差,那么在操作950中,深度从1变成2从而分割分区类型948,并且在深度为2且尺寸为N_2×N_2的编码单元960上重复执行编码,以搜索最小编码误差。

当最大深度为d时,根据搜索深度的分割操作可执行到深度变成d-1时,并且分割信息可进行编码直到深度为0至d-2中的一个时。换言之,当在操作970中在对应于深度d-2的编码单元进行分割之后执行编码直到深度为d-1时,用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括下列分区模式的分区:尺寸为2N_(d-1)×2N_(d-1)的分区类型992、尺寸为2N_(d-1)×N_(d-1)的分区类型994、尺寸为N_(d-1)×2N_(d-1)的分区类型996和尺寸为N_(d-1)×N_(d-1)的分区类型998。

可在分区类型992至998之中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区上重复地执行预测编码,以搜索具有最小编码误差的分区类型。

即使在分区类型998具有最小编码误差时,由于最大深度为d,因此,深度为d-1的编码单元CU_(d-1)不再分割到更深深度,并且构成当前最大编码单元900的编码单元的编码深度被确定为d-1,而且当前最大编码单元900的分区类型可被确定为N_(d-1)×N_(d-1)。此外,由于最大深度为d,因此,不设置深度为d-1的编码单元952的分割信息。

数据单元999可以是当前最大编码单元的“最小单元”。根据一些实施方式的最小单元可以是通过将具有最深编码深度的最小编码单元分割成4个而获取的正方形数据单元。通过重复执行编码,根据一些实施方式的视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度从而确定编码深度,并且可将对应分区类型和预测模式设置为编码深度的编码模式。

因此,在所有的深度1至d中比较根据深度的最小编码误差,并且可将具有最小编码误差的深度确定为编码深度。编码深度、预测单元的分区类型和预测模式可作为与编码模式有关的信息而被编码和传输。此外,由于编码单元从深度0分割到编码深度,因此,只有编码深度的分割信息被设置为0,而除该编码深度之外的深度的分割信息被设置为1。

根据一些实施方式的视频解码设备200的图像数据与编码信息提取器220可提取并使用与编码单元900的编码深度和预测单元有关的信息,从而对分区912进行解码。根据一些实施方式的视频解码设备200可通过使用根据深度的分割信息而将分割信息为0的深度确定为编码深度,并且可将对应深度的与编码模式有关的信息用于解码。

图17至图19是用于描述根据一些实施方式的编码单元1010、预测单元1060与变换单元1070之间的关系的示意图。

编码单元1010是最大编码单元中的由根据一些实施方式的视频编码设备100确定的、与编码深度对应的具有树形结构的编码单元。预测单元1060是编码单元1010中的每个编码单元的预测单元的分区,并且变换单元1070是编码单元1010中的每个编码单元的变换单元。

当编码单元1010中的最大编码单元的深度为0时,编码单元1012和1054的深度为1,编码单元1014、1016、1018、1028、1050和1052的深度为2,编码单元1020、1022、1024、1026、1030、1032和1048的深度为3,以及编码单元1040、1042、1044和1046的深度为4。

在预测单元1060中,通过分割编码单元1010中的编码单元获得一些编码单元1014、1016、1022、1032、1048、1050、1052和1054。换言之,编码单元1014、1022、1050和1054的分区类型具有尺寸2N×N,编码单元1016、1048和1052的分区类型具有尺寸N×2N,以及编码单元1032的分区类型具有尺寸N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。

在小于编码单元1052的数据单元中,对变换单元1070中的编码单元1052的图像数据执行变换或逆变换。此外,变换单元1070中的编码单元1014、1016、1022、1032、1048、1050和1052在尺寸和形状方面不同于预测单元1060中的数据单元。换言之,根据一些实施方式的视频编码设备100和视频解码设备200可单独地在相同编码单元的数据单元上执行帧内预测、运动估算、运动补偿、变换以及逆变换。

因此,对最大编码单元的每个区域中具有分层结构的编码单元中的每个编码单元递归地执行编码,以确定最佳编码单元,因此,可获得具有递归树形结构的编码单元。编码信息可包括与编码单元有关的分割信息、与分区类型有关的信息、与预测模式有关的信息和与变换单元的尺寸有关的信息。表1示出可由根据一些实施方式的视频编码设备100和视频解码设备200设置的编码信息。

根据一些实施方式的视频编码设备100的输出单元130可输出与具有树形结构的编码单元有关的编码信息,并且根据一些实施方式的视频解码设备200的图像数据与编码信息提取器220可从接收的比特流中提取与具有树形结构的编码单元有关的编码信息。

分割信息表明当前编码单元是否分割成较深深度的编码单元。如果当前深度d的分割信息为0,那么当前编码单元不再分割到较深深度所处的深度是编码深度,因此,可针对该编码深度来限定与分区类型、预测模式和变换单元的尺寸有关的信息。如果当前编码单元根据分割信息进一步分割,那么在较深深度的四个分割编码单元上独立执行编码。

预测模式可以是帧内模式、帧间模式和跳跃模式中的一个。帧内模式和帧间模式可限定于所有分区类型,而跳跃模式只限定于尺寸为2N×2N的分区类型。

与分区类型有关的信息可表明通过对称地分割预测单元的高度或宽度而获取的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区类型,以及通过不对称地分割预测单元的高度或宽度而获取的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的不对称分区类型。可分别通过以1:3和3:1分割预测单元的高度来获取尺寸为2N×nU和2N×nD的不对称分区类型,并且可分别通过以1:3和3:1分割预测单元的宽度来获取尺寸为nL×2N和nR×2N的不对称分区类型。

变换单元的尺寸可设置为在帧内模式下有两个类型并且在帧间模式下有两个类型。换言之,如果变换单元的分割信息为0,那么变换单元的尺寸可以是2N×2N,也就是当前编码单元的尺寸。如果变换单元的分割信息为1,那么可通过分割当前编码单元来获得变换单元。此外,如果尺寸为2N×2N的当前编码单元的分区模式是对称分区类型,那么变换单元的尺寸可以是N×N,并且如果当前编码单元的分区类型是不对称分区类型,那么变换单元的尺寸可以是N/2×N/2。

根据一些实施方式的与具有树形结构的编码单元有关的编码信息可包括与编码深度对应的编码单元、预测单元和最小单元中的至少一个。与编码深度对应的编码单元可包括具有相同编码信息的预测单元和最小单元中的至少一个。

因此,通过比较相邻数据单元的编码信息来确定相邻数据单元是否包括在与编码深度对应的相同编码单元中。此外,可通过使用数据单元的编码信息来确定与编码深度对应的对应编码单元,因此可推断出最大编码单元中的编码深度的分布。

因此,如果基于相邻数据单元的编码信息来预测当前编码单元,那么可直接参考并使用与当前编码单元相邻的较深编码单元中的数据单元的编码信息。

可替代地,如果基于相邻数据单元的编码信息对当前编码单元进行预测,那么利用数据单元的编码信息来搜索与当前编码单元相邻的数据单元,而且所搜索的相邻编码单元可用于预测当前编码单元。

图20是用于描述根据表1的编码模式信息的编码单元、预测单元与变换单元之间的关系的示意图。

最大编码单元1300包括编码单元1302、1304、1306、1312、1314、1316、以及具有编码深度的1318。此处,由于编码单元1318是具有编码深度的编码单元,因此,分割信息可设置为0。与尺寸为2N×2N的编码单元1318的分区类型有关的信息可设置为下列中的一个:尺寸为2N×2N的分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326、尺寸为N×N的分区类型1328、尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336以及尺寸为nR×2N的分区类型1338。

变换单元分割信息(TU尺寸标记)是一种类型的变换索引。对应于变换索引的变换单元的尺寸可根据编码单元的预测单元类型或分区类型而改变。

例如,当分区类型设置为对称,即,尺寸为2N×2N的分区类型1322、1324、1326或1328时,如果变换单元的TU尺寸标记为0则设置尺寸为2N×2N的变换单元1342,而如果TU尺寸标记为1则设置尺寸为N×N的变换单元1344。

当分区类型设置为不对称,即,分区类型1332、1334、1336或1338时,如果TU尺寸标记为0则设置尺寸为2N×2N的变换单元1352,而如果TU尺寸标记为1则设置尺寸为N/2×N/2的变换单元1354。

参考图20,TU尺寸标记是值为0或1的标记,但根据实施方式的TU尺寸标记不限于1比特,并且在TU尺寸标记从0增加时,变换单元可分层地分割从而具有树形结构。变换单元的分割信息(TU尺寸标记)可以是变换索引的一个示例。

在这种情况下,实际使用的变换单元的尺寸可通过使用根据一些实施方式变换单元的TU尺寸标记以及变换单元的最大尺寸和变换单元的最小尺寸一起来表示。根据一些实施方式的视频编码设备100能够对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记进行编码的结果可插入到SPS。根据一些实施方式的视频解码设备200可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记来对视频进行解码。

例如,(a)如果当前编码单元的尺寸是64×64并且最大变换单元尺寸是32×32,那么(a-1)变换单元的尺寸在TU尺寸标记为0时可以是32×32,(a-2)在TU尺寸标记为1时可以是16×16,以及(a-3)在TU尺寸标记为2时可以是8×8。

作为另一示例,(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32,那么(b-1)变换单元的尺寸在TU尺寸标记为0时可以是32×32。此处,由于变换单元的尺寸不可小于32×32,因此,TU尺寸标记无法设置成除了0之外的值。

作为另一示例,(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标记是1,那么TU尺寸标记可以是0或1。此处,TU尺寸标记无法设置成除了0或1之外的值。

因此,如果将最大TU尺寸标记定义为“MaxTransformSizeIndex”,将最小变换单元尺寸定义为“MinTransformSize”,并且当TU尺寸标记为0时变换单元尺寸为“RootTuSize”,那么可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”可由公式(1)限定:

CurrMinTuSize

=max(MinTransformSize,RootTuSize/(2^MaxTransformSizeIndex))...(1)

与可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”相比,在TU尺寸标记为0时的变换单元尺寸“RootTuSize”可表示可以在系统中选择的最大变换单元尺寸。在公式(1)中,“RootTuSize/(2^MaxTransformSizeIndex)”表示在TU尺寸标记为0时变换单元尺寸“RootTuSize”被分割对应于最大TU尺寸标记的次数时的变换单元尺寸,并且“MinTransformSize”表示最小变换尺寸。因此,“RootTuSize/(2^MaxTransformSizeIndex)”和“MinTransformSize”之中的较小值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。

根据一些实施方式的最大变换单元尺寸RootTuSize可根据预测模式的类型而改变。

例如,如果当前预测模式是帧间模式,那么“RootTuSize”可通过使用下列公式(2)来确定。在公式(2)中,“MaxTransformSize”表示最大变换单元尺寸,并且“PUSize”表示当前预测单元尺寸。

RootTuSize=min(MaxTransformSize,PUSize).........(2)

换言之,如果当前预测模式是帧间模式,那么在TU尺寸标记为0时,变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸之中的较小值。

如果当前分区单元的预测模式是帧内模式,那么“RootTuSize”可通过使用下列公式(3)来确定。在公式(3)中,“PartitionSize”表示当前分区单元的尺寸。

RootTuSize=min(MaxTransformSize,PartitionSize)...........(3)

换言之,如果当前预测模式是帧内模式,那么在TU尺寸标记为0时,变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元的尺寸之中的较小值。

然而,根据分区单元中的预测模式的类型而改变的当前最大变换单元尺寸“RootTuSize”仅仅是示例,并且本发明不限于此。

根据参考图8到图20描述的基于具有树形结构的编码单元的视频编码方法,针对树形结构的每个编码单元,将空间域的图像数据编码。根据基于具有树形结构的编码单元的视频解码方法,针对每个最大编码单元执行解码,以重建空间域的图像数据。因此,可重建图片和视频(即,图片序列)。重建的视频可由播放设备播放、可存储在存储介质中,或可通过网络传输。

实施方式可编写为计算机程序,并且可在使用计算机可读记录介质执行程序的通用数字计算机中实施。计算机可读记录介质的示例包括磁存储介质(例如,ROM、软盘、硬盘等)和光记录介质(例如,CD-ROM或DVD)。

为便于描述,上文参考图1A到图22描述的层间视频编码方法和/或视频编码方法将统一被称为“根据本发明的视频编码方法”。此外,上文参考图1A到图20描述的层间视频解码方法和/或视频解码方法将被称为“根据本发明的视频解码方法”。

另外,已参考图1A到图20描述的视频解码设备100或图像编码器400将被称为“根据本发明的视频编码设备”。另外,已参考图1A到图20描述的视频解码设备200或图像解码器500将被称为“根据本发明的视频解码设备”。

现在将详细描述根据一些实施方式的存储程序的计算机可读记录介质,诸如,盘片26000。

图21是根据一些实施方式的存储有程序的盘片26000的物理结构的示意图。盘片26000作为一种存储介质,其可以是硬盘驱动器、紧密式只读存储器(CD-ROM)盘、蓝光光盘或数字多功能盘(DVD)。盘片26000包括多个同心盘道Tr,所述同心盘道Tr各自在盘片26000的圆周方向上分成特定数量的扇区Se。在根据实施方式的盘片26000的特定区域中,可分配并存储执行上述量化参数确定方法、视频编码方法和视频解码方法的程序。

现在将参考图22描述使用存储介质实现的计算机系统,所述存储介质存储用于执行上述视频编码方法和视频解码方法的程序。

图22是用于通过使用盘片26000来记录和读取程序的盘片驱动器26800的示意图。计算机系统27000可经由盘片驱动器26800在盘片26000中存储用于执行根据本发明的视频编码方法和视频解码方法中的至少一个的程序。为了在计算机系统27000中运行存储在盘片26000中的程序,可从盘片26000中读取程序并且通过使用盘片驱动器27000将程序传输到计算机系统26700。

执行根据本发明的视频编码方法和视频解码方法中的至少一个的程序可不仅存储在图21或图22所示的盘片26000中,还可存储在存储卡、ROM盒式磁带或固态驱动器(SSD)中。

下文将描述应用上文所述的视频编码方法和视频解码方法的系统。

图23是用于提供内容分发服务的内容供应系统11000的整体结构的示意图。通信系统的服务区域分成预定尺寸的小区,并且无线基站11700、11800、11900和12000分别安装在这些小区中。

内容供应系统11000包括多个独立装置。例如,诸如计算机12100、个人数字助理(PDA)12200、摄像机12300和移动电话12500等多个独立装置经由互联网服务提供商11200、通信网络11400以及无线基站11700、11800、11900和12000连接到互联网11100。

然而,内容供应系统11000不限于如图24所示的系统,并且装置可选择性地连接到该系统。多个独立装置可直接连接到通信网络11400,而不经过无线基站11700、11800、11900和12000。

摄像机12300是能够拍摄视频图像的成像装置,例如,数字摄像机。移动电话12500可采用例如个人数字通信(PDC)、码分多址(CDMA)、宽带码分多址(W-CDMA)、全球移动通信系统(GSM)以及个人手持式电话系统(PHS)等各种协议中的至少一个通信方法。

摄像机12300可经由无线基站11900和通信网络11400连接到流式服务器11300。流式服务器11300允许经由摄像机12300从用户接收的内容经过实时广播进行流传输。从摄像机12300接收的内容可利用摄像机12300或流式服务器11300进行编码。由摄像机12300拍摄的视频数据可经由计算机12100传输到流式服务器11300。

由相机12600拍摄的视频数据也可经由计算机12100传输到流式服务器11300。相机12600是能够拍摄静态图像和视频图像的成像装置,类似于数字相机。由相机12600拍摄的视频数据可利用相机12600或计算机12100进行编码。对视频执行编码和解码的软件可存储在可由计算机12100访问的计算机可读记录介质中,例如,CD-ROM盘、软盘、硬盘驱动器、SSD或存储卡。

如果视频数据由内置在移动电话12500中的相机拍摄,那么视频数据可从移动电话12500中接收。

视频数据也可由安装在摄像机12300、移动电话12500或相机12600中的大规模集成电路(LSI)系统进行编码。

根据一些实施方式的内容供应系统11000可对由用户使用摄像机12300、相机12600、移动电话12500或另一成像装置记录的内容数据(例如,在音乐会期间记录的内容)进行编码并向流式服务器11300传输经编码的内容数据。流式服务器11300可采用流内容类型将编码的内容数据传输到请求内容数据的其他客户端。

客户端是能够对编码的内容数据进行解码的装置,例如,计算机12100、PDA12200、摄像机12300或移动电话12500。因此,内容供应系统11000允许客户端接收和播放编码的内容数据。此外,内容供应系统11000允许客户端接收编码的内容数据,并且实时解码和播放编码的内容数据,从而实现个人播放。

内容供应系统11000中所包括的多个独立装置的编码操作和解码操作可与根据本发明的视频编码设备和视频解码设备的编码操作和解码操作类似。

现在将参考图24和图25更详细地描述根据实施方式内容供应系统11000中包括的移动电话12500的实施方式。

图24示出根据实施方式应用的视频编码方法和视频解码方法的移动电话12500的外部结构。移动电话12500可以是智能电话,它的功能不受限制并且其大量的功能可改变或扩展。

移动电话12500包括外部天线12510,经由该外部天线,射频(RF)信号可与图21的无线基站12000进行交换。移动电话12500还包括显示屏12520,所述显示屏12520用于显示由相机12530拍摄的图像或经由天线12510接收并解码的图像,例如,液晶显示器(LCD)或有机发光二极管(OLED)屏。移动电话12500包括操作面板12540,所述操作面板12540包括控制按钮和触摸面板。如果显示屏12520是触摸屏,那么操作面板12540进一步包括显示屏12520的触摸感应面板。移动电话12500包括:用于输出语音和声音的扬声器12580或另一类型的声音输出单元,以及用于输入语音和声音的麦克风12550或另一类型的声音输入单元。移动电话12500进一步包括相机12530,诸如,电荷耦合装置(CCD)相机,以拍摄视频或静态图像。移动电话12500可进一步包括:存储介质12570,该存储介质12570用于存储编码/解码的数据,例如,由相机12530拍摄、经由电子邮件接收或根据各种方式获取的视频或静态图像;以及槽12560,存储介质12570经由该槽12560装载到移动电话12500中。存储介质12570可以是闪存,例如,安全数字(SD)卡或者包括在塑料盒中的电可擦除可编程只读存储器(EEPROM)。

图25示出根据实施方式移动电话12500的内部结构。为了系统地控制包括显示屏12520和操作面板12540的移动电话12500的部分,电源电路12700、操作输入控制器12640、图像编码单元12720、相机接口12630、LCD控制器12620、图像解码单元12690、多路复用器/多路分解器12680、记录/读取单元12670、调制/解调单元12660以及声音处理器12650经由同步总线12730连接到中央控制器12710。

如果用户操作电源按钮并从“关机”状态设置到“开机”状态,那么电源电路12700将电力从电池组供应到移动电话12500的所有部分,从而在操作模式下设置移动电话12500。

中央控制器12710包括中央处理单元(CPU)、ROM和RAM。

在移动电话12500将通信数据传输到外部时,移动电话12500在中央控制器12710的控制下生成数字信号。例如,声音处理器12650可生成数字声音信号,图像编码单元12720可产生数字图像信号,并且消息的文本数据可经由操作面板12540和操作输入控制器12640生成。当数字信号在中央控制器12710的控制下传输到调制/解调单元12660时,调制/解调单元12660对数字信号的频带进行调制,并且通信电路12610在频带经调制的数字声音信号上执行数模转换(DAC)和频率转换。从通信电路12610输出的传输信号可经由天线12510传输到语音通信基站或无线基站12000。

例如,当移动电话12500处于对话模式时,经由麦克风12550获取的声音信号在中央控制器12710的控制下被声音处理器12650变换成数字声音信号。数字声音信号可通过调制/解调单元12660和通信电路12610变换成变换信号,并且可经由天线12510进行传输。

当文本消息(例如,电子邮件)在数据通信模式下传输时,文本消息的文本数据经由操作面板12540输入,并且经由操作输入控制器12640传输到中央控制器12610。在中央控制器12610的控制下,文本数据经由调制/解调单元12660和通信电路12610变换成传输信号,并且经由天线12510传输到无线基站12000。

为了在数据通信模式下传输图像数据,经由相机接口12630将相机12530拍摄的图像数据提供到图像编码单元12720。拍摄的图像数据可经由相机接口12630和LCD控制器12620直接显示在显示屏12520上。

图像编码单元12720的结构可对应于上述视频编码设备100的结构。图像编码单元12720可根据上述视频编码方法将从相机12530接收的图像数据变换成压缩且编码的图像数据,并且随后可将编码的图像数据输出到多路复用器/多路分解器12680。在相机12530的记录操作期间,由移动电话12500的麦克风12550获得的声音信号可经由声音处理器12650变换成数字声音数据,并且数字声音数据可传输到多路复用器/多路分解器12680。

多路复用器/多路分解器12680将从图像编码单元12720接收的编码图像数据与从声音处理器12650接收的声音数据多路复用。多路复用数据的结果可经由调制/解调单元12660和通信单元12610转换成传输信号,并且可随后经由天线12510传输。

当移动电话12500接收来自外部的通信数据时,在经由天线12510接收的信号上执行频率恢复和ADC,以将该信号转换成数字信号。调制/解调单元12660对数字信号的频带进行调制。根据数字信号的类型,频带经过调制的数字信号传输到视频解码单元12690、声音处理器12650或LCD控制器12620。

在对话模式下,移动电话12500将经由天线12510接收的信号放大,并且通过在放大的信号上执行频率转换和ADC来获取数字声音信号。在中央控制器12710的控制下,接收的数字声音信号经由调制/解调单元12660和声音处理器12650转换成模拟声音信号,并且模拟声音信号经由扬声器12580输出。

在数据通信模式下,当接收到在互联网网站访问的视频文件的数据时,经由调制/解调单元12660将经由天线12510从无线基站12000接收的信号作为多路复用数据输出,并且将多路复用数据传输到多路复用器/多路分解器12680。

为了对经由天线12510接收的多路复用的数据进行解码,多路复用器/多路分解器12680将多路复用的数据多路分解成编码视频数据流和编码音频数据流。经由同步总线12730,编码视频数据流和编码音频数据流分别被提供到视频解码单元12690和声音处理器12650。

图像解码单元12690的结构可对应于上述视频解码设备200的结构。根据由上述视频解码设备200或图像解码器500执行的视频解码方法,图像解码单元12690可对编码的视频数据进行解码,以获得重建的视频数据,并且经由LCD控制器12620将重建的视频数据提供到显示屏12520。

因此,在互联网网站访问的视频文件的数据可显示在显示屏12520上。同时,声音处理器12650可将音频数据转换成模拟声音信号,并且将模拟声音信号提供到扬声器12580。因此,在互联网网站访问的视频文件中含有的音频数据也可经由麦克风12580而播放。

移动电话12500或另一类型的通信终端可以是包括根据本发明的视频编码设备和视频解码设备的收发终端,可以是只包括视频编码设备的收发终端,或者可以是只包括视频解码设备的收发终端。

根据实施方式的通信系统不限于上文参考图24描述的通信系统。例如,图26示出根据一些实施方式的采用通信系统的数字广播系统。图26的数字广播系统可通过使用根据本发明的视频编码设备和视频解码设备来接收经由卫星或地面网络传输的数字广播。

具体地,广播站12890通过使用无线电波而将视频数据流传输到通信卫星或广播卫星12900。广播卫星12900传输广播信号,并且广播信号经由家用天线12860传输到卫星广播接收器。在每个家庭中,编码的视频流可由TV接收器12810、机顶盒12870或另一装置解码并播放。

当根据本发明的视频解码设备实施于播放设备12830中时,播放设备12830可对记录在存储介质12820(诸如,盘片或存储卡)上的编码视频流进行解析和解码,以重建数字信号。因此,重建的视频信号可例如在显示器12840上播放。

在连接到用于卫星/地面广播的天线12860或用于接收电缆电视(TV)广播的电缆12850的机顶盒12870中,可安装根据本发明的视频解码设备。从机顶盒12870输出的数据也可在TV显示器12880上播放。

作为另一示例,根据本发明的视频解码设备可安装在TV接收器12810中,而不是机顶盒12870中。

具有适当天线12910的汽车12920可接收从卫星12900或图23的无线基站11700传输的信号。解码的视频可在安装于汽车12920中的汽车导航系统12930的显示屏上播放。

视频信号可由根据本发明的视频编码设备进行编码,并且可随后存储到存储介质中。具体而言,图像信号可由DVD记录器存储在DVD光盘12960中,或者可由硬盘记录器12950存储在硬盘中。作为另一示例,视频信号可存储在SD卡12970中。如果硬盘记录器12950包括根据本发明的视频解码设备,那么记录在DVD光盘12960、SD卡12970或另一存储介质上的视频信号可在TV显示器12880上播放。

汽车导航系统12930可不包括图26的相机12530、相机接口12630和图像编码单元12720。例如,计算机12100和TV接收器12810可不包括在图26的相机12530、相机接口12630和图像编码单元12720中。

图27是示出根据一些实施方式的使用视频编码设备和视频解码设备的云计算系统的网络结构的示意图。

云计算系统可包括云计算服务器14000、用户数据库(DB)14100、多个计算资源14200、以及用户终端。

响应于来自用户终端的请求,云计算系统经由数据通信网络(例如,互联网)来提供多个计算资源14200的按需外包服务。在云计算环境下,通过使用虚拟化技术将位于物理上不同位置的数据中心处的计算资源相结合,服务提供商为用户提供所需的服务。服务用户不必将计算资源(例如,应用程序、存储设备、操作系统(OS)和安全应用)安装到他/她自己的终端中以进行使用,而是可在所需的时间点从通过虚拟化技术生成的虚拟空间中的服务之中选择并使用所需服务。

指定服务的用户的用户终端经由包括互联网和移动远程通信网络的数据通信网络连接到云计算服务器14000。从云计算服务器14000可对用户终端提供云计算服务,具体地如视频播放服务。用户终端可以是能够连接到互联网的各种类型的电子装置,例如,台式PC 14300、智能TV 14400、智能电话14500、笔记本电脑14600、便携式多媒体播放器(PMP)14700、平板PC 14800等。

云计算服务器14000可将分布在云网络中的多个计算资源14200进行组合,并且将组合的结果提供到用户终端。多个计算资源14200可包括各种数据服务,并且可包括从用户终端上传的数据。如上文所述,云计算服务器14000可通过根据虚拟化技术将分布在不同区域中的视频数据库进行组合来将所需的服务提供到用户终端。

与订阅云计算服务的用户有关的用户信息存储在用户数据库14100中。用户信息可包括用户的登录信息、地址、姓名和个人信用信息。用户信息可进一步包括视频的索引。此处,索引可包括已经播放的视频列表、正在播放的视频列表、过去播放的视频的暂停点等。

存储在用户数据库14100中的与视频有关的信息可在用户装置之间共享。例如,当响应于来自笔记本电脑14600的请求而将视频服务提供到笔记本电脑14600时,视频服务的播放历史便存储在用户数据库14100中。当从智能电话14500接收播放该视频服务的请求时,云计算服务器14000基于用户数据库14100来搜索并播放该视频服务。当智能电话14500接收来自云计算服务器14000的视频数据流时,通过对视频数据流进行解码来播放视频的过程类似于上文参考图24描述的移动电话12500的操作。

云计算服务器14000可参考存储在用户数据库14100中的所需视频服务的播放历史。例如,云计算服务器14000接收来自用户终端的播放存储在用户数据库14100中的视频的请求。如果这个视频已在播放,那么由云计算服务器14000执行的流传输这个视频的方法可根据用户终端的请求而改变,即,根据从视频的开头还是暂停点开始播放该视频。例如,如果用户终端请求从视频的开头开始播放该视频,那么云计算服务器14000将从视频的第一帧开始的视频流数据传输到用户终端。如果用户终端请求从视频的暂停点开始播放该视频,那么云计算服务器14000将从对应于暂停点的帧开始的视频流数据传输到用户终端。

在这种情况下,用户终端可包括如上文参考图1A到图20描述的视频解码设备。作为另一示例,用户终端可包括如上文参考图1A到图20描述的视频编码设备。或者,用户终端可包括如上文参考图1A到图20描述的视频解码设备和视频编码设备两者。

上文参考图21到图27描述了上文参考图1A到图20描述的根据本发明实施方式的视频编码方法、视频解码方法、视频编码设备和视频解码设备的各种应用。然而,根据本发明实施方式的将视频编码方法和视频解码方法存储在存储介质中的方法或者在装置中实施视频编码设备和视频解码设备的方法不限于上文参考图21到图27描述的实施方式。

应当理解,本文所描述的示例性实施方式应当被认为仅是描述性的含义,而不是为了限制的目的。每个示例性实施方式中的特征或方面的描述通常应被视为可用于其它示例性实施方式中的其它类似特征或方面。虽然已经参照附图描述了一个或多个示例性实施方式,但是本领域普通技术人员将理解,在不脱离由下面的实施方式限定的精神和范围的情况下,可以在形式和细节上进行各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号