首页> 中国专利> 用于参考图片重采样扩展的编码器和解码器、编码方法和解码方法

用于参考图片重采样扩展的编码器和解码器、编码方法和解码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种视频解码器（151），用于对包括经编码的图片数据的经编码的视频信号进行解码，以重建视频的视频序列的多个图片。视频解码器（151）包括输入接口（160），输入接口（160）被配置用于接收包括经编码的图片数据的经编码的视频信号。此外，视频解码器（151）包括数据解码器（170），数据解码器（170）被配置用于取决于经编码的图片数据来重建所述视频序列的多个图片。此外，提供了根据实施例的另外的视频解码器、视频编码器、系统、用于编码和解码的方法、计算机程序、以及经编码的视频信号。

著录项

公开/公告号CN114982229A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人弗劳恩霍夫应用研究促进协会;
展开▼

申请/专利号CN202080081419.8
发明设计人 Y·桑切斯德拉费恩特;K·许林;C·赫尔格;T·希尔;R·斯库平;T·威甘德;
展开▼

申请日2020-09-24
分类号H04N19/117(2006.01);H04N19/132(2006.01);H04N19/167(2006.01);H04N19/172(2006.01);H04N19/29(2006.01);H04N19/70(2006.01);
代理机构中国专利代理(香港)有限公司 72001;中国专利代理(香港)有限公司 72001;
代理人浩路;周学斌
地址德国慕尼黑
入库时间 2023-06-19 16:31:45

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

实质审查的生效 IPC(主分类):H04N19/117 专利申请号:2020800814198 申请日:20200924

实质审查的生效

说明书

本发明涉及视频编码和视频解码，并且特别地涉及编码器和解码器，涉及用于参考图片重采样扩展的编码方法和解码方法。

H.265/HEVC（HEVC=高效视频编码）是一种视频编解码器，它已经提供了用于在编码器处和/或解码器处提升或甚至启用并行处理的工具。例如，HEVC支持将图片细分（sub-division）成彼此独立地被编码的图块的阵列。HEVC支持的另一个概念与WPP有关，根据WPP，图片的CTU行或CTU线可以从左到右、例如以条带被并行地处理，只要在处理连续的CTU线时遵从一些最小CTU偏移（CTU=编码树单元）。然而，手头具有如下视频编解码器将是有利的：它可以甚至更高效地支持视频编码器和/或视频解码器的并行处理能力。

在下文中，描述了对根据现有技术的VCL分区的介绍（VCL=视频编码层）。

通常，在视频编码中，图片样本的编码过程要求较小的分区，其中样本被划分成一些矩形区以用于联合处理，诸如预测或变换编码。因此，图片被分区成特定大小的块，该特定大小在视频序列的编码期间是恒定的。在H.264/AVC标准中，使用了16×16样本的固定大小块，即所谓的宏块（AVC=高级视频编码）。

在现有技术HEVC标准（见[1]）中，存在64×64样本的最大大小的编码树块（CTB）或编码树单元（CTU）。在对HEVC的进一步描述中，针对这种块，使用了更常见的术语CTU。

按光栅扫描次序来处理CTU，从左上角的CTU开始，在图片中逐行地处理CTU，一直到右下角的CTU。

编码CTU数据被组织成一种叫做切片的容器。最初，在以前的视频编码标准中，切片（slice）意指包括图片的一个或多个连续CTU的片段（segment）。切片被采用以用于编码数据的分段。从另一个视角来看，完整的图片也可以被定义为一个大片段，并且因此，在历史上，术语切片仍然适用。除了编码图片样本之外，切片还包括与切片本身的编码过程相关的附加信息，该附加信息被放置在所谓的切片头部中。

根据现有技术，VCL（视频编码层）还包括用于分片（fragmentation）和空间分区的技术。例如，出于各种原因，这种分区可以被应用于视频编码中，在这些原因当中的是并行化中的处理负载平衡、网络传输中的CTU大小匹配、错误减轻等。

其他示例涉及RoI（RoI=感兴趣区域）编码，其中例如在图片的中间存在一区域，观看者可以例如在操作上利用缩放（zoom）来选择该区域（仅解码RoI），或者涉及渐进式解码器刷新（GDR），其中帧内数据（通常被放置到视频序列的一个帧中）在时间上分布在若干个连续的帧上，例如作为帧内块的列，该帧内块的列在图片平面上滑动（swipe），并且以与帧内图片针对整个图片平面所做的方式相同的方式在本地重置时间预测链。对于后者，每个图片中存在两个区域，一个区域是最近重置的，并且另一个区域潜在地会受到错误和错误传播所影响。

参考图片重采样（RPR）是视频编码中使用的一种技术，该技术用于不仅通过使用粗略的量化参数、而且还通过适配潜在地每个所传输图片的分辨率来适配视频的质量/速率。因此，用于帧间预测的参考可能具有与当前正在被预测以用于编码的图片不同的大小。基本上，RPR要求预测环路中的重采样过程，例如要定义的上采样和下采样滤波器。

取决于风格（flavor），RPR可以得到任何图片处的编码图片大小的改变，或者被限制为仅发生在某个特定图片处，例如仅发生在特定位置处，该特定位置例如被约束到自适应HTTP流送的片段边界。

本发明的目的是提供用于视频编码和视频解码的改进概念。

本发明的目的通过独立权利要求的主题来解决。

从属权利要求中提供了优选实施例。

下文中，参考附图详细描述了本发明的实施例，在附图中：

图1图示了根据实施例的视频编码器。

图2图示了根据实施例的视频解码器。

图3图示了根据实施例的系统。

图4图示了相比于扩展可扩缩性（scalability）的感兴趣区域（RoI）可扩缩性。

图5a描绘了内容段（灰色）在图片内随时间的移动的第一图示。

图5b描绘了内容段（灰色）在图片内随时间的移动的第二图示。

图6a图示了具有混合参考图片的当前图片。

图6b图示了用于忽略参考图片的裁剪（cropping）窗口的示例。

图7图示了视频编码器。

图8图示了视频解码器。

图9图示了一方面的重建信号（例如，重建图片）与另一方面的如数据流中发信令通知的预测残差信号和预测信号的组合之间的关系。

附图的以下描述以用于对视频的图片进行编码的基于块的预测性编解码器的编码器和解码器的描述的呈现而开始，以便形成可以内置于本发明的实施例中的编码框架的示例。关于图7至图9描述了相应的编码器和解码器。此后，本发明的概念的实施例的描述连同关于可以如何将这种概念分别构建到图7和图8的编码器和解码器中的描述一起被呈现，尽管利用图1至图3以及以下内容所描述的实施例也可以用于形成不根据构成图7和图8的编码器和解码器的基础的编码框架进行操作的编码器和解码器。

图7示出了视频编码器，即用于示例性地使用基于变换的残差编码将图片12预测性地编码到数据流14中的装置。该装置或编码器用参考符号10来指示。图8示出了对应的视频解码器20，例如装置20，其被配置成也使用基于变换的残差解码来预测性地从数据流14中解码图片12'，其中撇号已经被用于指示由解码器20重建的图片12'在通过预测残差信号的量化引入的编码损失方面与最初由装置10编码的图片12有偏差。图7和图8示例性地使用基于变换的预测残差编码，尽管本申请的实施例不限于这种预测残差编码。这对于关于图7和图8所描述的其他细节也是如此，如将在下文中概述的那样。

编码器10被配置成对预测残差信号进行空间-谱变换（spatial-spectraltransformation），并且将由此获得的预测残差信号编码到数据流14中。类似地，解码器20被配置成从数据流14中解码预测残差信号，并且对由此获得的预测残差信号进行谱-空间变换。

在内部，编码器10可以包括预测残差信号形成器22，该预测残差信号形成器22生成预测残差24，以便测量预测信号26与原始信号（例如，与图片12）的偏差。预测残差信号形成器22例如可以是减法器，该减法器从原始信号（例如，从图片12）中减去预测信号。编码器10然后进一步包括变换器28，该变换器28对预测残差信号24进行空间-谱变换，以获得谱域预测残差信号24'，该谱域预测残差信号24'然后由量化器32进行量化，该量化器32也由编码器10所包括。由此量化的预测残差信号24''被编码到比特流14中。为此，编码器10可以可选地包括熵编码器34，该熵编码器34将经变换和量化的预测残差信号熵编码到数据流14中。预测信号26由编码器10的预测级36基于被编码到数据流14中并且可从数据流14中解码的预测残差信号24''来生成。为此，如图7中所示，预测级36可以在内部包括去量化器38，该去量化器38对预测残差信号24''进行去量化，以便获得除量化损失之外对应于信号24'的谱域预测残差信号24'''，去量化器38随后是逆变换器40，该逆变换器40对后一个预测残差信号24'''进行逆变换，例如谱-空间变换，以获得除量化损失之外对应于原始预测残差信号24的预测残差信号24''''。预测级36的组合器42然后诸如通过相加来重新组合预测信号26和预测残差信号24''''，以便获得重建信号46，例如原始信号12的重建。重建信号46可以对应于信号12'。预测级36的预测模块44然后基于信号46通过使用例如空间预测（例如，图片内预测）和/或时间预测（例如，图片间预测）来生成预测信号26。

同样地，如图8中所示，解码器20可以在内部由如下组件组成：这些组件对应于预测级36，并且以对应于预测级36的方式而互连。特别地，解码器20的熵解码器50可以从数据流中熵解码经量化的谱域预测残差信号24''，于是以上面关于预测级36的模块所描述的方式互连并协作的去量化器52、逆变换器54、组合器56和预测模块58基于预测残差信号24''来恢复重建信号，使得如图8中所示，组合器56的输出产生重建信号，即图片12'。

尽管上面没有具体描述，但是明显的是，编码器10可以根据一些优化方案、诸如例如以优化一些速率和失真相关标准（例如，编码成本）的方式来设置一些编码参数，包括例如预测模式、运动参数等。例如，编码器10和解码器20以及对应的模块44、58可以分别支持不同的预测模式，诸如帧内编码模式和帧间编码模式。编码器和解码器在这些预测模式类型之间进行切换的粒度可以分别对应于图片12和12'到编码片段或编码块的细分。例如，以这些编码片段为单位，该图片可以被细分成帧内编码的块和帧间编码的块。如下面更详细概述的，帧内编码块基于相应块的已经编码/解码的空间邻域来预测。可以存在若干种帧内编码模式，并且可以针对相应帧内编码片段来选择这些帧内编码模式，包括方向或角度帧内编码模式，根据这些模式，相应的片段通过沿着特定于相应方向帧内编码模式的某个方向将邻域的样本值外推到相应帧内编码片段中而被填充。帧内编码模式可以例如还包括一个或多个另外的模式，诸如DC编码模式，根据该模式，针对相应帧内编码块的预测将DC值指派给相应帧内编码片段内的所有样本，和/或平面帧内编码模式，根据该模式，相应块的预测被近似或确定为由二维线性函数描述的样本值在相应帧内编码块的样本位置上的空间分布，其中基于相邻样本来驱动由该二维线性函数定义的平面的倾斜（tilt）和偏移。与之相比，帧间编码块可以例如在时间上被预测。针对帧间编码块，可以在数据流内发信令通知运动向量，该运动向量指示图片12所属的视频的先前编码的图片的部分的空间位移，在该空间位移处，对先前编码/解码的图片进行采样以便获得针对相应帧间编码块的预测信号。这意味着，除了数据流14所包括的残差信号编码（诸如，表示经量化的谱域预测残差信号24''的熵编码变换系数级别）之外，数据流14可能已经在其中编码了用于将编码模式指派给各个块的编码模式参数、用于一些块的预测参数（诸如，用于帧间编码片段的运动参数）以及可选的另外参数（诸如，用于控制和发信令通知图片12和12'分别到片段的细分的参数）。解码器20使用这些参数以与编码器所做的方式相同的方式来细分该图片，将相同的预测模式指派给这些片段，并且执行相同的预测以得到相同的预测信号。

图9图示了一方面的重建信号（例如，重建图片12'）与另一方面的如数据流14中发信令通知的预测残差信号24''''和预测信号26的组合之间的关系。如上所指出，该组合可以是相加。预测信号26在图9中被图示为图片区到帧内编码块和帧间编码块的细分，这些帧内编码块说明性地使用阴影线（hatching）来指示，这些帧间编码块说明性地未用阴影线来指示。该细分可以是任何细分，诸如图片区到正方形块或非正方形块的行和列的规则细分、或图片12从树根块到变化大小的多个叶块的多树细分，诸如四叉树细分等，其中在图9中图示了其混合，其中图片区首先被细分成树根块的行和列，这些树根块然后根据递归多树细分被进一步细分成一个或多个叶块。

同样，数据流14可以具有针对帧内编码块80的编码到其中的帧内编码模式，该帧内编码模式将若干个所支持的帧内编码模式之一指派给相应的帧内编码块80。对于帧间编码块82，数据流14可以具有编码到其中的一个或多个运动参数。一般来说，帧间编码块82不限于在时间上被编码。替代地，帧间编码块82可以是从当前图片12本身之外的先前编码的部分所预测的任何块，该部分诸如图片12所属的视频的先前编码的图片、或在编码器和解码器分别是可扩缩编码器和解码器的情况下的另一个视图或在层级上较低的层的图片。

图9中的预测残差信号24''''也被图示为图片区到块84的细分。这些块可能被称为变换块，以便将其与编码块80和82区分开。实际上，图9图示了编码器10和解码器20可以使用图片12和图片12'分别到块的两个不同的细分，即，分别是到编码块80和82的一个细分、以及到变换块84的另一个细分。两个细分可能是相同的，例如，每个编码块80和82可以同时形成变换块84，但是图9图示了如下情况：其中例如到变换块84的细分形成了到编码块80、82的细分的扩展，使得块80和82中的两个块之间的任何边框（border）覆盖了两个块84之间的边框，或者替代地说，每个块80、82要么与变换块84中的一个重合，要么与变换块84的集群重合。然而，也可以彼此独立地确定或选择细分，使得变换块84可以替代地跨越（cross）块80、82之间的块边框。就关于到变换块84的细分而言，类似的陈述因此也是正确的，如关于到块80、82的细分所提出的那些，例如，块84可以是图片区到块的规则细分（布置成行和列、或者没有布置成行和列）的结果、图片区的递归多树细分的结果、或其组合、或任何其他种类的块化（blockation）。顺便说一下，要注意的是，块80、82和84不限于是正方形、矩形或任何其他形状。

图9进一步图示了预测信号26和预测残差信号24''''的组合直接得到重建信号12'。然而，应当注意的是，根据替代实施例，可以将多于一个预测信号26与预测残差信号24''''进行组合以得到图片12'。

在图9中，变换块84应具有以下意义。变换器28和逆变换器54以这些变换块84为单位来执行它们的变换。例如，许多编解码器针对所有变换块84使用某个种类的DST或DCT。一些编解码器允许跳过该变换，使得对于变换块84中的一些，预测残差信号直接在空间域中被编码。然而，根据下面描述的实施例，编码器10和解码器20以如下这种方式被配置，使得它们支持若干个变换。例如，编码器10和解码器20所支持的变换可以包括：

o DCT-II（或DCT-III），其中DCT代表离散余弦变换，

o DST-IV，其中DST代表离散正弦变换

o DCT-IV，

o DST-VII，

o恒等变换（IT）。

自然地，在变换器28将支持这些变换的所有正向变换版本时，解码器20或逆变换器54将支持其对应的反向或逆向版本：

o逆DCT-II（或逆DCT-III），

o逆DST-IV，

o逆DCT-IV，

o逆DST-VII，

o恒等变换（IT）。

随后的描述提供了关于编码器10和解码器20可以支持哪些变换的更多细节。在任何情况下，应当注意的是，所支持的变换的集合可以仅包括一个变换，诸如一个谱-空间或空间-谱变换。

如上面已经概述的，图7至图9已经被呈现为如下示例，其中可以实现下面进一步描述的本发明概念，以便形成根据本申请的编码器和解码器的特定示例。就此而言，图7和图8的编码器和解码器分别可以表示下文中描述的编码器和解码器的可能实现方式。然而，图7和图8仅仅是示例。然而，根据本申请的实施例的编码器可以使用下面更详细地概述的概念来执行图片12的基于块的编码，并且它与图7的编码器不同，其不同之处诸如例如在于：它不是视频编码器，而是静止图片编码器，它不支持帧间预测、或者以不同于图9中所例示的方式来执行到块80的细分。同样地，根据本申请的实施例的解码器可以使用下面进一步概述的编码概念来执行从数据流14中对图片12'的基于块的解码，但是可以例如与图8的解码器20不同，其不同之处在于：它不是视频解码器，而是静止图片解码器，它不支持帧内预测、或者它以不同于关于图9所描述的方式将图片12'细分成块、和/或它不是在变换域中而是例如在空间域中从数据流14导出预测残差。

下文中，在图1中描述了根据实施例的通用视频编码器，在图2中描述了根据实施例的通用视频解码器，并且在图3中描述了根据实施例的通用系统。

图1图示了根据实施例的通用视频编码器101。

视频编码器101被配置成用于通过生成经编码的视频信号来编码视频的多个图片，其中该多个图片中的每一个包括原始图片数据。

视频编码器101包括数据编码器110，数据编码器110被配置用于生成包括经编码的图片数据的经编码的视频信号，其中数据编码器被配置成将该视频的多个图片编码到经编码的图片数据中。

此外，视频编码器101包括输出接口120，输出接口120被配置用于输出该多个图片中的每一个的经编码的图片数据。

图2图示了根据实施例的通用视频解码器151。

视频解码器151被配置用于对包括经编码的图片数据的经编码的视频信号进行解码，以重建视频的多个图片。

视频解码器151包括被配置用于接收经编码的视频信号的输入接口160。

此外，视频解码器包括数据解码器170，数据解码器170被配置用于通过对经编码的图片数据进行解码来重建该视频的多个图片。

图3图示了根据实施例的通用系统。

该系统包括图1的视频编码器101和图2的视频解码器151。

视频编码器101被配置成生成经编码的视频信号。视频解码器151被配置成对经编码的视频信号进行解码以重建该视频的图片。

权利要求1至33中要求保护本发明的第一方面。第一方面提供了样本纵横比信令。

权利要求34至72中要求保护本发明的第二方面。第二方面提供了参考图片重采样限制，以减轻实现负担。

权利要求73至131中要求保护本发明的第三方面。第三方面提供了针对参考图片重采样的缩放的灵活的基于区域的参考，并且特别地提供了更高效的地址缩放（addresszoom）用例。

下文中，现在详细描述本发明的第一方面。

特别地，第一方面提供了样本纵横比信令。

样本纵横比（SAR）与向消费者正确地呈现编码视频相关，使得当编码样本阵列的纵横比通过RPR（例如，通过一个维度中的子采样）而随时间改变时，所呈现的图片的纵横比可以按预期保持恒定。

诸如在HEVC或AVC中的序列参数集（SPS）中的视频可用性信息（VUI）中的现有技术SAR信令仅允许针对整个编码视频序列设置恒定的SAR，例如，仅在编码视频序列的开始处允许SAR改变（例如，每个编码视频序列，样本纵横比是恒定的）。

因此，作为本发明的一部分，将新的SAR信令模式引入到视频编码。序列级别参数集（例如，SPS）包含如下指示：

• RPR正在使用中（因此编码图片大小可以改变），

• 在VUI中没有给出实际的SAR，

• 取而代之，编码视频的SAR被指示为动态的，并且可以在CVS（编码视频序列）内改变，

• 在分辨率切换点处，编码图片的实际SAR通过SEI（补充增强信息）消息来指示，

动态SAR信息SEI消息

同样地，例如，可以采用vui_aspect_ratio_constant flag。

标志vui_aspect_ratio_constant flag可以是例如指示样本纵横比针对该视频序列是否恒定、或者样本纵横比在该视频序列内是否可改变的指示。

例如，如果vui_aspect_ratio_constant flag可以例如被设置为0（或者可以例如被设置为假（FALSE），或者可以例如被设置为-1），则这可以例如指示例如在SEI消息中存在动态SAR信息。

在替代实施例中，VUI（例如，SPS）中的SAR信息被用作默认值，只要没有SEI消息可用，就使用该默认值。SEI消息中的信息将覆写SPS中的信息。

在另一个实施例中，SAR信息与图片分辨率相关联，并且在PPS（图片参数集）中被发信令通知，在PPS中，图片分辨率被发信令通知。在SPS中发信令通知默认SAR，如果SAR针对某个图片分辨率改变，则发信令通知不同的SAR，从而覆写该默认SAR。

SPS VUI：

以及至于SEI的情况，SPS可以附加地指示SAR可能改变，并且SAR被更新到PPS中（类似于之前的aspect_ratio_dynamic_sei_present_flag）。因此，有可能会将SAR约束或限制成针对一些应用不被改变，从而使得更容易实现或RPR/ARC。

PPS：

如果pps_aspect_ratio_info_present_flag被设置为0，则从SPS取得默认SAR，并且如果否，则提供实际SAR。

下文中，现在详细描述本发明的第二方面。

特别地，第二方面提供了关于参考图片重采样的约束的信令。

以各种方式来限制RPR方案允许减轻实现负担。在不包括附加限制的一般RPR方案的情况下（如在以下发明中那样），实现者将必须过度供应（overprovision）其解码器硬件来执行：

• 在任意当前图片处进行重采样，最坏的情况：在每个图片处进行重采样，

• 相比于具有较少参考图片的所定义位置对DPB（解码图片缓冲器）、中间GOP（图片组）中的任何图片进行重采样，

• 同时将变化分辨率的多个图片重采样到目标分辨率，

• 具有（参考）图像质量损失的参考图片的级联重采样链。

下文中所发明的限制允许降低编解码器的实现成本，该编解码器与不受限制的RPR编解码器相比其特征是这种受限制的RPR方案。

在一个实施例中，仅在RAP（随机访问点）处允许分辨率改变，例如，重采样图片的最大数量是在该RAP处的RASL（随机访问可解码跳过图片）图片的量，并且RAP通常在一个或多个GOP的距离处出现，例如相隔数十个图片，这降低了必须以其支持这种重采样操作的最坏情况速率。

在另一个实施例中，仅在层级式GOP内的关键图片处允许分辨率改变，该关键图片例如如下图片：

• 属于最低的时间层，以及

• 每个GOP中出现一次，以及

• 并且按编码次序跟随的所有图片具有较低的POC（例如，较早的呈现时间戳），

使得当参考图片被重采样时，在较高时间层的GOP内没有任何紧接着的图片要求级联的（cascaded）上/下采样。

根据另一个实施例，仅在按呈现次序紧接在关键图片之后的图片处、或者换句话说在按呈现次序的下一个GOP的第一个图片处允许分辨率改变。

在另一个实施例中，连续分辨率改变之间的时间距离受到级别定义中的最小POC（图片次序计数）距离所限制。

在另一个实施例中，连续分辨率改变之间的时间距离受到级别定义中在其之间的编码图片的最小数量所限制。

在另一个实施例中，分辨率改变可能仅发生在被标记为不可丢弃、或者通过non_reference_picture_flag等于0被标记为参考图片的图片处。

在另一个实施例中，分辨率改变的速率受到级别定义所限制。

在另一个实施例中，当前图片的参考图片的重采样被限制为使用单个重采样比率，例如，具有与当前图片不同的分辨率的该当前图片的所有参考图片被要求具有相同的分辨率。

在另一个实施例中，在当前图片的一个参考图片要求重采样时，当前图片的所有参考图片被要求使用重采样，例如处于与该一个参考图片相同的原始分辨率。

在另一个实施例中，当前图片的仅一个参考图片被允许要求重采样。

根据另一个实施例，在分辨率改变点处要求重采样的图片的最大数量可选地在编码视频序列/比特流中被指示，作为针对解码器的保证，并且当该指示不存在时，它由级别定义来推断或指示。

在另一个实施例中，在重采样之后，从参考图片列表和/或解码图片缓冲器中移除原始（未重采样的）参考图片，例如标记为不被用于参考，使得仅重采样的参考图片可从其上获得。

在另一个实施例中，在编码视频序列内使用的重采样比率被限制到一组重采样比率，该组重采样比率被包括到具有序列或比特流范围的参数集（解码参数集DPS；序列参数集SPS）中。

下文中，现在详细描述本发明的第三方面。

特别地，第二方面提供了针对参考图片重采样的缩放的灵活的基于区域的参考。

如上所讨论，在诸如SHVC和SVC之类的分层编解码器中，解决了高级可扩缩性的两种模式，即RoI可扩缩性（较低层图片的区域在较高层中被扩大）和扩展可扩缩性（较低层图片通过较高层中的附加内容被扩展），如下面图4中所示。

扩展可扩缩性可以例如指代通俗地被称为缩小（zooming-out）的用例，例如如下用例：其中在该视频覆盖更多内容（例如，更大的捕获角度、场景的更多部分、整体更大的区域等）的意义上，该视频在时间上发生了改变。

图4图示了相比于扩展可扩缩性的感兴趣区域（RoI）可扩缩性。

在其中允许放大（zooming in）和缩小（zooming out）的场景中，当定义了缩放和移动区域时，这些区域被用于预测以及将被预测。这被称为RoI可扩缩性（通常是放大）或扩展可扩缩性（通常是缩小）。在利用可扩缩编码的RoI可扩缩性中，通常在参考图片中定义一区域，该区域被上扩（upscale）到参考图片的尺寸。然而，在可扩缩编码中，在其之间执行预测的较高层和较低层图片描绘了相同的时刻。

由于对于SHVC和SVC，这是针对分层编码来进行的，并且在那些情况下，并置的（collocated）基本层不表示任何移动，例如基本层中的对应样本是已知的，因此有可能将基本层中的已知区域完全地上扩，并且对该经上扩的参考进行操作。

然而，在RPR应用中，在其之间执行预测的两个图片并不描绘相同的时刻，并且因此，所定义区域之外的一些内容可能从时刻A（低分辨率）移动到时刻B（高分辨率）从而进入放大/缩小的区中。不允许参考那些区域以用于预测是不利于编码效率的。

然而，对于RPR，参考可能指向对应参考区域外部的某个区，例如由于移动到RoI放大区中的对象。这在图5a中被示出，而没有实际改变编码分辨率：

图5a描绘了内容段（灰色）在图片内随时间的移动的第一图示。

在第一个实施例中，定义了参考区域，该参考区域包括比RoI的面积更大的面积，使得该图中的归入RoI缩放区的灰色框处于该参考中：

图5b描绘了内容段（灰色）在图片内随时间的移动的第二图示。

这将导致针对与RoI相对应的图片来重建比RoI稍大的区，并且将通过指示裁剪窗口来移除附加的区。该问题源自于如下事实：即，用于对参考进行上采样的扩缩因子是在VVC（通用视频编码）中根据裁剪出的图片来计算的。首先假设不存在RoI，水平扩缩因子HorScale和垂直扩缩因子VerScale将被计算为：

HorScale=CroppedOutWidthPic/CroppedOutWidthRefPic

VerScale=CroppedOutHeightPic/CroppedOutHeightRefPic

基于裁剪出的图片来指示该比率的原因是：取决于感兴趣图片大小，需要解码一些附加的样本，这是因为编解码器要求该大小是最小大小（在VVC中是8个样本）的倍数。因此，如果图片或参考图片中的任一个不是8的倍数，则会将一些样本添加到输入图片，以使它们成为8的倍数，并且比率将会变得不同并且导致错误的扩缩因子。在期望比特流被编码为“可合并的”——例如，它们可以被合并到其他比特流——的情况下，则该问题可能变得甚至更糟，这是因为在这种情况下，图片大小需要是CTU大小的倍数，该CTU大小达到了128。因此，正确的扩缩因子需要计及裁剪窗口。

在所描述的场景（将RPR与RoI组合）中，在利用裁剪窗口以用于包括一些附加参考的情况下，裁剪窗口的使用将是不够的。如所描述的，可以在参考图片中定义稍大的RoI，该RoI可以针对参考而使用，但是在当前重建图片中随着裁剪窗口被丢弃。然而，如果水平扩缩因子HorScale和垂直扩缩因子VerScale被计算为：

HorScale=CroppedOutWidthPic/WidthEnlargedRefRoI

VerScale=CroppedOutHeightPic/HeightEnlargeRefRoI

则结果将是不正确的，这是因为扩大的RoI中的一些样本实际上对应于裁剪出的区域中的样本。

在下文中，描述了根据第一组实施例的基于裁剪窗口的概念。

因此，在所述第一组实施例中，该计算可以例如如下：

HorScale=CodedPicWidth/RefRoIWidth

VerScale=CodedPicHeight/RefRoIHeight

这将包括要针对扩缩因子的计算而裁剪出的样本。

关于信令，在一个实施例中，扩大的RoI的信令将指示裁剪窗口信息将在扩缩因子计算中被忽略。

在另一个实施例中，在比特流（例如，参数集或切片头部）中指示了是否需要针对扩缩因子的计算而考虑裁剪窗口。

裁剪窗口例如也可以被称为一致性裁剪窗口。裁剪窗口/一致性裁剪窗口的偏移也可以例如被称为pps_conf_win_left_offset、pps_conf_win_top_offset、pps_conf_win_right_offset和pps_conf_win_botton_offset。

例如，可以使用标志pps_scaling_window_explicit_signalling_flag来代替使用标志use_clipping_for_scale_factor_derivation_flag以用于决定对于上扩参考图片内的区域而言是否应忽略经编码的视频信号内关于裁剪窗口的信息（或者用于决定对于上扩参考图片内的区域而言是否应使用经编码的视频信号内关于裁剪窗口的信息）。

例如，如果标志pps_scaling_window_explicit_signalling_flag被设置为0（或者例如被设置为假，或者例如被设置为-1），则例如对于上扩参考图片内的区域而言可以使用经编码的视频信号内关于裁剪窗口的信息。并且，例如如果标志pps_scaling_window_explicit_signalling_flag被设置为1（或者例如被设置为真），则例如对于上扩参考图片内的区域而言可以忽略经编码的视频信号内关于裁剪窗口的信息。

上述方法的缺点之一是：为了允许参考RoI外部的样本、例如参考扩大的RoI上的样本，针对当前图片解码的区变得更大。更具体地说，在RoI外部的区中将样本解码，这些样本稍后随着裁剪窗口被丢弃。这导致了附加的样本开销和编码效率降低，这可能会潜在地抵消允许在参考图片中的对应RoI外部进行参考的编码效率增益。

一种更高效的方法将是仅解码RoI（关于必要的附加样本进行省略，以使得该图片是8或CTU的倍数，如前所讨论），但是允许参考扩大的RoI内的样本。

在下文中，描述了根据第二组实施例的基于边界框的概念。

在所述第二组实施例中，使用在红色矩形外部但是在绿框内的样本（RoI偏移加上附加RoI偏移）来确定重采样的参考图片，而不是仅使用红色RoI。

红色切口周围的MV的边界框的大小被定义/发信令通知，其优点是限制了存储器访问/线缓冲器要求，并且还允许利用逐图片上采样方法的实现方式。

这种信令可以被包括到PPS中（additional_roi_X）：

因此，扩缩因子的导出将是如下：

HorScale=CroppedOutWidthPic/RefRoIWidth

VerScale=CroppedOutHeightPic/RefRoIHeight。

在一个实施例中，将通过使用roi_X_offsets找到并置样本并且应用MV来标识参考样本，如果该参考样本在由additional_roi_x指示的扩大的RoI外部，则将修剪（clip）这些MV。或者替代地，该扩大的RoI外部的样本将利用扩大的RoI内的最后一个样本来填充。

在另一个实施例中，该扩大的RoI仅用作可用于实现方式优化的限制或约束。例如，如果首先根据要求而不是在运行中对参考图片进行完整上采样（基于块的），则仅对扩大的RoI而不是整个图片进行重采样，从而节省大量的处理。

另外的问题是当同时使用多于一个参考图片的时候。在这种情况下，有必要标识RoI区域信息适用的图片。在这种情况下，代替于将信息添加到PPS，而是切片头部将指示参考列表中的一些条目没有参考整个图片而是参考其一部分。例如，

在另外的实施例中，附加的约束如下：

- 仅具有较低POC的参考图片可以具有RoI信息。通常，RoI切换将与所描述的特征一起适用于开放GOP切换场景，并且因此具有较高POC的POC将已经表示RoI场景。

- 仅一个参考图片可以具有RoI信息。

在另一个实施例中，RoIInfo()被携带在图片参数集中，并且每参考图片，切片头部仅携带一标志（RoI_flag），该标志指示是否将应用RoI信息以用于重采样（扩缩因子的导出）。下图利用四个编码图片图示了该原理，两个图片在切换点之前，并且两个图片在切换点之后。在切换点处，总分辨率保持恒定，但是对RoI的上采样被执行。定义了两个PPS，其中后两个图片的PPS指示参考图片内的RoI。此外，后两个图片的切片头部针对它们的每一个参考图片携带RoI_flag[i]，该值在该图中被指示为“RoI_flag”或“RF=x”。

此外，切片头部不仅可以针对每个参考图片携带如上的RoI_flag，而且在该标志为真的情况下，还可以将附加的索引携带到该参数集中携带的RoIInfo()数组中，以标识哪个RoI信息适用于特定的参考图片。

图6a图示了具有混合参考图片的当前图片。

下文中，描述了根据第三组实施例的缩小情况。

作为对RoI可扩缩性的替代方案，在所述第三组实施例中，可以考虑扩展可扩缩性，例如从RoI图片去往更大的区。在这种情况下，也应当忽略参考图片的裁剪窗口，特别是在当前解码图片中的区域被标识为用于扩展可扩缩性（例如，缩小）的区域的情况下。

图6b图示了用于在当前图片中的所标识区域的情况下忽略参考图片的裁剪窗口的示例。

HorScale=IdentifiedRegionInPicWidth/CodedRefPicWidth

VerScale=IdentifiedRegionInPicHeight/CodedRefPicHeight。

尽管已经在装置的上下文中描述了一些方面，但是要清楚的是，这些方面也表示对应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。一些或所有的方法步骤可以通过（或使用）硬件装置来执行，该硬件装置如例如微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中的一个或多个可以由这种装置来执行。

取决于某些实现要求，本发明的实施例可以用硬件或软件来实现，或者至少部分用硬件或至少部分用软件来实现。可以使用其上存储有电子可读控制信号的数字存储介质（例如，软盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器）来执行该实现方式，该数字存储介质与可编程计算机系统协作（或能够协作），使得执行相应的方法。因此，该数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该数据载体能够与可编程计算机系统协作，使得执行本文中描述的方法之一。

通常，本发明的实施例可以被实现为一种具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作用于执行方法之一。该程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的用于执行本文中描述的方法之一的计算机程序。

换句话说，因此，本发明方法的实施例是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本文中描述的方法之一。

因此，本发明方法的另外的实施例是一种数据载体（或数字存储介质，或计算机可读介质），包括记录在其上的用于执行本文中描述的方法之一的计算机程序。该数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的另外的实施例是表示用于执行本文中描述的方法之一的计算机程序的数据流或信号序列。该数据流或信号序列可以例如被配置成经由数据通信连接（例如，经由互联网）而被传送。

另外的实施例包括一种处理装置，例如计算机或可编程逻辑器件，该处理装置被配置成或适配成执行本文中描述的方法之一。

另外的实施例包括一种计算机，其上安装有用于执行本文中描述的方法之一的计算机程序。

根据本发明的另外的实施例包括一种装置或系统，该装置或系统被配置成将用于执行本文中描述的方法之一的计算机程序传送（例如，电子地或光学地）到接收器。该接收器可以例如是计算机、移动设备、存储器设备等。该装置或系统可以例如包括用于将计算机程序传送到该接收器的文件服务器。

在一些实施例中，可编程逻辑器件（例如，现场可编程门阵列）可以用于执行本文中描述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，以便执行本文中描述的方法之一。通常，这些方法优选地由任何硬件装置来执行。

本文中描述的装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来实现。

本文中描述的方法可以使用硬件装置、或使用计算机、或使用硬件设备和计算机的组合来执行。

上面描述的实施例仅仅是说明本发明的原理。要理解的是，本文中描述的布置和细节的修改和变化对于本领域的其他技术人员来说将是明显的。因此，其意图仅由即将到来的专利权利要求的范围来限制，而不由通过本文中的实施例的描述和解释的方式所呈现的具体细节来限制。

[1] ISO/IEC, ITU-T. High efficiency video coding. ITU-TRecommendation H.265 | ISO/IEC 23008 10 (HEVC), edition 1, 2013; edition 2,2014.

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于编码图片的通用空间划分的编码器和解码器、编码方法和解码方法 [P] . 中国专利： CN112655208A . 2021-04-13
2. 算术编码器、算术解码器、视频编码器、视频解码器、编码方法、解码方法和计算机程序 [P] . 中国专利： CN112689960A . 2021-04-20
3. ENCODER AND DECODER, ENCODING METHOD AND DECODING METHOD FOR REFERENCE PICTURE RESAMPLING EXTENSIONS [P] . 欧洲知识产权局专利： WO2021058638A1 . 2021-04-01

机译：编码器和解码器，用于参考图片重采样扩展的编码方法和解码方法
4. A method for encoding a picture, a method for decoding a picture from a bitstream, an encoder for encoding a picture, a transmission device including an encoder for encoding a picture, a decoder for decoding a picture from a bitstream, and a picture from a bitstream Receiving apparatus and system including a decoder for decoding [P] . 日本专利： JP2006526908A . 2006-11-24

机译：用于对图片进行编码的方法，用于从位流解码图片的方法，用于对图片进行编码的编码器，包括用于对图片进行编码的编码器，用于对来自位流的图片进行解码的解码器以及用于对图片进行编码的解码器的传输设备。包括用于解码的解码器的比特流接收设备和系统
5. Method of encoding of a beacon ("flag") of the prediction residual, method for decoding an enhancement layer of a signal vu00ecdeo multiple layers, vu00ecdeo encoder.Vu00ecdeo decoder, decoder for decoding an enhancement layer of a signal vu00ecdeo multiple layers.Encoding method performed by an encoder of vu00ecdeo multiple layers, and vu00ecdeo encoder [P] . BRPI0602466A . 2006-12-26

机译：预测残差的信标（“ flag”）的编码方法，用于对信号的增强层vv进行解码的方法，v编码器，v解码器，用于对增强层进行解码的解码器信号v u00ecdeo多层。由v u00ecdeo多层编码器和v u00ecdeo编码器执行的编码方法