首页> 中国专利> 用于语境分割和处理的基于块的图片融合

用于语境分割和处理的基于块的图片融合

页面导航

摘要
著录项
说明书
相似文献

摘要

一种编码器，包括电路，电路配置为：接收视频帧；将所述视频帧拆分成多个块；确定所述视频帧内的第一区域，第一区域包括块的第一子集的第一分组；确定所述第一区域的信息的第一平均度量；以及对所述视频帧编码；所述编码包括：基于所述第一区域的信息的第一平均度量控制量化参数。还描述相关装置、系统、技术以及制品。

著录项

公开/公告号CN113170134A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人 OP方案有限责任公司;
展开▼

申请/专利号CN201980077960.9
发明设计人 V·阿季奇;H·卡瓦;B·富尔赫特;
展开▼

申请日2019-11-27
分类号H04N19/126(20060101);
代理机构44205 广州嘉权专利商标事务所有限公司;
代理人黄晓升
地址美国马萨诸塞州
入库时间 2023-06-19 11:55:48

说明书

相关申请的交叉引用

本申请要求申请号为62/771,907、申请日为2018年11月27日且标题为“用于语境分割和处理的基于块的图片融合(BLOCK-BASED PICTURE FUSION FOR CONTEXTUALSEGMENTATION AND PROCESSING)”的美国临时专利申请的优先权，其全部内容在此引入本申请作为参考。

技术领域

本发明一般涉及视频压缩领域。本发明尤其涉及用于语境分割和处理的基于块的图片融合。

背景技术

视频编解码器可包括压缩或解压数字视频的电子电路或软件。该视频编解码器可将未压缩的视频转换为压缩格式，反之亦然。在视频压缩领域，压缩视频(和/或执行其一些功能)的设备通常称为编码器，而解压视频(和/或执行其一些功能)的设备则称为解码器。

压缩数据的格式可以是符合标准视频压缩规范的。但也可能会因压缩视频中缺失了原始视频中的一些信息而出现损耗。其后果是解压视频因信息不足无法准确重建原始视频，从而使其质量低于原始未压缩的视频。

视频质量与用于表征视频的数据量(例如，由比特率确定)、编码和解码算法的复杂性、数据损失和误差的敏感性、编辑简便性、随机存取、端到端延迟(例如，时延)等之间存在复杂的关系。

编码期间，将图片(例如，视频帧)分割(例如，拆分)为相对较大的块，如128×128，并且此结构是固定的。但是，通过将图片切割成较大块进行压缩且不考虑底层视频信息(例如，视频内容)，大块可能无法以有效编码方式将图片分区，从而导致比特率性能差。

发明内容

在一个方面，一种编码器包括电路，电路配置为：接收视频帧；将视频帧拆分成块；确定视频帧内的第一区域，第一区域包括块的第一子集的第一分组；确定第一区域的信息的第一平均度量；以及对视频帧编码，编码包括基于第一区域的信息的第一平均度量控制量化参数。

在另一方面，一种方法包括通过编码器接收视频帧并将视频帧拆分成块。该方法包括确定视频帧内的第一区域，第一区域包括块的第一子集的第一分组。该方法包括确定第一区域的信息的第一平均度量。该方法包括对视频帧编码，该编码包括基于第一区域的信息的第一平均度量控制量化参数。

本发明中所描述的主题的一种或多种变形在下面的附图和说明书中有详细描述。结合说明书、附图和权利要求，本发明中所描述的主题的其他特征和优点将变得显而易见。

附图说明

为了对本发明进行说明，附图中示出了本发明的一个或多个实施例的方面。然而，应当理解本发明并不限于附图所示的精确配置和装置，其中：

图1是以4×4块为基本分割尺寸的用于编码视频的示例性过程的流程图，该过程可通过编码器使粒度更细，且该尺寸与设定的变换块尺寸一致；

图2是带人脸图片的分割和融合过程的说明性示例；

图3是根据当前主题的一些实施方式的分割和融合过程的另一示例的一系列图像；

图4是能够基于块融合、语境分割和处理图片的示例性视频编码器的系统方框图；和

图5是可用以实现本公开的方法中的任何一种或多种及其任何一部分或多个部分的计算系统的方框图。

附图并非一定按比例绘制，而是以虚线、示意图和局部视图示出。在某些情况下，省略了对于理解实施例并非必要的或者使得其他细节难以理解的细节。在各附图中，相同的标号表示相同的要素。

具体实施方式

当前主题的一些实施方式涉及一种以样本块为基本单元执行图片分割的视频编码方法。样本块的尺寸一致，块尺寸可以是边长尺寸，以正方形像素为单位，例如但不限于，本公开的实施例可使用4×4样本块作为基本单元，以便与视频和图像编码中变换的一些典型标准尺寸保持一致。通过将4×4块作为基本分割尺寸，当前主题的一些实施方式允许通过编码器使粒度更细并且该尺寸与变换块的设定尺寸一致，使得可利用标准和定义的变换矩阵提高编码效率。另外，该方法与一些现有编码方法形成对比，现有的编码方法使用相对较大尺寸的固定块结构。本领域技术人员在阅读本公开的全部内容后应当理解，根据任何测量方法，通常任何尺寸或形状的样本块均可用于图片拆分和/或分割，尽管为了简洁起见，在后面的许多示例中仅描述了4×4的样本块。

在一些实施方式中，当前主题包括使用可分析和处理语境和语义图片的基于区域的块融合方法。

图1是使用4×4块作为基本分割尺寸的用于编码视频的示例性过程的流程图，该过程允许通过编码器实施和/或执行，以使粒度更细；该尺寸与变换块的设定尺寸一致。在步骤105中，视频帧由编码器接收。也可以以任何适用于从任何设备和/或输入端口以视频流和/或文件形式接收视频的方式来实现。接收视频帧可包括从编码器的存储器和/或与编码器通信、整合和/或已整合入编码器的计算设备的存储器中检索。接收可包括通过网络从远程设备接收。接收视频帧可包括接收由一个或多个视频组成的多个视频帧。

在步骤110中，并且继续参照图1，编码器将视频帧分割成块，例如，通过拆分将视频帧分成块，包括但不限于尺寸为4像素×4像素(4×4)的块。4×4的尺寸可与许多可分为整数个4×4块的标准视频分辨率相兼容。

在步骤115中，并继续参照图1，执行块融合。块融合包括确定视频帧内的第一区域，第一区域包括块的第一子集的第一分组。在块融合中，每个块可分配一个区域。分配逻辑，例如但不限于语义信息，可从外源获取；语义信息可在130中接收。作为非限制性示例，语义信息可包括面部检测器提供的信息，以使语义信息包括表征面部检测的数据。因此，第一分组可基于接收到的语义信息来确定。在一些实施方式中，分配逻辑可以是预设的，例如，根据多个聚类或分组算法预设。编码器可进一步配置为确定视频帧内的第二区域，第二区域包括块的第二子集的第二分组。

图2是带人脸图片的分割和融合过程的说明性示例的视图。例如，根据接收到的语义信息，将任何含有至少一个像素(例如但不限于脸部)属于目标对象(例如，通过接收到的语义信息识别的)的块分配给阴影区(A2)，并与该区域内的其他块融合。

再参照图1，在步骤120中，确定第一区域的信息的第一平均度量。例如，信息度量可包括该区域的细节层次。例如，平滑区域或高度纹理化的区域中含有不同数量的信息。

仍参照图1，作为非限制性示例，信息的第一平均度量可根据第一区域中各块的信息度量总和来确定，该信息度量可由显著性系数加权和/或与显著性系数相乘得出，例如，求和公式如下所示：

式中，N是第一区域的序列号；S

式中，

在一些实施方式中，可使用变换矩阵的整数近似算法，该整数近似算法可使用高效的硬件和软件来实现。例如，在上述块为4×4像素块的情况下，广义离散余弦变换矩阵可包括以下形式的广义离散余弦变换矩阵II：

对于每个块B

式中，T’是余弦变换矩阵T的横向；B

继续参照图1，其中，编码器进一步配置为确定视频帧内的第二区域(如上参照图1所做的描述)，例如但不限于第二子块的第二分组；编码器配置为确定该第二区域的信息的第二平均度量；信息第二平均度量的确定可如上面所描述的确定信息的第一平均度量来完成。

仍参照图1，显著性系数S

图3示出了根据当前主题的一些实施方式的分割和融合过程的另一示例的一系列图像。输入图像(a)可分割成4×4的块，如(b)所示。在(c)中，可使用预设逻辑将块融合到一组较大区域中，该区域包括但不限于一组16×16的相同区域，例如，如(d)所示。在(e)中，使用语义信息进行分割，在相应区域(A1、A2和A3)分割花田、云和晴空的其余部分，如(f)所示。在该示例中，区域A3的显著性系数最低，而区域A1的最高(背景最平滑)。

再参照图1，在步骤125中，对视频帧编码。该编码包括基于第一区域的信息的第一平均度量控制量化参数。量化参数包括、等于和/或与量化尺寸度量和/或量化级成比例和/或成线性关系。本公开中使用的“量化级”和/或“量化尺寸”是表示压缩视频帧中丢失信息量的数量数字。量化级可包括但不限于如整数的数字，用一个或多个包括但不限于变换系数的系数除以和/或减去该整数数字，减少编码及后续编码帧信息内容。控制可包括基于第一信息度量确定第一量化尺寸；量化级可表示捕获像素块中描述亮度和/或色度的信息所需的存储器直接或间接存储的度量，其中，通过信息的第一度量确定的信息的方差越大，存储所需的位数也越大。量化尺寸可基于上述的信息的第一度量，其中，信息的第一度量越大，量化尺寸越大，而信息的第一度量越小，量化尺寸越小。量化尺寸可与信息的第一度量成比例和/或线性相关。通常，信息内容越多，量化尺寸越大。通过控制量化尺寸，可将块融合区域的相关信息用于优化编码的率失真。控制可进一步基于第二区域的信息的第二平均度量进行。

在一些实施方式中，信息的第一平均度量可用于计算质量。

图4是能够基于块的图片融合和语境分割及处理的示例性视频编码器400的系统方框图。示例性视频编码器400接收输入视频404，输入视频可初始分割或拆分成4×4块，以供进一步处理用。

继续参照图4，示例性视频编码400包括帧内预测处理器408、运动估计和补偿处理器412(也称为帧间预测处理器)、变换/量化处理器416、逆量化和逆变换处理器420、环路滤波器424、解码图片缓冲器428和熵编码处理器432。可将比特流参数输入熵编码处理器432，使其包含在输出比特流436中。

仍参照图4，变换/量化处理器416能够执行块融合，并计算每个区域的信息的度量。

继续参照图4，在运行中，确定是通过图片内预测，还是利用运动估计/补偿来处理输入视频404的帧的每个块。可将块提供给帧内预测处理器408或运动估计和补偿处理器412。如果通过帧内预测处理该块，则由帧内预测处理器408执行处理，以输出预测变量；如果通过运动估计和补偿处理，则由运动估计和补偿处理器412执行处理。

仍参照图4，可通过从输入视频中减去预测变量来形成残差。残差可由变换/量化处理器416接收，由变换/量化处理器执行变换处理，例如离散余弦变换(DCT)，以生成可量化的系数。将量化系数及任何相关联的信令信息提供给熵编码处理器432，用以进行熵编码并将其包含在输出比特流436中。另外，可将量化系数提供给逆量化和逆变换处理器420，以再现像素，像素可与预测变量组合并由环路滤波器424处理；将其输出存储在解码图片缓冲器428中，以供运动估计和补偿处理器412使用。

应当注意的是，本发明中描述的方面和实施例中的任何一个或多个都便于用数字电子电路、集成电路、专门设计的应用型专用集成电路(ASIC)、现场可编程门阵列(FPGA)、计算机硬件、固件、软件和/或其组合实施。可在根据本说明书的教导编程的一个或多个机器(例如，用作用户电子文档计算设备的一个或多个计算设备、一个或多个服务器设备，例如文档服务器)中实现和/或实施对计算机领域的普通技术人员是显而易见的。这些各个方面或特征可包括在一个或多个可由可编程系统执行和/或解读的计算机程序和/或软件中实现的方式，该可编程系统包括至少一个可编程处理器，该可编程处理器可以是专用或通用的，耦接用以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向其传送数据和指令。熟练程序员可基于本公开的教导很容易地准备相应的软件编码，这对软件领域的普通技术人员是显而易见的。上述方面和实施方式采用的软件和/或软件模块还可包括用于协助实现机器执行软件和/或软件模块指令的相应硬件。

此种软件可以是采用机器可读存储介质的计算机程序产品。机器可读存储介质可以是任何能够存储和/或编码可由机器(例如，计算设备)执行的指令序列且使机器执行本发明中描述的方法和/或实施例中的任何一种的介质。机器可读存储介质的示例包括但不限于磁盘、光盘(例如，CD、CD-R、DVD和DVD-R等)、磁光盘、只读存储设备“ROM”、随机存取存储设备“RAM”、磁卡、光卡、固态存储设备、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、可编程逻辑设备(PLD)和/或其任意组合。本发明中所用的机器可读存储介质旨在包括单一介质和物理上相分离的介质集合，例如，光盘集合或一个或多个硬盘驱动器与计算机存储器的组合。本发明中所用的机器可读存储介质不包括信号传输中的瞬态存储形式。

此种软件还可包括作为数据信号在载波等数据载体上携带的信息(例如，数据)。例如，作为承载的数据信号在数据载体上实现的机器可读信息，其中，信号对指令序列或其一部分进行编码，以供机器(例如，计算设备)执行，以及任何可使机器执行本发明中描述的方法和/或实施例中的任何一个的相关信息(例如，数据结构和数据)。

计算设备的示例包括但不限于电子书阅读设备、计算机工作站、终端计算机、服务器计算机、手持设备(例如，平板电脑和智能手机等)、网络计算机、网络路由器、网络交换机、网桥、任何能够执行用于指示机器采取动作的指令序列的机器及其任意组合。在一个示例中，计算设备可包括和/或被包括在自助服务终端中。

图5示出了计算机系统500的示例形式的计算设备的一个实施例，在该计算机系统中，可执行一系列用于使控制系统执行本公开的方面和/或方法中的任何一个或多个的一组指令。还设想利用多个计算设备执行一组专门配置的指令，以使设备中的一个或多个执行本公开的方面和/或方法中的任何一个或多个。计算机系统500包括处理器504和存储器508，通过总线512相互通信，并且与其他组件通信。总线512可包括多种总线结构中的任何一种，包括但不限于使用各种总线体系结构中的任何一种的存储器总线、存储控制器、外围总线、本地总线及其任何组合。

存储器508可包括各种组件(例如，机器可读介质)，包括但不限于随机存取存储器组件、只读组件及其任意组合。在一个示例中，基本输入/输出系统516(BIOS)可存储在存储器508中，该基本输入/输出系统包括基本例程，帮助计算机系统500内的元件之间传递信息，如在启动期间。存储器508还可包括(例如，存储在一个或多个机器可读介质上的)实现本公开的方面和/或方法中的任何一个或多个的指令(例如，软件)520。在另一示例中，存储器508可进一步包括任意数量的程序模块，包括但不限于操作系统、一个或多个应用程序、其他程序模块、程序数据及其任意组合。

计算机系统500还可包括存储设备524。存储设备(例如，存储设备524)的示例包括但不限于硬盘驱动器、磁盘驱动器、光盘驱动器与光学介质的组合、固态存储设备及其任意组合。存储设备524可通过相应的接口(未示出)连接至总线512。示例性接口包括但不限于小型计算机系统接口(SCSI)、高级技术附件(ATA)、串行高级技术附件(SATA)、通用串行总线(USB)，IEEE 1394接口(火线)及其任意组合。在一个示例中，存储设备524(或其一个或多个组件)可以与计算机系统500可移除地连接，例如，经由外部端口连接器(未示出)。具体地，存储设备524及相关联的机器可读介质528可为计算机系统500的机器可读指令、数据结构、程序模块和/或其他数据提供非易失性和/或易失性存储。在一个示例中，软件520可全部或部分地驻留在机器可读介质528内。在另一示例中，软件520可全部或部分地驻留在处理器504中。

计算机系统500还可包括输入设备532。在一个示例中，计算机系统500的用户可经由输入设备532将命令和/或其他信息输入计算机系统500中。输入设备532的示例包括但不限于字母数字输入设备(例如，键盘)、定点设备，操纵杆、游戏手柄、音频输入设备(例如，麦克风和语音响应系统等)、光标控制设备(例如，鼠标)、触摸板、光学扫描仪、视频捕获设备(例如，照相机和摄像机)、触摸屏及其任意组合。输入设备532可经由各种接口(未示出)中的任何一个连接至总线512；接口包括但不限于串行接口、并行接口、游戏端口、USB接口、火线接口、总线直接接口512及其任意组合。输入设备532可包括触摸屏界面，该触摸屏界面可以是显示器436的一部分或与显示器536分开，下面将做进一步探讨。输入设备532可用作用户选择设备，用以在如上所述的图形界面中选择一个或多个图形表示。

用户还可经由存储设备524(例如，可移动盘驱动器和闪存驱动器等)和/或网络接口设备540将指令和/或其他信息输入计算机系统500。网络接口设备(如网络接口设备540)可用于将计算机系统500连接至多个网络中的一个或多个，如网络544，以及连接至与其连接的一个或多个远程设备548。网络接口设备的示例包括但不限于网络接口卡(例如，移动网络接口卡、局域网LAN接口卡)、调制解调器及其任意组合。网络示例包括但不限于广域网(例如，互联网和企业网络)、局域网(例如，与办公室、建筑物、校园或其他相对较小的地理空间相关联的网络)、电话网络、与电话/语音提供商相关联的数据网络(例如，移动通信提供商的数据和/或语音网络)、两个计算设备之间的直接连接及其任意组合。网络可采用有线和/或无线通信模式，如网络544。通常，可使用任何网络拓扑结构。信息(例如，数据和软件520等)可经由网络接口设备540传送给计算机系统400和/或从计算机系统500传送。

计算机系统500可进一步包括视频显示适配器552，用以将可显示图像传送至显示设备，如显示设备536。显示设备的示例包括但不限于液晶显示器(LCD)、阴极射线管(CRT)、等离子显示器、发光二极管(LED)显示器及其任意组合。显示适配器552和显示设备536可与处理器504结合使用，以提供本发明的方面的图形表示。除显示设备外，计算机系统500可包括一个或多个其他外围输出设备，包括但不限于音频扬声器、打印机及其任意组合。该外围输出设备可经由外围接口556连接至总线512。外围接口的示例包括但不限于串行端口、USB接口、火线接口、并行接口及其任意组合。

上文中已经对本发明的说明性实施例进行了详细描述。在不脱离本发明精神与范围的前提下，可对本发明做各种修改和增添。上述多个实施例中的每一个实施例的特征都可根据情况与其他所述实施例的特征相组合，以便在相关的新实施例中提供多种特征组合。此外，虽然上文中描述了多个单独的实施例，但是本发明中的描述仅仅是对本发明原理的应用的说明。另外，尽管本发明的特定方法被示出和/或描述为以特定顺序执行，但该顺序在普通技术内是高度可变的，以实现本公开的实施例。因此，本说明书仅作示例之用，而并非旨在限制本发明的范围。

在以上的说明书和权利要求中，可出现“至少一个”或“一个或多个”等短语，其后跟元素或特征的关联列表。术语“和/或”也可用于包含两个或两个以上元素或特征的列表中。除非另有暗示或明确说明与上下文中使用的短语相矛盾，否则该短语旨在意指单独列出的任何元素或特征，或与其他列举的元素或特征相结合的任何列举的元素或特征。例如，短语“A和B中的至少一个”、“A和B中的一个或多个”以及“A和/或B”分别旨在意指“单独的A、单独的B或A和B”。类似的解释还适用于包含三个或三个以上项目的列表。例如，短语“A、B和C中的至少一个”、“A、B和C中的一个或多个”以及“A、B和/或C”分别旨在意指“单独的A、单独的B、单独的C、A和B、A和C、B和C，或A、B和C”。

本发明中描述的主题可根据期望配置在系统、装置、方法和/或物品中实现。前面说明书中阐述的实施方式并不代表与本发明中所描述的主题相一致的所有实施方式。相反，它们仅是与所述主题相关的方面相一致的一些示例。尽管上面已经详细描述了一些变化，但是其他修改或增添也是可以的。除了前面阐述的变化之外，尤其是还可提供其他特征和/或变化。例如，上面所描述的实施方式旨在提供公开特征和/或组合的多种组合和子组合和/或上面公开的几个其他特征的组合和子组合。另外，附图中所示和/或本发明中所描述的逻辑流程不一定需要按所示的特定顺序或先后顺序来实现期望的结果。其他实施方式也可在所附权利要求的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于语境分割和处理的基于块的图片融合 [P] . 中国专利： CN113170134A . 2021-07-23
2. 通过几何自适应块分割将图片转换成用于视频编码的视频块的系统和方法 [P] . 中国专利： CN110870308A . 2020-03-06
3. Block-based picture fusion for context segmentation and processing [P] . KR20210094030A . 2021-07-28

机译：基于块的上下文分割和处理的图像融合
4. BLOCK-BASED PICTURE FUSION FOR CONTEXTUAL SEGMENTATION AND PROCESSING [P] . EP3888366A1 . 2021-10-06

机译：基于块的上下文分割和处理的图像融合
5. Images e.g. two dimensional-radioscopy image and virtual endoscopy image, fusing device for C-arm device, has image fusion unit for generating image representation from segmented surface with projected image point [P] . 德国专利： DE102006046735A1 . 2008-04-10

机译：图片例如二维放射线图像和虚拟内窥镜图像，用于C臂设备的融合设备，具有图像融合单元，用于从具有投影图像点的分割表面生成图像表示