首页> 中国专利> 用于视频会议环境中景深导向图像滤波的系统和方法

用于视频会议环境中景深导向图像滤波的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

在实施例中提供了一种方法，包括接收对应于图像的像素的多个景深值；根据与所述图像相关联的窗口中相邻像素间多个景深值的差异对所述图像进行滤波。在更详细的实施例中，方法还包括将图像编码成通过网络传输的比特流，其中滤波包括占用与该图像的编码相关联的比特率。

著录项

公开/公告号CN104012086A

专利类型发明专利
公开/公告日2014-08-27

原文格式PDF
申请/专利权人思科技术公司;
展开▼

申请/专利号CN201280062743.0
发明设计人田第鸿;
展开▼

申请日2012-12-12
分类号H04N13/00;
代理机构北京东方亿思知识产权代理有限责任公司;
代理人李晓冬
地址美国加利福尼亚州
入库时间 2023-12-17 01:24:36

法律信息

法律状态公告日

法律状态信息

法律状态
2017-05-31

授权

授权
2014-09-24

实质审查的生效 IPC(主分类):H04N13/00 申请日:20121212

实质审查的生效
2014-08-27

公开

公开

说明书

技术领域

本发明一般地涉及通信领域。更具体地，本发明涉及用于视频会议环境下景深导向(depth-guided)的图像滤波的系统和方法。

背景技术

近来视频架构变得越来越复杂。一些视频架构可以使用先进的视觉、听觉以及协同技术来递送人与人之间实时、面对面的交互。在某些架构中，服务供应商可以为他们的终端用户提供精细的视频会议服务，其可以通过网络模拟“身临其境(in-person)”的会谈体验。对于尝试提供现实化并模仿真实会谈的视频会议方案的开发和设计人员来说，在某些比特限制下优化视频会议过程中的视频编码和解码能力提出了巨大的挑战。

附图说明

为了更全面地理解本公开及其特征和优势，联系附图参考了以下描述，图中相似的标号代表相似的部分，其中：

图1是示出了根据本公开的通信系统的示例性实施例的简化框图；

图2A是示出可能与视频处理单元相关的附加的细节的简化框图，其中景深导向滤波器被与视频编码器耦接以对图像进行编码；

图2B是示出可能与视频处理单元相关的附加的细节的简化框图，其中景深导向滤波器被与视频解码器耦接以对图像进行解码；

图3是示出可能与视频处理单元的另一实施例相关的附加的细节的简化框图，其中景深导向滤波器作为前置滤波器被与视频解码器耦接；

图4是示出可能与视频处理单元的另一实施例相关的附加的细节的简化框图，其中景深导向滤波器是环路滤波器；

图5是示出可能与视频处理单元的另一实施例相关的附加的细节的简化框图，其中景深导向滤波器是环路滤波器；并且

图6是示出了与本公开相关的行为的一个可能集合的简化流程表。

具体实施方式

概述

在实施例示例中给出了一种方法，包括接收对应于图像的像素的多个景深值。这种方法同时也包括

根据与所述图像相关联的窗口中相邻像素间多个景深值的差异(例如差值)对所述图像进行滤波(例如调整、修改、完善)。在更为详细的实施例中，这种方法包括将图像编码成通过网络传输的比特流。滤波可以占用和图像编码相关的比特率。

在其它实施例中，方法包括接收对应于像素的亮度值，滤波是相邻像素间亮度值的多个差异的函数。图像滤波包括对一些景深值差异低于阀值的相邻像素进行平滑。图像经过由反变换器、反量化器以及基于先前编码的预测补偿器构成的环路进行滤波。窗口可以包含来自空间域或者时间域的像素。滤波可以保留对应于离观察点更近的景深值的像素点，而不是对应于离观察点很远的景深值的像素点。

示例性实施例

转到图1，图1是简化的示意框图，示出了根据本公开的一个实施例的用于举行视频会议的通信系统100。图1包括与视频会议不同的终端用户相关的多个端点。一般来说，端点在地理上是分离的，在这个特定示例中，多个端点112a-112c位于加利福尼亚州的圣何塞，并且远程端点(未示出)位于伊利诺伊州的芝加哥。图1包括耦接至112a-112c的多点管理者元件120。注意分配至端点的数字和字母指示符不代表任何类型的层级关系；指示符是任意的而且仅用于教导目的。这些指示符不应当被以任何方式解释为限制其在可能受益于通信系统100的特征的潜在环境中的能力、功能或应用。

在该示例中，每个端点112a-112c被沿着长桌自然地放置并且靠近于与其相关联的参与者。由于图1仅提供针对本文的概念的多种可能实现方式中的一种，在任何其它合适的位置都可以提供这种端点本文。在一个示例实现方式中，端点是可以帮助接收和发送视频和音频数据的视频会议端点。其它类型的端点当然在概述出的“端点”概念的广义范围内，并且这些示例端点中的一些会在下文被进一步描述。每个端点112a-112c被配置为可与各自的多点管理者元件120交互，这有助于协调和处理终端用户正在传输的信息。

如图1所示，若干图像捕获设备114a-114c以及显示屏115a-115c被提供以与端点112a-112c分别进行交互。显示屏115a-115c呈现将被会议参与者看到的图像，在本特定示例中表现的是三显示屏设计(例如，“三个一组(triple)”)。注意用在此说明书中的术语“显示屏”指的是能够在视频会议期间呈现的图像的任何元件。这就必然包含任何平板、屏幕、远程出席显示屏或显示墙计算机显示屏、等离子元件、电视、监控器、或者能够实现这样的呈现的任何合适的表面或元件。

通信系统100的组件可以使用专用的应用程序和硬件以创建能够利用网络的系统。通信系统100可以使用标准IP技术并且对集成的语音、视频和数据网络进行操作。这个系统也可以使用宽带连接来支持高质量、实时的语音和视频通信。针对诸如视频的高带宽应用例如，它还可以进一步具有确保服务质量(QoS)、安全性、可靠性和和高可用性的能力。所有终端用户的功耗和以太网连接可以得到供应。参与者可以使用他们的膝上型计算机访问会议的数据、加入会议所在地的协议或者web会话，或者在整个会议期间与其它应用保持连接。

为示出通信系统100的某些示例技术，理解一些可以通过网络的通信和图像处理技术很重要。下面的基本信息可以视为本发明的基础，本发明由此可以得到合理的解释。

概念上来说，图像可以被描述为任何重现形状的形态(例如物体或场景)的电子元件(例如人工产品)例如。在许多情境中，图像可能是视觉形成的复制品或者某个主题的再先，例如物体或场景的二维照片。从更广泛的认识来说，图像还可以包括信息的任何二维表现，例如素描、油画、或者地图。视频是一系列图像，其中每一个静止的图像通常被称为一 “帧”。

概括地说，数字图像是图像的数字表示。数字图像最常通过一组二进制值(行和列)表示，其中每个二进制值是一个图片元素(即“像素”)。像素保持代表在图像的二维空间中任何特定点处给定颜色的密度(或者 “亮度”)的量化值。通常可以根据这些值(样本)的数量和性质(例如二进制、灰阶、或者颜色)来对数字图像进行分类。通常像素作为小型整数(即光栅图像或者栅格图)的二维阵列被保存在计算机的存储器里。

图像(或者视频)可以由具有将光转换成电荷的传感器的光学设备 (例如数码相机或者扫描仪)捕获例如。随后电荷可以被转换成数字值。通过使用原始图像格式，一些数码相机可以获取几乎所有由相机捕获的数据。图像还可以从任意的非图像信息合成得出，例如数学函数或者三维几何模型。

来自数字图像捕获设备的图像通常接收更多处理以提高它们的质量和/ 或减少对资源(例如存储和带宽)的例如消耗，数码相机经常包含专用数字图像处理单元(或芯片)以将来自图像传感器的原始数据转换成具有标准图像文件格式的颜色校正图像。图像处理通常包括输入是图像(例如照片或者视频帧)的任何形式的信号处理例如。图像处理的输出既可以是图像，也可以是与图像相关的特性或者参数的集合。多数图像处理技术包含将图像作为二维信号进行处理，并对其应用标准信号处理技术。

数字图像可以被编码(或被压缩)以减少或消除图像数据中不相关和冗余的内容，从而提高存储和/或者传输效率。例如，通用压缩一般包括用于去除冗余数据的熵编码。然而在没有尝试以更易被压缩的形式代表信号的图像模型的情况下，针对图像数据的熵编码经常不太有效。尝试这种模型利用图像(或视频)的主观冗余。也可以包括评估并补偿运动的运动模型也可以被包含以利用通常在视频中发现的显著的暂时冗余。

图像编码器通常以样本块的形式处理图像数据。每一个块可以(例如通过离散余弦转换)被转换例如成空间频率系数。转换后的图像数据中的能量倾向于集中在少数重要系数中；其它系数通常接近零或者不显著。转换后的图像数据可以通过用整数去除每个系数后丢弃剩余部分的方法(通常仅剩下少数非零的系数)被量化，，这可以很容易使用熵编码器进行编码。在视频中，如果从当前帧中减去在前帧，那么将被编码的数据量可以得到显著减少。

数字图像处理通常还包括意在提高图像质量的某些形式的滤波，例如通过减少噪声和其它不希望的伪迹(artifact)进行滤波。图像噪声一般可以被定义为未被显示在目标图像上的亮度或颜色信息的随机变化。图像噪声通常是可以由捕获设备的传感器和/或其它电路生成的电噪声的一方面。图像噪声也可能在量化的过程中生成。在视频中，噪声还可能指作为点噪声的结果被叠加在图像上的随机点图样。从其不被希望的角度来看，干扰和静电是其它形式的噪声，其会影响信号传输。

平滑滤波器尝试在减少或消除噪声或其它精细尺度结构的同时保留图像的重要图案。可以在滤波器中可以实现许多不同的算法来平滑图像。其中一种最常用的算法是“移动平均”，经常被用来捕获重复的统计测定中的重要趋势。例如，噪声滤波器通常尝试判定构成噪声或真实照片细节的像素值之间的实际差别，在删除构成噪声的像素值的同时努力保留构成真实照片细节的像素值。然而，经常需要在移除噪声和保留细微的、其特征可能类似噪声的低区别度细节中进行折衷。其它滤波器(例如去块滤波器) 可以被用于提高视觉质量以及预测性能，例如当使用块编码技术时，通过平滑可以在宏块之间形成的尖锐边缘来提高视觉质量以及预测性能。

图像纹理也可以在图像处理时被计算以量化图像的感知纹理。图像纹理数据提供关于图像或图像的某一选定区域的颜色或亮度的空间排布信息。采用边缘检测确定特定区域内边缘像素的数量有助于判断纹理复杂度的特性。边缘被发现后，边缘的方向也可以作为纹理的特性被应用并且可以被用于判定纹理的图样。这些方向可以通过平均值或者柱状图表示。图像纹理对于图像分类和分割也很有用。一般而言，存在两种主要的根据图像纹理的分割方法：基于区域的分割方法和基于边界的分割方法。基于区域的分割方法一般尝试基于共同的纹理特性对像素进行分组或分集群。而基于边界的分割尝试基于源自不同纹理特性的像素间的边缘对像素进行分组或分集群。虽然图像纹理并不总是完美分割度量，但它可以和其它度量(例如颜色)一起使用例如以辅助图像分割。

在3-D成像中，图像可能伴随有包括对应于图像的第三维信息的景深图：指示场景中的目标到视点的距离。从这个意义上来说，景深是显示给定的图像内任何形式的度量的广义术语。景深图中的每一个景深值可以对应图像中的像素，其可以与其它图像数据(例如亮度值)相关。景深图可以被用于3-D视频系统的虚拟视图合成(例如，3DTV，或者用于人机交互姿态识别的系统，例如MICROSOFT的KINECT).

从视频编码的角度看，景深图也可以被用于(通常沿着大的景深中断) 将图像分割成多个区域。每个区域随后可以被以可能不同的参数分别编码。将每个图像分割成前景和背景是一个示例，其中离视点更近的前景对象和离视点相对较远的背景对象被区别开来。这种分割对现场主要由参会者 (即人)构成的远程出席和视频会议尤其有意义。

然而，仅仅针对图像分割使用景深图不能充分利用信息来优化图像编码。通常区域内的像素在编码分割后被平等对待：而不论它们在区域内相对于其它区域的位置如何。例如在前景-背景示例中，彩色图像中的像素块或者被编码成前景或者被编码成背景，这缺乏使用景深来改善图像编码细粒度的途径。

依照本文公开的实施例，通信系统100可以通过提供景深导向的图像滤波克服这种(以及其它的)不足。更具体的，通信系统100可以使用对应于图像生成的景深图来提供用于处理图像序列的系统和方法。景深图和图像的纹理数据被用来形成可以应用于图像的滤波器。这种系统和方法对于诸如通信系统100的会议环境中(其中图像在比特率受限的情况下被编码并通过网络被传输)尤其有优势，但是滤波器也可以独立于图像编码被有利地应用。

在最为通常的层面上，本文描述的系统和方法可以包括：例如从3-D 摄像头接收图像和景深图，并且根据景深图对图像进行滤波，这样在减少或者消除图像噪声时具有景深中断和亮度差别的图像细节可以被保留下来。当耦接至视频编码器时，图像可以被进一步滤波，这样离视点更近的目标的细节会优先于离视点远的目标的细节被保留，在编码图像的比特率受限时尤其有用。例如对于H.264或者MPEG-4这样基于块的视频编码器，滤波可以减少编码的伪迹，例如由于量化错误引入的伪迹。当耦接至视频编码器时，景深导向的滤波器可以更进一步起到掩盖部分图像崩溃生成的错误的作用，例如传输过程中可能发生的数据丢失。

在转到通信系统100的一些额外的操作前，提供关于图1的一些基础设施的简要的讨论。端点112a可以被希望参与通信系统100中的视频会议的人使用。术语“端点”可以包含用于发起通信的设备，例如交换机、控制台、专用端点、电话、介质桥接器、计算机、个人数字助理(PDA)、膝上型计算机或者电子笔记本、iPhone、iPad、Google的Droid，或者能够在通信系统100内发起语音、音频、或数据交换的任何其它形式的智能手机，或者任何其它设备、组件、元件或对象。在一些实施例中，图像捕获设备可以与端点，尤其是移动端点集成在一起。

端点112a也可以包括到终端用户的合适的接口，例如麦克风，显示屏，键盘或者其它终端设备。端点112a也可以包括任何能够代表另一个实体或元件寻求发起通信的设备，例如能够在通信系统100内发起语音或数据交换的程序、数据库、或者任何其它组件、设备、元件、或对象。本文使用的数据指的是任何形式的视频、数字、声音、或者脚本数据，或者任何其它形式的源代码或者目标代码，或者能够从一个点传输至另一个的格式的任何其它能合适的信息。关于端点的其它细节将参照图2在下面被给出。

在实际应用中，多点管理者元件120可以被配置为能在单个或多个终端用户间建立或者推动视频会议，这些终端用户可以位于各种其它位置和场所。多点管理者元件120也可以协调并处理各种涉及端点112a-112c的策略。一般多点管理者元件120可以通过任何标准或私有会议控制协议与端点112a-112c通信。多点管理者元件120包含判定哪些信号将被路由至各个端点112a-112c的交换元件。多点管理者元件120也可以决定各个终端用户以何种方式被视频会议的其它参会者看见。此外，多点管理者元件 120可以控制这项活动的时机和协调。多点管理者元件120也可以包含能复制信息或数据的介质层，这些信息或数据随后被重新传输或简单发送到一个或多个端点112a-112c。

图2A是示出可能与视频处理单元204a相关的额外细节的简化框图，其中景深导向滤波器被耦接至视频编码器以编码图像。在这个示例性实施例中，视频处理单元和图像捕获设备114a集成在一起，图像捕获设备 114a也可以包含图像传感器单元202。视频处理单元204a还可以包含处理器206a、存储器元件208a、带景深导向滤波器的视频编码器210、滤波器参数控制器212a、以及码率控制器214a。视频处理单元204a可以与专有元件、服务器、网络设备，或者能够执行本文讨论的操作的任何其它合适的组件、设备、模块或元件相联系。

视频处理单元204a也可以被配置为储存、汇总、处理，输出和/或者保持并以任何合适的格式记录(log)图像数据，这些活动可以涉及处理器 206a以及存储器元件208a。视频处理单元204a一般被配置为经由某种连接将来自图像传感器单元202的信息作为信号(例如图像信号或视频信号) 接收。在图2A的实施例示例中，视频处理单元204a被与图像捕获设备 114a集成在一起，但是图像捕获设备114a可以独立于视频处理单元204a 被实现，或者可能与通信系统100的其它元件集成在一起，例如端点112a 或者多点管理者元件120。

视频处理单元204a能够过无线连接与图像处理单元202接口连接，或者通过允许信号在这两个元件之间传播的一个或多个电缆或导线接口连接。这些设备还可以接收来自中间设备、远程控制器等的信号，这些信号一般包括红外、蓝牙、WiFi、电磁波、或者任何其它合适的能将数据从一个元件(例如可能通过网络)传输到另一个元件的传输协议。事实上可以利用任何控制路径以在视频处理单元204a和图像传感器单元202a间传输信息。在某些实施例中这两套设备之间的通信可以是双向的，从而这些设备可以彼此交互(例如动态交互、实时交互等)。这允许设备确认来自对方的传输并在合适的情况下提供反馈。这些设备中的任何可以基于特殊的配置需求彼此合并，或者独立工作。例如，一个单个的盒子可以具有音频和视频接收能力(例如包括视频处理单元204a，以及用于捕获视频和音频数据的摄像头和麦克风的机顶盒)。

一般来说，视频处理单元204a是视频元件，倾向于包含任何合适的单元、模块、软件、硬件、服务器、程序、应用、应用程序接口(API)、代理、处理器，现场可编程门阵列、可擦除可编程制度存储器 (EPROM)、电可擦除可编程ROM(EEPOM)、专用集成电路 (ASIC)、数字信号处理器(DSP)、或者任何其它被配置为能处理视频数据的合适的设备、组件、元件、或者对象。这种视频元件可以包含任何合适的硬件、软件、组件、模块、接口、或者任何能实现以上操作的对象。这可以包括合适的算法以及允许数据或信息有效交互(接收和/或传输)的通信协议。

在其它的实施例中，视频处理单元204a可以是网络单元，或者可以与网络单元集成在一起。网络元件通常包括可操作来在网络环境中交换信息的路由器、交换机、网关、网桥、负载平衡器、防火墙、服务器、处理器、模块，或者任何其它合适的设备、组件，元件，或者对象。这同样包括配备有能满足独特场景或者特殊环境的特定特征的专有元件。

视频处理单元204a可以与其它视频单元共享(或协调)某些处理操作。存储器元件208a可以以任意数量的可行方式来存储、保持、和/或更新数据。通常情况下，本文描述的排列在表达上可能逻辑性更强，而物理结构则可以包括这些元件的各种排列/组合/混合。

在一个实施示例中，视频处理单元204a可以包括(例如，作为视频编码器210的一部分)的软件实现本文描述的某些操作。在其它实施例中，操作可以被提供在先前提到的元件外部，或者被包含在一些其它的视频元件或者终端(其中任一可以是专有的)里以实现这种预期功能。或者，像本文概述的那样，一些元件可以替代地包含能够协同以实现操作的软件 (或者应答软件)。在其它实施例中，本文示出的任何设备可以包含能实现本文公开的操作的任何合适的算法、硬件、软件、组件、模块、接口、或者对象，包括景深导向图像滤波器。

在视频会议环境下，图像传感器单元202可以将参会者和其它场景元素作为图像流216和景深图218的序列捕获。每个图像216和景深图218 可以作为信号被传递到视频处理单元204a内的视频编码器210。视频编码器210包含将信号滤波并编码成比特流220的景深导向滤波器，信号可以例如被传送到视频会议的另一个端点。通过从码率控制器214接收指令并且向码率控制器214提供视频编码的码率统计数据，视频编码器210可以在码率控制器214的控制下工作。滤波参数控制器212a也会收到来自码率控制器214的指令，并且基于图像216和景深图218判定景深导向滤波器的参数。例如，编码后的比特流可以包含例如压缩的图像数据、景深值、和/或来自滤波器参数控制器212a的参数。

图2B是示出可能与视频处理单元204b相关的其它的细节的简化的框图，其中景深导向滤波器被耦接至视频解码器以解码图像。视频处理单元 204b和视频处理单元204a相似，也包含各个处理器206b、存储器元件 208b、滤波器参数控制器212b，也可以被配置为能够存储、汇总、处理、输出、和/或保持并以任何合适的格式记录图像数据，这些活动可以涉及处理器206b和存储元件208b。它还和视频处理单元204a具有很多其它的共同特征，包括各种实施例中视频单元和/或网络元件的特征。在一些实施例中，视频处理单元204a和视频处理单元204b的元件可以被集成为一个单元。视频处理单元204b和视频处理单元204a不同的地方在于它包含视频解码器222，并且基于接收的景深值和滤波器参数将比特流解码为能在合适的输出设备(例如显示屏115a)上呈现的图像。视频处理单元204b通常被配置为能通过某种连接接收来自比特流的信息，连接可以是无线连接，或者通过允许信号传播的一种或多种电缆和导线。

图3是示出可以与视频处理单元的另一实施例相关的其它细节的简化的框图，其中景深导向滤波器作为前置滤波器被与视频编码器耦接。在这个实施例示例中，视频处理单元302和包括图像传感器202的图像捕获设备114a集成在一起。视频处理单元302与视频处理单元204a相似，也包含处理器304、存储器元件308、滤波器参数控制器312、码率控制器314，也可以被配置为能够存储、汇总、处理、输出、和/或保持并以任何合适的格式记录图像数据，其中这些活动可以涉及处理器304和存储元件308。它还和视频处理单元204a具有很多其它的共同特征，包括各种实施例中视频元件和/或网络元件的特征。

视频处理单元302通常被配置为通过某些连接从图像传感器单元将信息作为信号接收，连接可以是无线连接，或者通过允许信号传播的一种或多种电缆和导线。在图像316被以视频编码器320编码先前，视频处理单元302基于景深图318将景深导向滤波应用到图像316上，这样图像316 中对应于景深中断和亮度变化的边缘可以被保留下来，而图像316中的噪声被移除或减小。

图4是示出可以与视频处理单元的另一实施例相关的其它细节的简化的框图，其中景深导向滤波器是环路滤波器。视频编码器402通常被配置为通过某种连接将图像信息作为信号接收，连接可以是无线连接，或者通过允许信号传播的一种或多种电缆和导线。在视频编码器402的示例性实施例中，图像可以在样本的块或者宏块中被处理。一般而言，视频编码器能，例如在转换和量化模块404中将每个块转换成空间频率系数，用整数去除每个系数并丢弃剩余部分。然后由此得到的系数例如，通过熵编码模块406被编码。

预测(帧内/帧间预测模块408)也可以用来增强编码，例如通过运动补偿。预测可以基于先前的编码数据被形成，先前的编码数据或者来自当前时间帧(帧内预测)或者来自其它已经被编码的帧(帧间预测)。例如，反变换和反量化模块410可以被用来重调节已量化的转换系数的大小。每个系数可以被乘以整数值以恢复其原始大小。反变换可以合并由重新调节大小的系数加权的标准基本模式，从而重创建每一个数据块。这些块可以被组合在一起以形成宏块，预测可以被从当前的宏模块中减去以形成残余部分。

在具有环路滤波器的视频编码器(例如视频编码器402)中，当使用块编码技术时，通过平滑可以形成在宏块之间的尖锐边缘，去块滤波器 412也可以被应用于已解码视频的块中以提高视觉质量和预测性能。在视频编码器402中，在反变换和反量化、去块滤波和预测补偿后，景深导向滤波器414可以应用于图像。通过将景深信息和纹理数据相融合，景深导向滤波器可以帮助减少编码伪迹，例如由量化误差引起的伪迹。

图5是示出可以与视频处理单元的另一实施例相关的其它细节的简化框图，，其中景深导向滤波器是环路滤波器。视频解码器502通常被配置为通过一些连接接受来自比特流的信息。熵编码、反变换和反量化模块 504可以用来解码以及重新调节来自比特流的已量化的变换系数。每个系数可以被乘以整数值以恢复其原始大小。。反变换可以合并由重新调节大小的系数加权的标准基本模式，重新建立每一个数据块。这些块可以被组合在一起以形成宏块。在具有环路滤波器(例如视频解码器502)的视频编码器中，当使用块编码技术时，通过平滑可以形成在宏块之间的尖锐边缘，去块滤波器506也可以被应用于已解码的块中以提高视觉质量和预测性能。在视频解码器502中，景深导向滤波器508可以被应用于去区块滤波器506之后。景深导向滤波器508对于图像部分损坏(例如传输数据丢失期间)的情况下的错误隐藏也具有优势。

景深导向滤波器的一种示例形式可以被定义为：

$DGF (p) = \frac{1}{w_{p}} Σ_{q \in S} G_{σ_{d}} (| D_{p} - D_{q} |) \cdot G_{σ_{γ}} (| I_{p} - I_{q} |) \cdot I_{q}$

在公式中，p是待滤波的中心像素，q是窗口S中的相邻像素。D_p、 I_p和D_q、I_q分别代表这两个像素的景深和亮度值；和是标准差为σ_d和σ_γ的零均值高斯分布，分别根据景深和纹理控制高斯平滑的强度；W_p是标准系数：

$W_{p} = Σ_{q \in S} G_{σ_{d}} (| D_{p} {- D}_{q} |) \cdot G_{σ_{γ}} (| I_{p} - I_{q} |)$

一般来说，滤波窗口包括待滤波像素(“中心”像素)周围的有限组像素。这个窗口典型情况下关于中心像素对称，但是在某些实施例中也可能不对称。这个窗口可以是方形(例如3x3、5x5等)，但也可能是圆形或者其它形状的。窗口S可以包括来自空间或者时间区域(例如相邻社区) 或者这两者的像素。在这个景深导向滤波器的示例性实施例中，所有的像素被赋予相同的权重，不论它们离中心像素p的空间或时间距离，但是在其它实施例示例中，根据到中心像素的距离相邻的像素可能被赋予不同的权重。这样的不同权重也遵守根据像素距离的高斯分布。替代地，可以用其它的分布替代高斯分布，例如吉布斯分布(也被称为吉布斯测度)或者用户定义的分段线性/非线性函数。

本文描述的景深导向滤波器可以被用于消除和图像生成(例如，来自视频摄影头，并用以减小编码误差例如量化误差)相关的空间和时间噪声。通过同时考虑景深和纹理差异，可以进行滤波操作从而具有很小景深亮度差异(因此，可能是噪声)的像素被平滑，同时那些具有大景深和亮度差异的像素被保留下来。最终，图像中轮廓和纹理密集的区域的细节明显得到增强。

每个高斯平滑效果的强度由标准差(即σ)控制。强度直接正比于标准差的大小。结果，滤波后很少细节被保留下来。在视频编码中，这意味着可以存在较少的待编码信息。因此，通过根据像素景深调整σ_d，对于离视点近的对象可以更好地保留更多细节，对于较远的物体则可以保留较少细节。在码率控制器下工作时，这种调整会占用可供现有图像编码的码率。

当被包含于视频解码环路中时，景深导向滤波器也可以被操作来隐藏解码错误，例如由网络传输过程中的数据丢失引起的解码错误(假设相应的景深数据被正确接收)。例如，错误隐藏过程可以包括首先复制来自不同位置的先前解码的图像的图像数据，选择与接收到的景深图中的不连续最为一致的强边缘，并且将景深导向的滤波应用于以上步骤形成的图像。

图6是示出可以与根据本公开的视频编码器和/或解码器的示例性实施例相关联的可能操作的简化流程表600。在602，对应于图像的像素的景深值可以被接收。在604，对应于像素亮度值被接收。在606，图像作为以窗口的相邻像素的景深和亮度值的差异为参数的函数被滤波。例如，滤波可以包括平滑景深值差异低于可配置阀值的相邻像素阀值。一般来说，相较于离视点更远的景深值对应的像素，滤波会保留离视点更近(优先地) 的景深值对应的像素。在608，图像被编码成用于(例如通过网络接口) 传输的比特流。

在610，编码的比特流可以与景深信息以及其它编解码器参数一起被传输，并在612被接收。在614，景深信息以及其它编解码器参数可以被用于将比特流解码成图像。注意这种景深导向的滤波可以提供显著优势，其中的一些优势已经被讨论过。特别地，景深图可以被用于通过减少噪声和编码错误来提高图像质量。景深导向的滤波还可以提供图像细节的精细粒度控制。

在某些示例性实现方式中，本文给出的图像处理函数可以由编码于一个或多个有形介质中的逻辑来执行(例如提供在专用集成电路(ASIC)中的嵌入逻辑、数字信号处理器(DSP)指令、将由处理器或其它类似的机器执行的软件(潜在地包括目标代码和源代码)，等等)。在其中的一些实例中，存储器元件(如图2A和2B所示)可以存储本文描述的操作中用到的数据。这包括存储器元件能够存储软件、逻辑、代码或者可以被执行以实现本文描述的活动的处理器指令。处理器可以执行与数据相关的任何形式的指令以实现本文详述的操作。在一个示例中，处理器(如图2A和图2B所示)能将元件或物体(例如数据)从一种状态或情况转换到另一种状态或情况。在另一个示例中，本文概述的活动可以通过固定逻辑或可编程逻辑(例如，通过处理器执行的软件/计算机指令)被实现，并且本文提到的元件可以是某种形式的可编程处理器、可编程数字逻辑(例如现场可编程门阵列(FPGA)、可擦除可编程只读存储器(EPROM)、电可擦除可编程存储器(EEPROM)或者包括数字逻辑、软件、代码、电器指令的ASIC、或其任何合适组合)。

在一些实现方式中，视频处理单元(或者通信系统100的其它元件) 可以包含软件以实现本文概述的景深导向图像滤波。例如，本文概述的可以被执行的活动中至少一部分是通过例如由视频处理单元204a-204b、多点管理者元件120、和/或者任意端点112a-112c提供的非暂态逻辑(例如，软件)实现的。这种配置可以包含被提供在网络的各种不同位置的带景深导向滤波器210的视频编码器/带景深导向滤波器222的视频解码器的一个或多个实例。在一些实施例中，这些特征中的一个或多个可以由硬件实现、提供在上述元件的外部，或者为实现预期功能以任何合适的形式被加强。此外，以上提到的元件可以包含能合作的软件(或者应答软件)以实现本文列出的操作。在另一些实施例中，这些元件可以包含任何合适的算法、硬件、软件、组件、模块、接口、或者任何能辅助以上操作的对象。

此外，本文描述和显示的通信系统100的组件也可以包含用于在网络环境中接收、发射、和/或以其它方式传输数据和信息的合适的接口。另外，和各种组件相关的一些处理器和存储器可能被删除或者被合并，使得只有唯一的处理器或存储器对某些活动负责。在通常情况下，图中描述的排列可能表现的逻辑性更强，然而物理结构可能包含这些元件的各种排列，组合和/或混合。有必要指出的是可以使用无数种可能的设计结构来实现本文描述的操作目标。相应的，相关的结构有无数种替代排列、设计选择、可能装置、硬件配置、软件实施、设备选择、等等。

本文讨论的元件可以被配置为保留任何合适的存储器元件(随机存取存储器(RAM)、ROM、EPROM、EEPROM、ASIC等)、软件、硬件、或者任何其它合适的组件、装置、元件、或合适的且基于特别要求的对象中的信息。本文讨论的任何存储器项(例如数据库、表、缓存、符号、等等)应该被理解为包含在“存储器元件”的广泛定义里。相似的，本文描述的任何可能的处理元件、模块、和机器应该被理解为包含在“处理器” 的广泛的定义里。

注意到上述提供的示例中，交互可能被描述为两个，三个或四个组件之间的活动。然而，这只是为了清晰和举例。在某些场合中，通过引用有限个组件来描述一个或多个功能或操作可能更简单。应该认识到，本文描述的原则可以扩展并且可以适用大量组件，以及更多复杂/精细的组合和配置。相应的，提供的示例不应限制范围或约束本文提供的广泛的教导，因为可能应用于许多其它结构。此外，虽然参照特定的场景被描述，在这些特定场景中特定的模块在元件内被提供，但是这些模块也可以由外部提供，或者以任何合适的形式合并和/或组合。在某些情况下，这些模块可以在一个专有单元中被提供。

另外需要被注意到的重要的一点是附图中的操作只示出了可能被通信系统100或其元件执行的一些可能的场景和模式。其中一些操作可能在合适的地方被删除或者移除，或者这些操作可能被大幅修改或改变而不背离本文提供的教学的范围。此外，这些操作中的很多被描述为与一个或多个其它操作同时，或并行的被处理。然而，这些操作的时序可能被大幅改变。先前提供的操作流程是出于举例和讨论的目的。倘若任何合适的排列、组合、配置，以及时序机制不背离本文提供的教学，则能提供很大的灵活性。

虽然通过参考特定的实施例详细描述了用于景深导向的图像滤波的系统和方法，但是应该认识到，在不背离本发明的精神和范围的条件下其可以被进行各种不同的其它变化、替代、和改变。例如，虽然先前的讨论关注的是与特定类型的端点相关的视频会议，使用视频应用的手持装置也很容易采用本发明的学说。例如，iPhone、iPad、安卓装置、个人计算机应用(即，桌面视频解决方案、Skype等)可以很容易采取和使用以上详述的景深导向滤波操作。任何编码视频数据的通信系统都和本文讨论的特征相似。

还有必要注意到的是，本文描述的系统和方法可以被用于任何类型的图像或视频应用。这可以包括标准视频率传输，自适应比特率(ABR)，可变比特率(VBR)，CBR，或者任何其它的可以使用图像编码的图像技术。可以被本领域熟练人员确定的无数其它改变，替代，变化，变更，和修改，本发明包括在附录的权利要求书范围中的所有的这些改变，替代，变化，变更，和修改。

为协助美国专利商标局(USPTO)以及，更进一步，关于本申请中发布的专利的读者理解所附的权利要求，申请人希望注意到本申请人：(a) 除非在特定权利要求中明确使用了“用于…的装置”或“用于…的步骤”，不打算附录权利要求书中的任何一条权利要求调用U.S.C.112条第6段，因为它从申请之日起就存在；(b)不打算通过说明书中的任何陈述以未反映在权利要求书中的任何方式来限制本发明。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于视频会议环境中景深导向图像滤波的系统和方法 [P] . 中国专利： CN104012086B . 2017.05.31
2. 用于视频会议环境中景深导向图像滤波的系统和方法 [P] . 中国专利： CN104012086A . 2014-08-27
3. SYSTEM AND METHOD FOR DEPTH-GUIDED IMAGE FILTERING IN A VIDEO CONFERENCE ENVIRONMENT [P] . 欧洲知识产权局专利： EP2795906B1 . 2020-04-29

机译：视频会议环境中深度引导图像滤波的系统和方法
4. SYSTEM AND METHOD FOR DEPTH-GUIDED IMAGE FILTERING IN A VIDEO CONFERENCE ENVIRONMENT [P] . 欧洲知识产权局专利： EP2795906A1 . 2014-10-29

机译：视频会议环境中深度引导图像滤波的系统和方法
5. SYSTEM AND METHOD FOR DEPTH-GUIDED IMAGE FILTERING IN A VIDEO CONFERENCE ENVIRONMENT [P] . 世界知识产权组织专利： WO2013096041A1 . 2013-06-27

机译：视频会议环境中深度引导图像滤波的系统和方法