首页> 中国专利> 基于地平面检测从图像序列中恢复人类对象的缺失脚部

基于地平面检测从图像序列中恢复人类对象的缺失脚部

页面导航

摘要
著录项
说明书
相似文献

摘要

一种对象分割系统，包括第一类型传感器，第二类型传感器和控制电路。第一类传感器捕获场景的彩色图像帧序列。第二类型传感器捕获彩色图像帧序列中的每个对应的彩色图像帧的深度图像。控制电路生成输入彩色图像帧的点云。控制电路从输入彩色图像帧的背景中分割前景人类对象。控制电路检测输入彩色图像帧中捕获的场景的地平面。控制电路恢复距离检测到的地平面的水平的限定区域中的脚部区域。控制电路基于对地平面的检测，从输入彩色图像帧的背景中提取具有恢复的脚部区域的前景人类对象。

著录项

公开/公告号CN112313704A

专利类型发明专利
公开/公告日2021-02-02

原文格式PDF
申请/专利权人索尼公司;
展开▼

申请/专利号CN201980042848.1
发明设计人 M·格哈拉维-阿尔克汉萨利;武田浩行;
展开▼

申请日2019-05-21
分类号G06T7/194(20170101);G06T7/11(20170101);G06T7/50(20170101);G06T5/00(20060101);G06T5/20(20060101);
代理机构11038 中国贸促会专利商标事务所有限公司;
代理人王玉玺
地址日本东京都
入库时间 2023-06-19 09:44:49

说明书

相关申请的交叉参考/引用

没有。

技术领域

本公开的各种实施例涉及从图像序列的对象提取技术。更具体地，本公开的各种实施例涉及用于基于地平面检测从图像序列进行准确的人类对象的缺失脚部恢复的对象分割装置和方法。

背景技术

图像处理领域的最新发展已经导致各种图像分割技术的进步。这样的技术便于基于不同的基于统计和/或概率图像特征的方法从特定图像分割感兴趣对象(诸如人体)。这种对象分割技术的示例可以包括基于压缩的对象分割技术、基于颜色的分割技术、基于深度的对象分割技术和基于直方图的对象分割技术。

当前，在基于特征颜色的分割方法中，可以基于从捕获图像减除预定的静态背景图像来分割感兴趣对象。然而，为了生成预定静态背景图像，当场景中不存在感兴趣对象时，需要常规对象分割装置来捕获场景的图像序列，这可能是不合需要的。场景的预定静态背景图像可以从所捕获的图像序列生成。背景图像减除方法可能进一步需要用静态相机从场景捕获图像序列。在另一基于深度的方法中，常规装置可通过使用可由深度传感器捕获的深度图像来分割感兴趣对象。在深度传感器捕获包括无效深度值的有噪声的深度图像的情况下，传统的对象分割装置可能错误地且不精确地从捕获图像分割感兴趣对象。基于这些方法分割的感兴趣对象(诸如人类对象)可能没有脚部区域，因为脚部区域靠近分割可能不准确的地平面。另外，人类对象的脚部区域周围的面积也可以被人类对象的阴影改变。因此，经分割的人类对象可能具有可能不期望的缺失的脚部区域。

通过将所描述的系统与本公开的一些方面进行比较，如在本申请的其余部分中并且参考附图所阐述的，常规和传统方法的进一步的限制和缺点对于本领域技术人员将变得显而易见。

发明内容

本发明提供了一种用于基于地平面检测从图像序列进行人类对象的缺失脚部恢复的对象分割装置和方法，其基本上如至少一幅附图所示和/或结合至少一幅附图进行描述，并在权利要求中更完整地阐述。

通过阅读本公开的以下详细描述以及附图，可以理解本公开的这些和其他特征和优点，在附图中，相同的附图标记始终表示相同的部件。

附图说明

图1是示出根据本公开的实施例的用于基于地面平面检测从图像序列进行人类对象的缺失脚部恢复的示例性网络环境的框图。

图2是示出根据本公开的实施例的示例性对象分割装置的框图。

图3A、图3B、图3C、图3D、图3E、图3F、图3G和图3H共同地示出了根据本公开实施例的用于基于地面检测从图像序列进行人类对象的缺失脚部恢复的示例性操作。

图4A、图4B和图4C共同地描述了示出了根据本公开的实施例的用于基于地面检测从图像序列进行人类对象的缺失脚部恢复的示例性操作的流程图。

具体实施方式

以下描述的实现可以在所公开的用于基于地平面检测从图像序列进行人类对象的缺失脚部恢复的装置和方法中找到。本公开的示例性方面可以包括一种对象分割系统，其包括第一类型传感器和第二类型传感器。第一类型传感器可以被配置为捕获场景的彩色图像帧序列。第二类型传感器可以被配置为捕获该彩色图像帧序列中的每个对应彩色图像帧的深度图像。对象分割系统还可以包括控制电路，其被配置为生成从第一类型传感器接收的彩色图像帧序列的输入彩色图像帧的点云。可以基于从第二类型传感器接收的输入彩色图像帧的对应输入深度图像来生成输入彩色图像帧的点云。

根据实施例，对象分割装置可以被配置为基于第一图像参数集合从输入彩色图像帧的背景分割前景人类对象。经分割的前景人类对象可以缺少前景人类对象的脚部区域的至少部分。对象分割装置还可以被配置为基于与从所生成的点云中的每个点投影的每个向量相关联的取向信息来检测在输入彩色图像帧中捕获的场景的地平面。根据实施例，地平面可通过将从所生成的点云中的多个点投影的多个向量聚类成向量聚类集合来检测。可以基于与所生成的点云中的向量聚类集合中的一个向量聚类相关联的取向信息来检测场景的地平面。对象分割装置可以基于第二图像参数集合恢复距离输入彩色图像帧中的检测到的地平面的水平的限定区域中的脚部区域。第二图像参数集合可以不同于第一图像参数集合。对象分割装置还可以被配置为从彩色图像帧序列的输入彩色图像帧的背景提取具有恢复的脚部区域的前景人类对象。可以基于对地平面的检测以及所确定的距离所检测到的地平面的水平的限定区域中的多个前景像素来提取具有恢复的脚部区域的前景人类对象。

根据实施例，对象分割装置可以检测输入深度图像中的不存在深度值的多个区域。对象分割装置可以被配置为通过中值滤波器和均匀滤波器来平滑输入深度图像以填充多个区域处的深度值并减少输入深度图像中的噪声。对象分割装置还可以被配置为基于输入深度图像来确定所生成的点云中的多个点中的每个点的三维(3D)坐标。对象分割装置可以针对输入彩色图像帧中捕获的场景计算从所生成的点云中的多个点投影的多个向量。从所生成的点云中的多个点投影的多个向量可以基于所生成的点云的多个点中的感兴趣点和感兴趣点的两个相邻点的三维坐标来计算。

根据实施例，对象分割装置可以被配置为将所计算的与所生成的点云中的多个点相关联的多个向量聚类成向量聚类集合。可以基于与所计算的多个向量中的每个向量相关联的取向信息来对所计算的多个向量进行聚类，所计算的多个向量与所生成的点云中的多个点相关联。对象分割装置可以被配置为基于与在输入彩色图像帧中捕获的场景相关联的向量聚类集合，检测在输入彩色图像帧中捕获的场景的多个平面。

根据实施例，对象分割装置可以基于与在输入彩色图像帧中捕获的场景相关联的向量聚类集合生成平面图。另外，可以通过映射在输入彩色图像帧的图像域中所检测到的多个平面来生成平面图。平面图可以包括在平面图中的所检测的多个平面的不同平面中分组的像素。可以基于与平面图中的每个像素相关联的相同取向信息来对像素进行分组，而不考虑在场景的输入彩色图像帧的图像域中，像素在平面图中的空间定位。对象分割装置还可以被配置为在平面图中的检测到的多个平面中检测多个隔离区域。可以基于平面图中的面积大小小于图像域中的第一阈值像素数量的多个隔离区域的面积大小来检测多个隔离区域。对象分割装置可消除平面图中的检测到的多个隔离区域。对象分割装置可通过中值滤波器进一步平滑小于图像域中的第二阈值像素数量的所检测到的多个隔离区域。

根据实施例，对象分割装置可针对场景从平面图中的所检测的多个平面中选择距离参考高度的最低平面。参考高度可以对应于捕获场景的彩色图像帧序列的第一类型传感器的高度。平面图中的所检测的多个平面中的所选最低平面可以是在输入彩色图像帧中捕获的场景的地平面。所述对象分割装置可以被配置为基于所述平面图中的像素的基于高度的分布而分离所述平面图中的不同水平面中的像素。对象分割装置还可以被配置为基于平面图中的像素的基于高度的分布，将与不同水平面中的其他像素相比存在于最低水平面中的像素分类为地平面的像素。

根据实施例，对象分割装置可以被配置为使用输入深度图像和第一图像参数集合来估计场景的输入彩色图像帧中的前景人类对象的前景掩模。可以通过对输入彩色图像帧与输入彩色图像帧的背景图像之间的差异进行二值化来估计场景的输入彩色图像帧中的前景人类对象的前景掩模。可以基于估计的前景掩模从输入彩色图像帧的背景分割前景人类对象。对象分割装置还可以被配置为更新估计的前景掩模，以包括距离输入彩色图像帧中的检测到的地平面的水平的限定区域中的像素集合。该像素集合可以对应于基于第二图像参数集合恢复的脚部区域的像素。

图1是示出根据本公开的实施例的用于基于地平面检测从图像序列中进行人类对象的缺失脚部恢复的示例性网络环境的框图。参考图1，示出了网络环境100。网络环境100可以包括对象分割装置102、服务器104、通信网络106和图像捕获设备108。对象分割装置102可以通信地耦合到图像捕获设备108。图像捕获设备108可以包括第一类型传感器108A和第二类型传感器108B。根据实施例，第一类型传感器108A可为图像传感器，并且第二类型传感器108B可为深度传感器。第一类型传感器108A可以被配置为从图像捕获设备108的视场捕获场景110的彩色图像帧112的序列。第二类型传感器108B可以被配置为捕获深度图像序列114，其包括与场景110的彩色图像帧序列112相同的视野。彩色图像帧序列112可以包括输入彩色图像帧116。深度图像序列114可包括对应于输入彩色图像帧116的输入深度图像118。场景110可包括感兴趣对象(诸如，人类对象)。场景110还可以包括多个其他对象，诸如桌子、门、椅子、计算机等。对象分割装置102可以经由通信网络106通信地耦合到服务器104。

对象分割装置102可包括合适的逻辑、电路和接口，其可以被配置为接收由图像捕获设备108的第一类型传感器108A捕获的场景110的彩色图像帧序列112。对象分割装置102还可接收与由图像捕获设备108的第二类型传感器108B捕获的彩色图像帧序列112相对应的深度图像序列114。对象分割装置102可以被配置为从场景110的彩色图像帧序列112的输入色图像帧116的背景中分离前景人类对象。对象分割装置102可以被配置为检测在输入彩色图像帧116中捕获的场景110的地平面。对象分割装置102还可以被配置为基于检测到的地平面从来自场景110的输入彩色图像帧116的经分割的前景人类对象中恢复缺失的脚部区域。对象分割装置102的功能可以在诸如高速计算设备的本地设备或诸如应用服务器或图形图像处理服务器的远程设备中实现。对象分割装置102的示例可以包括但不限于数字相机、数字摄像机、相机电话、智能电话、便携式音乐播放器、游戏控制台、平板计算机、移动设备、视频播放器、视频盘写入器/播放器。对象分割装置102的其他示例可以包括但不限于电视、家庭娱乐系统、增强现实设备、虚拟现实设备、智能手表或任何其他合适的计算设备等。

服务器104可包括合适的电路和接口，其可以被配置为存储场景110的彩色图像帧序列112和场景110的深度图像序列114。服务器104还可以被配置为存储经分割的人类对象以及从场景110的彩色图像帧序列112的背景恢复的经分割的人类对象的缺失的脚部。在一些实施例中，服务器104可以被实现为云服务器，其可以被用于通过web应用、云应用、HTTP请求、数据库操作、文件传输、游戏操作等来执行前述服务器104的操作。

通信网络106可以包括通信介质，对象分割装置102可以通过该通信介质通信地耦合到服务器104。通信网络106的示例可以包括但不限于因特网、云网络、无线保真(Wi-Fi)网络、个域网(PAN)、局域网(LAN)或城域网(MAN)。网络环境100中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络106。这种有线和无线通信协议的示例可以包括但不限于传输控制协议和网际协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、Zigbee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备与设备间通信、蜂窝通信协议和蓝牙(BT)通信协议中的至少一个。

图像捕获设备108可包括可以被配置为捕获场景110的多个彩色图像和多个深度图像的合适的逻辑、电路和接口。图像捕获设备108可以包括多个传感器(诸如第一类型传感器108A和第二类型传感器108B)。所捕获的多个彩色图像和多个深度图像可以被存储在服务器104中。在一些实施例中，包括第一类型传感器108A和第二类型传感器108B的图像捕获设备108可存在于对象分割装置102中。图像捕获设备108的示例可以包括但不限于相机、图像传感器、颜色传感器(诸如红绿蓝(RGB)传感器)、深度传感器等。

第一类型传感器108A(诸如图像传感器)可包括可以被配置为捕获场景110的多个彩色图像的合适逻辑、电路、接口和/或代码。第一类型传感器108A可具有合适的光学仪器，诸如可将场景110和/或场景110中的特定感兴趣对象聚焦在第一类型传感器108A上的聚焦透镜。第一类型传感器108A的实现的示例可包含但不限于RGB传感器、基于半导体电荷耦合器件(CCD)的图像传感器、基于互补金属氧化物半导体(CMOS)的图像传感器、基于N型金属氧化物半导体的图像传感器、平板检测器或其他图像传感器。

第二类型传感器108B(诸如深度传感器)可包括可以被配置为从场景110捕获多个深度图像的合适的逻辑、电路、接口、和/或代码。多个深度图像中的每一个可以包括在第二类型传感器108B可以捕获相应的深度图像的各个时刻与场景110中的各个对象相关联的深度信息。第二类型传感器108B的实现的示例可以包括但不限于深度传感器、基于立体三角测量的深度传感器、基于结构化光3D扫描仪的深度传感器、或基于编码孔径的深度传感器。

在操作中，图像捕获设备108的第一类型传感器108A可以被配置为从图像捕获设备108的视场捕获场景110的彩色图像帧序列112。彩色图像帧序列112可以是视频，诸如flash视频、音频视频交织(AVI)视频和运动图像专家组(MPEG)视频。所捕获的彩色图像帧序列112可以包括场景110的多个对象。所捕获的彩色图像帧序列112可进一步包括人类对象。彩色图像帧序列112的每个彩色图像帧可以包括多个像素。彩色图像帧的多个像素中的每一个可以包括颜色分量，并且在该彩色图像帧中具有空间位置。第一类型传感器108A可以被配置为将彩色图像帧序列112发送到对象分割装置102。彩色图像帧序列112可以包括输入彩色图像帧116。

图像捕获设备108的第二类型传感器108B可以被配置为捕获彩色图像帧序列112中的每个相应彩色图像帧的深度图像。第二类型传感器108B可与第一类型传感器108A对彩色图像帧序列112的捕获并发地捕获彩色图像帧序列112的每个相应的彩色图像帧的深度图像。换句话说，第二类型传感器108B可以被配置为捕获与场景110的彩色图像帧序列112相对应的深度图像序列114。深度图像序列114中的每一个可以对应于彩色图像帧序列112中的不同彩色图像帧。彩色图像帧序列112的每个彩色图像帧的深度图像可以包括在可以捕获相应的彩色图像帧的对应时刻与场景110相关联的深度信息。深度图像序列114中的每一个可包括多个像素。深度图像的多个像素中的每一个可包括深度值并具有深度图像中的空间位置。第二类型传感器108B可以被配置为将深度图像序列114发送到对象分割装置102。深度图像序列114可包括输入彩色图像帧116的输入深度图像118。

根据实施例，对象分割装置102可以被配置为从图像捕获设备108接收彩色图像帧序列112和对应的深度图像序列114。换句话说，对象分割装置102可以被配置为接收场景110的输入彩色图像帧116和对应的输入深度图像118。对象分割装置102可以被配置为检测输入深度图像118中的不存在深度值的多个区域。对象分割装置102可平滑输入深度图像118以填充不存在深度值的多个区域处的深度值并减少输入深度图像118中的噪声。可以基于3×3中值滤波器来平滑输入深度图像118。3×3中值滤波器可以是采用非线性滤波技术来填充输入深度图像118中不存在深度值的多个区域处的深度值的非线性滤波器。3×3中值滤波器也可用于从输入深度图像118中移除“椒盐”型噪声。“椒盐”型噪声也可以被称为由图像信号中的尖锐和突然干扰引起的脉冲噪声。在一些实施例中，对象分割装置102还可利用7×7滤波器来从输入深度图像118中移除“高斯型”噪声。7×7均匀滤波器可利用线性滤波技术来移除在捕获期间或在捕获输入深度图像118时由于不良照明或高温而出现的“高斯型”噪声。

根据一实施例，对象分割装置102可以被配置为基于经平滑的输入深度图像118来生成输入彩色图像帧116的点云。点云是在三维坐标系中表示输入彩色图像帧116中的所捕获场景的点的集合。输入彩色图像帧116的点云的点由三维坐标系中的“X”、“Y”和“Z”坐标定义。场景110的输入彩色图像帧116的点云可基于输入深度图像118来生成。所生成的点云的每个点的三维坐标可基于输入深度图像118的深度值来确定。三维坐标系中的“X，Y，Z”坐标的坐标“0，0，0”可以表示图像捕获设备108在三维坐标系中的位置。

根据实施例，对象分割装置102可以被配置为基于第一图像参数集合从输入彩色图像帧116的背景分割前景人类对象。对象分割装置102可以被配置为从输入彩色图像帧116分离背景图像。对象分割装置102还可以被配置为使用与输入彩色图像帧116相对应的输入深度图像118来估计初始前景掩模。可以通过对输入彩色图像帧116与输入彩色图像帧116的背景图像之间的差进行二值化来进一步估计初始前景掩模。对象分割装置102可以被配置为在估计的初始前景掩模的边界区域中识别具有第一掩码值的第一像素集合。具有第一掩码值的第像素集合可以基于第一图像参数集合被更新为第二掩码值，该第一图像参数集合可以是与边界区域相关联的每个像素的颜色分量、深度分量和空间位置。

对象分割装置102可以被配置为基于初始前景掩模的更新的第二掩码值来估计前景人类对象的前景掩模。对象分割装置102可生成分割的前景人类对象。在某些场景中，分割的前景人类对象可能缺少前景人类对象的脚部区域的一部分。由于前景人类对象的脚部区域靠近输入彩色图像帧116的地平面，因此分割的前景人类对象可能缺少脚部区域。脚部区域到输入彩色图像帧116的地平面的这种接近可能遮挡来自分割的前景人类对象的脚部区域。换句话说，因为输入彩色图像帧116与输入彩色图像帧116的背景图像之间的差异对于脚部区域可以是最小的，所以经分割的前景人类对象可能缺少脚部区域。另外，经分割的前景人类对象中的脚部区域的遮挡可由人类对象在人类对象的脚部区域上的阴影引起。在这样的场景中，对象分割装置102可以被配置为针对在输入彩色图像帧116中捕获的场景110计算从所生成的点云的多个点投影的多个向量。所计算的多个向量中的每个向量可以是表面法向量，其可以与所生成的点云的多个点中的点正交。可基于所生成的点云的感兴趣点和感兴趣点的两个相邻点的三维坐标来计算所生成的点云的多个感兴趣点中的感兴趣点的向量。两个相邻点可以包括位于感兴趣点的正右侧的点和位于感兴趣点的正底部的点。仅当感兴趣点在所生成的点云中具有两个相邻点时，才可以针对感兴趣点计算向量。

对象分割装置102可以被配置为将与所生成的点云中的多个点相关联的所计算多个向量聚类成向量群集集合。可以基于与所计算的多个向量中的每一个相关联的取向信息将多个向量聚类成向量聚类集合。例如，K均值聚类可以用于将所计算的多个向量聚类为向量聚类集合。可以在取向空间中执行将所计算的多个向量聚类成向量聚类集合。该向量聚类集合可以对应于在输入彩色图像帧116中捕获的场景110中的一个或多个平面。对象分割装置102还可被配置为在单位球面上绘制所计算的多个向量以分析所计算的多个向量在向量聚类集合中的分布。

根据实施例，对象分割装置102可以被配置为基于与场景110相关联的向量群集集合而检测在输入彩色图像帧116中捕获的场景110的多个平面。该向量聚类集合中的每个向量聚类可以对应于在输入彩色图像帧116中捕获的场景110的平面。该向量聚类集合中的向量聚类的所有向量可以与相同的取向信息相关联，该取向信息可以是与该向量聚类相对应的平面的取向信息。多个平面中的每一个可以被检测为所捕获的场景110中的单独且分离的表面。对象分割装置102还可被配置为基于与在输入彩色图像帧116中捕获的场景110相关联的向量群集集合而生成平面图。可以通过在输入彩色图像帧的图像域中映射所检测到的多个平面来生成平面图。所生成的平面图可以包括在平面图中的所检测到的多个平面的不同平面中分组的像素。可以基于与平面图中的每个像素相关联的相同取向信息来对像素进行分组，而不管像素在平面图中的空间定位。换句话说，具有相同取向信息的像素可以在输入彩色图像帧116的图像域中被分组为平面图中的一组。

根据实施例，对象分割装置102可以被配置为在平面图中的所检测的多个平面中检测多个隔离区域。可以基于面积大小小于图像域中的平面图中的第一阈值像素数量的多个隔离区域的面积大小来检测隔离区域。换句话说，隔离区域可以是平面图中的小区域，并且平面图中的多个隔离区域的每一个的面积大小可以小于图像域中的平面图中的第一阈值像素数量，例如“100”个像素。对象分割装置102可以被配置为消除平面图中的检测到的多个隔离区域。对象分割装置102还可被配置为通过一种类型的中值滤波器平滑所检测的小于图像域中的第二阈值像素数量的多个隔离区域。可以基于3×3中值滤波器对检测到的小于第二阈值像素数量的多个隔离区域进行平滑。

根据实施例，对象分割装置102可以被配置为针对输入彩色图像帧116中捕获的场景110从平面图中的所检测的多个平面中选择距离参考高度的最低平面。参考高度可以对应于捕获场景110的彩色图像帧序列112的图像捕获设备108的高度。在一些实施例中，平面图中的所检测的多个平面中的所选最低平面可以对应于在输入彩色图像帧116中捕获的场景110的地平面。最低水平面的表面法向量的取向可以是在面向上(即，从底部到顶部)的方向上。另外，对象分割装置102可以被配置为基于平面图中的像素的基于高度的分布来分离与平面图中的地平面的取向信息具有相同的取向信息的不同水平面中的像素。不同水平面的表面法向量的取向可以是在面向上(即，从底部到顶部)的方向上。对象分割装置102还可以被配置为对与平面图的不同水平面中的其他像素相比存在于最低水平面中的像素进行分类。换句话说，对象分割装置102可以从不同的水平面中选择最低的水平面作为地平面，其包括基于平面图的基于高度的分布的最大数量的像素。

根据实施例，对象分割装置102可以被配置为检测位于距离所检测到的地平面的水平例如20mm至150mm的限定区域中的多个前景像素。对象分割装置102还可以被配置为恢复在输入彩色图像帧116中捕获的场景110的所检测到的地平面上存在的人类对象的脚部区域。可以基于可以与第一图像参数集合不同的第二图像参数集合来恢复人类对象的脚部区域。恢复的脚部区域可以包括存在于距离地平面的水平的限定区域中的前景像素的集合。例如，在一种场景中，均值偏移滤波器可以被用于将前景人类对象从输入彩色图像帧116的背景中分割出来。均值偏移滤波器可以用于使用感兴趣位置附近的像素的概率密度函数(PDF)一次一个像素地校正前景掩模中的某些误差。可以使用基于高斯核的核密度函数来估计概率密度函数。第一图像参数集合和第二图像参数集合可以是用于估计感兴趣区域的概率密度函数的高斯核的带宽。与第一图像参数集合相关联的高斯核的带宽可以高于与第二图像参数集合相关联的高斯核的带宽。前景人类对象可以基于第一图像参数集合从输入彩色图像帧116的背景中分割，与第二图像参数集合相比，第一图像参数集合可以与高斯核的更高带宽相关联。另外，与比第一图像参数集合低的高斯核的带宽相关联的第二图像参数集合可以用于恢复在输入彩色图像帧116中捕获的场景110的所检测地平面上存在的人类对象的脚部区域。

根据实施例，对象分割装置102可更新人类对象的估计前景掩模以包括人类对象的恢复的脚部区的像素集合。可以基于第二图像参数集合来更新估计的前景掩模。另外，对象分割装置102可提取前景人类对象，其中人类对象的恢复的脚部区域存在于输入彩色图像帧116中捕获的场景110的检测到的地平面附近。所提取的前景人类对象可以包括由于脚部区域存在地平面附近而可能在所分割的人类对象中不存在的人类对象的恢复的脚部区域。即使人类对象的阴影存在于人类对象的位于在输入彩色图像帧116中捕获的场景110的地平面附近的脚部区域上，对象分割装置102也可以使得能够分割人类对象的脚部区域，对象分割装置102还可以被配置为生成具有人类对象的恢复的脚部区域的分割的人类对象。根据实施例，对象分割装置102可以在显示屏上显示具有恢复的脚部区域的分割的人类对象。

图2是示出根据本公开的实施例的示例性对象分割装置的框图。结合图1的元件解释图2。参考图2，示出了对象分割装置102。对象分割装置102可以包括控制电路202、恢复电路202A、存储器204、输入/输出(I/O)设备206和网络接口208。恢复电路202A可以是控制电路202的一部分。I/O设备206可以包括显示屏206A，其可以用于呈现应用接口210。控制电路202可以通信地耦合到存储器204和I/O设备206。控制电路202可以被配置为通过使用网络接口208与服务器104和图像捕获设备108通信。

控制电路202可以包括适当的逻辑、电路和接口，其可以被配置为基于从第二类型传感器108B接收的输入彩色图像帧116的对应输入深度图像118，生成从第一类型传感器108A接收的彩色图像帧序列112的输入彩色图像帧116的点云。控制电路202还可以被配置为从场景110的彩色图像帧序列112的输入彩色图像帧116的背景中分割前景人类对象。控制电路202可以被配置为从多个平面检测地平面。控制电路202可以包括一个或多个专用处理单元，其可以被实现为对象分割装置102中的单独的处理器或电路。在实施例中，一个或多个专用处理单元和控制电路202可以被实现为集成处理器或处理器集群，其共同执行一个或多个专用处理单元和控制电路202的功能。控制电路202可以基于本领域已知的多种处理器技术来实现。控制电路202的实现的示例可以是基于X86的处理器、图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、中央处理单元(CPU)和/或其他控制电路。

恢复电路202A可包括可以被配置为从所检测到的地平面恢复所分割的前景人类对象的脚部区域的合适的逻辑、电路和接口。恢复电路202A的实现的示例可以是专用电路、图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、中央处理单元(CPU)和/或其他控制电路。

存储器204可以包括适当的逻辑、电路和接口，其可以被配置为存储可由控制电路202执行的指令集。存储器204可以被配置为存储操作系统和相关联的应用的数据。存储器204还可以被配置为存储彩色图像帧序列112和对应的深度图像序列114。存储器204的实现的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存或安全数字(SD)卡。

I/O设备206可以包括适当的逻辑、电路和接口，其可以被配置为接收来自用户的输入并且基于从用户接收到的输入向用户提供输出。例如，I/O设备206可用于初始化操作以基于来自用户的请求从场景110的所捕获的彩色图像帧序列112的背景恢复分割的人类对象的缺失的脚部。I/O设备206可包括各种输入和输出设备，其可以被配置为与控制电路202通信。I/O设备206的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风、显示屏(例如，显示屏206A)和扬声器。

显示屏206A可包括合适的逻辑、电路和接口，其可以被配置为在显示屏206A处呈现应用界面210，以便显示从场景110的所捕获的彩色图像帧序列112的背景中恢复的所分割的人类对象的缺失的脚部。根据实施例，显示屏206A可以被配置为接收来自用户的输入。在这种场景下，显示屏206A可以是触摸屏，其可以使得用户能够提供输入。触摸屏可以是电阻式触摸屏、电容式触摸屏或热触摸屏中的至少一个。根据实施例，显示屏206A可以通过虚拟小键盘、触笔、基于手势的输入或基于触摸的输入来接收输入。显示屏206A可以通过几种已知技术来实现，该已知技术诸如但不限于液晶显示(LCD)显示器、发光二极管(LED)显示器、等离子显示器或有机LED(OLED)显示器技术或其他显示设备中的至少一种。根据实施例，显示屏206A可以指智能玻璃设备的显示屏、透视显示器、基于投影的显示器、电致变色显示器或透明显示器。

网络接口208可以包括适当的逻辑、电路和接口，其可以被配置为促进对象分割装置102和服务器104之间经由通信网络106的通信。网络接口208可以通过使用各种已知技术来实现，以支持对象分割装置102与通信网络106的有线或无线通信。网络接口208可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(CODEC)芯片组、用户身份模块(SIM)卡或本地缓冲电路。网络接口208可以经由无线通信与诸如因特网、内联网的网络或诸如蜂窝电话网络、无线局域网(LAN)和城域网(MAN)的无线网络进行通信。无线通信可以使用诸如全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、长期演进(LTE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(诸如IEEE 802.11a、IEEE 802.11b、IEEE802.11g或IEEE 802.11n)、因特网协议语音(VoIP)、轻保真(Li-Fi)、全球微波接入互操作性(Wi-MAX)、电子邮件协议、即时消息收发和短消息服务(SMS)的多种通信标准、协议和技术中的任何一种。

应用接口210可以对应于在诸如显示屏206A的显示屏上呈现的用户接口(UI)。应用界面210可显示从场景110的所捕获的彩色图像帧序列112的背景中恢复的分割的人类对象的缺失的脚部。应用接口210的示例可以包括但不限于图形用户接口(GUI)。

如图1中所描述地，由对象分割装置102执行的功能或操作可以由控制电路202和恢复电路202A来执行。例如，在图3A至3G、4A和4B中进一步描述了由控制电路202和恢复电路202A执行的操作。

图3A、3B、3C、3D、3E、3F和3G共同示出了根据本公开的实施例的基于地平面检测从图像序列中进行人类对象的缺失脚部恢复的示例性操作。结合图1和2的元件说明图3A至3G。

图3A示出了根据本公开的实施例的场景110的彩色图像帧序列112的输入彩色图像帧116的点云的生成。参考图3A，示出了输入彩色图像帧116和输入彩色图像帧116的点云302。根据实施例，控制电路202可以被配置为生成针对由第一类型传感器108A捕获的彩色图像帧序列112的输入彩色图像帧116的点云302。可以在对由第二类型传感器108B捕获的深度图像序列114的输入深度图像118进行平滑操作之后，基于输入深度图像118(图3A中未示出)来生成点云302。点云302可表示三维坐标系中的输入彩色图像帧116中的场景110的不同外表面。点云302的点可由三维坐标系中的“X”、“Y”和“Z”坐标来定义。由输入深度图像118表示的输入彩色图像帧116的深度值可以被用于计算所生成的点云302的每个点的三维坐标。所生成的点云302的三维坐标系中的“X，Y，Z”坐标的坐标“0，0，0”可以表示图像捕获设备108在三维坐标系中的位置。

图3B示出了根据本公开的实施例的从所生成的点云的多个点投影的多个向量的计算。参考图3B，示出了点云302、感兴趣点304(也表示为“i”)、第一相邻点306A(也表示为“j”)和第二相邻点306B(也表示为“k”)以及所计算的多个向量在单位球面上的单位球面分布308。根据实施例，控制电路202可以被配置为计算从所生成的点云302的多个点投影的多个向量。控制电路202可以被配置为基于感兴趣点(诸如感兴趣点304(也表示为“i”))和感兴趣点304的两个相邻点(诸如第一相邻点306A(“j”)和第二相邻点306B(“k”))的三维坐标来计算从感兴趣点304投影的向量“n”。所计算的向量“n”可以是垂直于感兴趣点304(也表示为“i”)的表面法向量。第一相邻点306A(“j”)可以位于紧邻感兴趣点304(“i”)的右侧。第二相邻点306B(“k”)可以位于紧邻感兴趣点304的底部。仅当感兴趣点304在所生成的点云302中具有两个相邻点时，才可以针对感兴趣点304计算向量“n”。从感兴趣点304到第一相邻点306A的向量可以表示为向量“B”，并且从感兴趣点“304”到第二相邻点306B的向量可以表示为向量“a”。控制电路202还可以被配置为在单位球面上绘制所计算的多个向量，诸如从点云302的多个点投影的所计算的多个向量的单位球面分布308。例如，可以通过如下给出的等式(1)来计算向量“n”：

其中“u”、“v”和“w”表示单位球面上的所计算的多个向量的单位球面分布308的轴；

a＝k-i表示从感兴趣点304(“i”)到第二相邻点306B(“k”)的向量“a”；以及

b＝j-i表示从感兴趣点304到第一相邻点306A(“j”)的向量“a”；

图3C示出了根据本公开的实施例的从点云的多个点投影的多个向量的聚类。参考图3C，示出了单位球面上的多个向量的单位球面分布308和向量聚类集合310。根据实施例，控制电路202可以被配置为基于与多个向量中的每一个相关联的取向信息来对从多个点投影的多个向量进行聚类。与相同取向信息相关联的多个向量可以被聚类在一起作为向量聚类集合310。可以基于K均值聚类对多个向量进行聚类。向量聚类集合310可以包括与具有相同取向信息的多个向量相关联的多个向量聚类。可以基于K均值聚类来确定向量聚类集合310中的向量聚类的数量。向量聚类集合310中的向量聚类的数量可以与所捕获场景110中的平面的数量相同。例如，向量聚类集合310的第一向量聚类310A可以包括与相同取向信息相关联的多个向量，诸如第一向量聚类集合中的所有向量的取向可以是在从底部到顶部的方向上(如箭头标记所表示的)。类似地，向量聚类集合可以包括第二向量聚类310B，其包括与相同的在从左至右的方向上的取向信息相关联的多个向量，如图所示。向量群集的集合可以包括多个向量聚类，诸如310A、310B、310C、310D和310E。向量聚类集合310的每个向量聚类可以包括与相同取向信息相关联的多个向量。控制电路202还可以被配置为基于与场景110相关联的向量聚类集合310来检测在输入彩色图像帧116中捕获的场景110的多个平面。向量聚类集合310的多个向量聚类(310A、310B、310C、310D和310E)可以对应于所捕获的场景110的多个平面。

图3D示出了根据本公开的实施例的基于与多个向量的取向信息相关联的向量聚类集合生成平面图。参考图3D，示出了平面图312和(图3C的)单位球面分布308上的向量聚类集合310。根据实施例，控制电路202可以被配置为通过在输入彩色图像帧116的图像域中映射所检测到的多个平面来生成平面图312。所生成的平面图312可以包括在平面图312中检测到的多个平面的不同平面中分组的像素。可以基于与平面图312中的每个像素相关联的相同的取向信息来对像素分组，而不管像素在平面图312中的空间定位。例如，所捕获的场景110可以是作为房间或作为具有六个侧面的立方体结构的室内场景，所述六个侧面具有六个表面取向、地板表面312A、四个壁和天花板表面312D。在四个壁中，三个壁312B、312C和312E的表面在所捕获的场景110中是可见的，因为在捕获彩色图像帧序列112期间，剩余的壁表面可以位于图像捕获设备108的后面。由于在相机的观察方向(诸如在捕获所捕获的场景110时从图像捕获设备108的观察方向)处或附近不存在表面法线，因此可以针对5个边获得五个主要取向聚类，作为向量聚类集合310。向量聚类集合310的第一向量聚类310A可以映射到与平面图312中的地板表面312A以及与和地板表面312A的取向相同的取向相关联的其他表面相关联的像素。类似地，向量聚类集合310的向量聚类310B可以被映射到与场景110的平面图312中的左墙312B以及与和左墙312B的取向相同的取向相关联的其他表面相关联的像素。向量聚类集合310的向量聚类310C可以被映射到与场景110的平面图312中的右墙312C以及与和右墙312C的取向相同的取向相关联的其他表面相关联的像素。向量聚类集合310中的向量聚类310D可以被映射到与场景110的平面图312中的天花板表面312D以及与和天花板表面312D的取向相同的取向相关联的其他表面相关联的像素。向量聚类集合310的向量聚类310E可以被映射到与场景110的平面图312中的前壁312E以及与和前壁312E的取向相同的取向相关联的其他表面相关联的像素。

图3E示出了从输入彩色图像帧116中捕获的场景110的多个平面中检测地平面。参考图3E，示出了平面图312、输入彩色图像帧116、基于高度的像素分布314、参考高度314A和地平面316。根据实施例，控制电路202可以被配置为针对在输入彩色图像帧116中捕获的场景110从平面图312中检测到的多个平面中选择距离参考高度314A的最低平面。参考高度314A可以是图像捕获设备108的高度。此外，控制电路202可以被配置为基于平面图312中的像素的基于高度的像素分布314分离具有与选定最低平面的取向信息相同的取向信息的像素。基于平面图312中的像素的基于高度的像素分布314，包括与第一向量聚类310A的取向信息相关联的最大数量的像素的最低水平面可以被选择作为地平面316。因此，控制电路202可以被配置为精确地检测在输入彩色图像帧116中捕获的场景110的地平面316。

图3F示出了根据本公开的实施例的从所检测到的地平面恢复经分割的前景人类对象的缺失的人类对象的脚部区域。参考图3F，示出了地平面316、脚部区域318和距离地平面316的水平的限定区域320。根据实施例，恢复电路202A可以被配置为检测位于距离检测到的地平面316的水平的限定区域320中的多个前景像素。例如，限定区域320可以在距离检测到的地平面316的水平20mm至150mm的范围内。恢复电路202A可以被配置为基于第二图像参数集合从位于距离所检测到的地平面316的水平的限定区域320中的所检测到的多个前景像素恢复脚部区域。用于恢复人类对象的诸如脚部区域318的缺失的脚部区域的第二图像参数集合可以不同于第一图像参数集合。第二图像参数集合可以考虑输入彩色图像帧116中的地平面316上的人类对象的阴影，并且与其他区域相比设置不同的用于分离脚部区域318的参数，并且从所捕获场景的地平面316恢复脚部区域318。恢复电路202A可以被配置为基于从输入彩色图像帧116的背景中分割脚部区域来恢复输入彩色图像帧116的前景中的脚部区域318。脚部区域318可包括人类对象的单脚或人类对象的双脚。脚部区域可以包括由在输入彩色图像帧116中捕获的场景110的检测到的地平面316上的人类对象穿着的鞋。在一些实施例中，恢复电路202A可用于分割在所捕获场景(例如场景110)的前景区域的分割中可能被遮挡的、存在于所检测地平面316上的任何缺失的前景对象部分或区域。

图3G和图3H分别示出了根据本发明的实施例的其中经分割的人类对象缺少人类对象的脚部区域的第一场景和其中经分割的人类对象具有基于地平面检测恢复的脚部区域的第二场景。参考图3G和图3H，示出了在输入彩色图像帧116中捕获的场景110中存在的人类对象322、检测到的地平面316、具有缺失的脚部区域的第一分割人类对象324以及具有脚部区域318的第二分割人类对象326。

根据实施例，如图3G所示，第一场景描绘了在没有检测到诸如地平面316的地平面的情况下对所捕获的场景110的前景中存在的人类对象322的分割。对象分割装置102可以在如图1中所描述地没有检测到地平面316的情况下分割人类对象322，并且获得第一分割人类对象324。第一分割人类对象可以缺少脚部区域，诸如脚部区域318。第一分割人类对象324可能由于脚部区域存在地平面316附近而缺少脚部区域318。由于脚部区域318存在地平面316附近，因此输入彩色图像帧116的前景中存在的脚部区域318和背景图像之间的差异可以是最小的，结果第一分割人类对象324可以缺少脚部区域318。另外，由于在接近地平面316的脚部区域318上存在人类对象322的阴影，因此人类对象322的脚部区域318可能在第一分割人类对象324中不存在。

根据实施例，如图3H所示，第二场景描绘了在检测到诸如地平面316的地平面的情况下对存在于所捕获的场景110的前景中的人类对象322的分割。如图1和图3E中所描绘地，可以基于所生成的点云302中的多个点的多个向量的取向信息来检测地平面316。恢复电路202A可以被配置为检测距离检测到的地平面316的水平的限定区域320中的多个前景像素(例如，如图3F所示)。恢复电路202A可以被配置为基于第二图像参数集合恢复与存在于距离地平面316的水平的限定区域320中的前景像素集合相关联的缺失脚部区域，诸如脚部区域318。控制电路202还可以被配置为更新人类对象322的估计前景掩模以包括人类对象322的脚部区域318的检测到的前景像素集合。控制电路202可以基于人类对象322的经更新的前景掩模来生成具有脚部区域318的第二分割人类对象326以包括脚部区域318。第二分割人类对象326可以包括人类对象322的脚部区域318。具有诸如脚部区域318的恢复的脚部区域的第二分割人类对象326可以被提取并显示在诸如显示屏206A的显示屏上。

图4A和4B是共同示出根据本公开的实施例的基于地平面检测从图像序列进行人类对象的缺失脚部恢复的示例性操作的流程图。参考图4A和4B，示出了流程图400。结合图1、2和3A至3H描述流程图400。可以在对象分割装置102中实现从404到444的操作。流程图400的操作可以在402开始并且进行到404。

在404，可以使用图像捕获设备108的第一类型传感器108A来捕获场景110的彩色图像帧序列112。场景110的彩色图像帧序列112可以从图像捕获设备108的视场捕获。所捕获的彩色图像帧序列112可以包括场景110的多个对象。彩色图像帧序列112可以包括输入彩色图像帧116。

在406，使用图像捕获设备108的第二类型传感器108B来获取彩色图像帧序列112中的每一彩色图像帧的深度图像。第二类型传感器108B可以被配置为捕获与场景110的彩色图像帧序列112相对应的深度图像序列114。彩色图像帧序列112的每个彩色图像帧的深度图像可以包括在可以捕获相应的彩色图像帧的对应时刻与场景110相关联的深度信息。

在408，可从图像捕获设备108接收彩色图像帧序列112和对应的深度图像序列114。对象分割装置102可以被配置为接收场景110的输入彩色图像帧116和对应的输入深度图像118。

在410，可平滑对应于输入彩色图像帧116的深度图像序列114的输入深度图像118以填充输入深度图像118中不存在深度值的多个区域处的深度值。控制电路202可以被配置为检测输入深度图像118中的不存在深度值的多个区域。控制电路202可基于输入深度图像118的平滑来降低输入深度图像118中的噪声。

在412，可基于经平滑的输入深度图像118来生成输入彩色图像帧116的点云。控制电路202可以被配置为生成点云，诸如图3A中的点云302，以在三维坐标系中表示输入彩色图像帧116的外表面。所生成的点云的每个点的三维坐标可基于输入深度图像118的深度值来确定。例如，如图3A所示，输入彩色图像帧116的点云302是基于输入深度图像118的深度值来生成的

在414，可基于第一图像参数集合来分割来自输入彩色图像帧116的背景的前景人类对象，其中所分割的前景人类对象缺少前景人类对象的脚部区域的至少部分。控制电路202可以被配置为使用对应于输入彩色图像帧116的输入深度图像118来估计前景人类对象的初始前景掩模。控制电路202还可以被配置为基于第一图像参数集合将前景人类对象的初始前景掩模值更新为前景人类对象的前景掩模值。控制电路202可生成可缺少前景人类对象的脚部区域的部分的经分割的前景人类对象。由于前景人类对象的脚部区域存在输入彩色图像帧116的地平面附近，因此分割的前景人类对象可能缺少脚部区域。另外，由于人类对象在人类对象的脚部区域上的阴影，因此经分割的前景人类对象可能缺少脚部区域。

在416，可以针对在输入彩色图像帧116中捕获的场景110计算从所生成的点云的多个点投影的多个向量。控制电路202可以被配置为计算从所生成的点云302的多个点投影的多个向量。所计算的多个向量中的每个向量可以是表面法向量，其可以与所生成的点云302的多个点中的点正交。例如，在图3B中示出了从所生成的点云302的多个点投影的多个向量的计算。

在418处，与所生成的点云中的多个点相关联的所计算的多个向量可以被聚类为向量聚类集合。控制电路202可以被配置为基于与多个向量中的每一个相关联的取向信息来对从多个点投影的多个向量进行聚类。与相同的取向信息相关联的多个向量可以被聚类在一起作为向量聚类集合310，例如如图3C所示。

在420，可以基于向量聚类集合来检测在输入彩色图像帧116中捕获的场景110的多个平面。控制电路202可以被配置为基于与场景110相关联的向量聚类集合来检测在输入彩色图像帧116中捕获的场景110的多个平面。该向量聚类集合中的每个向量聚类可以对应于在输入彩色图像帧116中捕获的场景110的平面。

在422处，可以基于与在输入彩色图像帧116中捕获的场景110相关联的向量聚类集合来生成平面图。控制电路202可以被配置为通过映射在输入彩色图像帧116的图像域中的所检测到的多个平面来生成平面图。所生成的平面图可以包括在平面图中的所检测到的多个平面的不同平面中分组的像素。例如在图3D中示出了基于向量聚类集合310生成平面图，诸如平面图312。

在424处，可以检测到平面图312中检测到的多个平面中的多个隔离区域。控制电路202可以被配置为基于面积大小小于图像域中的平面图312中的第一阈值像素数量的多个隔离区域的面积大小来检测多个隔离区域。例如，平面图312中的多个隔离区域中的每一个的面积大小可以小于图像域中的平面图312中的第一阈值像素数量，即“100”个像素。

在426处，可以消除平面图312中检测到的多个隔离区域。控制电路202可以被配置为消除平面图中的检测到的多个隔离区域。

在428处，小于图像域中的第二阈值像素数量的检测到的多个隔离区域可由中值滤波器平滑。控制电路202可以被配置为基于3×3中值滤波器来平滑小于平面图312中的第二阈值像素数量的检测到的多个隔离区域。

在430处，可以针对在输入彩色图像帧116中捕获的场景110从平面图中的所检测的多个平面中选择距离参考高度的最低平面。控制电路202可以被配置为基于参考高度从平面图312中检测到的多个平面中选择最低平面。参考高度可以是捕获场景110的彩色图像帧序列112的图像捕获设备108的高度。所选最低平面的取向可以与所捕获场景110的地平面的取向相同。

在432处，可基于平面图中的像素的基于高度的分布来分离与平面图中的地平面的取向信息具有相同的取向信息的不同水平面中的像素。控制电路202可以被配置为基于像素的基于高度的分布来分离具有与平面图312中的地平面的取向信息相同的取向信息的不同水平面中的像素。不同水平面的表面法向量的取向可以是在面向上(即，从底部到顶部)的方向上。例如，在图3E中示出了基于平面图312中的像素的基于高度的分布的不同水平面中的像素的分离。

在434处，可以对与平面图的不同水平面中的其他像素相比存在于最低水平面中的像素进行分类。控制电路202可以被配置为基于平面图的基于高度的分布，对与平面图312的不同水平面中的其他像素相比存在于最低水平面中的像素进行分类。例如，在图3E中示出了与平面图的不同水平面中的其他像素相比存在于最低水平面中的像素的分类。

在436处，来自不同水平面的包括基于平面图的基于高度的分布的最大数量的像素的最低水平面可以被选择作为所捕获场景110的地平面316。控制电路202可以从不同的水平面中选择包括基于平面图的基于高度的分布的最大数量的像素的最低的水平面作为地平面316。例如，在图3E中示出了基于像素分类从平面图312检测地平面316。

在438处，可以检测位于距离所检测的地平面316的水平的限定区域中的多个前景像素。恢复电路202A可以被配置为检测位于距离所检测的地平面316的水平例如20mm到150mm的限定区域中的多个前景像素。例如，如图3F所示，多个前景像素可以位于限定区域320中。

在440处，可以恢复在输入彩色图像帧116中捕获的场景110的检测到的地平面316上存在的人类对象的脚部区域。恢复电路202A可以被配置为基于第二图像参数集合来恢复存在于所检测到的地平面316上的人类对象的脚部区域。例如在图3F中示出了存在于所检测到的地平面316上的人类对象的脚部区域318的恢复。

在442处，可以更新人类对象的所估计的前景掩模以包括人类对象的恢复的脚部区域318的像素集合。控制电路202可以被配置为更新人类对象的所估计的前景掩模以包括人类对象的恢复的脚部区域的像素集合。

在444处，可以提取前景人类对象，其中该人类对象的恢复的脚部区域318存在输入彩色图像帧116中捕获的场景110的所检测到的地平面316附近。控制电路202可以被配置为提取具有恢复的脚部区域318的前景人类对象，并生成具有人类对象的恢复的脚部区域的分割的人类对象。例如，如图3H所示，由控制电路202生成具有脚部区域318的第二分割人类对象324。控制可以转到结束。

在常规系统中，可以基于对象分割技术从彩色图像帧序列的所捕获的输入彩色图像帧中分割人类对象。基于这种常规系统分割的人类对象可能缺少人类对象的脚部区域。本公开可以恢复经分割的人类对象的缺失的脚部区域，并且生成并提取具有人类对象的恢复的脚部区域的前景人类对象。可以基于在输入彩色图像帧中捕获的场景的地平面检测来恢复人类对象的脚部区域。所公开的对象分割装置可以捕获彩色图像帧序列中的每个彩色图像帧的深度图像。与输入彩色图像帧相对应的输入深度图像可以被用来在三维坐标空间中生成输入彩色图像帧的点云。可以基于从所生成的输入彩色图像帧的点云的多个点中的每个点投影的多个表面法向量来检测场景的地平面。所公开的对象分割装置还利用第二图像参数集合来检测存在于所检测到的地平面的水平的限定区域中的人类对象的脚部区域的多个前景像素。因此，所公开的对象分割装置102考虑了在地平面上的脚部区域存在的人类对象的阴影，并且检测人类对象的脚部区域的多个前景像素。由于输入彩色图像帧的前景脚部区域的深度值和背景的深度值之间的差异最小，因此所公开的对象分割装置基于第二图像参数集合精确地检测距离所检测到的地平面的水平的脚部区域的多个前景像素。因此，所公开的对象分割装置能够通过基于第二图像参数集合分割接近所检测到的地平面的脚部区域来恢复脚部区域(否则其很难检测和分割)。此外，对象分割装置更新分割的前景人类对象以包括人类对象的恢复的脚部区域。

根据本公开的实施例，公开了一种用于基于地平面检测从图像序列进行人类对象的缺失脚部恢复的对象分割装置。对象分割装置(诸如对象分割装置102(图1))可以包括存储器(诸如存储器204)和耦合到图像捕获设备(诸如图像捕获设备108)的一个或多个电路(诸如控制电路202和恢复电路202A(图2))。图像捕获设备108可以包括一个或多个传感器(诸如第一类型传感器108A和第二类型传感器108B(图1))。图像捕获设备108可捕获场景(诸如场景110(图1))的彩色图像帧序列(诸如彩色图像帧序列112)和深度图像序列(诸如深度图像序列114)。控制电路202可以被配置为接收输入彩色图像帧(诸如图1中的输入彩色图像帧116)和对应的输入深度图像(诸如图1中的输入深度图像118)。控制电路202还可以被配置为基于对应的输入深度图像118来生成彩色图像帧序列112的输入彩色图像帧116的点云(诸如图3B中的点云302)。控制电路202可以基于第一图像参数集合将前景人类对象从输入彩色图像帧116的背景分割。经分割的前景人类对象可能缺少前景人类对象的脚部区域的至少部分。控制电路202可以被配置为检测在输入彩色图像帧116中捕获的场景110的地平面(诸如图3E中的地平面316)。可以基于与从所生成的点云302中的每个点(诸如图3B中的感兴趣点“i”304)投影的每个向量相关联的取向信息来检测地平面316。恢复电路202A可以被配置为恢复距离输入彩色图像帧116中的检测到的地平面316的水平的限定区域(诸如图3F中的限定区域320)中的脚部区域(诸如图3F中的脚部区域318)。可以基于与第一图像参数集合不同的第二图像参数集合来恢复脚部区域318。控制电路还可以被配置为从彩色图像帧序列112的输入彩色图像帧116的背景中提取具有恢复的脚部区域的前景人类对象(诸如图3H中的第二分割人类对象326)。可以基于对地平面316的检测以及距离所检测到的地平面316的水平的限定区域320中的所确定的多个前景像素来提取具有恢复的脚部区域的前景人类对象(诸如图3H中的第二分割人类对象326)。

本公开的各种实施例可以提供非暂时性计算机可读介质和/或存储介质，和/或非暂时性机器可读介质和/或存储介质，其上存储有可由包括通信地耦合到图像捕获设备的一个或多个电路的机器和/或计算机执行的指令集。该指令集可由机器和/或计算机执行以执行包括捕获场景的彩色图像帧序列和捕获该彩色图像帧序列的每个相应彩色图像帧的深度图像的步骤。可以为接收到的彩色图像帧序列的输入彩色图像帧生成点云。点云可以基于用于所接收的输入彩色图像帧的对应输入深度图像来生成。可以基于第一图像参数集合从输入彩色图像帧的背景分割前景人类对象。经分割的前景人类对象可能缺少前景人类对象的脚部区域的至少部分。可以基于与从所生成的点云中的每个点投影的每个向量相关联的取向信息，检测在输入彩色图像帧中捕获的场景的地平面。可以基于可以与第一图像参数集合不同的第二图像参数集合，恢复距离输入彩色图像帧中的检测到的地平面的水平的限定区域中的脚部区域。前景人类对象可以与恢复的脚部区域一起从彩色图像帧序列的输入彩色图像帧的背景中提取。可以基于对地平面的检测以及距离所检测到的地平面的水平的限定区域中的所确定的多个前景像素来提取前景人类对象。

本公开可以以硬件或硬件和软件的组合来实现。本公开可以以集中的方式在至少一个计算机系统中实现，或者以分布式的方式实现，其中不同的元件可以分布在若干互连的计算机系统上。适于执行这里描述的方法的计算机系统或其他装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，当加载和执行该计算机程序时，可以控制该计算机系统，使得它执行这里描述的方法。本公开可以在包括还执行其他功能的集成电路的一部分的硬件中实现。

本公开还可以嵌入在计算机程序产品中，该计算机程序产品包括使得能够实现本文描述的方法的所有特征，并且当被加载在计算机系统中时能够执行这些方法。在本上下文中，计算机程序表示一组指令的以任何语言、代码或符号的任何表达，该组指令旨在使具有信息处理能力的系统直接执行特定功能，或者在以下之一或两者之后执行特定功能：a)转换成另一种语言、代码或符号；b)以不同的材料形式再现。

尽管参考某些实施例描述了本公开，但是本领域技术人员将理解，在不脱离本公开的范围的情况下，可以进行各种改变并且可以用等同物进行替换。此外，在不脱离本公开范围的情况下，可以进行许多修改以使特定情况或材料适应本公开的教导。因此，本公开并不限于所公开的特定实施例，而是本公开将包括落入随附权利要求的范围内的所有实施例。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于地平面检测从图像序列中恢复人类对象的缺失脚部 [P] . 中国专利： CN112313704A . 2021-02-02
2. 在对象去除之后恢复图像中的缺失结构的结构分析方法 [P] . 中国专利： CN105825478A . 2016-08-03
3. MISSING FEET RECOVERY OF A HUMAN OBJECT FROM AN IMAGE SEQUENCE BASED ON GROUND PLANE DETECTION [P] . EP3782076A4 . 2022-01-19

机译：从基于地平面检测的图像序列缺少脚恢复人体对象
4. MISSING FEET RECOVERY OF A HUMAN OBJECT FROM AN IMAGE SEQUENCE BASED ON GROUND PLANE DETECTION [P] . 美国专利： US2019362500A1 . 2019-11-28

机译：基于地面平面检测的图像序列中的人文缺失脚恢复
5. MISSING FEET RECOVERY OF A HUMAN OBJECT FROM AN IMAGE SEQUENCE BASED ON GROUND PLANE DETECTION [P] . 世界知识产权组织专利： WO2019226673A1 . 2019-11-28

机译：基于地面平面检测的图像序列中的人文缺失脚恢复