首页> 中国专利> 一种实时视频流对象检测和跟踪方法

一种实时视频流对象检测和跟踪方法

摘要

本发明公开了一种实时视频流对象检测和跟踪方法,包括以下步骤:A、对输入视频的第一帧子集执行对象检测;B、在第一帧子集中的第一检测帧中检测物体和物体位置;C、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠,本发明合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。

著录项

  • 公开/公告号CN112598707A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 南京稻子菱机电设备有限公司;

    申请/专利号CN202011532140.5

  • 发明设计人 羊爱英;燕硕;梁劲;张亚斌;张泽;

    申请日2020-12-23

  • 分类号G06T7/246(20170101);G06T7/73(20170101);G06N3/04(20060101);

  • 代理机构

  • 代理人

  • 地址 210058 江苏省南京市栖霞区龙潭街道疏港路1号龙潭物流基地2-55号

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明涉及视频图像分析技术领域,具体为一种实时视频流对象检测和跟踪方法。

背景技术

摄像机在手机等移动电子设备上几乎无处不在。通常可以通过理解由照相机捕捉的场景的内容来改进由照相机捕捉的图像和视频。例如,对诸如面部的对象的检测可以允许基于检测对象的位置、移动和照明条件来控制照相机参数,诸如焦距和白平衡。然而,可靠的目标检测技术通常是一个计算密集型、耗电量大且离线的过程。本发明合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。

发明内容

本发明的目的在于提供一种实时视频流对象检测和跟踪方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种实时视频流对象检测和跟踪方法,包括以下步骤:

A、对输入视频的第一帧子集执行对象检测;

B、在第一帧子集中的第一检测帧中检测物体和物体位置;

C、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠。

优选的,对所述输入视频进行划分,使得所述第一帧子集对应于每第N个帧,N是所选择的数量,并且所述第二帧子集对应于其余的帧。

优选的,当在第一检测帧之后的选定数量的连续帧中没有检测到对象时结束跟踪;当对象的跟踪分数低于跟踪阈值时结束跟踪。

优选的,基于在第一检测帧中检测到的对象的特征来分配跟踪分数;基于检测对象的属性,在帧的第一子集上确定每个检测对象的跟踪阈值。

优选的,将ID与第一帧子集的检测对象相关联;基于所述ID来关联在第一子集的不同帧中检测到的对象;在第一子集的帧上确定对象的边界框;以及在第二子集的帧上确定边界框的变化;当在第一子集中的第二检测帧上未检测到对象时,在第二检测帧上跟踪该对象。

优选的,一种实时视频流对象跟踪系统,包括对象检测单元,对象跟踪单元,数据关联单元;其中对象检测单元用于对输入视频的帧的第一子集执行对象检测;对象跟踪单元用于基于每个检测到的对象的跟踪阈值,在输入视频的帧的第二子集上跟踪检测单元先前检测到的对象的位置;其中第二子集和第一子集是互斥的;所述对象检测单元包含帧存储器、神经网络权重、检测神经网络和裁剪单元;该神经网络是以级联卷积神经网络MTCNN为基础进行优化的结构,该神经网络包含三个子网络,分别称之为P-Net,R-Net,O-Net,三个网络组成一个级联结构;基于检测神经网络确定的对象的位置裁剪存储在帧存储器中的检测帧,裁剪后的对象图像提供给对象跟踪单元、跟踪神经网络和对象分析单元。

优选的,所述对象跟踪单元包含神经网络权重和跟踪神经网络,其中,权重信息是预先训练好的参数;该神经网络是以级联卷积神经网络MTCNN为基础进行优化的结构,该神经网络包含三个子网络,分别称之为P-Net,R-Net,O-Net,三个网络组成一个级联结构。

优选的,所述P-Net由四层卷积组成,第一层卷积核尺寸为3×3;第二层卷积核尺寸为3×3;第三层卷积核尺寸为1×1;第四层卷积又包括两个卷积层,第一个卷积层卷积核尺寸为1×1,输出一个通道称为置信度,用sigmoid激活,用于检测是否存在对象,并设定一个阈值,如果输出值大于该阈值,则判断为有对象。第二层卷积层卷积核尺寸为1×1,输出四个通道称为偏移量,用relu激活,用来确定对象位置;所述R-Net由五层卷积组成,第一层卷积核尺寸为3×3;第二层卷积核尺寸为3×3;第三层卷积核尺寸为2×2;第四层卷积核尺寸为2×2;第五层卷积又包括两个卷积层,第一个卷积层卷积核尺寸为1×1,输出一个通道称为置信度,用sigmoid激活,用于检测是否存在对象,并设定一个阈值,如果输出值大于该阈值,则判断为有对象。第二层卷积层卷积核尺寸为1×1,输出四个通道称为偏移量,用relu激活,用来确定对象位置;所述O-Net由五层卷积组成,第一层卷积核尺寸为3×3;第二层卷积核尺寸为3×3;第三层卷积核尺寸为3×3;第四层卷积核尺寸为3×3;第五层卷积又包括两个卷积层。第一个卷积层卷积核尺寸为1×1,输出一个通道称为置信度,用sigmoid激活,用于检测是否存在对象,并设定一个阈值,如果输出值大于该阈值,则判断为有对象。第二层卷积层卷积核尺寸为1×1,输出四个通道称为偏移量,用relu激活,用来确定对象位置。

优选的,所述数据关联单元包含对象分析单元,控制单元;所述对象分析单元通过分析裁剪单元提供的对象图像可以确定检测帧上位置以外的对象的属性;由对象分析单元确定的对象属性可以包括:面部光亮程度、面部相对于照相机的姿势或角度、眼睛位置,以及眼睛是否闭眼或眨眼;所述控制单元判断对象检测单元在第一检测帧中检测到的对象是否与另一检测帧中检测到的对象相同;控制单元还将对象分析单元在检测帧上确定的对象属性与对象跟踪单元在非检测帧上跟踪的对象相关联。

优选的,对所述输入视频进行划分,以使得所述第一子集的帧包括所述输入视频的每第N帧,N为预定数量,并且其余帧包括在所述第二子集中;当在第一子集的预定数量的连续帧中未检测到对象时,跟踪单元停止跟踪该对象;当对象的跟踪分数低于该对象的跟踪阈值时,跟踪单元结束跟踪该对象;其中:检测单元基于各自检测对象的属性和各自检测对象的背景确定第一子集帧上每个检测对象的跟踪阈值;还包括:数据关联单元,用于将ID与第一子集帧中检测到的对象相关联;其中:检测单元在第一子集帧上确定对象的包围盒;跟踪单元在第二子集帧上确定包围盒中的变化;还包括:当在检测帧中未检测到对象时,跟踪单元在检测帧上跟踪先前检测到的对象。

与现有技术相比,本发明的有益效果是:本发明合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。

附图说明

图1为本发明的视频图像采集分析系统框架图。

图2为本发明的检测和跟踪系统框架图。

图3为本发明的检测和跟踪流程图。

图4为本发明的具体单元的连接方法流程图。

图5为本发明具有移动面部对象的视频序列的检测跟踪示例图。

图6为本发明用于跟踪终止的示例数据集示意图。

图7为本发明用于跟踪终止的示例数据集中的一个示意图。

图8为本发明用于训练神经网络权重的级联神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种技术方案:一种实时视频流对象检测和跟踪方法,包括以下步骤:

A、对输入视频的第一帧子集执行对象检测;

B、在第一帧子集中的第一检测帧中检测物体和物体位置;

C、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠。

本发明中,对所述输入视频进行划分,使得所述第一帧子集对应于每第N个帧,N是所选择的数量,并且所述第二帧子集对应于其余的帧。

本发明中,当在第一检测帧之后的选定数量的连续帧中没有检测到对象时结束跟踪;当对象的跟踪分数低于跟踪阈值时结束跟踪。

本发明中,基于在第一检测帧中检测到的对象的特征来分配跟踪分数;基于检测对象的属性,在帧的第一子集上确定每个检测对象的跟踪阈值。

本发明中,将ID与第一帧子集的检测对象相关联;基于所述ID来关联在第一子集的不同帧中检测到的对象;在第一子集的帧上确定对象的边界框;以及在第二子集的帧上确定边界框的变化;当在第一子集中的第二检测帧上未检测到对象时,在第二检测帧上跟踪该对象。

图1描绘了本公开的视频图像采集分析系统100。系统100包括照相机102、图像分析单元108和照相机控制器110。照相机102可以捕捉场景的视频图像106,该场景可以包含对象104.1和104.2,例如面部。相机102可以将捕获的图像作为视频106数据流提供给图像分析单元108,图像分析单元108可以分析视频106中的图像,并且从其内容内检测预定对象。相机控制器110可以响应从图像分析单元108输出的数据来控制相机102。图像分析单元108可以从捕获的视频106内检测对象104.1、104.2,并识别检测到的对象的位置。图像分析单元108可以将属性分配给对象数据。例如,在检测到的对象是人类时,属性数据可以是运动特性、面部的光照、面部相对于照相机的姿势或角度、眼睛位置和面部的状态(例如,脸上的眼睛是闭着的还是眨着的,脸上是微笑的,等等)。照相机控制器110可以使用图像分析结果(例如对象属性)来控制照相机捕捉参数,例如其他图像的焦距或捕捉时间。

图2描绘了本公开的检测和跟踪系统框架200。图像分析系统200包括对象检测单元220和对象跟踪单元240。对象检测单元220可以处理输入视频206的帧的子集,并从其内容中识别预定类型的对象(例如,人脸、人体等)。对象跟踪单元240可以响应来自对象检测单元220的数据,并且可以在输入视频206的其他帧中跟踪检测到的对象。对象跟踪单元240可以输出识别输入视频中被跟踪对象的位置的数据。

与用于图像处理的已知技术相比,图像分析系统200执行的处理可以节省处理资源并减少延迟。与对象跟踪240相比,对象检测220可能需要更多的处理资源,包括电力以及更长的延迟。因此,对象检测单元220间歇地检测输入视频206的帧,与检测所有的帧相比,减少了所需的处理资源和延迟。与对象检测单元220相比,预期由对象跟踪单元240执行的操作具有更低的复杂度和更低的延迟,因此,图像分析系统200可以为输入视频序列206的所有帧提供位置数据,而不产生在所有这样的帧中检测对象所需的处理成本。例如,与对象检测单元220相比,对象跟踪单元240处理帧可能只需要10%的资源和10%的延迟。例如,通过仅间歇地操作这样的示例性检测单元,可以将功耗和延迟降低65%。

对象检测单元使用1/N帧的预定子集,其中N是预定整数常数。对象检测单元220可以处理输入视频帧的固定频率,例如每三个连续帧中的一个(当N=3时)。对象检测单元220可以识别对象及其位置,并且可以区分对象,例如通过将唯一ID分配给在图像内容中检测到的每个对象。该ID可用于确定在一个检测帧中检测到的对象是否与在不同检测帧中检测到的对象相同。因此,对象ID可用于确定在一帧中检测到的面部是否与在另一帧中检测到的面部相同。对象跟踪单元240可以跟踪对象检测单元220先前检测到的对象。如图2所示,对象跟踪可以在输入视频206的任何帧上操作。对象跟踪单元240可以从对象检测单元220接收检测帧中识别的对象的指示,然后在随后的帧中跟踪这些对象的改变。

对象检测220和对象跟踪240可以识别帧中每个对象的位置。检测和跟踪可以仅识别帧中对象ID。

图像分析系统200包括数据关联单元260,该数据关联单元260在为检测到的对象分配ID。数据关联单元260可以响应对象跟踪单元240和对象检测单元220输出的位置数据,并且基于位置之间的相关性分配ID。

数据关联单元260还可以通过对对象图像的分析来确定检测单元220或跟踪单元240未提供的对象的附加属性。例如,数据关联单元260可以识别由对象检测单元220定位在检测帧上的对象属性。可选数据关联单元260可以将检测帧上确定的对象的属性与在非检测帧上被跟踪的对象相关联。因此,数据关联单元260可以在检测帧和非检测帧上提供对象属性215。

图3描绘了检测和跟踪流程和方案300。方法300可以从捕获的视频数据中识别对象,并输出空间位置的数据。方法300可以首先在检测帧的第一帧上检测对象(框310)。使用检测帧中的对象的ID作为位置参考,可以跟踪检测帧之后的一个或多个帧的检测对象(框315)。当在跟踪帧中识别对象位置时,方法300可以输出每个跟踪帧中对象的位置数据(框320)。如前所述,检测帧可以输入视频序列中帧的一些预定子集。因此,如果检测帧选为1/N,框315和320可在框310每次处理检测帧时执行N-1次。例如,可以对每5帧中的1帧执行检测,而对剩余的每5帧中的4帧执行跟踪。

方法300可以比较框310-320在当前迭代中检测到的对象的数据和先前迭代中检测到的对象的数据并确定是否存在相关性(框325)。如果两次迭代中检测到对象之间具有相关性,则方法300可以在新的迭代中将公共ID分配给对象(框330)。如果在当前迭代中未检测到跟踪对象的相关性,则可以为该对象分配新的ID(框335)。

一方面,可以基于检测帧上的检测结果来终止对象。可比较连续迭代的对象检测结果(框310),以确定何时不再检测来自先前迭代的对象(框340)。这样,方法300可以确定该对象丢失的计数值是否超过预定的检测阈值(框345)。如果丢失的计数值超过预定的检测阈值,则方法300可终止对对象的跟踪(框350)。另一方面,可以基于跟踪帧的跟踪结果来终止对象。可以为每个被跟踪的对象确定跟踪分数(框355)。如果跟踪分数不超过跟踪阈值(框360),则可以终止该对象(框350)。

图4描绘了具体单元的连接方法400。系统400包括输入视频402、对象检测单元420、对象跟踪单元440、数据关联单元460和对象属性415。对象检测单元420包括检测神经网络422、用于控制和训练检测神经网络422的检测权重424、帧存储器426和图像裁剪单元428。对象跟踪单元440包括跟踪神经网络442和跟踪权重444,用于控制和训练跟踪神经网络442。数据关联单元460包括对象分析单元462和控制单元464。

检测神经网络422可以在输入视频402的帧的子集上运行。这些检测帧可以存储在帧存储器缓冲器426中,并且检测单元422可以检测检测帧中的对象(例如面部)的位置。裁剪单元428可以基于检测神经网络422确定的对象的位置裁剪存储在帧存储器426中的检测帧。裁剪后的对象图像可以提供给对象跟踪单元440、跟踪神经网络442和对象分析单元462。跟踪神经网络442可以基于当前帧和先前检测帧的对象图像来跟踪检测到的对象位置的变化,以确定新的位置和跟踪分数。

对象分析单元462通过分析裁剪单元428提供的对象图像可以确定检测帧上位置以外的对象的属性。由对象分析单元462确定的对象属性可以包括:面部光亮程度、面部相对于照相机的姿势或角度、眼睛位置,以及眼睛是否闭眼或眨眼。控制单元464可以判断对象检测单元420在第一检测帧中检测到的对象是否与另一检测帧中检测到的对象相同。控制单元464还可以将对象分析单元462在检测帧上确定的对象属性与对象跟踪单元440在非检测帧上跟踪的对象相关联。无论是检测帧还是非检测帧,可以为所有帧中的对象提供对象属性415。

在开始分析输入视频402之前,可以预先训练检测权重424和跟踪权重444。检测权重424和跟踪权重444可以在处理输入视频402期间被训练。

图5描绘了具有移动面部对象的视频序列的检测跟踪示例500。视频序列500包括包含面部对象的帧501-505。针对图2系统200对视频序列500的这个示例应用中,每隔一帧可以是检测帧(N=2)。因此,对象检测单元220可以在帧501、503和505上操作,而对象跟踪单元240可以在检测帧之间的帧(包括帧502和504)上操作。视频序列500从帧501中的两个面部对象开始,可选数据关联单元可以将ID与每个检测到的面部相关联。在图5中,通过包围面部的框来表示检测,并且在每个检测到的面部图像下指示相关联的ID号。跟踪单元可以在下一帧502上操作。在帧502中,可以成功地跟踪ID为1和2的面部。第三个面部,即皱眉面部,出现在帧502中,但是由于在先前的检测帧中没有检测到,因此在帧502中没有对其进行跟踪。在第二检测帧503中,检测所有三个面部,并且ID与每个面部相关联。在跟踪帧504中,ID为2的面部对象已部分被遮挡,因此即使对象的一部分存在于帧504中也可能无法被跟踪。对于第三检测帧505,仅检测ID为3的面部。ID为2的面部已消失,而ID为1的面部仍部分存在,但已发生足够的变化而未被检测到。对象可能无法在检测帧上检测到,也可能无法在跟踪帧上跟踪,例如,当对象从帧中消失、在进入或退出帧时部分被遮挡、在帧中被其他对象部分遮挡时,或者对象在帧中仍然是完全可见的,但是以某种方式在视觉上发生了变化。

图6和7用于描述跟踪终止的示例数据集。在图6中,在一系列帧上跟踪四个对象(ID=1、2、3、4)。在本例中,检测帧之间的跟踪帧的数目为N=3,并且当第一次被检测后3个连续检测帧中缺少对象时停止跟踪。成功检测或跟踪由复选标记表示,而失败检测或跟踪由X表示。例如,在检测帧1上检测所有四个对象(ID为1-4),在检测帧2上检测不到ID为2和3的对象。

在对象ID为1的情况下,它在所有帧上被检测和跟踪,因此对象1的跟踪永远不会终止。在检测帧4上终止对对象3的跟踪,因为3个连续检测帧中缺少对象。与对象ID 3相反,对象ID 2跟踪未终止。在检测帧1中检测到对象ID 2后,在检测帧2、3和5中未检测到,但检测帧3和5不连续,因此跟踪不会在检测帧5处终止。

当跟踪失败时,对象4跟踪终止。例如,当对象变得模糊或离开图像帧时,跟踪可能会失败。

如图7中进一步示出的,对象ID为4在跟踪帧2.2中跟踪失败,该跟踪帧可能在检测帧2和3之间。

综上所述,本发明合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号