首页> 中国专利> 一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法

一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法

摘要

本发明涉及一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法,包括:步骤1:获取待识别图像,并对图像进行预处理;步骤2:基于YoloV5和DeepSort构建人体检测跟踪模型;步骤3:训练人体检测跟踪模型;步骤4:计算模型的准确率,判断准确率是否大于预设阈值,若是,则执行步骤5,否则,返回步骤3;步骤5:使用训练好的人体检测跟踪模型对地面互动投影系统中的人体进行实时检测跟踪。与现有技术相比,本发明具有精度高、实时性好等优点。

著录项

  • 公开/公告号CN112668432A

    专利类型发明专利

  • 公开/公告日2021-04-16

    原文格式PDF

  • 申请/专利号CN202011531976.3

  • 发明设计人 吴强;季晓枫;冯育;胡瑞闻;唐昊;

    申请日2020-12-22

  • 分类号G06K9/00(20060101);G06T7/246(20170101);G06T7/277(20170101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构31225 上海科盛知识产权代理有限公司;

  • 代理人赵志远

  • 地址 200072 上海市静安区广中西路777弄13号

  • 入库时间 2023-06-19 10:38:35

说明书

技术领域

本发明涉及地面互动人体检测跟踪技术领域,尤其是涉及一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法。

背景技术

地面互动投影可以将任意一块平淡无奇的地板区域变成炫酷高科技实时交互的神奇之地。是参与者和地面上影像的真实互动,使多名参与者融入场景中,同时参与游戏。可以展示丰富的内容,包含各种有趣的互动小游戏。观众可以用肢体与投影画面中的内容进行互动,带来一种不同寻常的广告和娱乐交相辉映的效果,可以起到很好的活跃气氛,增加了展示的科技含量,也为企业用户提供具有创意内容的展示效果,提高了现场人气度和相关单位的形象,有很好的宣传效果。

人体互动是地面互动投影系统的关键所在,而投影系统若想要与用户进行互动,必须要对人体进行检测和跟踪,才能进一步实现与人体的互动。目前,针对地面互动投影上人体检测与追踪的算法并无太多研究。中国专利CN110516556A中公开了一种基于Darkflow-DeepSort的多目标追踪检测方法,该方法虽然使用YoloV3和DeepSort算法实现了对多目标的检测和追踪,但是该算法的目标检测精度以及跟踪精度均较低,同时该算法的运行速度也较慢,不满足地面互动投影系统的要求。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、实时性好的基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法。

本发明的目的可以通过以下技术方案来实现:

一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法,所述的检测跟踪方法包括:

步骤1:获取待识别图像,并对图像进行预处理;

步骤2:基于YoloV5和DeepSort构建人体检测跟踪模型;

步骤3:训练人体检测跟踪模型;

步骤4:计算模型的准确率,判断准确率是否大于预设阈值,若是,则执行步骤5,否则,返回步骤3;

步骤5:使用训练好的人体检测跟踪模型对地面互动投影系统中的人体进行实时检测跟踪。

优选地,所述的步骤1具体为:

获取待识别图像的集合,将图像随机划分为训练集和测试集,并对所有的图像进行Mosaic数据增强、自适应锚框计算和自适应图片缩放,扩展训练集和测试集。

优选地,所述的步骤2中人体检测跟踪模型具体为:

步骤2-1:搭建YoloV5子模型,用于对人体进行检测;

步骤2-2:搭建DeepSort子模型,用于对检测出的人体进行跟踪。

更加优选地,所述的YoloV5子模型具体为:

YoloV5子模型包括依次相连的Backbone主干网络、Neck网络和Head网络;

Backbone主干网络为由Focus结构和CSP结构组合而成的网络,用于获取图像对的特征图像;

Neck网络为由FPN结构与PAN结构组合而成的网络,用于混合和组合图像的特征,并将特征图像传递到预测层;

Head网络,用于对图像特征进行预测,获得边界框并预测类别;所述的Head网络使用GIOU_Loss为Bounding box的损失函数;使用加权NMS的方式对锚框进行筛选。

更加优选地,所述的DeepSort子模型具体为:

首先对检测出的人体目标框进行状态估计,并对目标的状态进行预测,然后将检测结果与预测结果进行关联匹配。

更加优选地,所述的状态估计方法具体为:

使用一个八维空间

使用一个基于常量速度模型和线性观测模型的标准卡尔曼滤波器进行目标运动状态的预测,预测的结果为(u,v,r,h);

对每一个追踪目标,记录自上一次检测结果与追踪结果匹配之后的帧数α

对新目标的判断是:检测结果中的某个目标始终无法与已经存在的追踪器进行关联,那么则认为可能出现了新目标,如果连续的三帧中潜在的新的追踪器对目标位置的预测结果都能够与检测结果正确关联,那么则确认是出现了新的运动目标;如果不能达到该要求,则需要删除该运动目标。

更加优选地,所述的关联匹配方法包括运动信息关联匹配和外观信息关联匹配;使用运动信息关联匹配度d

使用c

c

c

其中,λ为超参数。

更加优选地,所述的运动信息关联匹配具体为:

使用平方马氏距离度量轨迹Track和预测结果Detection之间的距离,计算方法为:

其中,d

更加优选地,所述的外观信息关联匹配具体为:

对每一个预测结果d

计算第i个轨迹的最近100个成功关联特征集与当前帧第j个预测结果d

更加优选地,所述的关联匹配方法还包括级联匹配,具体为:

当一个目标长时间被遮挡后,卡尔曼滤波预测的不确定性就会大大增加,若此时两个卡尔曼滤波器同时竞争同一个检测结果的匹配权,检测结果会与遮挡时间较长的轨迹相关联,此时引入级联匹配对更频繁出现的目标赋予优先匹配权。

与现有技术相比,本发明具有以下有益效果:

一、人体检测和跟踪的精度高:本发明中的地面互动投影系统中人体检测跟踪方法使用YoloV5模型和DeepSort模型相结合,使用YoloV5模型对地面互动系统的人体进行检测,使用DeepSort模型对检测出的人体进行跟踪,大大提高了人体检测和跟踪的精度,为实现地面互动投影系统提供基础。

二、算法速度快,实时性好:本发明中的地面互动投影系统中人体检测跟踪方法所使用的YoloV5人体检测模型图像处理速度是现有技术中人体检测模型图像处理速度的100倍以上,大大提高了地面互动投影系统人体检测和跟踪的实时性。

附图说明

图1为本发明中地面互动投影系统中人体检测跟踪方法的流程示意图;

图2为本发明实施例中YoloV5模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法,其流程如图1所示,包括:

步骤1:获取待识别图像,并对图像进行预处理,具体为:

将图像随机划分为训练集和测试集,并对所有的图像进行Mosaic数据增强、自适应锚框计算和自适应图片缩放,扩展训练集和测试集;

(1)Mosaic数据增强

包括了随机缩放、随机裁剪、随机排布的方式进行拼接,对于小目标的检测效果也比较好;

(2)自适应锚框计算

针对不同的数据集,都会有初始设定长宽的锚框。在网络训练中,网络在初始锚框的基础上输出预测框,进而和真实框ground truth进行比对,计算两者差距,再反向更新,迭代网络参数。

(3)自适应图片缩放

由于不同的图片长宽都不相同,常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中。比如Yolo算法中常用416*416,608*608等尺寸。在实际使用时,很多图片的长宽比不同,因此缩放填充后,两端的黑边大小都不同,而如果填充的比较多,则存在信息冗余,影响推理速度。因此在Yolov5的代码中datasets.py的letterbox函数中进行了修改,对原始图像自适应的添加最少的黑边。图像高度上两端的黑边变少了,在推理时,计算量也会减少,即目标检测速度会得到提升。推理速度得到了37%的提升,可以说效果很明显。

步骤2:基于YoloV5和DeepSort构建人体检测跟踪模型,具体为:

步骤2-1:搭建YoloV5子模型,用于对人体进行检测,其结构如图2所示;

YoloV5子模型包括依次相连的Backbone主干网络、Neck网络和Head网络;

Backbone主干网络为由Focus结构和CSP结构组合而成的网络,用于获取图像对的特征图像;

Neck网络为由FPN结构与PAN结构组合而成的网络,用于混合和组合图像的特征,并将特征图像传递到预测层;

Head网络,与输出端相连,用于对图像特征进行预测,获得边界框并预测类别;所述的Head网络使用GIOU_Loss为Bounding box的损失函数;使用加权NMS的方式对锚框进行筛选;

步骤2-2:搭建DeepSort子模型,用于对检测出的人体进行跟踪;

DeepSort子模型具体为:首先对检测出的人体目标框进行状态估计,并对目标的状态进行预测,然后将检测结果与预测结果进行关联匹配;

状态估计方法具体为:

使用一个八维空间

使用一个基于常量速度模型和线性观测模型的标准卡尔曼滤波器进行目标运动状态的预测,预测的结果为(u,v,r,h);

对每一个追踪目标,记录自上一次检测结果与追踪结果匹配之后的帧数α

对新目标的判断是:检测结果中的某个目标始终无法与已经存在的追踪器进行关联,那么则认为可能出现了新目标,如果连续的三帧中潜在的新的追踪器对目标位置的预测结果都能够与检测结果正确关联,那么则确认是出现了新的运动目标;如果不能达到该要求,则需要删除该运动目标;

关联匹配方法包括运动信息关联匹配和外观信息关联匹配;使用运动信息关联匹配度d

使用c

c

8.根据权利要求7所述的一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法,其特征在于,所述的运动信息关联匹配具体为:

使用平方马氏距离度量轨迹Track和预测结果Detection之间的距离,计算方法为:

其中,d

外观信息关联匹配具体为:

对每一个预测结果d

计算第i个轨迹的最近100个成功关联特征集与当前帧第j个预测结果d

本实施例中的关联匹配方法还包括级联匹配,应用时机具体为:

当一个目标长时间被遮挡后,卡尔曼滤波预测的不确定性就会大大增加,若此时两个卡尔曼滤波器同时竞争同一个检测结果的匹配权,检测结果会与遮挡时间较长的轨迹相关联,此时引入级联匹配对更频繁出现的目标赋予优先匹配权;

步骤3:训练人体检测跟踪模型;

步骤4:计算模型的准确率,判断准确率是否大于预设阈值,若是,则执行步骤5,否则,返回步骤3;

步骤5:使用训练好的人体检测跟踪模型对地面互动投影系统中的人体进行实时检测跟踪。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号