公开/公告号CN114998780A
专利类型发明专利
公开/公告日2022-09-02
原文格式PDF
申请/专利权人 南昌航空大学;
申请/专利号CN202210506694.0
申请日2022-05-07
分类号G06V20/40(2022.01);G06V10/40(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);
代理机构南昌市平凡知识产权代理事务所 36122;
代理人张文杰
地址 330063 江西省南昌市丰和南大道696号
入库时间 2023-06-19 16:46:06
法律状态公告日
法律状态信息
法律状态
2022-09-20
实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022105066940 申请日:20220507
实质审查的生效
2022-09-02
公开
发明专利申请公布
技术领域
本发明涉及视频场景分析技术,特别涉及一种基于时空交互注意力机制的行人多目标跟踪计算方法。
背景技术
多目标跟踪在视频分析的场景理解任务中起着至关重要的作用。它的目的是估计物体的轨迹,并以在线或离线的方式将目标对象的轨迹与每一帧的检测结果联系起来。多目标跟踪是计算机视觉面临的基本挑战之一,广泛应用于视频监控、交通控制、自动驾驶以及人机交互等各种应用与研究领域,具有重要的理论研究意义和应用价值。
目前,多目标跟踪计算模型中检测任务和Re-ID任务是两个完全不同的任务,它们需要不同的特性。一般来说,Re-ID特性需要更多的低级特性来区分同一个类的不同实例,而检测特性对于不同的实例需要是相似的。若使用共享特性会导致特征冲突,从而降低性能。若仅仅采用简单的卷积提取Re-ID特征,更关注于其中细节的特征信息,从而丢失了各种有效信息的特征交互。因此引入时空交互注意力机制更关注全局信息,通过联合多通道特征更准确的提取Re-ID特征,有望提高在遮挡和强光照情况下多目标跟踪的准确性和鲁棒性。
发明内容
针对上述背景技术中所涉及的问题,本发明提供一种基于时空交互注意力机制的行人多目标跟踪计算方法,通过对细节信息的全局优化和跨通道特征的交互,使得对遮挡和强光照情况下行人多目标跟踪的准确性和鲁棒性提高。
为了实现上述目的,本发明采取以下技术方案。一种基于时空交互注意力机制的行人多目标跟踪计算方法,其步骤如下:
1)输入图像序列中连续的两帧图像;
2)将图像序列中的第一帧图像输入到多层融合特征提取网络,获得融合特征图;
3)对提取到的第一帧的特征图同时输入检测分支和Re-ID分支,分别用于检测对象和提取Re-ID特征;
4)在所述检测分支,输入的特征图
所述热图负责估计物体中心的位置,尺寸为
所述物体中心偏移量用于更精确地定位对象,尺寸为
所述边界盒的大小负责估计每个位置的目标盒子的高度和宽度,尺寸为
5)在所述Re-ID分支,将第一帧的特征图作为时空交互注意力机制的输入,依次经过通道交互注意力机制与空间注意力;
6)将
式(1)中,将
C=φ(k) (2)
式(2)根据类比的原理,一维卷积大小k与通道数C存在正比的关系,因此在k和C之间可能存在一种映射φ;由于通道数C通常被设置为2的幂,φ(k)又可变换为:
C=φ(k)=2
式(3)中使用最简单的线性映射φ(k)=γ*k-b,γ和b为自定义常数;因此根据通道数C可计算出自适应一维卷积大小:
式(4)中|t|
7)经过通道交互注意力机制获得的特征图
式中AvgPool(·)和MaxPool(·)分别表示平均池化和最大池化操作,使用两个池化操作来聚合一个特征映射的信道信息,生成两个二维映射
8)对时空交互注意力机制的输出
9)将步骤4)得到的检测框与步骤8)得到的Re-ID特征使用卡尔曼滤波进行数据关联和预测,获得并保存第一帧的初始轨迹和第二帧的预测轨迹位置;
10)第二帧图像输入多层融合特征提取网络,重复步骤3)~8),获得第二帧的检测框和Re-ID特征,使用卡尔曼滤波将第二帧的预测轨迹位置与第二帧的检测框进行数据关联;
11)利用匈牙利算法匹配关联结果,从而获得最后的跟踪结果。
本发明通过在多目标跟踪的Re-ID子任务中引入一种新的跨通道协作网络,对高层特征进行优化增强,以缓解单一网络内部中检测与Re-ID任务共享特征的竞争问题,提高多目标跟踪中检测和Re-ID子任务的协作能力,对于行人被遮挡和强光照区域多目标跟踪计算具有更高的准确性和更强的稳定性。利用不同通道之间有效信息的交互融合,对高层特征进行优化增强,得到更加鲁棒的全局特征,显著提高遮挡和强光照区域行人多目标跟踪的准确性和鲁棒性。
附图说明
图1为本发明实例MOT17-03-DPM图像序列中的第62帧图像;
图2为本发明实例MOT17-03-DPM图像序列中的第63帧图像;
图3为本发明实例多层融合特征提取网络结构图;
图4为本发明实例基于时空交互注意力机制的行人多目标跟踪计算网络结构图;
图5为本发明实例行人重识别中时空交互注意力机制计算图;
图6为本发明实例时空交互注意力机制中交互通道注意力计算图;
图7为本发明实例时空交互注意力机制中空间注意力计算图;
图8为本发明计算所获得MOT17-03-DPM图像序列的跟踪结果。
具体实施方式
请参阅图1-图8,本发明提供了一种基于时空交互注意力机制的行人多目标跟踪计算方法,使用MOT17-03-DPM序列图像进行实验说明:
1)输入图1和图2是MOT Challenge数据集中MOT17-03-DPM图像序列的连续两帧图像;其中:图1是第一帧图像,图2是第二帧图像,图像分辨率为1920×1080;
2)如图3所示,将图1预处理后输入到多层融合特征提取网络,获得下采样4倍后的融合特征图,特征图分辨率为272×152;
3)如图4所示,对提取到的第一帧的特征图同时输入检测分支和Re-ID分支,分别用于检测对象和提取Re-ID特征;
4)在检测分支,输入的特征图
热图负责估计物体中心的位置,尺寸为
物体中心偏移量目的是更精确地定位对象,尺寸为
边界盒的大小负责估计每个位置的目标盒子的高度和宽度,尺寸为
上述中,C为特征图的通道数,H,W分别为特征图的高和宽;
5)如图5所示,在Re-ID分支,将第一帧的特征图作为时空交互注意力机制的输入,依次经过通道交互注意力模块与空间注意力模块;
6)如图6所示,将
式(1)中,将
C=φ(k) (2)
式(2)根据类比的原理,一维卷积大小k与通道数C存在正比的关系,因此在k和C之间可能存在一种映射φ。由于通道数C通常被设置为2的幂,φ(k)又可变换为:
C=φ(k)=2
式(3)中使用最简单的线性映射φ(k)=γ*k-b,本实验中γ和b为2和1。因此根据通道数C可计算出自适应一维卷积大小:
式(4)中|t|
7)如图7所示,经过通道交互注意力机制获得的特征图
式中AvgPool(·)和MaxPool(·)分别表示平均池化和最大池化操作,使用两个池化操作来聚合一个特征映射的信道信息,生成两个二维映射
8)对时空交互注意力机制的输出
9)将步骤4得到的检测框与步骤8得到的Re-ID特征使用卡尔曼滤波进行数据关联和预测,获得并保存第一帧的初始轨迹和第二帧的预测轨迹位置;
10)图2输入多层融合特征提取网络,重复步骤3)~8),获得第二帧的检测框和Re-ID特征,使用卡尔曼滤波将第二帧的预测轨迹位置与第二帧的检测框进行数据关联;
11)利用匈牙利算法匹配关联结果,从而获得MOT17-03-DPM图像序列第63帧的跟踪结果。
如图8所示,本发明方法对于跟踪目标在遮挡和强光照情况下具有较高的精度与有效性,在视频监控、交通控制、自动驾驶以及人机交互等具有广泛的实用性,快速和轻量化的特性使其在实际应用中更加可靠。
本发明的基于时空交互注意力机制的行人多目标跟踪计算方法,首先将图像序列中连续两帧图像的第一帧图像输入到深层聚合特征提取网络中进行特征提取;其次将第一帧的特征图同时输入检测分支和Re-ID分支,其中在检测分支完成跟踪对象的位置检测,在Re-ID分支通过时空交互注意力机制提取行人外观特征;然后利用卡尔曼滤波将检测结果与Re-ID特征进行关联和预测,获得并保存为初始轨迹和第二帧的预测框;随后输入第二帧重复上述第一帧操作,卡尔曼滤波关联第二帧的预测框与检测框;最后利用匈牙利算法匹配关联结果,从而获得最后的跟踪结果。本发明基于时空交互注意力机制的行人多目标跟踪计算方法,通过捕捉不同通道以及不同空间位置中更有效的部分,同时利用不同通道之间有效信息的交互融合,对高层特征进行优化增强,得到更加鲁棒的全局特征,显著提高遮挡和强光照区域行人多目标跟踪的准确性和鲁棒性。
本发明的基于时空交互注意力机制的行人多目标跟踪计算方法,通过对细节信息的全局优化和跨通道特征的交互,使得对遮挡和强光照情况下行人多目标跟踪的准确性和鲁棒性提高。
本发明的基于时空交互注意力机制的行人多目标跟踪计算方法,通过在多目标跟踪的Re-ID子任务中引入一种新的跨通道协作网络,对高层特征进行优化增强,以缓解单一网络内部中检测与Re-ID任务共享特征的竞争问题,提高多目标跟踪中检测和Re-ID子任务的协作能力,对于行人被遮挡和强光照区域多目标跟踪计算具有更高的准确性和更强的稳定性。
机译: 基于时空约束的跨镜头多目标跟踪方法及装置
机译: 基于在线系统从跟踪机制接收到的信息,识别在线系统用户与第三方内容的交互
机译: 基于在线系统从跟踪机制接收的信息,识别具有第三方内容的在线系统的用户之间的交互作用