技术领域
本发明基于计算视觉技术处理领域,特别涉及一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法。
背景技术
视频目标跟踪由于其拥有广泛的应用一直是广大学者研究的热点。由于RGB视频目标跟踪对于与环境相似的目标不敏感,导致基于RGB视频的目标跟踪算法跟踪这类目标时容易失败。而高光谱视频拥有丰富的光谱信息,即使目标与环境相似(BackgroundClutters),只要目标材质与环境不同,那么也能通过光谱信息来区分目标与环境,从而获得更好的跟踪结果。因此,高光谱视频在目标与其周围环境难以区分的情况下能够发挥重要的作用。在此基础上,高光谱视频目标跟踪也吸引了越来越多研究学者的关注。
与此同时,高光谱视频目标跟踪是一项艰巨的任务。其一,目前高光谱视频目标跟踪算法都是使用传统手工特征表征目标的特征,难以适应高时间-高空间-高光谱这种高维非线性三高影像。其二,现有的高光谱深度学习目标跟踪器都是基于伪彩色的跟踪器,没有使用高光谱的语义特征,难以表征出高光谱目标的特性。上述两类情况都会导致算法计算量大,处理速度慢。其三,现有的高光谱高算法多使用多尺度搜索或者生成多个候选区域的方法进行预测,这使得网络计算量进一步加大。由于上述几个问题存在,导致目前高光谱视频目标跟踪算法表现较差。
发明内容
本发明的目的在于提出一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法。
本发明所提供的这种基于目标感知的深度孪生网络高光谱视频目标跟踪方法,具有以下三个显著特点。一是设计了基于深度孪生网络的高光谱视频目标跟踪框架。二是设计了高光谱目标感知模块,利用高光谱语义特征表征高光谱目标,获取更有判别性的特征。三是设计自适应边界框预测模块,在不需要多尺度搜索与多个候选区域预测的情况下直接预测目标的尺度和位置,相比基于手工特征的高光谱跟踪器与基于伪彩色的跟踪器处理速度提升数十倍。
本发明提供基于目标感知的深度孪生网络高光谱视频目标跟踪方法,实现步骤如下:
步骤1,高光谱视频数据预处理;
步骤2,载入基于孪生网络的自适应边界框的RGB模型;
将高光谱视频帧中的任意三个波段提取出来组成伪彩色视频帧Y
步骤3,使用高光谱目标感知模块预测高光谱目标类别;
将高光谱视频帧输入高光谱目标感知模块,得到高光谱目标感知模块最终输出的分类特征图clsmap;所述高光谱目标感知模块由孪生网络构成,包括结构相同的模板分支2和搜索分支2,其具体结构包括骨干网络和多组高光谱目标感知预测模块,高光谱目标感知预测模块的结构与RGB模型的自适应边界框预测模块的分类分支的网络结构相同;
步骤4,将高光谱目标感知模块输出的clsmap与RGB模型输出的clsmap_rgb进行加权融合得到最终的clsmap_f;
步骤5,将得到clsmap_f输入到交叉熵损失函数中,输出loss值,反向传播loss值更新网络模型参数,最终得到优化后的网络模型f
步骤6,将包含待跟踪目标的高光谱视频帧Xi输入到网络模型f
进一步的,所述步骤1的实现方式如下,
步骤1.1,将高光谱视频数据转化为一帧帧连续的图像X
步骤1.2,将含有目标的高光谱视频图像帧X
进一步的,RGB模型和高光谱目标感知模块中的骨干网络均为resnet50。
进一步的,所述步骤2的实现方式如下,
步骤2.1,将高光谱视频帧Y
步骤2.2,将(feature2_rgb_t,feature2_rgb_s),(feature3_rgb_t,feature3_rgb_s),(feature4_rgb_t,feature4_rgb_s)分成3组分别通过3个自适应边界框预测模块输出3组结果(clsmap_rgb_2,locmap_rgb_2),(clsmap_rgb_3,locmap_rgb_3),(clsmap_rgb_4,locmap_rgb_4);将三组结果分别加权融合得到RGB模型最终输出的(clsmap_rgb,locmap_rgb)。所述自适应边界框预测模块包含分类预测模块与回归预测模块,将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-分类预测头”得到分类特征图,将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-回归预测头”得到回归特征图。
其中,α
进一步的,所述步骤3的实现方式如下,
步骤3.1,将高光谱视频帧Y
步骤3.2,将(feature2_t,feature2_s),(feature3_t,feature3_s),(feature4_t,feature4_s)分成3组分别通过3个高光谱目标感知预测模块,输出3个结果clsmap_2,clsmap_3,clsmap_4;将三组结果分别加权融合得到高光谱目标感知模块最终输出的clsmap;
其中,λ
进一步的,步骤4中clsmap_f的获取方式如下,
clsmap_f=aclsmap+bclsmap_rgb
其中,a与b是权重参数。
本发明方法具有以下显著效果:(1)设计了基于目标感知的深度孪生网络高光谱视频目标跟踪模型,相比之前的基于手工特的高光谱视频跟踪算法以及基于伪彩色的高光谱视频跟踪算法推理速度提升数十倍;(2)设计高光谱目标感知模块提取高光谱语义信息,提升了模型对高光谱目标的判别性;(3)设计了基于自适应边界框的预测目标状态的方法,无需多尺度搜索以及多区域预测,减小了计算量,加快了推理速度。
附图说明
图1是本发明实施例1的步骤2中基于孪生网络的自适应边界框的RGB目标跟踪器示意图
图2是本发明实施例1的步骤3中的高光谱目标感知模块示意图。
图3是本发明实施例1的步骤2中自适应边界框预测模块示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:
本发明提供一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法,包括以下步骤:
步骤1,高光谱视频数据预处理,本步骤进一步包括:
步骤1.1,将高视频数据转化为一帧帧连续的图像X
步骤1.2,将含有目标的高视频图像帧X
步骤2,载入基于深度孪生网络的自适应边界框的RGB模型,本步骤进一步包括:
步骤2.1,将海量的RGB视频数据集构成训练集,载入RGB模型后,固定RGB模型参数,不参与梯度回传。将高光谱视频帧Y
步骤2.2,将(feature2_rgb_t,feature2_rgb_s),(feature3_rgb_t,feature3_rgb_s),(feature4_rgb_t,feature4_rgb_s)分成3组分别通过3个自适应边界框预测模块输出3组结果(clsmap_rgb_2,locmap_rgb_2),(clsmap_rgb_3,locmap_rgb_3),(clsmap_rgb_4,locmap_rgb_4)。如图3所示,所述自适应边界框预测模块包含分类预测模块与回归预测模块,将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-分类预测头”得到分类特征图,将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-回归预测头”得到回归特征图。将三组结果分别加权融合得到RGB模型最终输出的(clsmap_rgb,locmap_rgb)。
其中,α
步骤3,使用高光谱目标感知模块预测高光谱目标类别,本步骤进一步包括:
步骤3.1,将高光谱视频帧Y
步骤3.2,将(feature2_t,feature2_s),(feature3_t,feature3_s),(feature4_t,feature4_s)分成3组分别通过3个高光谱目标感知预测模块,所述高光谱目标感知预测模块包括“卷积层-深度互相关卷积-分类预测头”,输出3个分类特征图分别为clsmap_2,clsmap_3,clsmap_4。将三组结果分别加权融合得到高光谱目标感知模块最终输出的clsmap。
其中,λ
步骤4,将高光谱目标感知模块输出的clsmap与RGB模型输出的clsmap_rgb进行加权融合得到最终的clsmap_f,本步骤进一步包括:
clsmap_f=aclsmap+bclsmap_rgb
其中,a与b是权重参数。
步骤5,将得到clsmap_f输入到交叉熵损失函数中,输出loss值,反向传播loss值更新网络模型参数,最终得到优化后的网络模型f
步骤6,将包含待跟踪目标的高光谱视频帧X
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
机译: 基于深度和神经网络的视觉目标跟踪方法和装置
机译: 基于深度学习和多目标跟踪方法的实时PET检测方法
机译: 基于深度逆境训练的视觉目标跟踪方法和装置