首页> 中文学位 >基于深度残差学习的视觉物体跟踪算法研究
【6h】

基于深度残差学习的视觉物体跟踪算法研究

代理获取

目录

1 绪 论

1.1 视觉物体跟踪的研究背景与意义

1.1.1 问题的提出

1.1.2 研究意义及应用领域

1.2 影响视觉物体跟踪性能的关键因素

1.3 视觉物体跟踪的难点分析

1.4 视觉物体跟踪的研究现状及分析

1.5 本文的研究内容及组织结构

1.5.1 本文的研究内容

1.5.2 本文的组织结构

1.6 本章小结

2 视觉物体跟踪研究综述

2.1 视觉物体跟踪的基本框架

2.2 深度学习在视觉物体跟踪中的应用

2.2.1 基于深度学习的视觉物体跟踪

2.2.2 深度残差网络结构

2.3 现有研究工作的局限性及本文的解决方案

2.4 视觉物体跟踪算法的基准测试数据集及性能度量

2.4.1 OTB基准测试集

2.4.2 VOT基准测试集

2.5 本章小结

3 基于深度时空残差学习和相关滤波的视觉物体跟踪算法

3.1 引言

3.2 研究动机

3.3 相关工作

3.3.1 时空特征在视觉物体跟踪中的应用

3.3.2 相关滤波在视觉物体跟踪中的应用

3.4 STResNet_CF视觉物体跟踪算法概述

3.5 基于时空残差网络结构的目标物体表观建模

3.6 基于深度时空特征和相关滤波的视觉物体跟踪框架

3.6.1 目标物体的视觉特征表示

3.6.2 深度时空特征与相关滤波的集成

3.6.3 相关滤波器的更新

3.7 实验及性能分析

3.7.1 实验设置

3.7.2 基于不同表观模型的视觉物体跟踪算法的对比实验

3.7.3 不同残差单元输出特征对跟踪性能影响的比较分析实验

3.7.4 在OTB-2015上对总体跟踪性能的评估

3.7.5 在OTB-2015上基于属性的比较

3.7.6 基于Temple-Color的实验分析

3.7.7 基于VOT-2015的实验分析

3.7.8 定性评估

3.8 本章小结

4 基于深度多尺度时空残差学习的鲁棒性视觉物体跟踪算法

4.1 引言

4.2 研究动机

4.3 MSST-ResNet视觉物体跟踪算法概述

4.4 建立基于深度多尺度时空特征的表观模型

4.4.1 改进的残差网络结构

4.4.2 多个残差单元的融合

4.4.3 多尺度特征和深度残差网络的融合

4.4.4 时空特征与深度残差网络的融合

4.4.5 深度多尺度时空特征与核相关滤波器的集成

4.5 基于深度多尺度时空特征的在线跟踪

4.5.1 模型初始化

4.5.2 平移估计和尺度估计

4.5.3 模型更新

4.5.4 在线跟踪过程

4.6实现细节

4.7 实验及性能分析

4.7.1 各个分量在OTB-2015上的实验分析

4.7.2 在OTB-2015上对总体跟踪性能的评估

4.7.3 在OTB-2015上基于视觉属性的评估

4.7.4 在VOT-2015上的评估

4.7.5 定性评估

4.7.6 速度分析

4.8 本章小结

5 基于深度多尺度时空残差学习和“跟踪-学习-检测”框架

5.1 引言

5.2 研究动机

5.3 基于“跟踪-学习-检测”框架的视觉物体跟踪算法概述

5.4 MSSTResNet-TLD视觉物体跟踪算法概述

5.5 深度多尺度残差网络的在线学习

5.5.1 深度多尺度残差网络的输入

5.5.2 分类器的在线学习

5.5.3 多尺度多任务训练

5.6 在线“跟踪-学习-检测”过程

5.6.1 在线检测过程

5.6.2 检测器阈值的动态更新

5.6.3 在线跟踪过程

5.7实现细节

5.8 实验验证

5.8.1 在VOT-2016上对跟踪算法MSSTResNet-TLD的评估

5.8.2 在OTB-2015上对MSSTResNet-TLD进行评估

5.8.3 定性比较

5.9 本章小结

6 总结与展望

6.1 论文工作总结

6.2 研究展望

参考文献

附录

A. 作者在攻读学位期间发表或在审的论文目录

B. 作者在攻读学位期间已申请专利

C. 作者在攻读学位期间的其它科研成果目录

D. 学位论文数据集

致谢

展开▼

摘要

视觉物体跟踪是对生物视觉系统能够追踪某一运动物体的一种模拟,是计算机视觉研究中的一个关键任务,研究的核心问题是在连续视频图像序列中精确地估计目标物体的位置和尺度等状态信息。虽然视觉物体跟踪已经取得了阶段性的研究进展,但是目前视觉物体跟踪仍然是一项具有挑战性的任务,主要是因为由遮挡、形变、突然运动、光照变化、低分辨率以及复杂背景等引起的物体外观的显著变化,视觉物体跟踪算法必须能够准确识别这些变化,并在每个视频帧的图像中精确定位目标物体。本文将围绕视觉物体跟踪任务进行分析、讨论,基于深度残差学习模型建立有效的视觉物体跟踪算法,并对所建立的视觉物体跟踪算法在公开基准测试集上进行各项性能度量和评估,本文的主要研究内容及创新总结如下:  (1)基于深度时空残差学习和相关滤波器的视觉物体跟踪算法  近年来,越来越多的视觉物体跟踪算法在物体表观模型中将空间特征与时序特征进行有效结合,在视频图像序列中使物体的表观模型能够适应目标物体随时间和空间变化而产生的各种变化,从而有效提升视觉物体的跟踪性能。为了能够适应物体表观的变化,本文提出一种基于深度时空残差网络结构(Spatial-Temporal Residual Network)和相关滤波器(Correlation Filter)的视觉物体跟踪算法,将其命名为STResNet_CF视觉物体跟踪算法。建立基于原始残差网络结构并融合时空特征的物体表观模型,利用两个独立的残差网络结构分别获取空间特征和时序特征,并在每个残差单元增加一条从时域子网到空域子网的连接。这样就可以对空域残差子网和时域残差子网并行训练、相互融合,既能够获取单张图像中与目标物体表观相关的静态空间特征,又能够捕获视频连续图像序列之间的动态视觉特征,使得时空特征互为补充、相互受益。最后将从深度时空残差网络中输出的融合时空特征的特征图与相关滤波器结合,以在视频中实现对视觉物体精确而健壮地跟踪。实验结果表明:与其它现有的基于卷积神经网络或相关滤波器的视觉物体跟踪算法相比,我们提出的STResNet_CF视觉物体跟踪算法具有类似或更好的跟踪性能。  (2)基于深度多尺度时空残差学习的鲁棒性视觉物体跟踪算法  对于视觉物体跟踪任务而言,除了视频序列中的时空特征能够用于描述物体表观的变化外,多尺度特征对于视频中目标物体的准确描述也是非常重要的。因为物体在运动过程中,随着距离相机远近的不同,物体的尺度也会发生变化。当距离相机近时,物体变大;远离相机时,物体变小。准确识别物体尺度的变化,有助于提升跟踪算法的性能。为了能够有效识别视频场景中物体尺度的变化,我们除了在原始残差网络中增加识别时空特征的子网之外,我们还在每个残差单元的输出添加一条到下一个残差单元的跳跃连接,并在每个残差单元增加多尺度因子,以增强残差网络对多尺度特征的表达能力,从而提高视觉物体跟踪算法的准确率、精度、鲁棒性和成功率。我们将改进的残差网络命名为多尺度时空残差网络(Multi-Scale Spatial-Temporal Resdiual Network),基于该网络模型的视觉物体跟踪算法命名为 MSST-ResNet。在连续的视频图像序列中,我们提出的视觉物体跟踪算法MSST-ResNet可以鲁棒地识别目标物体的尺度、形状等各种表观变化,并能够充分有效地利用与物体运动有关的时序信息。最后,将网络输出的多尺度时空特征与核相关滤波器有效结合,以精确地定位目标物体在每一帧图像中的位置和尺度等状态信息。实验结果表明:我们提出的视觉物体跟踪算法 MSST-ResNet即使在物体的表观发生显著变化的情况下,也能够精确而稳定地对目标物体进行实时跟踪,而且我们的跟踪算法MSST-ResNet的各项性能优于现有的视觉物体跟踪算法。  (3)基于深度多尺度时空残差学习和“跟踪-学习-检测”框架的视觉物体跟踪算法  我们重点研究了视觉物体跟踪算法三个方面的问题,即:深度多尺度时空特征的在线学习、检测器的动态更新、以及视觉物体的在线跟踪。我们基于深度多尺度时空残差网络结构(Multi-Scale Spatial-Temporal ResNet)和“跟踪-学习-检测”(Tracking-Learning-Detection)框架开发了一种新的视觉物体跟踪算法,将其命名为MSSTResNet-TLD视觉物体跟踪算法。我们的目标是:在视频图像序列中,对在初始视频帧的图像中指定的目标物体实时地进行在线“跟踪-学习-检测”,建立一种有效的方法连续评估并更新基于深度多尺度时空残差学习的跟踪器、分类器和检测器。根据历史图像序列,学习深度多尺度时空特征,在每一帧的图像中,对物体及其周围背景进行有效区分,以精确地对目标物体进行检测和跟踪。实验结果表明:我们提出的MSSTResNet-TLD视觉物体跟踪算法不仅在精度、成功率、准确度和鲁棒性方面超越了现有的视觉物体跟踪算法,而且在CPU上的执行速度也可以达到实时跟踪的性能要求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号