首页> 中文学位 >一种用于人群计数的多尺度深度VLAD网络
【6h】

一种用于人群计数的多尺度深度VLAD网络

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 传统人群计数方法

1.2.2 卷积神经网络人群计数方法

1.3 论文的主要工作及组织结构

2 相关方法概述

2.1 卷积神经网络

2.1.1 卷积神经网络简介

2.1.2 卷积神经网络的主要计算

2.1.3 经典模型介绍

2.2 图像向量化表示

2.2.1 局部聚合描述符特征向量

2.2.2 软分配式局部聚合描述符向量

2.3 本章小结

3 多尺度深度卷积网络人群计数模型

3.1 NetVLAD

3.2 多阶段特征融合

3.3 多尺度深度VLAD网络

3.4 数据扩充方法

3.5 人群密度图

3.6 本章小结

4 实验结果及分析

4.1 算法评价标准

4.2 人群计数实验结果

4.2.1 UCF_CC_50数据集实验

4.2.2 Shanghaitech数据集实验

4.2.3 WorldExpo’10数据集实验

4.3 评估NetVLAD效果

4.4 评估多阶段特征融合效果

4.5 评估新的数据扩充方法

4.6 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

个人简历、在学期间发表的学术论文与研究成果

致谢

展开▼

摘要

最近几年计算机技术突飞猛进,特别是人工智能在计算机视觉相关领域的进展,使得智能监控在智慧城市建设中显得尤为重要。但是传统的视频监控技术已经不能跟上人们生活和社会发展的要求,以人工智能算法为基础进行图像分析的智能视频监控相关方法技术逐渐发展为监控领域的主要手段。智能监控系统当中重要的人群计数问题,成为了计算机视觉智能视频监控课题中最热门的研究问题之一。  人群计数是指对公共场所摄像头采集的视频流或者静态图像中的行人通过算法分析得到人群总数的过程。由于公共场合的摄像头规格各异,行人背景中的场景复杂变化,这些都给人群数量的估计带来了难度。与传统的方法不同,卷积神经网络(Convolutional Neural Network,CNN)的处理方式则可以不用再对人群图像进行预先的场景分割和人工标定特征提取,而是自动学习和提取关键人群特征,解决了传统的人群人数估计方法中人工选择特征准确率低、不同环境条件下适应性差等问题。但现有的大多数基于CNN的人群计数方法由于训练数据的匮乏,都采用网络深度较浅的结构,因此特征提取能力不够,并且对人群特征的使用不够合理,导致在碰到图像分辨率大小不一、尺度及视角多变时准确率和鲁棒性都下降。  为了解决上述问题,本文提出了一种多尺度深度NetVLAD人群计数模型。采用比现有大多数CNN人群计数模型层数更深的网络结构,获得更强的人群图像特征提取能力,将最终学习到的特征图采用VLAD(局部聚合描述符向量)编码方式来处理,使得对人群图像的遮挡、视角变化等有更强的鲁棒性。接着将CNN中不同阶段的卷积特征相融合,使得低级特征作为高级特征的补充信息,更好的抓住一些遗漏的特征点,进行人数估计是采用了应用人群密度图这种间接的方式。本文提出一种新的数据扩充方法,能够对深的CNN人群模型进行充分的训练,实时随机生成数量更多,差异性更强的训练样本,能有效的避免过拟合的发生。本文的方法是端到端的、可训练的,并且在尺度变化、视角变化和部分遮挡等拥挤人群场景下具有较高的准确性和鲁棒性。在UCF CC_50数据集,Shanghaitech数据集以及WorldExpo'10数据集这三个标准数据集上进行了实验,实验结果表明本文人群计数模型在准确率和鲁棒性上的优越性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号