首页> 中文学位 >基于多尺度的深度卷积网络的场景识别
【6h】

基于多尺度的深度卷积网络的场景识别

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1论文选题的来源与意义

1.2 基于深度学习的场景理解的研究现状以及动态

1.3 本文的研究内容及组织架构

第二章 深度卷积网络

2.1卷积神经网络的结构

2.2全连接层

2.3防止过拟合

2.4模型的训练

2.5小结

第三章 特征提取与分类器

3.1引言

3.2特征提取算法的简介

3.3 MOP-VLAD

3.4实验分析

3.5本章小结

第四章 空间金字塔池化网络结构

4.1改进的网络结构

4.2空间金字塔池化层

4.3带有空间金字塔池化层网络的训练

4.4 SPP网络用于物体检测

4.5场景分类实验

4.6本章小结

第五章 物体检测

5.1 R-CNN结构

5.2 SPP用于物体检测

5.3实验结果

5.4小结

第六章 总结与展望

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

展开▼

摘要

场景理解是计算视觉领域研究的主要对象之一,常用的研究方法是机器学习,这种模式识别系统通常由两部分组成:特征的提取和分类。对于特征提取,本文采用的是深度学习作为特征提取的模型。一个经过训练的模型,可以先提取子块图像的特征,然后采用特征聚合的方法生成整幅图像的特征用于图像分类。本文采用的是线性SVM分类器用于场景的分类,作为工程上非常成熟的分类器,SVM的分类性能还是非常优秀的。
  本文的主要研究内容集中在图像特征的学习上。深度学习作为近几年最热门的特征学习与提取的方法,可以提取出图像中具有通用性的特征。本文采用了带有空间金字塔池化层的卷积神经网络,在卷积层与全连接层之间加入了一个金字塔池化层。这种结构改变了传统CNN结构的对于固定输入图像尺寸的要求,可以接受任意尺寸的图像作为输入,当输入图像为整幅图像的时候,则在一定程度上减少了信息的损失,有助于分类正确性的提升。对 SUN数据集的实验表明:1)空间金字塔层的假加入,可以使用任意尺寸的图像作为输入。我们训练的时候,就可以采用多尺寸的输入来进行训练,提高了特征的表达能力。2)虽然比传统的CNN多了一层,但是参数的数量减少了,提升了训练的速度,对单幅图像的处理速度也快了很多。3)在一幅全尺寸图像中多个小块的特征提取的时候,采用映射的方式,把特征地图映射到对应的原始图像中,这样可以解决子块图像的特征提取速度的问题。这种映射应用于图像的检测,可以大大节省处理的时间,提升处理图片的速度。
  此外,本文还采用了一种特征聚合的方法,VLAD。把来自各个子块的特征聚合起来,保留了更多的图像信息;同时也避免了直接把子块特征直接连接在一起造成的特征维度过大的缺点,减少了后续分类的训练时间。卷积运算保留了图像的太多的空间信息,对比SPM我们知道这影响了特征的表达能力。采用VLAD可以让信息更无序,实验证明,这个方法提取的特征更具有鲁棒性和区分能力,对尺度较大的几何形变更具有鲁棒性。场景图片具有高度变化的特性,必须采用更加鲁棒的特征才可以具有更好的分类效果。
  深度学习对图像的表达,以及对于特征的聚合,都还有广阔的发展空间。本文采用的方法在多个数据集上都得到了很好的效果。后续工作将关注于算法运行效率的提高,继续研究深度学习的不同的架构,以及推广该架构到不同的应用领域里。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号