基于多尺度的深度卷积网络的场景识别

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

场景理解是计算视觉领域研究的主要对象之一，常用的研究方法是机器学习，这种模式识别系统通常由两部分组成：特征的提取和分类。对于特征提取，本文采用的是深度学习作为特征提取的模型。一个经过训练的模型，可以先提取子块图像的特征，然后采用特征聚合的方法生成整幅图像的特征用于图像分类。本文采用的是线性SVM分类器用于场景的分类，作为工程上非常成熟的分类器，SVM的分类性能还是非常优秀的。
　　本文的主要研究内容集中在图像特征的学习上。深度学习作为近几年最热门的特征学习与提取的方法，可以提取出图像中具有通用性的特征。本文采用了带有空间金字塔池化层的卷积神经网络，在卷积层与全连接层之间加入了一个金字塔池化层。这种结构改变了传统CNN结构的对于固定输入图像尺寸的要求，可以接受任意尺寸的图像作为输入，当输入图像为整幅图像的时候，则在一定程度上减少了信息的损失，有助于分类正确性的提升。对 SUN数据集的实验表明：1）空间金字塔层的假加入，可以使用任意尺寸的图像作为输入。我们训练的时候，就可以采用多尺寸的输入来进行训练，提高了特征的表达能力。2）虽然比传统的CNN多了一层，但是参数的数量减少了，提升了训练的速度，对单幅图像的处理速度也快了很多。3）在一幅全尺寸图像中多个小块的特征提取的时候，采用映射的方式，把特征地图映射到对应的原始图像中，这样可以解决子块图像的特征提取速度的问题。这种映射应用于图像的检测，可以大大节省处理的时间，提升处理图片的速度。
　　此外，本文还采用了一种特征聚合的方法，VLAD。把来自各个子块的特征聚合起来，保留了更多的图像信息；同时也避免了直接把子块特征直接连接在一起造成的特征维度过大的缺点，减少了后续分类的训练时间。卷积运算保留了图像的太多的空间信息，对比SPM我们知道这影响了特征的表达能力。采用VLAD可以让信息更无序，实验证明，这个方法提取的特征更具有鲁棒性和区分能力，对尺度较大的几何形变更具有鲁棒性。场景图片具有高度变化的特性，必须采用更加鲁棒的特征才可以具有更好的分类效果。
　　深度学习对图像的表达，以及对于特征的聚合，都还有广阔的发展空间。本文采用的方法在多个数据集上都得到了很好的效果。后续工作将关注于算法运行效率的提高，继续研究深度学习的不同的架构，以及推广该架构到不同的应用领域里。

著录项

作者
李东阳;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科控制工程
授予学位硕士
导师姓名周越;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工神经网络与计算;
关键词
机器学习; 卷积网络; 场景识别; 特征提取; SVM分类器;

相似文献

中文文献
外文文献
专利

1. 基于小波谱图和深度卷积网络的音频场景识别新框架 [J] . 陈航艇 . 网络新媒体技术 . 2019,第002期
2. 基于小波谱图和深度卷积网络的音频场景识别新框架 [J] . 陈航艇1 . 网络新媒体技术 . 2019,第002期
3. 基于改进多尺度深度卷积网络的手势识别算法 [J] . 景雨 ,祁瑞华 ,刘建鑫 . 计算机科学 . 2020,第006期
4. 基于多尺度条件随机场的语义图像分割深度卷积网络 [J] . 汪萍 . 宿州学院学报 . 2019,第007期
5. 基于多尺度深度卷积网络的高光谱图像分类 [J] . 冯帅星 . 现代商贸工业 . 2019,第004期
6. 基于多尺度局部编码的自然场景识别 [C] . 周莉 ,贾鹏 ,胡德文 . 2009中国自动化大会暨两化融合高峰会议 . 2009
7. 基于深度卷积网络的输电线路变尺度多目标检测算法研究 [A] . 朱秀红 . 2019

基于多尺度的深度卷积网络的场景识别

目录

摘要

著录项

相似文献

相关主题

期刊订阅