首页> 中国专利> 一种基于深度局部特征描述符的海量图像分类方法

一种基于深度局部特征描述符的海量图像分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出一种基于深度局部特征描述符的海量图像分类方法，经过多层次的图像局部特征描述符的提取，最终获得更加抽象、丰富的图像表达，从而达到提高图像分类准确率的目的。本发明所采用的深度模型能在逐层的特征提取中捕获到图像中更加抽象、更加丰富的特征信息，加上平均池化操作，能够使获得的图像特征具有平移不变性，这对于日益剧增的图片数量以及图片多样性来说有着关键性作用。

著录项

公开/公告号CN104408479A

专利类型发明专利
公开/公告日2015-03-11

原文格式PDF
申请/专利权人电子科技大学;
展开▼

申请/专利号CN201410709479.6
发明设计人董乐;
展开▼

申请日2014-11-28
分类号G06K9/66;
代理机构电子科技大学专利中心;
代理人李明光
地址 611731 四川省成都市高新区(西区)西源大道2006号
入库时间 2023-12-17 04:31:51

法律信息

法律状态公告日

法律状态信息

法律状态
2018-04-06

授权

授权
2015-04-08

实质审查的生效 IPC(主分类):G06K9/66 申请日:20141128

实质审查的生效
2015-03-11

公开

公开

说明书

技术领域

本发明属于图像处理与深度学习技术领域，涉及高效率的海量图像处理，尤其涉及一种基于深度局部特征描述符的海量图像分类方法。

背景技术

近年来，图像处理在工业、制造业、军事、医疗等领域得到了广泛的关注与应用。尽管其发展形势一片大好，但随着实际应用的覆盖面逐渐拓宽，海量图像数据随之而来，这使得传统的图像处理方法已不堪重负。图像分类任务主要由三部分构成：图像预处理、图像特征提取、分类器选择。其中，图像特征提取对图像分类任务有着至关重要的作用。

由Herve Jegou等人提出的局部特征描述符(VLAD:vector of locally aggregated descriptors)是目前最为有效的图像特征之一，其在图像分类领域已经取得了卓越的成效。然而，随着图像数据集规模以及图像多样性的急剧增加，传统的VLAD在海量图像分类任务中逐渐显现出其内在的劣势。当VLAD运用于大规模图像集时，海量高维VLAD特征的存储以及之后的分类操作对目前的计算机设备来讲都极具挑战。为了提高处理图像大数据的性能，深度学习应运而生。深度学习经过多层次的特征提取，能够获得更加抽象、更加丰富的图像特征，从而提高图像处理的性能。本发明提出的海量图像分类方法便是结合了VLAD与深度学习的优势，融入其他的相关创新性操作，使得提取出的图像特征能够更加有力地胜任海量图像分类任务。

发明内容

本发明旨在提高海量图像分类任务的准确率，提出一种基于深度局部特征描述符的海量图像分类方法，经过多层次的图像局部特征描述符的提取，最终获得更加抽象、丰富的图像表达，从而达到提高图像分类准确率的目的。

本发明解决其技术问题所采用的技术方案如下：

基于深度局部特征描述符的海量图像分类方法，其流程如图1所示，具体包括以下步骤：

步骤一：设定整个深度学习模型为L层深度学习过程；对每一张训练样本提取SIFT特征，对整个训练样本集合的SIFT特征进行Kmeans聚类，得到第一层深度学习过程的字典D₁；

步骤二：将每张图片都分成多个图像块，用训练得到的字典D₁去计算每个图片块的 VLAD特征矩阵；对所述VLAD特征矩阵进行规范化操作，并将规范化后的VLAD特征矩阵的每一个列向量转置成行向量从而得到最终的VLAD特征向量

步骤三：对图像块集合B中每相邻的M1×M2个图像块的VLAD特征向量进行平均池化，每一张训练图片的所有图像块经平均池化过程得到VLAD特征向量所述 VLAD特征向量即构成相应训练图片经第一层深度学习过程后的VLAD面即 V₁_Map；

步骤四：将所有训练图片经第一层深度学习过程后的VLAD特征向量进行 Kmeans聚类得到第二层深度学习过程的字典D₂，再按照步骤二至步骤三的操作计算经第二层深度学习过程后的VLAD面，以此类推，直至得到所有训练图片经最后一层即第L层深度学习过程后的VLAD面；

步骤五：用数据降维算法PCA对步骤四所得的经最后一层深度学习后的VLAD面的特征进行降维计算即可得所有训练图片最终的图像特征V_final；

步骤六：将降维后的训练图片的图像特征V_final输入线性支持向量机(linear SVM)训练分类器；

步骤七：对测试图片按照步骤二至步骤五中与训练图像相同的操作过程进行处理，得到所有测试图片最终的图像特征V'_final，将其输入步骤六所述的经过训练的分类器中，最终实现图像分类目的。

需要说明的是：

针对不同的图像集，深度学习模型的层数L往往不同，但L值一般设定为三层以上就能得到较好的图片分类效果。

本发明的有益效果是：

本发明将传统的基于局部特征描述符的图像分类方法有效地与深度学习框架进行结合，提出了一种旨在提高海量图像分类任务准确率的处理模型；本发明具有以下优点：

1、与传统的基于局部特征描述符(VLAD)的图像分类方法相比，本发明所提出的深度模型能在逐层的特征提取中捕获到图像中更加抽象、更加丰富的特征信息，加上平均池化操作，能够使得获得的图像特征具有平移不变性，这对于日益剧增的图片数量以及图片多样性来说有着关键性作用；

2、与传统的深度学习框架相比，本发明从第一层的特征提取开始便获得一种具有强大区分能力的特征VLAD，之后每一层的特征提取都很明确，而不像深度学习那样从像素级别提取特征；深度学习提取的图像特征往往具有随机性，且整个图像分类系统的实现依靠着数以亿计的可学习参数，如果参数学习不好，那么将导致整个图像分类系统的性能下降；本发明所提出的基于深度局部特征描述符的海量图像分类系统明确地计算VLAD特征，不用学习参数，不会因参数选择的问题而波动该图像分类系统的性能。

附图说明

图1是本发明提供的基于深度局部特征描述符的海量图像分类方法流程图。

具体实施方式

本发明提出的基于深度局部特征描述符的海量图像分类方法具体包括以下步骤：

步骤一：设定整个深度学习模型为L层深度学习过程；提取每一张训练图片的SIFT特征，整个训练样本集合的SIFT特征集合S表示为：

S＝[s₁，…，s_N]，S∈R^D×N

其中N为SIFT特征集合中SIFT特征的个数，D为每个SIFT特征的维数；对SIFT特征集合 S进行Kmeans聚类，得到第一层深度学习过程的字典D₁∈R^D×K，其中K为字典D₁中聚类中心的数目，D为所述聚类中心的维数；

步骤二：定义每张训练图片是由T＝M1×M2×M3个图像块构成的集合B＝[B₁，…，B_t，…， B_T]，即每张训练图片有M3个分区域，每个分区域由M1×M2个图像块构成；图像块集合B 中的每个图像块B_t的SIFT特征集合S_Bt表示为S_Bt＝[s_Bt,1,…,s_Bt,j,…,s_Bt,n],S_Bt∈R^D×n,1≤j≤n，其中n为每个图像块B_t的SIFT特征个数；按照以下公式计算每个图像块B_t的VLAD特征矩阵V：

$v_{i} = Σ_{i = 1}^{K} (S_{Bt, i} - d_{1}^{i}), s_{Bt, i} \in S_{Bt}; i = 1, . . ., K$

V＝[v₁,…,v_i,…,v_K]

其中，是字典D₁中的第i个聚类中心，s_Bt,i是图像块B_t的SIFT特征集合S_Bt中与聚类中心的欧氏距离最短的SIFT特征；对VLAD特征矩阵V进行规范化操作：

$\tilde{V} = V / {| | V | |}_{2}$

其中，||V||₂是一个行向量，其第i个元素表示矩阵V中第i个列向量v_i的二范数；式(2)表示将矩阵V中第i个列向量的每一个数均除以二范数||V||₂中的第i个数，最终得到规范化后的 VLAD特征矩阵将规范化后的VLAD特征矩阵中每一个列向量转置成行向量并将所得行向量组合得到最终的VLAD特征向量

步骤三：对图像块集合B中每个分区域中的M1×M2个图像块的规范化VLAD特征向量进行平均池化，平均池化过程具体如下：

$\overline{V}_pooled = \frac{1}{M 1 \times M 2} Σ_{i = 1}^{M 1 \times M 2} {\overline{V}}_{i}$

其中，是所述M1×M2个图像块的VLAD特征向量进行平均池化后的VLAD特征向量；每一张训练图片的所有图像块按照上述的平均池化过程操作后得到M3个VLAD特征向量所述M3个VLAD特征向量即构成相应训练图片经第一层深度学习过程后的VLAD面的特征；

步骤四：将所有训练图片经第一层深度学习过程后的VLAD特征向量进行 Kmeans聚类得到第二层深度学习过程的字典D2，再按照步骤二至步骤三的操作计算经第二层深度学习过程后的VLAD面，以此类推，直至得到所有训练图片经最后一层即第L层深度学习过程后的VLAD面；

步骤五：用数据降维算法PCA对步骤四所得的经最后一层深度学习后的VLAD面的特征进行降维计算即可得所有训练图片最终的图像特征V_final；

步骤六：将降维后的训练图片的图像特征V_final输入线性支持向量机(linear SVM)训练分类器；

为验证本发明提出的海量图像分类方法的可行性，本实施方式对大数据集CIFAR-10进行分类，比较传统的基于VLAD分类系统与本发明提出的分类系统的准确率。CIFAR-10一共分为10个类，每个类有6000张图片，其中5000张为训练集，另外1000张为测试集。实验结果显示，传统的基于VLAD分类系统的准确率为73.4％，而本发明提出的海量图像分类方法的准确率达到了89.6％。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深度局部特征描述符的海量图像分类方法 [P] . 中国专利： CN104408479B . 2018.04.06
2. 一种基于深度局部特征描述符的海量图像分类方法 [P] . 中国专利： CN104408479A . 2015-03-11
3. Image retrieval with deep local feature descriptors and attention-based keypoint descriptors [P] . 美国专利： US10650042B2 . 2020-05-12

机译：使用深度局部特征描述符和基于注意力的关键点描述符进行图像检索
4. Image retrieval with deep local feature descriptors and attention-based keypoint descriptors [P] . 美国专利： US10402448B2 . 2019-09-03

机译：使用深度局部特征描述符和基于注意力的关键点描述符进行图像检索
5. Image Retrieval with Deep Local Feature Descriptors and Attention-Based Keypoint Descriptors [P] . 美国专利： US2020004777A1 . 2020-01-02

机译：具有深层局部特征描述符和基于注意力的关键点描述符的图像检索