首页> 中国专利> 基于深度学习的特征和最大置信路径的图像分类方法

基于深度学习的特征和最大置信路径的图像分类方法

摘要

基于深度学习的特征和最大置信路径的图像分类方法,属于模式识别领域。在一个足够大的图像库上训练卷积神经网络;利用训练好的卷积神经网络模型提取图像特征;计算每个类的均值向量;利用谱聚类算法对代表每一类的均值向量进行迭代聚类,用以构建视觉树;针对树的每个非叶子节点训练svm;对给定的测试图像,自顶向下,判断测试图片到对应子节点的概率,找到路径概率最大的叶子节点即为最终的目标类。利用CNN提取图像特征,具有很好的判别性和鲁棒性;给出了两个类的距离计算公式,通过推导极大地优化了计算复杂性,得到类之间的相似性,从而迭代使用谱聚类算法构建视觉树;利用类之间的视觉关系,对于大型图像分类有很好的效果。

著录项

  • 公开/公告号CN104992191A

    专利类型发明专利

  • 公开/公告日2015-10-21

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN201510438236.8

  • 发明设计人 曲延云;卢畅;

    申请日2015-07-23

  • 分类号G06K9/62(20060101);

  • 代理机构厦门南强之路专利事务所(普通合伙);

  • 代理人马应森

  • 地址 361005 福建省厦门市思明南路422号

  • 入库时间 2023-12-18 11:23:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-26

    授权

    授权

  • 2015-11-18

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20150723

    实质审查的生效

  • 2015-10-21

    公开

    公开

说明书

技术领域

本发明属于模式识别领域,尤其是涉及可用于大规模图像分类的基于深度学习的特征和 最大置信路径的图像分类方法。

背景技术

在计算机视觉领域,图像分类是一个非常重要,也是一个非常经典的研究问题。然而, 随着图像数量增大,图像种类增多,大规模图像分类目前仍然是一个非常具有挑战性的任务。 由于图像数量增大,计算量也会增大,需要的时间也会增大,对硬件要求也高,如果仍然采 用传统方法训练一个多类分类器来作为最终的分类依据的话,将会出现计算复杂性和准确性 等一系列问题。所以有必要设计一套新的分类架构和分类方法。

与传统的图像分类任务相比,大规模的图像分类任务的难点在于:(1)当图像数量和种 类增多时,计算量也随之增大,对硬件要求更高。(2)从很多目标类中识别一种目标类比从 少量目标类中识别一种目标类难度加大了很多,因为类数量增多时,必然存在一种现象:有 些类很相似,有些类差异性很大。这些相似的类严重地影响着分类的准确率。现有的方法主 要分为两大类,一类是利用深度学习构建深度卷积神经网络,先构建模型,然后通过大量训 练数据调整参数,这类方法需要大量训练数据,计算量大,对编程能力要求高,不能给出类 别间的关系,缺少友善的可视化效果,只能给出分类结果;另一类就是构建树形结构,采用 层次分类方法,它可以很好可视化分类效果,但由于没有完全利用树结构也就是类之间的关 系,即没有给出一个好的打分机制。另外,图片特征维度大,特异性和鲁棒性不够好,导致 分类结果不理想。

Ning Zhou and Jianping Fan在文献“Jointly Learning Visually Correlated  Dictionaries for Large-scale Visual Recognition Applications”中提到构建视觉树以 及联合字典学习,通过构建视觉树将相似的类聚在一起,不同节点学习不同的字典,以增大 图像表示的特异性。然而在进行分类的时候,他们并没有充分利用树节点之间的关系,只是 每层选择一个最大的分类结果向后传播,这样只要前面有分类错误,分类就会出错。另外, 该方法中学习到的字典特异性也不是很好,最终的准确率与深度卷积神经网络相差很远。因 此本发明利用了深度卷积神经网络中特征特异性好的优势,并结合类之间的关系构建了一个 好的打分机制,提升了分类准确率。

发明内容

本发明的目的在于针对大型图像分类计算量大和分类准确率低等问题,提供一种基于深 度学习的特征和最大置信路径的图像分类方法。

本发明包括以下步骤:

(1)利用在ILSVRC2012图像库预训练的CNN网络,按照Hinton在ImageNet Classification  with Deep Convoutional Neural Networks中提到的7层模型训练CNN模型;

(2)对任意大规模图像库,用步骤(1)中训练好的CNN模型提取库中的所有图片特征 (CNN的最后一层全连接层的输出)表示图像;

(3)对CNN模型提取库中任意一个类Ci,其中样例图像数量为Ni,第l张图像对应的特 征为计算第i个类均值向量Qi,计算第i个类方差

(4)计算每两个类之间的距离,构成一个对称的距离矩阵D;

(5)根据距离矩阵D计算相似矩阵A;

(6)根据相似矩阵A,迭代使用谱聚类算法,构建视觉树T;

(7)对每个簇训练一个SVM分类器,所有的SVM分类器形成一个有结构的树形分类器;

(8)对任意一张测试图像,依次从树的根节点对应的SVM分类器划分,每一个SVM分类 器都会给出一个置信分数,判断该测试图像属于该节点的各个子节点的概率,一直到叶子节 点,将叶子节点与根节点间的路径中所经过的节点对应的置信分数相乘,作为路径的置信值, 其中根节点处概率设置为1;

(9)由于步骤(8)中要判断的路径太多,为了加快速度,在树的每一层都过滤一次,仅 保留置信分数排在前K个的节点。

在步骤(3)中,所述均值向量Qi的计算公式为

第i个类方差的计算公式为

在步骤(4)中,所述计算每两个类之间的距离的公式为或后一个等式由前一个等式推导出来。

在步骤(5)中,所述相似矩阵A的类间相似性计算公式为的选择 可以参考Brendan J.Frey的文章Clustering by Passing Messages Between Data Points, 也可以简单的取作特征维度。

在步骤(6)中,所述根据相似矩阵A,迭代使用谱聚类算法,构建视觉树T的具体方法 可为:首先对所有类别对应的相似矩阵A,使用谱聚类算法,形成K个簇,每个簇里面含有 多个相似的类,继续对每个簇对应的相似矩阵使用谱聚类算法……直到满足树的最大深度限 制条件或者簇的最小类成员个数限制条件就停止聚类;簇对应树的非叶子节点,由多个目标 类组成;树的叶子节点即为目标类。

在步骤(8)中,使用的SVM为one-vs-rest:

(5.1)SVM进行划分的时候,会给出测试图片到每个类的置信距离d,通过logistic函数, 可以将该距离映射到0到1的一个概率值上,其计算公式为

(5.2)通过一个贝叶斯网络求出测试图像被分到某个目标类ci的概率,即是求根节点到 该叶子节点所经过的一条路径的得分,计算公式为

P(ci)=P(ci|parent(ci))*p(parent(ci))

其中P(ci)为目标类ci的最终得分,parent(ci)为ci的父节点;

(5.3)为了加快计算速度,避免遍历所有路径,树每层都选取概率最大的前K个中间节点。

本发明利用深度学习的优势,提取CNN最后一个全连接层的输出作为图像特征,并构建 视觉树,训练对应的分类器,给出了对应的打分机制。本发明具有如下突出优点:

1.本发明利用CNN提取图像特征,具有很好的判别性和鲁棒性。

2.本发明给出了两个类的距离计算公式,考虑到了每个样本,并通过推导极大地优化了 计算复杂性。并进一步得到类之间的相似性,从而迭代使用谱聚类算法构建视觉树。

3.本发明给出了一个高效的打分机制,充分利用了类之间的视觉关系,实验结果显示本 发明所使用的方法对于大型图像分类有很好的效果,并且在当前流行的方法中有明显的优势。

附图说明

图1是本发明CNN提取特征的流程图。

图2是本发明判断测试图片的流程图。

具体实施方式

参考图1和2,本发明的实施步骤包括提取图像特征,构建视觉树并训练对应分类器, 和根据本发明提出的打分机制测试图片三个部分。

步骤1,训练一个CNN模型

下载一个大的图像库,如ImageNet2012图像分类比赛库,参考Hinton在ImageNet  Classification with Deep Convoutional Neural Networks中提到的7层模型训练一个CNN 模型

步骤2,提取特征

用步骤1训练好的CNN模型对实验数据库中所有图像提取特征,也就是在CNN最后一个 全连接层的输出作为图像的特征,用于后面的计算。

步骤3,计算相似矩阵

(3a)计算每个类的均值向量类方差为图片第i类 的第l张图片对应的特征。

(3b)利用公式计算每两个类之间的距离,计算所有距离 后就可以构造一个对称的距离矩阵,正对角线上的值都是0。

(3c)根据两个类之间的距离计算两个类之间的相似性,计算公式为的选择可以参考Brendan J.Frey的文章Clustering by Passing Messages Between Data  Points,也可以简单地取作特征维度,从而构造一个对称的相似矩阵A。

步骤4,构造视觉树

(4a)通过步骤3得到的相似矩阵,使用谱聚类,将相似的类聚在一起,N个类被聚成K 个簇,每个簇由一些相似的类聚在一起;

(4b)判断是否达到停止聚类的条件,即是否达到设定的树的最大高度,簇中类的个数 是否小于设定的最小阈值;否则进入(4c);

(4c)对上次聚类生成的簇,继续使用谱聚类,对应的相似矩阵为A的子矩阵,即由该簇 中的类在A中对应的行和列组成;

(4d)重复步骤(4b)和(4c),完成视觉树的构建。

步骤5,训练分类器。

针对树的每个非叶子节点,训练SVM分类器,用于将测试图像划分到其子节点中,并给 出对应的分数。

步骤6,分类。

(6a)对给定的测试图像,丢给视觉树中根节点对应的分类器,进行分类,打分,给出 分数最高的k个子节点。

(6b)判断当前k个节点是否为叶子节点,若k个节点都是叶子节点,则停止;否则进 入步骤(6c)。

(6c)对新的k个节点中的每个非叶子节点,用其对应的分类器对测试图片打分,将其划 分到子节点去,将该分数与其父节点对应的分数相乘,作为该子节点最终分数,再新生成的 所有节点中选择分数最高的前k个。

(6d)重复步骤(6b)和(6c),完成分类,输出k个目标类,以及对应的分数。

本发明通过以下实验进行优点和有效性的证明

1.实验条件:

实验室用台式机参数:3G缓存的Tesla C2050 GPU,CPU为16 Inter(R)Xeon(R)X5647, 主频为2.93GHz,内存为32G,操作系统为Ubuntu12.04 64位系统,实验平台为caffe, python2.7。

实验室用本发明提出的基于CNN特征和最大置信路径的大型图像分类方法,其中CNN的 训练方法见参考文献“Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification  with deep convolutional neural networks[C]//Advances in neural information  processing systems.2012:1097-1105.”。

1.实验结果以及结果分析:

表1是在ImageNet2010图像分类比赛库上,本发明和当前其它六个流行的方法相比较。 结果显示本发明有很大的优势,其中Top1accuracy表示给出一个分类结果,分类正确的准 确率,Top5accuracy表示给出5个分类结果,其中有一个正确的准确率。

表1

Model Top-1 accuracy Top-5 accuracy Sparse coding[1]52.9% 71.8% SIFT+FV[2]54.3% 74.3% JDL+AP Clustering[3]38.9% N/A Fisher Vector[4]45.7% 65.9% NEC[5]52.9% 71.8% Visual forest[6]41.1% N/A 本发明 61.2% 81.7%

参考文献:

[1]Berg,A.,Deng,J.,Fei-Fei,L.:Large scale visual recognition challenge  2010.www.image-net.org(2010)。

[2]Sánchez,J.,Perronnin,F.:High-dimensional signature compression for  large-scale image classification.In:Computer Vision and Pattern Recognition (CVPR),2011IEEE Conference on,pp.1665-1672.IEEE,(2011)。

[3]Zhou,N.,Fan,J.:Jointly learning visually correlated dictionaries for  large-scale visual recognition applications.Pattern Analysis and Machine  Intelligence,IEEE Transactions on 36,715-730(2014)。

[4]Perronnin,F.,Akata,Z.,Harchaoui,Z.,Schmid,C.:Towards good practice  in large-scale learning for image classification.In:Computer Vision and Pattern  Recognition(CVPR),2012IEEE Conference on,pp.3482-3489.IEEE,(2012)。

[5]Lin,Y.,Lv,F.,Zhu,S.,Yang,M.,Cour,T.,Yu,K.,Cao,L.,Huang,T.: Large-scale image classification:fast feature extraction and svm training.In: Computer Vision and Pattern Recognition(CVPR),2011IEEE Conference on,pp. 1689-1696.IEEE,(2011)。

[6]Fan,J.,Zhang,J.,Mei,K.,Peng,J.,Gao,L.:Cost-sensitive learning of  hierarchical tree classifiers for large-scale image classification and novel  category detection.Pattern Recognition(2014)。

本发明主要解决了大规模图像分类问题中由于图像类别多,数据量大导致的分类准确率 低和计算复杂性大的问题。本发明主要步骤是:1)在一个足够大的图像库上训练卷积神经网 络。2)利用训练好的卷积神经网络模型提取图像特征。3)计算每个类的均值向量。4)利用 谱聚类算法对代表每一类的均值向量进行迭代聚类,用以构建视觉树。5)针对树的每个非叶 子节点训练svm。6)对给定的测试图像,自顶向下,判断测试图片到对应子节点的概率,找 到路径概率最大的叶子节点即为最终的目标类。本发明可以用于大规模图像分类。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号