首页> 中国专利> 一种CNN模型、CNN训练方法以及基于CNN的静脉识别方法

一种CNN模型、CNN训练方法以及基于CNN的静脉识别方法

摘要

本发明公开了一种CNN模型、CNN训练方法以及基于CNN的静脉识别方法,CNN模型包括多个卷积层,一个全连阶层以及SoftMax层;CNN训练过程中首先扩充数据库,结合多种包含相似特征的生物特征数据库,来进行模型的训练;全连接层与SoftMax层共同作为一个多分类的分类器;训练一个多分类的神经网络以使其学习到能够辨别静脉类别的特征;训练完成后,将全连接层的前一层输出作为特征,通过计算这些特征的余弦距离来度量一对图像的相似度。本发明融合多模态的生物特征数据库用于训练网络,解决了训练样本不足的难题,在超大的身份认证数据库中可以很大的提高检索速度。

著录项

  • 公开/公告号CN106971174A

    专利类型发明专利

  • 公开/公告日2017-07-21

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201710270053.9

  • 发明设计人 胡慧;康文雄;邓飞其;

    申请日2017-04-24

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/08(20060101);G06F17/30(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人梁莹;李斌

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2023-06-19 02:52:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-22

    授权

    授权

  • 2017-08-15

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20170424

    实质审查的生效

  • 2017-07-21

    公开

    公开

说明书

技术领域

本发明涉及深度学习和静脉识别技术领域,特别涉及一种CNN模型、CNN训练方法以及基于CNN的静脉识别方法。

背景技术

随着科学技术的发展,生物特征识别技术在某些方面逐渐代替传统的身份认证方法使得人们的生活越来越便利,尤其是其中的手指静脉识别技术越来越受到研究者的重视。因为静脉位于表皮之下不像指纹容易受到外界因素破坏,并且由于肉眼不可见而难以被窃取和伪造,因而具有极高的稳定性和安全性。此外,手指静脉的设备做得轻巧便捷,从而使得手指静脉识别技术具有很大的应用前景,但是目前该技术依旧还存在很多问题亟待解决,如:(1)获取的图像质量相对较低,传统的方法难以获得满意的识别效果;(2)目前的识别算法对较大的旋转和平移等变化较敏感等;当前的指静脉识别通常是依靠手工挑选的特征,这些特征表达能力相对较低,并且不够鲁棒;(3)目前大多数手指静脉识别算法多是基于特定的数据库设计的,很难泛化到其他相类似的数据库库,对应用场景有很大的限制。

近几年研究者在静脉特征提取上的工作主要可以分为如下四类:全局统计特征、细节点特征、形状特征和纹理特征。

就全局统计特征而言,它主要是基于统计理论对样本进行主成分分析或者线性判别投影,将降维后得到的数据作为特征。例如,有使用PCA和LDA对图像进行降维,然后使用SVM进行分类。有(2D)2PCA算法被用于提取特征,然后使用KNN进行分类。由于PCA和LDA都是线性方法,然而静脉图像识别是一个高度非线性的任务。这些方法很难处理旋转形变等问题。

细节点是图像中的一些显著且关键的点,它应该具有很强的辨别性。例如有人提出使用SIFT作为静脉图像的细节点。这种方法在一定程度上可以减轻对仿射变换的影响。但是当图像较模糊时(多数时候静脉图像都是不清晰的),特征点的定位很不稳定。

此外,静脉纹路的形状特征上也得到了深入的研究。有人提出使用重复线跟踪法提取静脉的纹路特征、使用均值曲率提取纹路、使用多方向Gabor滤波器提取纹路,或者使用线宽检测提取纹线,然后使用一个椭圆映射归一化因为旋转带来的静脉畸变问题。但由于成像设备问题,静脉图像一般比较模糊,该类方法会遇到与基于细节点特征的方法类似的问题:从模糊图像上提取的特征不够稳定。此外,该类方法对旋转变换同样比较敏感。

纹理特征是目前静脉识别的主流研究方向。其中最具有代表性的特征是LBP、WLD、LDP、HOG等。有学者统计带方向的2维高斯滤波器或者Gabor滤波器的响应直方图作为纹理特征表达。相对前面几类特征而言,纹理特征的优势是不再对图像的清晰度敏感,当静脉的纹路不是很清晰时依旧可以依据其他信息进行识别。且这一类特征都具有较高的维度,可以充分发挥机器学习算法优势。但是这些算法仍然是手工选取的特征,其表达和辨别能力有限。

近年来,基于深度学习的算法因为其可以学习到更高层的抽象特征,解决很多传统算法难以应对的问题,这使得深度学习算法越来越受研究者青睐。人脸识别、图像分类领域得益于深度学习的引入有了很大的发展。然而由于指静脉识别领域可用的数据库太少,从而限制着深度学习在该领域的应用。也有人首先在指静脉领域做了一些深度学习算法的尝试,但由于数据库太小,其性能并不是很理想。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足,提供一种CNN模型,减少对训练样本的需求,提高识别性能。

本发明的另一目的在于提供一种基于上述CNN模型的训练方法,融合多模态的生物特征数据库用于训练网络,解决了训练样本不足的难题。

本发明的另一目的在于提供一种基于CNN的静脉识别方法,匹配方法只有几个简单的余弦距离的计算,在超大的身份认证数据库中可以很大的提高检索速度。

本发明的目的通过以下的技术方案实现:

一种CNN模型,包括多个卷积堆、卷积层,一个全连阶层以及SoftMax层。

优选的,所述CNN模型包括三个卷积堆、三个卷积层。

优选的,采用VGGFace-Net的底层三个卷积堆用于提取底层特征。

优选的,最后一层卷积层使用3*5大小的形状。

一种基于上述CNN模型的训练方法,包括以下步骤:

扩充数据库,结合多种包含相似特征的生物特征数据库,来进行模型的训练;

底层卷积堆被用于提取样本图像的底层特征,另外卷积层生成静脉识别任务的高层抽象特征;

全连接层与SoftMax层共同作为一个多分类的分类器;

训练一个多分类的神经网络以使其学习到能够辨别静脉类别的特征。

优选的,可以采用样本增广策略进一步扩充数据集。

优选的,可以采用旋转策略扩充数据集:对原图旋转±3和±5度共生成4个新样本。

优选的,可以采用裁剪策略扩充数据集:对图像用一定大小的矩形在4个角都随机两次不同程度的截取共生成8个新样本。

优选的,在模型的训练过程中设置权值衰减为0.01;卷积堆的学习率为0,其余卷积层的学习率从最开始的0.01衰减至1e-9或者当loss value不再减小时停止训练。

优选的,对训练模型输入图片做去均值处理,采用的输入大小为128×192。

一种基于CNN的静脉识别方法,包括以下步骤:

训练一个用于区分大类别的CNN模型,通过训练这个模型区分大量的类别可以强迫它学习到更有辨别力的特征,训练完成后,将全连接层的前一层输出作为特征,得到输出的4个多维向量,标记这四个特征向量为f1、f2、f3和f4

首先计算单个特征向量对的余弦距离,如果距离值大于阈值th,则认为这一对特征向量是相似的,否则为不相似;

接下来进行整个样本的相似性判断;带有偏移补偿的匹配过程描述如下:对图像A和B采用5种匹配模式,如下式,其中,BIN(·)是一个二值化的操作,它判断单对特征向量之间是否匹配:

distij=cos<fAi,fBj

对于匹配模式1,匹配区域对应于图A的特征向量f3&f4及图B的特征向量f1&f2;因此该匹配模式需要计算的余弦距离以及的余弦距离,当这两个余弦距离值都满足阈值时,则认为图像A和B是相似的,模式2到模式4的匹配过程与模式1类似;

而模式5则采用完全匹配方式,需要计算图像A和B的四个特征向量的余弦值,当这四个余弦距离值都满足阈值时,则认为图像A和B是相似的。

优选的,在进行静脉识别时,当一个用户输入手指图像时只需要做一次卷积运算提取注册样本的特征,然后在身份认证数据库中存储大量的注册样本都是以特征的形式存储,识别过程中可以直接在提取的特征的基础上与待识别样本进行对比。

本发明与现有技术相比,具有如下优点和有益效果:

1、本发明使用迁移学习的理论设计网络的底层,从而减少对训练样本的需求;设计网络的顶层部分提取包含位置信息的特征,能够提高识别性能,在多个数据库下都获得了优异的性能。

2、本发明融合多模态的生物特征数据库用于训练网络,解决了训练样本不足的难题。

3、本发明的匹配方法只有几个简单的余弦距离的计算,在超大的身份认证数据库中可以很大的提高检索速度。

附图说明

图1是掌静脉、掌纹、指静脉数据库的样本示例。

图2是一个CNN网络各层的特征可视化图。

图3是同一手指静脉的图像含有部分的偏移示意图。

图4是实施例中CNN网络的结构图。

图5是实施例中CNN网络特征提取及用于分类的过程示意图。

图6是每个特征向量对应的感受野区域。

图7是五种匹配模式示意图,第一行表示样本A和B的特征向量之间的对应,第二行表示匹配区域的对应。

图8是实验中训练集与测试集的划分细节.

图9是识别实验中数据库DB-a的收敛曲线。

图10是识别实验中数据库BD-b的收敛曲线。

图11是识别实验中数据库DB-c的收敛曲线。

图12是识别实验中数据库DB-d的收敛曲线。

图13是识别实验中数据库DB-e的收敛曲线。

图14是认证实验中训练集和测试集的划分以及测试集中注册样本和待匹配样本的划分示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

在包括图像分类,目标检测,视频分析的众多领域都已经证明了深度卷积神经网络(Convolutional Neural Networks,CNN)拥有强大的特征表达能力,之所以能够获得如此巨大的成功一个不可缺少的前提是可供训练的数据库足够大。为了使得深度卷积神经网络能够在静脉识别领域发挥出其强大的能力,采取以下三个方面的改进:1)融合多个模态的生物特征数据库并采用一些样本增广策略增加训练样本的数量;2)使用迁移学习减少网络对训练样本的需求;3)根据静脉识别的特性设计卷积神经网络的结构,使得它可以提取包含位置信息的特征,然后配合设计的匹配方法,进一步提高静脉识别的性能。前两方面主要是解决训练样本不足的问题,第三方面是基于静脉识别自身具备的特点进行针对性改进,从而进一步提高识别性能。

1、扩充数据库

在手指静脉识别领域,目前公开的数据库其数据量很小,只依靠现有的指静脉数据库训练神经网络其训练效果并不理想,因此,结合多种包含相似特征的生物特征数据库,如指静脉数据库、掌静脉数据库和掌纹数据库,来进行模型的训练。使用这三种数据库的原因是它们都有共同的特性:“线状”信息,如图1所示。这些图片数据中都有着丰富的纹路信息并且可以用于识别,因此让CNN网络学习这些纹路特征进而去分辨掌纹、掌静脉、指静脉个体是可行的。在实施例中,被融合用于训练的数据库包括:VERA-Palmvein(100个类别)、PolyU-M-Palmprint(500个类别)、IITDelhi-Palmprint(470个类别)、SDUMLA_HMT-FingerVein(636个类别)、MMCBNU_6000-FingerVein(600个类别)、FV-USM(492个类别),总共包含有2798个类别,超过26K个样本。

虽然在融合多个生物特征数据库后总体样本超过了26K,但是要求去训练一个大型的卷积神经网络还是不够。因此进一步采用一些样本增广策略,例如随机旋转和剪裁,进一步扩充数据集。旋转策略的具体实施细节是对原图旋转±3和±5度共生成4个新样本。而裁剪的具体实施细节是用对图像用一定大小的矩形在4个角都随机两次不同程度的截取共生成8个新样本,因此通过随机旋转和剪裁能够对每个样本扩充12倍。

进一步设计一个卷积神经网络,希望通过利用这三种数据库组合而成的样本库训练该网络,使它可以有效的学习到表达“线状”信息的特征,并且使用该特征进行识别。

2、利用迁移学习理论设计网络的底层结构

通过使用上述的增广策略产生的样本与原始数据之间有较大的相关性,这会影响训练样本的多样性,并最终导致在训练网络的过程中产生过拟合的风险。

近两年的研究发现,多数神经网络都有一个有趣的现象:在网络的底层所学习的特征很类似于Gabor滤波器和一些颜色块的特征,这些特征在很多的任务中都是通用的。但随着层数的增加,网络所学习到的特征逐渐向具体的任务过渡,最终学习到的顶层特征是具体任务的特有特征(图2是网络特征形成过程的一个示例)。因此,提出选用现有网络的底层卷积产生底层特征(因为网络的底层有很多共性)。并在此基础上,设计网络的顶层结构去产生专门用于完成静脉识别任务的特征。使用这一策略的好处是它减少了网络中需要训练的参数数量,从而减少了对训练样本的需求,并降低了过拟合的风险。

现有的深度网络结构中,VGGFace-Net[1]被认为是一个非常成功的人脸识别网络模型(包含16个卷积层组成的5个卷积堆,由2622个人的共100万张人脸图像训练得到)。因此,采用VGGFace-Net的底层三个卷积堆用于提取底层特征。但本系统不仅限于能够使用VGGFace底层的卷积层,其他卷积神经网络的底层卷积层也可以被使用。

3、根据静脉识别的特性设计网络的顶层结构

通常获取的指静脉图像都会存在一定的位移和旋转,这使得同一个手指的两幅静脉图像并不能完全匹配上。如图3所示的一个简单例子,这两幅图像真正对应上的能够用于匹配的区域如红框所示,这两块区域在位置上存在一定的偏差,无法直接匹配。为减轻由于偏移和旋转带来的影响,采用在一定范围多次平移后再进行匹配的策略。

为能够使用这种匹配策略,所提取的特征必须保留位置信息。然而全连接层会破坏特征的位置信息(全连接层的原理是将所有位置的特征进行组合,虽然它一定层度上可以提高特征的抽象水平)。因此不像大多数卷积网络模型使用了2至3层全连接层,本实施例设计的训练模型中去除了多余的全连接层,只在训练过程中保留最后一个用于SoftMax层输入的全连接层,并且在使用过程中选择全连接层的前一层输出作为CNN提取的特征。

4、设计的神经网络结构

总体设计的网络结构如图4所示,称之为FV-Net,通过设置一个网络结构,需要这一个结构能够提取出2*2*256形状的特征。在FV-Net中,VGGFace-Net的底层三个卷积堆被用于提取样本图像的底层特征,在此基础上,设计另外三个卷积层去生成静脉识别任务的高层抽象特征。为提取包含位置信息的特征,最后一层卷积层需要使用3*5大小的形状。最后,全连接层(FC-layer)与SoftMax层共同作为一个多分类的分类器,在训练过程中使用。

使用该网络结构可以提取包含位置信息的特征,其具体细节如图5所示,其中虚线框所指示的就是所提取的特征,其大小为2*2*256,相当于提取了4个256维的特征向量。每个256维的特征向量具有不同的感受野,如图6所示,其中f1、f2、f3和f4代表的特征向量分别对应不同的感受野区域(每个感受野区域大小为96*160),相当于这4个256维的特征向量是从具有一定程度重叠的4块区域中提取的,因此所提取的特征包含4块不同位置信息。

5、卷积神经网络的训练

本实施例中,先训练一个多分类的神经网络以使其学习到能够辨别静脉类别的特征,当神经网络模型训练好后,该网络全连接层前一层的输出被用作为特征。训练该卷积神经网络基于Matconvnet深度学习库,在模型的训练过程中设置权值衰减为0.01;及固定VGGface的三个卷积堆的学习率为0,其余卷积层的学习率从最开始的0.01衰减至1e-9或者当loss value不再减小时停止训练。batchsize大小为128;对输入图片做去均值处理,为减少静脉纹路的畸变,采用的输入大小为128×192(这与通常的卷积网络要求输入为正方形图像有所差别),由于VGGFace要求的输入为RGB 3通道,而一般的静脉图像都是灰度图,因此将灰度图复制成三通道后输入网络。

如前文所描述,本实施例融合了多个数据库用于训练及测试,包括SDUMLA-HMT-FingerVein、MMCBNU_6000-FingerVein、FV-USM、IIT Delhi-Palmprint、PolyU-M-Palmprint、VERA-Palmvein。为简便书写,后面的部分将数据库名字依次统称为DB-a,BD-b,DB-c,DB-d,DB-e,DB-f。在此需要说明训练用的图像数据都经过了RoI提取,其中DB-a使用文献[2]中的方法截取RoI,DB-e使用[3]的方法截取RoI,而DB-b,DB-c,DB-d和DB-f则使用数据库自带的RoI。

首先训练一个用于区分大类别的CNN模型,通过训练这个模型区分大量的类别可以强迫它学习到更有辨别力的特征,训练完成后,将全连接层的前一层输出作为特征。并通过计算这些特征的余弦距离来度量一对图像的相似度。具体的度量方法如下文所述。

6、基于CNN的静脉识别方法

由FV-Net提取的特征包含4个256维的向量。首先计算单个特征向量对的余弦距离,之所以采用余弦距离计算相似度,是因为从直观角度看,每个神经元的输出值对应于该片感受野对某一种特征的响应,而对于同一个类别的样本,这个响应值应该是对应成比例的。如果距离值大于阈值th,则认为这一对特征向量是相似的,否则为不相似。

接下来进行整个样本的相似性判断。为了补偿因图像偏移所带来的影响,在四个有重叠的区域内实施五次匹配操作,其中包含四次带有偏移补偿的匹配和一次完全匹配,如图7所示。标记这四个特征向量为f1、f2、f3和f4,带有偏移补偿的匹配过程描述如下:对于匹配模式1,匹配区域对应于图A的特征向量f2&f4及图B的特征向量f1&f3。因此该匹配模式需要计算的余弦距离以及的余弦距离。当这两个余弦距离值都满足阈值时,则认为图像A和B是相似的。模式2到模式4的匹配过程与模式1类似。而模式5采用则完全匹配方式,需要计算图像A和B的四个特征向量的余弦值,当这四个余弦距离值都满足阈值时,则认为图像A和B是相似的。下式描述了上述判别过程,其中,BIN(·)是一个二值化的操作,它判断单对特征向量之间是否匹配:

distij=cos<fAi,fBj>(1)

为评估被提出方法的有效性,在识别和认证两种方式上分别进行实验。识别实验的目的是评估模型所学习到的特征的表达及区分能力,而认证试验的目的则是评估算法的有效性。并且认证试验按照开集协议执行(在开集协议上,只有部分的类别被用于训练,而另一部分的类别只被用于测试,不会在训练中出现)。如图8所示,实验中训练集和测试集的划分如下:在数据库DB-a中,前400个类用于训练,剩余236类别用于测试;在数据库DB-b中,前400个类用于训练,剩余200类别用于测试;在数据库DB-d中,前400个类用于训练,剩余70类别用于测试;在数据库DB-e中,前400个类用于训练,剩余100类别用于测试;另外,整个DB-c被用于评估模型被直接应用与相似环境中的泛化能力,因此DB-c被完全用于测试。而由于DB-f只有220个类别,因此它被完全用于训练。

识别实验

为检验提出的模型所学习到的特征的有效性,将已经训练好的模型用于测试集进行分类。这部分实验的目的检验模型所学习到的特征是否真正能够区分数据库中的类别。因此,使用卷积层所提取的特征重新训练分类层(即唯一的一个全连接层:FC layer),其中测试集中的一半样本用于微调分类层,另一半样本用于测试模型的识别精度。将全连接层以下的所有层的学习率设为0使得他们在训练中保持不变,而只调整连接SoftMax的全连接层。分别在五个数据库进行试验后,收敛曲线如图9-图13所示,其中不同曲线分别代表验证精度和训练精度。从图中可以看到,大多数数据库在前四个epoch训练已经基本完成,其误差已经下降到很低。之所以能够有这么快的收敛速度以及这么低的验证误差,一方面是因为仅仅只调整全连接层的参数,更多的是因为卷积层所学习到的特征区分能力足够强。此外,从图中还可以观测到:在训练的初期验证误差低于训练误差,这也正说明了模型所提取的特征足够有效。

认证实验

在实际应用场合中更多采用是的认证方式。其任务是判断注册样本和待匹配样本是否属于同一个类别。而在大多数真实的认证应用场景中,系统注册者的数量往往是不确定的,他们可能会随着时间的推移而不断的增加,因此开集测试协议进行评估系统性能更符合实际需求。为此,这一部分的实验也基于开集协议进行。训练集被用于网络参数的训练,而测试集被划分为注册样本和待匹配样本。每个类别中的一半样本被分为注册样本,另一半样本被分为待匹配样本,如图14所示。通过匹配来自同一类别的注册样本和待匹配样本得到类内分数,匹配来自不同类别的注册样本和待匹配样本得到类间分数。本实施例中,选择使用FV-Net的第六个ReLu层(全连接的前一层)的输出作为样本特征,其大小为2*2*256。

在相同的测试协议下将本实施例方法与一些现有的优秀算法进行比较,其中本实施例的算法只训练一个模型,然后在所有数据库上进行测试,而其余被比较的算法则首先通过训练集寻找最优的参数,然后用这一组最优参数在所有的测试数据库上进行测试。生物特征识别领域常用的性能评测指标EER(等误率)被用于评估算法性能,实验结果如表1所示,可以观察到本实施例的算法在所有数据库上都获得了最优的性能,并且相比而言具有明显优势。可见深度卷积神经网络有很强的学习能力,在如此多样性的训练集中也可以学习到一个通用的辨别模式,而这些被比较的算法都是基于特定的数据库(一个或者两个数据库)精心设计的,不具备良好的泛化性。而且这些手工设计的特征很难在大尺度的数据库上具有很强的辨别能力。

表1 各种算法在开集协议上的测试结果

此外,DB-c被专门用于测试本实施例的模型泛化到其他相似数据库上的性能表现(和其他数据库不同,DB-c整个数据库都被用于测试,没有在训练集中出现)。从表中可以观察到,本实施例的模型在该数据库上依旧获得了最好的性能。这表明在处理未知环境下采集的样本时,本实施例的模型依旧具有很强的识别能力。因此,本实施例的模型在使用时对各种场景具有更好的适应性。

在实施例中提出了一种基于CNN的静脉识别方法,为解决训练样本不足的难题,一方面融合掌纹和掌静脉数据库进行扩展。另一方面充分利用现有性能优秀的网络底层卷积层提取底层特征,此外,还结合特征的位置信息以提高识别性能,实验表明,该方法在多个数据库下都获得了优异的性能。

不仅如此,由于本实施例中的匹配方法只有几个简单的余弦距离的计算,在超大的身份认证数据库中我们的算法可以很大的提高检索速度。当一个用户输入手指图像时只需要做一次卷积运算提取注册样本的特征,然后在数据库中大量的注册样本都是以特征的形式存储(不需要卷积运算),识别过程中可以直接在提取的特征的基础上与待识别样本进行对比,因此使用该方法在超大数据库下做检索的时间消耗为T1(conv)+num*T2(cos),相比较于模板匹配或者SVM分类算法(他们需要进行num次的匹配),该方法应用到超大型数据库下做检索在速度上也更有优势。

参考文献:

[1]O.M.Parkhi,A.Vedaldi,A.Zisserman,Deep face recognition,BritishMachine Vision Conference2015,pp.6.

[2]J.Yang,Y.Shi,Finger–vein ROI localization and vein ridgeenhancement,Pattern Recognition Letters,33(2012)1569-1579.

[3]D.Zhang,Z.Guo,G.Lu,L.Zhang,W.Zuo,An online system of multispectralpalmprint verification,IEEE transactions on instrumentation and measurement,59(2010)480-490.

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号