首页> 中国专利> 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法

一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法

摘要

本发明提出了一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法。该方法采用“特征提取+映射”的思路,通过对行人属性标签的组合编码,挖掘行人属性特征之间的内在关联关系,在一个统一的框架下同时对行人的多种属性进行准确识别,有效降低了实现复杂度。通过网络模型的训练,建立行人图像的深度特征和行人属性标签组合编码向量之间的映射关系,用于对行人属性进行准确识别。在行人属性公共数据集PETA和RAP上的实验结果表明,与现有的基于深度学习的行人多属性识别方法相比,采用本发明提出的识别方法可以可以获得最优的识别准确率,分别达到89.09%和88.14%的识别率。

著录项

  • 公开/公告号CN112507800A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202011273516.5

  • 发明设计人 卓力;袁帅;李嘉锋;张辉;张菁;

    申请日2020-11-14

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人刘萍

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明属于计算机视觉领域,涉及一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法。

背景技术

行人多属性识别可以广泛应用在行人再识别、智能化视频监控等诸多领域,近年来受到了专家学者们的广泛关注。由于应用场景的不确定性,受行人携带物的遮挡、光照强度变化大等复杂因素的影响,行人多属性识别面临着巨大的挑战。

传统的基于人工设计特征的行人多属性识别采用的是“特征提取+分类器”的框架,如何高效准确地对行人的外观特征进行表达并设计合适的分类器是其中的关键所在。人们常常依赖设计者的先验知识或者经验为每个属性单独设计特征,特征的表达能力有限,区分能力不足,鲁棒性较差。同时,由于需要为每个属性的识别设计专门的分类器,因此算法的实现复杂度高,参数冗余。由于无法充分利用属性之间的内在关联关系,导致属性的识别准确率低,难以满足实际应用的需求。

近年来,深度学习在图像分类、目标检测以及语义分割等诸多领域取得了巨大成功。相较于传统机器学习方法,深度学习具有更优秀的模型泛化能力。学者们将深度学习应用于行人属性识别中,相继提出了多种行人属性识别方法。这类方法利用深度学习强大的特征表达能力和上下文信息提取能力,直接从海量数据中自动学习层次式的特征表示,通过构建一个多层神经网络,使机器自动地学习隐含在数据内部的关系,可以对目标实现从细节纹理到局部块再到高层语义的层次化递进表达,获得更具鲁棒性、表达能力更强的特征。与手工特征相比,深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示,在提取图像的多层次特征和上下文信息方面具有更为突出的优势,因此获得了远超过传统方法的性能。

基于深度学习的行人属性识别方法的关键在于如何设计一个深度神经网络架构,有效提取行人图像的深度特征,进行多个属性的识别。现有的方法往往采用复杂的网络结构来提取特征,网络模型训练速度慢,并且属性识别准确率难以令人满意。

发明内容

针对上述技术存在的问题,本发明提出了一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法。该方法不是采用常用的“特征提取+分类器”的识别思路,而是采用“特征提取+映射”的思路,即,通过设计一种轻型卷积神经网络架构,将特征提取和映射纳入一个统一的框架中加以实现,利用同一个轻型卷积神经网络可以同时对行人图像的多种属性进行准确识别,有效降低了实现复杂度。由于充分利用了行人属性之间的关联关系,该方法可以获得更高的识别准确度。

本发明主要包括行人图像属性标签的预处理、行人多属性识别模型建立等两个主要环节。每个环节具体采用了如下的技术方案:

步骤1:行人图像属性标签的预处理

为了充分利用行人图像多个属性之间的内在关联关系,本发明提出了一种行人图像属性标签的预处理方法。该方法将行人图像原有的标签进行编码、组合,得到二进制标签组合向量。这样的处理方式便于在一个统一的框架下同时实现多个属性的识别。

步骤1.1:构建行人图像的二进制标签组合向量

首先,将行人的原有属性标签进行二进制编码,并将各个属性的编码结果组合起来,得到一个行人属性标签组合向量。通过这种方式,每幅图像原始的多个属性标签将由一个二进制标签组合向量来代替。

步骤1.2:行人图像大小的归一化处理

将数据集中的行人图像大小统一为96x96。这样数据集中的每幅图像对应着一个二进制标签组合向量,用于训练网络模型。

步骤2:行人多属性识别模型建立

本发明设计了一个轻型卷积神经网络架构来实现行人多属性的协同识别。网络的输入为归一化后的行人图像,输出为二进制标签组合向量。整个网络可以细划为深度特征提取和映射两部分,其中深度特征提取部分采用的是本发明设计的轻型卷积神经网络结构作为骨干网络;而映射部分则由多个全连接层组成,用于将提取到的深度特征映射为二进制标签组合向量。通过训练该网络,可以直接建立行人图像与二进制标签组合向量之间的映射模型。在识别时,将行人图像输入到该模型,输出即为预测的二进制标签组合向量。可以看出,这种架构设计将深度特征提取和映射纳入到一个统一的架构下加以实现,仅利用一个轻型的卷积神经网络就可以同时实现多个行人属性的识别。

步骤2.1:轻型卷积神经网络架构设计

本发明设计了一种轻型卷积神经网络架构,该网络共包括五个卷积层、三个池化层和三个全连接层。利用经过步骤1处理后的数据对该网络架构进行训练,得到优化后的网络模型,利用该网络模型实现行人多属性的识别。

为了进一步提升特征的表达能力,本发明在轻型神经网络架构中加入了通道注意力机制。通道注意力机制可以对分类任务有用的特征通道进行加强,而对无用的特征通道进行抑制。通过这种处理,可以有效提升特征的区分能力,从而提升识别精度。

步骤2.2:行人多属性识别模型的建立

网络的输入为利用步骤1处理后的归一化行人图像和对应的二进制标签组合向量。通过训练该网络,建立行人图像与行人属性二进制标签组合向量之间的映射模型。在进行行人属性识别时,将行人图像输入到该模型,输出即为该图像预测的二进制标签组合向量,这样在一个框架下就可以同时实现行人多个属性的识别。

与现有技术相比,本发明具有以下明显的优势和有益的效果:

1.采用“特征提取+映射”的设计思路,将深度特征提取和映射纳入到一个统一的架构下加以实现,仅利用一个轻型卷积神经网络就可以同时实现多个行人属性的识别;

2.网络结构简单,计算复杂度低。设计了一种轻型的神经网络架构,实现简单,能够大大缩短模型训练时间;

3.行人属性识别精度高。在轻型神经网络架构中加入了通道注意力机制,可以有效提升深度特征的表达和区分能力。另外,通过行人属性标签的编码组合,充分利用了行人属性之间的内在关联关系,并通过人工神经网络建立行人图像与标签组合向量之间的映射模型,能够提升行人属性识别精度。

附图说明

图1本发明方法的整体网络框架图

图2 PETA数据集中的图像示例

图3行人多属性识别模型建立流程图

图4通道注意力机制示意图

表1 PETA数据集中的105个属性标签具体值

表2本发明方法的网络训练参数

表3采用不同方法在PETA数据集上的识别精度对比结果

表4采用不同方法在RAP数据集上的识别精度对比结果

具体实施方式

以下结合附图和具体实施方式对本发明做进一步说明。

本发明提出的基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法整体网络框架如图1所示,整个框架分为特征提取和映射两部分。具体实施方式如下:

步骤1:行人图像属性标签的预处理

步骤1.1:构建行人图像属性标签组合向量

下面以常用的行人属性公共数据集PETA中的一张行人图像作为示例(如图2所示),详细介绍行人图像属性二进制标签组合向量的构建过程。

在PETA数据集中,共包含65个属性标注(61个二值属性和4个多分类属性标注)。将4个多分类属性标签按照二值化的形式进行处理,可进一步拆分为11个二分类属性。将上述属性拆分整理后,每一张行人图像样本将得到一个61+11x4=105维的二进制属性标签组合向量,且每个属性在标签向量中的位置是固定的。PETA数据集中的105个行人属性标签编码位置及含义如表1所示:

表1 PETA数据集105个行人属性标签具体值

假设需要转换的图像有N(11400)张,每一张图像对应的属性有L个,包含性别、年龄范围、头发长度、衣服颜色、衣服类别等。

将每个行人图像样本用x

图2的原属性标注内容为:(upper Body White lower Body Black hair Blackfoot wear Black lower Body Casual lower Body Trousers personal Less30personalMale upper Body Casual upper Body Long Sleeve hair Short foot wear LeatherShoes carrying Nothing accessory Nothing),共计14个属性。按照上述105个属性标签信息对这些属性标签进行编码,即,将标签组合向量相对应属性位置的数值置为1,其余置为0。采用本发明使用的标签组合向量编码方法对图2的标签进行编码后,得到一个105维的二进制属性标签组合向量,具体表示如下:

[0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 01 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]。

步骤1.2:行人图像大小的归一化

由于行人图像是通过不同的设备采集得到的,行人图像的大小存在着很大的差别。综合考虑网络架构、处理复杂度等因素,本发明将行人图像大小归一化为96x96。归一化后的每幅图像均对应着一个行人属性标签组合向量,用于训练网络模型。

步骤2:行人多属性识别模型的建立

行人多属性识别模型的建立包括训练和识别两个阶段,如图3所示。在训练阶段,将归一化后的行人图像和对应的二进制标签组合向量送入到轻型卷积神经网络中,通过训练,建立行人图像与属性标签组合向量之间的映射模型。在识别阶段,将待识别的行人图像输入到训练好的网络中,输出即为该图像预测的二进制标签组合向量。

步骤2.1:训练数据增强

为了降低训练样本数量不足对网络训练性能的影响,本发明采取实时在线数据增强的策略,如平移、随机旋转、缩放等,增加各类属性样本的数量。

步骤2.2:通道注意力机制的使用

本发明通过采用通道注意力机制,来提升行人图像特征的表达与区分能力。通道注意力机制如图4所示:首先对输入特征进行压缩操作F

本发明在网络的第1、4、5个卷积层后面加入了通道注意力机制,这种添加方式可以获得最优的识别性能。

步骤2.3:轻型卷积神经网络的训练

利用训练样本数据,对图1所示的网络架构进行训练,主要包括特征提取以及映射两部分操作。网络模型训练参数如表2所示,训练过程详情如下:

表2 轻型神经网络训练参数

a)特征提取

将归一化后分辨率为96x96的行人图像进行第一次3x3x32卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为96x96x32。然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU以及3x3x3的最大池化这4个连续的操作,最终输出为带有通道注意力的32x32x32的特征图。

将第一次卷积最终输出的32x32x32特征图进行第二次3x3x64卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为32x32x64。然后对该特征图依次进批正则化batch normalization以及线性激活函数ReLU这2个连续的操作,最终输出大小为32x32x64的特征图。

将第二次卷积最终输出的32x32x64特征图进行第三次3x3x64卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为32x32x64。然后对该特征图依次进行批正则化batch normalization、线性激活函数ReLU以及2x2x2的最大池化这3个连续的操作,最终输出大小为16x16x64的特征图。

将第三次卷积最终输出的16x16x64特征图进行第四次3x3x128卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为16x16x128。然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU这3个连续的操作,最终输出为带有通道注意力的16x16x128特征图。

将第四次卷积最终输出的16x16x128特征图进行第五次3x3x128卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为16x16x128。然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU以及2x2x2的最大池化这4个连续的操作,最终输出为带有通道注意力的8x8x128特征图。

b)映射

将第五次最终输出的8x8x128特征图送入到过渡层,将多维的输入一维化,输出结果为1x1x8192。过渡层用于卷积层到全连接层的过渡,过渡层不影响batch的大小。

将1x1x8192的特征图送入到1x1x1024的全连接层降维,并依次进行线性激活函数ReLU、批正则化batch normalization以及dropout操作,丢包率为0.5,输出特征图大小为1x1x1024。

将1x1x1024的特征图送入到1x1x128的全连接层降维,并依次进行线性激活函数ReLU、批正则化batch normalization操作,输出大小为1x1x128的特征图。

将1x1x128的特征图送入到1x1x105的全连接层降维,并使用激活函数sigmoid输出105个属性各自的预测概率。当各个属性输出的预测概率大于0.5时,将二进制标签向量相应位置的属性置为1,否则为0。

本发明使用基于Sigmoid二值交叉熵的损失函数进行网络的优化训练。该函数能够以输出概率的形式来表征分类结果,可以在神经网络的输出端处理多分类的问题,满足行人的多属性识别要求。具体公式如式(1)所示,式中的x

p

因为本发明提出的深度神经网络用于对某一行人的多个属性同时进行识别,所以需要关注属性之间的关联关系,对属性的损失综合考虑。为此,本发明采用整体的Sigmoid交叉熵损失函数,如式(2)所示。

考虑到在实际训练的过程中样本分布并不是十分均衡,且不同属性的正样本所占比例也不平衡。为了解决这一问题,提高损失函数对模型的优化能力,本发明引入了正样本比例指数因子w

其中,p

w

通过训练,建立起行人图像与属性标签组合向量之间的映射模型。

步骤2.4:行人多属性识别

将待识别的行人图像输入到训练好的映射模型中,网络输出的是该图像预测的二进制标签组合向量。利用该模型,可以同时识别行人的多个属性。

本发明模型训练过程中,采用随机梯度下降法优化网络,初始学习率(init_lr)为0.0001,权重衰减(weight decay)设置为0.005,batch size大小为64,epochs大小为75。在训练过程中,PETA数据集按照规定,训练集与测试集的比例分别为60%、40%,RAP数据集按照规定,训练集与测试集的比例分别为80%、20%。通过实验发现,初始学习率对于本模型的训练过程有十分明显的影响,具体表现为训练过程中的“梯度抖动”现象,当初始学习率为大于等于0.001时,有十分明显的抖动现象,初始学习率小于0.00001时,训练时长有明显的增加,初始学习率为0.0001时,梯度最平滑,训练时长适中。batch size大小为64时,能够获得最优的实验性能。epochs大小为75时,实验获得最优的实验性能。

本发明方法与其他方法的识别性能对比

为了验证本发明提出的行人多属性识别方法的性能,在PETA和RAP两个最常用的行人属性识别数据集上,将其与目前8种基于深度学习的行人属性识别方法进行了对比实验。对比方法包括ACN、DeepMAR、JRL、VeSPA等。实验中,采用平均精度(mean Accuracy,mA)作为属性识别准确性的评判指标。其计算方式如下:

其中,L表示进行训练的属性个数,P

表3和表4所示的是在PETA和RAP两个数据集上的对比实验结果。由实验结果可得,本发明方法在PETA和RAP数据集上均可以获得最高的属性识别准确率,分别达到89.09%和88.14%,与现有的各种基于深度学习的行人多属性识别方法相比,能够获得最优的性能。上述实验结果充分验证了本发明提出方法的有效性。

表3 采用不同方法在PETA数据集上的识别精度对比结果

表4 采用不同方法在RAP数据集上的识别精度对比结果

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭示的技术范围内可以轻易想到的替换或变化都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号