技术领域
本发明涉及图像识别领域,具体涉及一种基于协同训练和密度图的公交车厢内拥挤度检测方法。
背景技术
智能视频监控技术是让计算机像人的大脑,让摄像头像人的眼睛,两者配合能智能地分析从摄像头中获取的图像,对被监控场景中的内容进行理解。公交车厢内拥挤度是智能视频监控的研究热点,基于深度学习技术从车载视频数据中提取目标信息,为实现城市公共交通的智能化管理赋能。
公交车厢内拥挤度检测属于人群密度估计领域的问题,要解决该类问题需要从所给的图像提取特征,预测图像中的人群密度,判定图像场景的拥挤程度。人群密度估计方法分为传统的视频和图像密度估计算法以及基于深度学习的密度估计算法。
传统的人群密度估计算法分为两类,基于检测和基于回归的方法。基于检测的方法是通过滑动窗口检测场景中的人群并统计人数,主要分为基于人全身的检测和基于身体某个部位的检测。基于全身的检测通过从人全身提取的小波、HOG、边缘等特征进行检测,分类器主要有SVM、Boosting、随机森林等,这种方法适用于稀疏人群,随着人群密度上升,人与人之间的遮挡越来越严重,这种方式不再适用。于是为了解决人与人的遮挡问题,基于身体某个部位进行检测,如人头等,这种方法相较全身检测,效果有略微提升。无论基于何种检测方法,都很难解决人群间的遮挡问题,因此基于回归的方法逐渐被用来解决人群密度估计的问题,回归思想主要是学习一种特征到人群数量的映射关系,通过提取场景的浅层特征,学习回归模型,如线性回归、岭回归、高斯过程回归。基于回归的方法虽然在一定程度上解决遮挡问题,但是使用整幅图像的特征进行回归,忽略了图像中的空间信息,于是提出了基于密度图进行人群密度估计的方法,通过学习图像的局部特征和其相应的密度图之间的映射,在密度估计和计数的过程中加入了图像的空间信息。
相较传统方法,深度学习方法能更方便高效地提取高层特征,其通过构建多层卷积神经网络模型,使得大规模图像数据训练并拟合网络中的大量参数,训练得到的模型具有非常强的表征能力。卷积神经网络的浅层网络能提取到图像中的浅层特征,如纹理、边缘等;深层网络能提取到图像中具有语义信息的高层特征,利用深度学习的学习能力从原图像得到其相应的密度图或人群计数。
因此,如何准确对难以划分拥挤度等级的图像进行精准分类,成为了本领域技术人员急需解决的问题。
发明内容
针对上述现有技术的不足,本发明实际解决的问题包括:准确对难以划分拥挤度等级的图像进行精准分类。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于协同训练和密度图的公交车厢内拥挤度检测方法,包括:
获取待检测公交车厢内拥挤图像;
将待检测公交车厢内拥挤图像输入训练后的公交车厢内拥挤度检测网络,公交车厢内拥挤度检测网络利用带拥挤度分类标签的公交车厢内拥挤图像和不带拥挤度分类标签的公交车厢内拥挤图像分别训练;
得到检测结果。
优选地,训练公交车厢内拥挤度检测网络的方法包括:
获取公交车厢内拥挤图像集,对符合预设条件的公交车厢内拥挤图像基于拥挤程度进行分类标注得到拥挤度分类标签数据集,划分符合预设条件的公交车厢内拥挤图像及拥挤度分类标签数据集得到训练集、验证集及测试集;对不符合预设条件的公交车厢内拥挤图像进行人头标注得到密度图标签数据集;
搭建公交车厢内拥挤度检测网络,公交车厢内拥挤度检测网络包括残差网络分支及空洞卷积分支;
利用第一训练集、第一验证集及第一测试集对残差网络分支进行预训练,微调网络权重,提取有拥挤度分类标签数据集的特征,训练残差网络分支的softmax分类器进行拥挤度等级分类;
将不符合预设条件的图像作为公交车厢内拥挤度检测网络的输入,对应的密度图标签作为空洞卷积分支的输出,基于残差网络分支协同训练空洞卷积分支;
空洞卷积分支训练完成后,将不符合预设条件的公交车厢内拥挤图像输入公交车厢内拥挤度检测网络,得到对应的预测拥挤度分类标签数,将预测拥挤度分类标签数中的可信拥挤度分类标签数及对应的公交车厢内拥挤图像加入训练集;
继续训练,直到所有不符合预设条件的公交车厢内拥挤图像都加入训练集。
优选地,进行人头标注得到密度图标签的方法包括:
对公交车厢内拥挤图进行人头标注;
生成与公交车厢内拥挤图相同大小的单通道图片,单通道图片中,人头标注的点像素值为1,其余像素点的值均取0;
通过高斯滤波处理单通道图片,生成对应的密度图标签。
优选地,所述残差网络分支包括依次连接的conv1、conv2、conv3、conv4、conv5、conv1*1、softmax分类器;对残差网络分支进行预训练,微调网络权重,提取有拥挤度分类标签数据集的特征,训练残差网络分支的softmax分类器进行拥挤度等级分类包括:
对残差网络分支进行权重初始化;
将残差网络分支的conv1、conv2、conv3、conv4的权重冻结,不进行反向传播更新权重,只更新conv5和softmax分类器的权重,当验证集的准确率不再上升时,解冻前一个卷积层的权重,重复训练直到第一训练集和第一验证集对应的准确率都不再变化时,结束训练;在训练时,选择softmax交叉熵作为损失函数,将卷积层Conv5_3的张量先进行softmax操作,得到的向量y',与对应的样本的分类标签的独热编码值y做交叉熵计算得到损失值H
H
式中,y′
优选地,所述空洞卷积分支包括与conv5相连的空洞卷积,基于残差网络分支协同训练空洞卷积分支时,损失函数如下:
式中,Θ表示空洞卷积的权重,N表示一次训练时的样本数,Z(X
与现有技术相比,本发明的有益效果是:
(1)本发明在标注公交车厢内的数据时,采用不同的策略,区分带分类标签和不带分类标签的数据,对不带分类标签的数据,标注其密度图,分别利用带标签的训练集和密度图进行神经网络的训练,解决了部分人工无法准确分类的公交车厢内拥挤度图像数据的问题,提高了分类的准确性。
(2)本发明对带分类标签和不带分类标签的数据分别进行训练,不用对整个数据集进行密集图标注,大大节约了标注成本。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1是本发明公开的一种基于协同训练和密度图的公交车厢内拥挤度检测方法的一种实施方式的流程图;
图2是本发明中公交车厢内拥挤度检测网络的一种具体实施方式的结构示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1为本发明公开的一种基于协同训练和密度图的公交车厢内拥挤度检测方法的一种实施方式的流程图,所述实施方式包括:
获取待检测公交车厢内拥挤图像;
将待检测公交车厢内拥挤图像输入训练后的公交车厢内拥挤度检测网络,公交车厢内拥挤度检测网络利用带拥挤度分类标签的公交车厢内拥挤图像和不带拥挤度分类标签的公交车厢内拥挤图像分别训练;
得到检测结果。
具体实施时,训练公交车厢内拥挤度检测网络的方法包括:
(1)获取公交车厢内拥挤图像集,对符合预设条件(对于能够准确划分到各拥挤度等级的图像,则认为符合预设条件,此类图像只有分类标签;对于不能准确划分的图像则认为不符合预设条件,此类图像就是进行人头标注,通过训练网络的方式,让网络判断应该属于哪一类别。)的公交车厢内拥挤图像基于拥挤程度进行分类标注得到拥挤度分类标签数据集,划分符合预设条件的公交车厢内拥挤图像及拥挤度分类标签数据集得到训练集、验证集及测试集(训练集用于调试神经网络(训练阶段);验证集用于查看训练效果(如果效果不好,需要调试训练过程);测试集用于测试网络的实际学习能力;验证集的作用体现在训练的过程:比如通过查看训练集和验证集的损失值随着epoch的变化关系可以看出模型是否过拟合,如果是可以及时停止训练,然后根据情况调整模型结构和超参数,大大节约时间。测试集的作用体现在测试过程:评估模型最终的泛化能力,但是不能作为调参、选择特征等算法相关的选择依据);对不符合预设条件的公交车厢内拥挤图像进行人头标注得到密度图标签数据集;
在本发明中,可根据拥挤度的不同,划分多个等级。例如,划分成空旷、舒适、比较拥挤和严重拥挤,各等级的判断标准如下:
空旷:车厢内超过50%的座位没有乘客坐;
舒适:车厢内空置座位低于50%,但仍有空位;
比较拥挤:车厢内座位已坐满,车厢走道中乘客占走道能容纳乘客总量小于或等于50%,乘客在车厢内移动较方便;
严重拥挤:车厢内座位已坐满,走道上乘客密集分布,且车辆前后门有乘客聚集现象。
密度图是指对于给定图像,数据集需要提供图像中的头部标注组成的稀疏矩阵,通过高斯滤波器将稀疏矩阵转换为2D密度图。密度图中所有单元格的总和为图像中的实际人数。由于在实际分类时,有较多的图像场景是处于上述四种状态之间的,界限比较模糊,人工分类会比较主观,因此将能准确分类的图像场景进行分类标注,将无法进行准确分类的图像场景进行人头标注,再生成其密度图标签。
进行人头标注得到密度图标签的方法包括:
对公交车厢内拥挤图进行人头标注;
生成与公交车厢内拥挤图相同大小的单通道图片,单通道图片中,人头标注的点像素值为1,其余像素点的值均取0;
通过高斯滤波处理单通道图片,生成对应的密度图标签。
在标注了人头的图像中标注点为x
即具有N个人头图像的密度图,其标注的人头位置在图像中的x
这样构建的密度图是假设人头相对于图像平面是独立存在的,但是会造成生成的密度图非常稀疏,导致在网格计算损失时整体输出趋近于0,而且不利于统计人群密度较大时的场景,因此需要使用高斯函数对上式进行卷积,将标记为人头的位置变成该区域的密度函数。这样在一定程度上解决稀疏问题,也不改变人数的计数方式。
高斯核选择非常重要,在真实场景下特别是人群密度很高时,每个x
其中
由于采集的数据平均分布在各个时段,因此大多数图像数据分布在空旷和舒适两个状态,拥挤和严重拥挤状态数据相对较少。为了获取更多处于拥挤和严重拥挤状态的数据,可利用数据增强技术扩增数据,使各类数据的数量达到平衡。最终公交车厢内的图像数据集构成主要为四类,每类包含2万张数据,将其分为训练集、验证集、测试集。车厢内图像数据的特征:摄像头的角度不一致,因此进行一定程度的数据增强,可以增强模型的鲁棒性。
(2)搭建公交车厢内拥挤度检测网络,公交车厢内拥挤度检测网络包括残差网络分支及空洞卷积分支;
本发明中的公交车厢内拥挤度检测网络如图2所示。
本发明可基于tensorflow深度学习开源框架进行网络模型搭建,网络前端采用resnet_v2网络结构作为整个模型的特征提取模块。resnet_v2在resnet的基础上调整了激活函数的位置,获得了更稳定的结果。resnet共有5组卷积。第一组卷积输入的大小为224*224,第五组卷积输出大小是7*7,缩小了32倍,网络中加入了BN(BacthNormalization)层。为了平衡准确性和资源开销,搭建的残差网络共50层,去掉了全连接层,因此是一个全卷积网络,输入图片的大小可以是任意大小。
后端采用空洞卷积模块,在扩大感受野的同时,生成对应图像的密度图。一个二维的空洞卷积定义如下:
x(m,n)是长宽分别为M和N的图像,经过卷积核w(i,j)得到空洞卷积的输出y(m,n),其中r代表空洞率。当r=1时,即为普通卷积。空洞卷积率为r,则K*K的卷积核会被扩大为K+(K-1)(r-1)。空洞卷积利用稀疏的卷积核实现交替卷积和池化操作,在没有增加网络参数的计算规模的前提下增大了感受野,比较适合用于人群密度估计。搭建的空洞卷积网络共6层,空洞率相同,最后采用1*1卷积层输出结果。所有卷积层均被填充保持原来的大小。
为了了解空洞率对生成密度图质量的影响,设置对比实验,分别将r={1,2,4},其中还有一组为r=2,4混合。实验结果表示,r=2时效果最好。
(3)利用第一训练集、第一验证集及第一测试集对残差网络分支进行预训练,微调网络权重,提取有拥挤度分类标签数据集的特征,训练残差网络分支的softmax分类器进行拥挤度等级分类;
所述残差网络分支包括依次连接的conv1、conv2、conv3、conv4、conv5、conv1*1、softmax分类器;对残差网络分支进行预训练,微调网络权重,提取有拥挤度分类标签数据集的特征,训练残差网络分支的softmax分类器进行拥挤度等级分类包括:
对残差网络分支进行权重初始化;
本发明可采用残差网络在ImageNet数据集上预训练权重作为初始权重。ImageNet数据集是按照WordNet架构组织的大规模带标签的图像数据集,约1500万张,2.2万类,主要用于图像分类、目标识别等任务,在该数据集上进行迁移学习不仅能加快模型的收敛速度还能提高模型的鲁棒性。
将残差网络分支的conv1、conv2、conv3、conv4的权重冻结,不进行反向传播更新权重,只更新conv5和softmax分类器的权重,当验证集的准确率不再上升时,解冻前一个卷积层的权重,重复训练直到第一训练集和第一验证集对应的准确率都不再变化时,结束训练;由于训练时有预训练的初始权重,学习率可设置较小。根据GPU的计算力将batch设置在32,最终训练了10个epoch,模型的损失不再变化。
在训练时,选择softmax交叉熵作为损失函数,将卷积层conv5_3(Conv5的最后一个卷积)的张量先进行softmax操作,得到的向量y',与对应的样本的分类标签的独热编码值y做交叉熵计算得到损失值H
H
式中,y′
(4)将不符合预设条件的图像作为公交车厢内拥挤度检测网络的输入,对应的密度图标签作为空洞卷积分支的输出,基于残差网络分支协同训练空洞卷积分支;
所述空洞卷积分支包括与conv5相连的空洞卷积,基于残差网络分支协同训练空洞卷积分支时,损失函数如下:
式中,Θ表示空洞卷积的权重,N表示一次训练时的样本数,Z(X
空洞卷积分支共享残差分支的特征,即此时残差分支的权重被冻结,在反向传播过程中不被更新,只更新空洞卷积分支的权重,训练后的空洞卷积分支能预测与输入图像对应的密度图特征。
(5)空洞卷积分支训练完成后,将不符合预设条件的公交车厢内拥挤图像输入公交车厢内拥挤度检测网络,得到对应的预测拥挤度分类标签数,将预测拥挤度分类标签数中的可信拥挤度分类标签数及对应的公交车厢内拥挤图像加入训练集;
(6)继续训练(重新进行残差网络分支和空洞卷积分支的训练),直到所有不符合预设条件的公交车厢内拥挤图像都加入训练集。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
机译: 一种正面认证方法,其增强了计算机生成全息图转换的数字全息图标记的安全级别,这是一种基于计算机生成的全息图的正认证系统数字全息图标记发生器,用于基于计算机生成的全息图的正验证系统
机译: 公交车厢内备用轮胎的安装和粘贴装置
机译: 公交车厢内检票口自动开闭装置