首页> 中国专利> 一种基于多尺度特征金字塔网络及密集人群计数方法

一种基于多尺度特征金字塔网络及密集人群计数方法

摘要

本发明公开了一种基于多尺度特征金字塔网络及密集人群计数方法,目的在于解决复杂拥挤场景中密度图估计和人群计数问题,本发明利用特征提取模块对人群图像进行特征提取;利用特征金字塔融合模块有效捕获人群图像中多尺度上下文信息,进一步获取更好的特征表达;利用特征注意力感知模块聚焦人群图像中高密度位置,降低背景干扰;使用双线性差值将图像恢复到原始尺寸;输出预测密度图并统计人头数量,有效解决了密集场景中由于人头尺度变化较大、人群遮挡严重、光照条件差造成人群计数困难的问题,并且提高了模型对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测,由于本发明利用分组卷积模块,因此具有较快的推理速度。

著录项

  • 公开/公告号CN113011329A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 陕西科技大学;

    申请/专利号CN202110293926.4

  • 发明设计人 雷涛;张栋;孙瑞;王兴武;杜晓刚;

    申请日2021-03-19

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构61249 西安众和至成知识产权代理事务所(普通合伙);

  • 代理人张震国

  • 地址 710021 陕西省西安市未央大学园区

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明属于图像处理领域,具体涉及一种基于多尺度特征金字塔网络及密集人群计数方法。

背景技术

密集人群分析在视频监控、交通疏导、公共安全防控以及智能环境设计等方面具有重要的应用价值。常见的密集人群分析任务主要包括人群计数、人群图像分割、人群检测及跟踪、人群行为识别和定位等方面。其中,人群计数是密集人群分析领域的一项基本任务。但是现实场景中,仍然存在因为拍摄视角及距离不同而导致图像中人头尺度变化较大的问题;此外拥挤场景中也存在背景变化复杂、人体严重遮挡等问题。这些问题对当前的人群计数模型的提出具有很大的挑战。当前的计数模型主要分为基于回归、基于检测以及基于密度图估计。

传统人群计数问题主要涉及基于回归和基于检测的方法。基于检测的方法是通过动态框检测器检测行人头部或外观形态的方式来计算人数。这些方法在稀疏场景下卓有成效,然而在人体严重遮挡以及背景复杂的场景下表现不佳。基于回归的方法是通过学习图像浅层特征与人群数量之间的映射关系,构造回归模型进行计数,如高斯混合回归、线性回归等。尽管这些基于回归的方法可以处理复杂场景下的密集人群计数问题,但是依赖于图像中的底层信息,忽略了图像空间位置的相关性,导致模型泛化能力和准确性较差。

随着社会经济和城市化的发展,人群聚集性活动日益频繁,单一的人群计数不能满足我们应对拥挤复杂场景问题的需求。因为计数仅侧重于整体情况的表示,密度图不仅能通过对整个图像的积分来预估人数而且能精细化局部位置的分布。因此,人群计数任务已经从简单的计数发展到能够代表复杂人群分布特征的密度图预测。由于传统基于密度图估计的方法依赖于手动提取的低级特征信息,对于具有高密度分布的场景准确性较低。随着深度学习在计算机视觉中的飞速发展,全卷积神经网络(Fully Convolutional NeuralNetwork,FCN)被广泛应用于像素级分类,因此,这一类模型也被拓展到密集人群分析领域。基于全卷积神经网络的人群密度图估计的方法可大致分为多列及单列模型。针对密集人群计数,相关技术公开了一种面向密集人群计数的多列卷积神经网络(Multi-columnConvolutional Neural Network,MCNN),该网络利用三列不同大小的卷积核(3×3,5×5,7×7)来提取图像中多尺度人头特征信息,然后将多尺度特征图直接进行拼接融合。最后,使用1×1卷积核进行解码得到预测密度图。由于该网络使用不同尺度的卷积核以获得丰富的感受野,进而实现了更为精确的人群密度估计。然而当网络较深时,臃肿的多列网络结构会导致参数和计算量的增加,使模型的复杂度变高。另外,将多尺度信息直接融合而不加甄别会导致信息冗余,模型对于背景噪声鲁棒性较差。

单列结构通常具有更深的网络分层,这种结构在不增加网络复杂性的同时可以提升特征表达能力。为了更有效的提取图像中的多尺度信息,研究者们提出利用级联小尺寸膨胀卷积来扩大感受野,相关技术还公开了一种空间全卷积网络(Spatial FullyConvolutional Network,SFCN),该网络使用膨胀率为2的膨胀卷积和空间编码器来整合全局上下文信息,膨胀卷积在不增加参数的情况下可以扩大感受野以提取多尺度特征,空间编码器考虑图像中局部位置之间的相关性以获得更好的特征表达。该方法能有效提升密度图预测任务的精度,然而该网络仅使用常规的卷积核进行卷积,因此不能更有效提取到丰富的多尺度特征,而没有考虑通道与空间之间的相互依赖性导致模型抗干扰能力差。

由于密集人群场景中人头尺度信息变化较大并且背景复杂,因此常规卷积的重复使用难以提取到丰富的多尺度特征。直接对特征图进行相加或堆叠的方式忽略了特征之间的空间相关性,导致信息冗余,使网络模型对背景噪声的鲁棒性差。据此,对于尺度变化较大和具有复杂背景的图像,如何提取图像多尺度特征进行上下文信息整合以及降低背景噪声的干扰显得尤为重要。

发明内容

为了解决现有技术中的问题,本发明提供了一种基于多尺度特征金字塔网络及密集人群计数方法,能够有效地解决拥挤场景中人群计数和密度图预测困难的问题,提高了对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测。

为了实现以上目的,本发明提供了一种基于多尺度特征金字塔网络,包括特征提取模块、特征金字塔融合模块、特征注意力感知模块和输出模块,所述特征提取模块用于对输入的人群图像进行特征提取并输出特征图;所述特征金字塔融合模块用于对所述特征提取模块输出的特征图进行多尺度信息提取并输出多尺度信息特征图,所述特征金字塔融合模块采用变化膨胀率的卷积核,对输入的特征图进行分组并行卷积,捕获多尺度信息;所述特征注意力感知模块用于对所述特征金字塔融合模块输出的多尺度信息特征图通过动态聚焦图像中关键高密度分布位置选择不同尺度信息,学习空间与通道之间的视觉相关性,输出空间通道相关特征图;所述输出模块用于对所述特征注意力感知模块输出的空间通道相关特征图采用1×1卷积进行降维,再使用双线性插值方法输出预测密度图。

进一步地,所述特征提取模块为VGG16的前十层。

进一步地,所述特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,再对每一块进行分组膨胀卷积。

进一步地,所述特征金字塔融合模块的多尺度信息提取包括:

1)输入特征图的通道数量为M,在第一层将特征图分为4块,每块特征图通道的数量为C

2)将第一层输出的特征图作为第二层的输入,第二层将特征图分为3块,卷积核尺寸为3×3,膨胀率r和分组数G从1开始逐渐增长;

3)将第二层输出的特征图作为第三层的输入,第三层将特征图分为2块,执行分组数分别为1和2,膨胀率分别为1和2的卷积运算;

4)将第三层输出的特征图作为第四层的输入,第四层采用分组数G为1的标准卷积。

进一步地,所述特征金字塔融合模块中输入的特征图x经过所述特征金字塔模块输出的多尺度信息特征图y

其中,PGconv(x,N

进一步地,所述特征金字塔融合模块中金字塔分组卷积计算量被定义为:

其中,N为按比例分的块数,G

进一步地,所述特征注意力感知模块包括并行的位置注意力机制和通道注意力机制,利用位置注意力机制得到位置注意力特征图,利用通道注意力机制得到通道注意力特征图,然后将位置注意力特征图和通道注意力特征图进行融合进行输出。

进一步地,所述位置注意力机制包括:

首先将特征图

所述通道注意力机制包括:

首先将得到的特征图

所述位置注意力特征图和通道注意力特征图进行融合定义如下:

进一步地,所述预测密度图采用逐像素均方误差损失作为优化目标函数,优化模型参数θ,

本发明还提供了一种采用上述基于多尺度特征金字塔网络的密集人群计数方法,包括以下步骤:

1)将密集人群图像输入到特征提取模块中获得特征图;

2)将得到的特征图输入特征金字塔融合模块中,捕获多尺度信息,得到多尺度信息特征图;

3)将得到的多尺度信息特征图输入到特征注意力感知模块中,利用注意力机制获得空间和通道之间的语义相关性,得到空间通道相关特征图;

4)在输出模块对空间通道相关特征图使用1×1卷积进行特征降维,再利用双线性插值将图像恢复到原始尺寸,输出预测的密度图并统计人数。

与现有技术相比,本发明在网络的编码结构中,提出特征金字塔融合模块,该模块采用变膨胀率的卷积核,对输入特征图进行分组并行卷积,能有效捕获图像多尺度上下文信息,获取更好的特征表达,解决了拥挤场景中由于视角不同而引起的多尺度问题。

在特征融合阶段,本发明引入特征注意力感知模块,通过动态聚焦图像中的高密度分布位置,有效选择不同尺度信息,学习空间与通道之间的视觉相关性,可以降低背景噪声的干扰,提高模型的鲁棒性。

本发明提出的基于多尺度特征金字塔网络(Multi-scale Feature PyramidNetwork,MFP-Net)采用并行卷积的方式,具有高效并行计算能力,能有效提升网络的训练和推理速度。

附图说明

图1是本发明的流程原理框图;

图2是本发明的特征金字塔融合模块的结构图;

图3是标准卷积和本发明的分组卷积的对比图;

图4是本发明的特征注意力感知模块的结构图;

图5是不同方法在NWPU-Crowd数据集上的可视化结果图,其中,第一行为原图,第二行为真值标签密度图,第三行为CSRNet方法预测的密度图,第四行是SFCN方法预测的密度图、第五行是SFCN+方法预测的密度图,第六行是本发明的MFP-Net方法预测的密度图,“GT count”表示真值标签的真实人数。

具体实施方式

下面结合说明书附图和具体的实施例对本发明作进一步地解释说明,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

由于拍摄视角及距离不同,因此图像中存在人头尺度变化较大、拥挤场景中背景变化复杂、人体遮挡严重等问题。尽管通过组合一些不同大小的标准卷积可以提取图像多尺度特征,但会造成模型训练困难、计算量和参数增加等问题。此外,如果将提取到的特征不进行区分并且不考虑特征之间的相关性而直接进行融合,则会导致网络模型对噪声的鲁棒性差。针对上述问题,本发明提供了一种基于多尺度特征金字塔网络及密集人群计数方法,本发明涉及卷积神经网络、计算机视觉、模式识别等技术,可应用于拥挤场景图像中的人群计数以及密度图估计。

参见图1,本发明的基于多尺度特征金字塔网络(Multi-scale Feature PyramidNetwork,MFP-Net)包括特征提取模块、特征金字塔融合模块、特征注意力感知模块和输出模块,特征提取模块用于对输入的人群图像进行特征提取并输出特征图;特征金字塔融合模块用于对特征提取模块输出的特征图进行多尺度信息提取并输出多尺度信息特征图,特征金字塔融合模块采用变化膨胀率的卷积核,对输入的特征图进行分组并行卷积,捕获多尺度信息;特征注意力感知模块用于对特征金字塔融合模块输出的多尺度信息特征图通过动态聚焦图像中关键高密度分布位置选择不同尺度信息,学习空间与通道之间的视觉相关性,输出空间通道相关特征图;输出模块用于特征注意力感知模块输出的空间通道相关特征图采用1×1卷积进行降维,再使用双线性插值方法输出预测密度图。特征提取模块为VGG16的前十层。特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,再对每一块进行分组膨胀卷积。特征注意力感知模块包括并行的位置注意力机制和通道注意力机制,利用位置注意力机制得到位置注意力特征图,利用通道注意力机制得到通道注意力特征图,然后将位置注意力特征图和通道注意力特征图进行融合进行输出。

本发明的密集人群计数方法,首先通过特征提取模块对图像进行特征提取;其次将提取到的特征图输入特征金字塔融合模块中进行图像多尺度信息融合,该模块采用变化膨胀率的卷积核,对输入特征图进行分组并行卷积,能有效捕获图像多尺度上下文信息以获取更好的特征表达;然后将多尺度信息输入特征注意力感知模块中,该模块通过动态聚焦图像中关键高密度分布位置有效选择不同尺度信息,学习空间与通道之间的视觉相关性,可以降低背景噪声的干扰,提高模型的鲁棒性;最后输出模块利用1×1卷积对特征图进行降维,并使用双线性插值的方法将特征图恢复到原图尺寸以输出最终结果。与主流人群计数方法相比,本发明在人群计数方面能实现具有竞争力的结果,并且本发明采用并行卷积的方式,能有效提升网络的训练和推理速度。

具体包括:

(1)将VGG16的前十层作为特征提取模块,输入密集人群图像,输出特征图F;

(2)将得到的特征图F输入到特征金字塔融合模块中,进行多尺度信息提取,特征金字塔融合模块包括四个卷积层,在每层中将特征图按照比例进行分块,然后对每一块进行分组膨胀卷积。如图2所示,具体实现方式如下:

(a)输入特征图的通道数量为M,在第一层将特征图分为4块,每块特征图通道的数量为C

(b)将第一层输出的特征图作为第二层的输入,第二层将特征图分为3块,卷积核尺寸仍然为3×3,膨胀率r和分组数G从1开始逐渐增长。

(c)将第二层输出的特征图作为第三层的输入,第三层将特征图分为2块,对其执行分组数分别为1和2,膨胀率为1和2的卷积运算。

(d)将第三层输出的特征图作为第四层的输入,第四层采用分组数G为1的标准卷积。

这里输入特征图x经过特征金字塔模块输出特征图y

其中PGconv(x,N

(3)将特征金字塔融合模块输出的特征图输入到特征注意力感知模块中,该模块由位置注意力机制和通道注意力机制并行组成,根据图4具体描述如下:

(a)位置注意力机制:首先将特征图

(b)通道注意力机制:首先将得到的特征图

(c)特征融合:对特征注意力感知模块输出的特征图进行融合,定义如下:

(4)输出模块使用1×1卷积进行降维,然后使用双线性插值输出密度图,实现不同尺度信息的自适应融合。

(5)采用逐像素均方误差(MSE)损失作为MFP-Net的优化目标函数,优化模型参数θ,

使用平均绝对误差(MAE)和均方误差(MSE)来评估本发明的性能,

本发明的效果可以通过以下实验进一步说明。

为了验证本发明对于密集人群的计数效果,在五个主流公开的数据集ShanghaiTech、NWPU-Crowd、UCF_CC_50、UCF-QRNF以及GCC上进行实验。ShanghaiTech数据集包含1198张图像,该数据集由A和B两部分组成,Part_A数据集包含482拥挤场景图像,并且尺寸大小不一致,其中300张用于训练,其余182张用于测试,在训练时将其随机裁剪为200×200的图像块。Part_B包含716张稀疏场景图像,400张用于训练,其余316张用于测试,图像尺寸大小为1024×768。NWPU-Crowd数据集共有5109张图像,351张负样本(即无人场景)为了进行数据增强,在训练过程中,将所有图像进行随机裁剪,尺寸为576×768。UCF_CC_50数据集中只有50张图像,采用5倍交叉验证的方法得到最终结果。UCF-QRNF总共有1535张高质量图像,在训练中,将图像随机裁剪为224×224的图像块,并采取0.5概率的水平翻转进行数据增强。GTA5 Crowd Counting(GCC)由15,212张图像组成,分辨率为1080×1920。将该数据集随机分为两组,训练集(75%),测试集(25%)。

本发明是基于深度学习的一个端到端的训练框架,将VGG16的前10层作为预训练模型进行微调,其他层采用标准差为0.01的高斯函数进行初始化。在训练过程中,本发明首先将真值标签转化为密度图,公式为

为了进一步对比不同计数算法的性能,本发明采用四种算法指标对计数结果以及生成密度图结果进行测试,分别是均方误差(Mean Square Error,MSE)、平均绝对误差(Mean Absolute Error,MAE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似性(Structural SIMilarity,SSIM)。其中MSE和MAE的结果越小表示模型计数效果越好。PSNR和SSIM结果越大表示生成密度图的质量越高。另外,为了验证本发明相比其他主流技术的优越性,实验比较了不同网络结构的参数量以及计算量。

为了验证本发明提出模块的有效性,在ShanghaiTech数据集上进行了消融实验,表1中MFP-Net(A)表示将特征金字塔融合模块中的所有卷积操作替换为标准3×3卷积。MFP-Net(B)表示将特征金字塔融合模块中的所有卷积替换为膨胀率r=2的3×3卷积。MFP-Net(C)表示将特征感知注意力模块去掉。MFP-Net表示本发明的方法,其中的特征金字塔融合模块中膨胀率r=(1,2,3,4)。

表1在ShanghaiTech数据集上进行的消融实验结果

如表1所示,MFP-Net在ShanghaiTechPart_A的实验结果MAE为65.5,MSE为112.5,该结果相比于MFP-Net(A)分别提升24.7和47.5。在Part_B数据集上,MFP-Net实现了最好的结果,MAE和MSE分别为8.7和13.8,相比于MFP-Net(C)提升了2.3和1.3。总之,MFP-Net的实验结果优于MFP-Net(A),MFP-Net(B),这证明了本发明特征金字塔融合模块的有效性。MFP-Net的实验结果优于MFP-Net(C),这验证了本发明特征注意力感知模块的有效性。

将本发明MFP-Net在ShanghaiTech数据集上与主流技术MCNN,CSRNet,SFCN,SFCN+进行比较,如表2所示,其中“ImgNt”表示在ImageNet上进行预训练,“None”表示没有预训练。

表2在ShanghaiTech数据集上不同方法的对比实验结果。

从表2中可以看出,MFP-Net在密集场景Part A上具有最好的实验结果,相比于SFCN+在MAE指标上提升了2.6个点,在MSE指标上提升了0.8个点。MFP-Net在稀疏场景PartB上实现MSE为8.7,MAE为13.8,显然,本发明在不同尺度的场景下有更好的泛化能力,因为特征金字塔融合模块使用可变膨胀率的小尺寸卷积可以扩大感受野,提取拥挤图像中的多尺度信息,并且特征注意力感知模块结合两个域的注意力可以感知不同感受野下的特征,并且达到特征的自适应选择和融合,降低了背景的干扰。

将不同技术在NWPU-Crowd数据集上进行实验,结果如表3所示:

表3在NWPU-Crowd测试集上不同方法的对比实验结果

从表3可以看出,MFP-Net实现了最好的MAE为90.3,相比于SFCN+提升了4.7个点。本发明实现了最好的PSNR和SSIM,分别为30.61,0.955。本发明在特征融合阶段使用了特征注意力感知模块,有效结合了空间上下文信息以及局部位置信息,降低了噪声的干扰,实现了高质量的密度图预测。

不同网络模型的计算效率对比结果如表4所示:

表4不同网络模型的计算效率对比结果

本发明的特征金字塔融合模块采用分组卷积,具有较高的计算效率和较小的参数量,如表4所示,将输入图像大小统一设置为576×768×3,根据实验结果本发明的计算量为128.55GFLOPs,参数量为8.41M,比主流的方法计算效率更快,模型更加轻量化。

采用不同方法在NWPU-Crowd数据集上输出的密度图的进行对比,结果如图5所示,图5中第一行为原图,第二行为真值标签密度图,第三行为CSRNet方法预测的密度图,第四行是SFCN方法预测的密度图、第五行是SFCN+方法预测的密度图,第六行是本发明的MFP-Net方法预测的密度图,“GT count”表示真值标签的真实人数,图5中第一列是一个负样本,其纹理信息与密集人群相似。由于CSRNet直接对提取的特征进行融合,不进行区分,导致预测结果较差。SFCN和SFCN+采用空间编码器结构对上下文信息进行编码,对噪声抑制效果优于CSRNet。本发明提供了比SFCN+更好的结果,因为MFP-Net利用特征注意力感知算法对密集人群图像中的多尺度信息进行自适应动态感知,因此,提高了模型对噪声的鲁棒性。在第二列中,由于CSRNet,SFCN和SFCN+忽略了图像中一些严重遮挡的位置,因此预测结果较差。相比之下,MFP-Net充分利用了人群图像中的上下文关系,因此它得到的预测结果效果优于CSRNet和SFCN+。如图5中第三列和第五列所示,在光照条件极差的情况下,本发明仍然取得了很好的预测结果,这表明我们的模型具有较强的鲁棒性。第四列是一个高度拥挤的场景,所提出的MFP-Net比SFCN+有更好的人群计数精度。

在其他主流数据集上进行实验,结果如表5所示:

表5在其它主流数据集上不同方法的对比实验结果

从表5中可以看出,本发明的MFP-Net在UCF-QRNF数据集上获得的MAE/MSE为112.2/190.7,在GCC上获得的MAE/MSE为28.2/70.1。但是由于样本不平衡和数据集中的图像数量较少,因此本发明在UCF_CC_50数据集上的预测结果不是最佳的。实验表明,本发明相比于其他技术实现了具有竞争力的结果,具有较高的实用价值。

本发明有效解决了密集场景中由于人头尺度变化较大、人群遮挡严重、光照条件差造成人群计数困难的问题,并且提高了模型对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测,由于本发明利用分组卷积模块,因此模型具有较快的推理速度。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号