首页> 中国专利> 一种基于编解码结构和多尺度特征融合的群体计数方法

一种基于编解码结构和多尺度特征融合的群体计数方法

摘要

一种基于编解码结构和多尺度特征融合的群体计数方法,所述方法包括:获取包括训练集和测试集的图像集;对训练集中的图像进行预处理;将经过预处理的图像输入网络,训练网络,直至网络拟合,训练后的网络输出图像的密度图,所述网络包括编码器和解码器;以及根据网络输出的密度图,将输入图像中所有像素的密度值求和得到图像中的群体计数。

著录项

  • 公开/公告号CN112800916A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN202110079204.9

  • 发明设计人 范哲意;吴迪;易淑涵;刘志文;

    申请日2021-01-21

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构11705 北京康度知识产权代理事务所(特殊普通合伙);

  • 代理人王彬

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及一种图像处理技术,更具体地,涉及一种基于编解码结构和多尺度特征融合的群体计数方法。

背景技术

近年来大规模群体活动愈加频繁,导致交通、生活、娱乐等相关公共场合经常出现人群拥堵现象。在这种高密度复杂环境下,若不能对饱和人群进行有效监管、控制和及 时合理的疏散,一旦发生意外情况,很容易使秩序失去控制,从而造成严重的安全事故, 为社会公共管理带来了极大的隐患。因此对人群数量、流量进行有效监控和估计、并能 够及时预警以保证人群安全成为一个亟待解决的问题。

传统的人工计数方式效率十分低下。另外,当人产生视觉疲劳时,判断结果也不具有完全的准确性。尤其是在高度拥挤、遮挡的情形下,人眼识别能力有限,很容易 出现误报和漏报的情况。智能人群计数是在尽可能减少人为干预的情况下,利用计算 机视觉、机器学习等方法对监控摄像头采集到的感兴趣群体区域中的个体进行分析、 提取和统计。群体计数可以看作是群体异常检测、群体行为理解等后续群体行为分析 的研究基础,涉及到模式识别、计算机视觉、人工智能等多个核心领域,因此具有重 大的理论价值。同时,群体计数具有重要的社会价值,在交通调度、群体管理、建筑 设计、市场调查等实际应用领域发挥着不可或缺的作用。

近年来对于群体计数的研究成果层出不穷,尽管现有的这些方法能够较为准确地实现群体计数,但是依旧存在很多局限性,例如缺乏对人头尺度变化不一的复杂场景 的适应能力。由三维空间变换到二维空间会由于远景透视效应形成射影畸形,即随着 前景目标距离摄像机镜头的远近不同,其在视频画面中呈现出近大远小的变化趋势, 并且较远处的群体会表现的更加密集,遮挡问题也更加严重,这是影响群体计数精度 的重要因素。

因此,需要一种能够有效处理人头尺度变化问题的、更加准确的群体计数方法。

发明内容

本发明是为了解决上述问题而提出的,其目的在于提供一种基于编解码结构和多尺度特征融合的群体计数方法。

为了达到上述发明目的,根据本发明的一方面,提供一种基于编解码结构和多尺度特征融合的群体计数方法,所述方法包括:获取包括训练集和测试集的图像集;对 训练集中的图像进行预处理;将经过预处理的图像输入网络,训练网络,直至网络拟 合,训练后的网络输出图像的密度图,所述网络包括编码器和解码器;以及根据网络 输出的密度图,将输入图像中所有像素的密度值求和得到图像中的群体计数。

所述编码器包括第一卷积块至第四卷积块以及第一多尺度特征提取模块至第三多 尺度特征提取模块,其中,所述编码器的处理如下:图像通过第一卷积块得到特征F1;将得到的特征F1分别输入第二卷积块和第一多尺度特征提取模块,分别得到特征F2和 M1;将得到的特征F2分别输入第三卷积块和第二多尺度特征提取模块,分别得到特征 F3和M2;将得到的特征F3分别输入第四卷积块和第三多尺度特征提取模块,分别得到 特征F4和M3;以及将得到的特征M1、M2、M3和F4连接,得到特征F5,

第一卷积块进行的处理如下:

Conv:3×3,64;

Conv:3×3,64;

Maxpool:2×2,64;

Conv:3×3,128;

Conv:3×3,128;

其中,Conv为卷积,3×3,64表示卷积核大小为3×3,输出特征的通道数为64,3×3, 128表示卷积核大小为3×3,输出特征的通道数为128,Maxpool为最大池化,2×2,64表示过滤器大小为2×2,输出特征的通道数为64;

第二卷积块进行的处理如下:

Maxpool:2×2,128;

Conv:3×3,256;

Conv:3×3,256;

Conv:3×3,256;

其中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256,Maxpool为最大池化,2×2,128表示过滤器大小为2×2,输出特征的通道数为128;

第三卷积块进行的处理如下:

Maxpool:2×2,256;

Conv:3×3,512;

Conv:3×3,512;

Conv:3×3,512;

其中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512,Maxpool为最大池化,2×2,256表示过滤器大小为2×2,输出特征的通道数为256;

第四卷积块进行的处理如下:

Conv:3×3,512;

Conv:3×3,512;

Conv:3×3,512;

其中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512。

第一多尺度特征提取模块包括6个卷积层1-1、1-2、1-3、1-4、1-5和1-6,其中, 第二卷积层1-2和第三卷积层1-3是空洞卷积层,第一多尺度特征提取模块的处理如下:

将特征F1输入卷积层1-1,卷积层1-1进行的处理是:Conv:1×1,64,其中,Conv 为卷积,1×1,64表示卷积核大小为1×1,输出特征的通道数为64,得到输出特征F1_P;

将特征F1_P分别输入空洞卷积层1-2和空洞卷积层1-3,空洞卷积层1-2进行的处理 是:Conv:3×3,64,d=10,空洞卷积层1-3进行的处理是:Conv:3×3,64,d=8,Conv为卷积,其中,3×3,64表示卷积核大小为3×3,输出特征的通道数为64,d=10表示膨胀倍率 为10,d=8表示膨胀倍率为8,得到特征F1_P1和F1_P2;

将得到的特征F1_P1和F1_P2连接,得到特征F1_P3;

将特征F1_P3输入依次通过卷积层1-4、1-5和1-6,卷积层1-4进行的处理是:Maxpool: 2×2,128,卷积层1-5进行的处理是:Conv:3×3,128,卷积层1-6进行的处理是:Maxpool: 2×2,128,其中,Conv为卷积,3×3,128表示卷积核大小为3×3,输出特征的通道数为 128,Maxpool为最大池化,2×2,128表示过滤器大小为2×2,输出特征的通道数为128, 得到输出特征M1。

第二多尺度特征提取模块包括5个卷积层2-1、2-2、2-3、2-4和2-5,其中,卷积层2-2和卷积层2-3是空洞卷积层,第二多尺度特征提取模块的处理如下:

将特征F2输入卷积层2-1,卷积层2-1进行的处理是:Conv:1×1,128,其中,Conv为卷积,1×1,128表示卷积核大小为1×1,输出特征的通道数为128,得到特征F2_P;

将特征F2_P分别输入空洞卷积层2-2和2-3,空洞卷积层2-2进行的处理是:Conv:3×3,128,d=6,空洞卷积层2-3进行的处理是:Conv:3×3,128,d=4,其中,Conv为卷积, 3×3,128表示卷积核大小为3×3,输出特征的通道数为128,d=6表示膨胀倍率为6,d=4 表示膨胀倍率为4,得到特征F2_P1和F2_P2;

将得到的特征F2_P1和F2_P2连接,得到特征F2_P3;

将特征F2_P3输入卷积层2-4和2-5,卷积层2-4进行的处理是:Conv:3×3,256,卷积层2-5进行的处理是:Maxpool:2×2,256,其中,Conv为卷积,3×3,256表示卷积核大 小为3×3,输出特征的通道数为256,Maxpool为最大池化,2×2,256表示过滤器大小为2×2,输出特征的通道数为256,得到输出特征M2。

第三多尺度特征提取模块包括4个卷积层3-1、3-2、3-3和3-4,其中,卷积层3-2和3-3是空洞卷积层,第三多尺度特征提取模块的处理如下:

将特征F3输入卷积层3-1,卷积层3-1进行的处理是:Conv:1×1,256,其中,Conv为卷积,1×1,256表示卷积核大小为1×1,输出特征的通道数为256,得到特征F3_P;

将特征F3_P分别输入空洞卷积层3-2和卷积层3-3,空洞卷积层3-2进行的处理是:Conv:3×3,256,d=2,空洞卷积层3-3进行的处理是:Conv:3×3,256,d=1,其中,Conv 为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256,d=2表示膨胀倍率 为2,d=1表示膨胀倍率为1,得到特征F3_P1和F3_P2;

将得到的特征F3_P1和F3_P2连接,得到特征F3_P3;

将特征F3_P3输入卷积层3-4,卷积层3-4进行的处理是:Conv:3×3,512,其中,Conv 为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512,得到输出特征M3。

所述解码器包括第五卷积块至第八卷积块,其中,所述解码器的处理如下:

特征F5输入第五卷积块,得到特征F6;

将得到的特征F6输入第六卷积块,得到特征F7;

将得到的特征F7输入第七卷积块,得到特征F8;以及

将得到的特征F8输入第八卷积块,得到输出密度图,

第五卷积块进行的处理如下:

Conv:1×1,512;

2倍双线性插值;

其中,Conv为卷积,1×1,512表示卷积核大小为1×1,输出特征的通道数为512;

第六卷积块进行的处理如下:

Conv:3×3,512;

Conv:1×1,256;

2倍双线性插值;

其中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512,1×1, 256表示卷积核大小为1×1,输出特征的通道数为256;

第七卷积块进行的处理如下:

Conv:3×3,256;

Conv:1×1,128;

2倍双线性插值;

其中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256,1×1, 128表示卷积核大小为1×1,输出特征的通道数为128;

第八卷积块进行的处理如下:

Conv:1×1,32;

Conv:1×1,1;

其中,Conv为卷积,1×1,32表示卷积核大小为1×1,输出特征的通道数为32,1×1, 1表示卷积核大小为1×1,输出特征的通道数为1。

在训练网络时,将欧式距离作为损失函数,通过最小化损失函数将网络参数调至最优,

其中,X

对训练集中的图像进行预处理包括:限制图像的高和宽,使其能够被8整除。对训练集中的图像进行预处理还包括:将对训练集中的图像进行随机翻转操作之后的图像 加入训练集,使得训练集的图像数量增加。

在完成网络训练之后,将测试集的图像输入网络进行测试。

根据本发明的另一方面,提供一种在计算机存储介质上编码的计算机程序产品,包括指令,当指令由一个或多个计算机执行时,将使一个或多个计算机执行操作,包 括:获取包括训练集和测试集的图像集;对训练集中的图像进行预处理;将经过预处 理的图像输入网络,训练网络,直至网络拟合,训练后的网络输出图像的密度图,所 述网络包括编码器和解码器;以及根据网络输出的密度图,将输入图像中所有像素的 密度值求和得到图像中的群体计数。

附图说明

图1示出根据本公开的实施例的基于编解码结构和多尺度特征融合的群体计数方法的流程图;

图2示出根据本公开的实施例的网络结构图;

图3示出多尺度特征提取模块①的处理;

图4示出多尺度特征提取模块②的处理;

图5示出多尺度特征提取模块③的处理;以及

图6是根据本公开的网络的测试结果的示例。

具体实施方式

在本公开中,将参照附图描述本公开的各种实施例。然而,应当理解,本公开不 限于这些特定实施例,而是还包括其各种修改、等同形式和/或替代形式。

在下面的描述中,当确定了关于相关的众所周知的功能或结构的详细描述以使本公开的主旨不清楚时,在此将省略详细描述。此外,在实施例的描述中使用的例如第 一、第二等数字仅仅是将一个组成元件与另一组成元件区分开的识别符号。

此外,在本说明书中,对于每个详细功能,由“单元”、“模块”等表示的组成 元件可以包括并入一个组成元件中的两个或更多个组成元件或被划分为两个或更多个 成元件的一个组成元件。此外,以下将描述的每个组成元件除了其主要功能之外还可 以另外执行其他组成元件的一些或全部功能,并且每个组成元件的一些主要功能可以 由其他组成元件排他地执行。

在以下实施例中,术语“第一”、“第二”等仅用于将一个元件与另一个元件区 分开,并且单数形式旨在包括复数形式,除非上下文中另外提及。在以下实施例中, 将理解,术语“包括”、“包含”、“具有”等不排除一个或多个其他特征、数字、 步骤、操作、元件、组件或其组合的存在或增加。另外,“模块”或“部分”可以执 行硬件、软件或硬件和软件的组合来实现的至少一个功能或操作,并且被集成到至少 一个模块中。在本公开中,多个元件中的至少一个不仅指所有多个元件,而且还指除 其他元件之外的多个元件中的每个元件及其组合。

图1是根据本公开的实施例的基于编解码结构和多尺度特征融合的群体计数方法的流程图。

在步骤S101,获取图像集,构建训练集和测试集。可以通过各种方式获得图像集,例如,通过网络下载,或者通过本地数据库获取。通常情况下,图像集已经包括训练 集和测试集。如果获取的图像集尚未划分训练集和测试集,需自行划分。按照训练集 和测试集相互独立且均为图像集的子集的方式划分即可。

在步骤S102,对训练集中的图像进行预处理。通过对训练集中的图像进行预处理,能够使图像数据更好的适应于本公开的网络,并在一定程度上降低算法的计算成本。

在对图像进行预处理步骤中,首先限制图像的高和宽,使其能够被8整除。这样能够保证图像进入本公开的网络中用于进行降采样操作的层(Maxpool层)之后的输出的 正确性。

Maxpool层的作用有:

(1)降采样,减小特征的尺寸,一个Maxpool层能够使得输出特征的长宽都缩减 为输入特征的一半。因为本公开的网络采用了三个Maxpool层,所以三个Maxpool层会 使长宽都缩减为输入的1/8。因此,在预处理时将图像的高和宽都处理为能被8整除;

(2)保留主要的特征,减少冗余的特征;

然后从每个图像中减去整个图像集的平均图像并进行归一化,以保证每个图像的每个像素值都落在[0,1]中。

为了扩展训练集中的图像数量,需要对训练集中的图像进行随机翻转操作。将对训练集中的图像进行随机翻转操作之后的图像加入训练集,使得训练集的图像数量增 加。

在步骤S102对训练集中的图像进行预处理之后,进入步骤S103,将训练集中的图像 输入网络,对网络进行训练直至网络拟合。

本公开的网络的输入是图像,网络的输出是密度图。具体地,参照图2的网络结构图对训练网络的处理进行描述。

由于卷积神经网络在特征提取的过程中,多次卷积和池化后会缩小图像的尺寸,不仅造成了信息的丢失,若直接输出小尺寸图像更是会导致输出结果无法对应到原始 图像中的每一个像素。针对这两个问题,本发明采取编码器-解码器网络结构,编码器 网络的作用是产生有语义信息的特征图像,解码器网络的作用是将编码器网络输出的 低分辨率图像映射回输入图像的尺寸。

本发明的网络包括编码器和解码器,编码器包括4个卷积块①-④以及3个多尺度特 征提取模块①-③,解码器包括4个卷积块⑤-⑧。

将经过步骤S102处理的训练集中的图像X

将图像X

具体地,卷积块①进行的处理如下:

Conv:3×3,64;

Conv:3×3,64;

Maxpool:2×2,64;

Conv:3×3,128;

Conv:3×3,128;

其中,在Conv:3×3,64中,Conv为卷积,3×3,64表示卷积核大小为3×3,输出特征的通道数为64;在Conv:3×3,128中,3×3,128表示卷积核大小为3×3,输出特征的通道 数为128。在Maxpool:2×2,64中,Maxpool为最大池化,2×2,64表示过滤器大小为2×2, 输出特征的通道数为64。

将得到的特征F1分别输入卷积块②和多尺度特征提取模块①,分别得到特征F2和M1,F2和M1的通道数分别为256和128。

具体地,卷积块②进行的处理如下:

Maxpool:2×2,128;

Conv:3×3,256;

Conv:3×3,256;

Conv:3×3,256;

其中,在Conv:3×3,256中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256。在Maxpool:2×2,128中,Maxpool为最大池化,2×2,128表示过滤器 大小为2×2,输出特征的通道数为128。

多尺度特征提取模块①的处理稍后参照图3进行描述。

将得到的特征F2分别输入卷积块③和多尺度特征提取模块②,分别得到特征F3和M2,F3和M2的通道数分别为512和256。

具体地,卷积块③进行的处理如下:

Maxpool:2×2,256;

Conv:3×3,512;

Conv:3×3,512;

Conv:3×3,512;

其中,在Conv:3×3,512中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512。在Maxpool:2×2,256中,Maxpool为最大池化,2×2,256表示过滤器 大小为2×2,输出特征的通道数为256。

多尺度特征提取模块②的处理稍后参照图4进行描述。

将得到的特征F3分别输入卷积块④和多尺度特征提取模块③,分别得到特征F4和M3,F4和M3的通道数均为512。

具体地,卷积块④进行的处理如下:

Conv:3×3,512;

Conv:3×3,512;

Conv:3×3,512;

其中,在Conv:3×3,512中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512。

多尺度特征提取模块③的处理稍后参照图5进行描述。

将得到的特征M1、M2、M3和F4连接,得到特征F5,F5的通道数为1408。

然后,将得到的特征F5输入到网络的解码器。解码器包括4个卷积块⑤-⑧,解码器进行如下处理:

将得到的特征F5输入解码器的卷积块⑤,得到特征F6,F6的通道数为512。

具体地,卷积块⑤进行的处理如下:

Conv:1×1,512;

2倍双线性插值;

其中,在Conv:1×1,512中,Conv为卷积,1×1,512表示卷积核大小为1×1,输出特征的通道数为512。

将得到的特征F6输入卷积块⑥,得到特征F7,F7的通道数为256。

具体地,卷积块⑥进行的处理如下:

Conv:3×3,512;

Conv:1×1,256;

2倍双线性插值;

其中,在Conv:3×3,512中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512;在Conv:1×1,256中,Conv为卷积,1×1,256表示卷积核大小为1×1, 输出特征的通道数为256。

将得到的特征F7输入卷积块⑦,得到特征F8,F8的通道数为128。

具体地,卷积块⑦进行的处理如下:

Conv:3×3,256;

Conv:1×1,128;

2倍双线性插值;

其中,在Conv:3×3,256中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256;在Conv:1×1,128中,Conv为卷积,1×1,128表示卷积核大小为1×1, 输出特征的通道数为128。

将得到的特征F8输入卷积块⑧,得到输出,输出通道数为1。

具体地,卷积块⑧进行的处理如下:

Conv:1×1,32;

Conv:1×1,1;

其中,在Conv:1×1,32中,Conv为卷积,1×1,32表示卷积核大小为1×1,输出特征的通道数为32;在Conv:1×1,1中,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特 征的通道数为1。

经过卷积块⑧处理之后输出密度图D(X

其中,X

为了减少网络训练时间,提高训练效率,可以将在ImageNet上预训练过的VGG16网络的前16层作为卷积块①②③④。

下面参照图3至图5对多尺度特征提取模块①-③进行描述。在多尺度特征提取模块 ①-③中,空洞卷积是传统卷积的变体,它在传统卷积核间加入空洞,使得卷积核采样不连续,以此扩大卷积的感受野。空洞卷积的感受野大小与膨胀倍率正相关,因此设 置不同的膨胀倍率时,空洞卷积的感受野也随之变化,可以用于处理不同尺度的人头。 考虑到在特征提取阶段,经过池化层后,不同层次的特征图成倍缩小,同一人头在不 同层次的特征图上也表现为不同大小。特征图尺寸的变化和对应人头的尺寸变化进一 步提高了尺度问题的复杂性。因此,在构建多尺度特征提取模块时,对于不同层次的 多尺度特征提取模块中的空洞卷积,设置不同的膨胀倍率。考虑到特征图逐渐减小, 膨胀倍率也相应呈减小趋势。

具体地,参照图3描述多尺度特征提取模块①。多尺度特征提取模块①包括6个卷积层1-1、1-2、1-3、1-4、1-5和1-6,其中,卷积层1-2和1-3是空洞卷积层。

如果将特征F1输入卷积层1-1,并且特征F1的通道数为128,则通过卷积层1-1得到特征F1_P,F1_P的通道数为64,其中,卷积层1-1进行的处理是:Conv:1×1,64,其中, Conv为卷积,1×1,64表示卷积核大小为1×1,输出特征的通道数为64。

将得到的特征F1_P分别输入膨胀倍率为10和8的空洞卷积层1-2和空洞卷积层1-3, 得到特征F1_P1和F1_P2,F1_P1和F1_P2的通道数为64,其中,空洞卷积层1-2进行的处理是:Conv:3×3,64,d=10,其中,Conv为卷积,3×3,64表示卷积核大小为3×3,输出 特征的通道数为64,d=10表示膨胀倍率为10。空洞卷积层1-3进行的处理是:Conv:3×3, 64,d=8,其中,Conv为卷积,3×3,64表示卷积核大小为3×3,输出特征的通道数为64, d=8表示膨胀倍率为8。

将得到的特征F1_P1和F1_P2连接,得到特征F1_P3,F1_P3的通道数为128。

将得到的特征F1_P3输入依次通过卷积层1-4、1-5、1-6,得到输出特征M1,输出 特征M1的通道数为128。

卷积层1-4进行的处理是:Maxpool:2×2,128,其中,在Maxpool:2×2,128中,Maxpool为最大池化,2×2,128表示过滤器大小为2×2,输出特征的通道数为128。

卷积层1-5进行的处理是:Conv:3×3,128,其中,Conv为卷积,3×3,128表示卷积核大小为3×3,输出特征的通道数为128。

卷积层1-6进行的处理是:Maxpool:2×2,128,其中,Maxpool为最大池化,2×2,128 表示过滤器大小为2×2,输出特征的通道数为128。

图4示出多尺度特征提取模块②的处理。如图4所示,多尺度特征提取模块②包括5个卷积层2-1、2-2、2-3、2-4和2-5,其中,卷积层2-2和2-3是空洞卷积层。

如果特征F2作为输入进入卷积层2-1,其中,特征F2的通道数为256,通过卷积层2-1得到特征F2_P,F2_P的通道数为128,其中,卷积层2-1进行的处理是:Conv:1×1,128,其中,Conv为卷积,1×1,128表示卷积核大小为1×1,输出特征的通道数为128。

将得到的特征F2_P分别输入膨胀倍率为6和4的空洞卷积层2-2和空洞卷积层2-3,得 到特征F2_P1和F2_P2,F2_P1和F2_P2的通道数为128,其中,空洞卷积层2-2进行的处 理是:Conv:3×3,128,d=6,其中,Conv为卷积,3×3,128表示卷积核大小为3×3,输出 特征的通道数为128,d=6表示膨胀倍率为6。空洞卷积层2-3进行的处理是:Conv:3×3, 128,d=4,其中,Conv为卷积,3×3,128表示卷积核大小为3×3,输出特征的通道数为 128,d=4表示膨胀倍率为4。

将得到的特征F2_P1和F2_P2连接,得到特征F2_P3,F2_P3的通道数为256。

将得到的特征F2_P3输入卷积层2-4和2-5,得到输出特征M2,输出特征M2的通道数为256。

卷积层2-4进行的处理是:Conv:3×3,256,其中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256。

卷积层2-5进行的处理是:Maxpool:2×2,256,其中,Maxpool为最大池化,2×2,256 表示过滤器大小为2×2,输出特征的通道数为256。

接下来,参照图5描述多尺度特征提取模块③的处理。多尺度特征提取模块③包括4个卷积层3-1、3-2、3-3和3-4,其中,卷积层3-2和3-3是空洞卷积层。

如果将特征F3输入卷积层3-1,并且特征F3的通道数为512,则通过卷积层3-1得到特征F3_P,F3_P的通道数为256,其中,卷积层3-1进行的处理是:Conv:1×1,256,其 中,Conv为卷积,1×1,256表示卷积核大小为1×1,输出特征的通道数为256。

将得到的特征F3_P分别输入膨胀倍率为2和1的空洞卷积层3-2和空洞卷积层3-3,得 到特征F3_P1和F3_P2,F3_P1和F3_P2的通道数为256,其中,空洞卷积层3-2进行的处理是:Conv:3×3,256,d=2,其中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特 征的通道数为256,d=2表示膨胀倍率为2。空洞卷积层3-3进行的处理是:Conv:3×3,256, d=1,其中,Conv为卷积,3×3,256表示卷积核大小为3×3,输出特征的通道数为256,d=1表示膨胀倍率为1。

将得到的特征F3_P1和F3_P2连接,得到特征F3_P3,F3_P3的通道数为512。

将得到的特征F3_P3输入卷积层3-4,得到输出特征M3,输出特征M3的通道数为512, 卷积层3-4进行的处理是:Conv:3×3,512,其中,Conv为卷积,3×3,512表示卷积核大小为3×3,输出特征的通道数为512。

经过上述处理之后,在步骤S104,根据已经训练的网络输出的密度图,将输入图像中所有像素的密度值求和得到图像中的群体计数。

在完成网络训练之后,可以将测试集的图像输入网络进行测试,获得预测密度图和人群数量。

在测试集的图像输入网络获得群体计数结果时,可以根据网络生成的密度图,将图像中所有像素的密度值求和得到图像中的人数,并对生成文件进行命名,“数据集 名称-图片索引号_pred_预估人数.png”,如“SHHA-50_pred_1000.596640625.png”。

通过本公开的网络对测试集中的图像进行测试的结果如图6所示。图6中示出了3幅 图像的测试结果,可以看出,通过本公开的网络进行群体计数的准确性很高。

在本公开利用编解码网络结构处理群体计数任务。编码器网络从图像中提取特征, 生成富有语义信息的特征,利用池化层对特征进行压缩,去除冗余信息,减少参数量。解码器网络逐步恢复特征图尺寸,将编码器网络输出的低分辨率的特征图逐步恢复到 输入图像大小,提高了输出密度图的质量,从而提高了人群计数精度。

本公开在编码器网络的不同层次上放置了多个多尺度特征提取模块。每个多尺度特征提取模块利用平行的,膨胀倍率不同的空洞卷积提取特定层次上的尺度信息。考 虑到不同层次特征图大小的变化和对应人头大小的变化,对于不同层次的多尺度特征 提取模块中的空洞卷积分配不同的膨胀倍率,有针对性的提高了尺度特征提取效率, 因而大大提高了模型对于尺度变化的鲁棒性,从而提高了人群计数精度。

本公开的实施例可以被写为计算机程序,并且可以在使用计算机可读记录介质执行程序的通用数字计算机中实现。

在这种状态下,介质可以连续地存储可以由计算机执行的程序,或者可以临时地存储用于执行或下载的程序。此外,介质可以是在组合了单个或多个硬件的各种记录 设备或存储设备,不限于直接接入计算机系统的介质,并且可以以分布方式存在于网 络。介质的示例包括被配置为存储程序指令的磁存储介质(诸如软盘或硬盘)、光学 记录介质(诸如CD-ROM或DVD)、磁光介质(诸如软盘)以及Rom、RAM、闪存等。 此外,其他介质的示例可以包括:用于分发应用程序的应用程序商店,用于提供或分 发其他各种软件的站点,以及在服务器处管理的记录介质或存储介质。

尽管已经参考使用特定术语的优选实施例来具体示出和描述了本公开,但是应当仅以描述性的意义考虑实施例和术语,而不是出于限制的目的。因此,本领域普通技 术人员将理解,在不脱离由所附权利要求限定的本公开的精神和范围的情况下,可以 在形式和细节上进行各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号