首页> 中国专利> 基于多尺度引导注意力机制网络的人群计数方法及系统

基于多尺度引导注意力机制网络的人群计数方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开提供了一种基于多尺度引导注意力机制网络的人群计数方法及系统，获取待识别的图像数据；对获取的图像数据进行多尺度特征提取，得到多个特征图，对所有特征图进行融合得到多尺度融合特征图；将获取的各个尺度的特征图和多尺度融合特征图输入到预设的引导注意力机制模型中，得到不同尺度下的注意力特征图；将各个尺度下的注意力特征图进行融合，对融合后的特征图进行密度回归，得到人群密度图，根据人群密度图得到人群计数；本公开通过采用多尺度引导注意力机制来捕获更丰富的多尺度上下文特征信息，能够将局部特征与其相应的全局依赖关系相集成，并以自适应方式突出显示重要的通道信息，极大的提高了人群计数精度。

著录项

公开/公告号CN112784685B

专利类型发明专利
公开/公告日2022.08.26

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN202011580568.7
发明设计人吕蕾;顾玲玉;谢锦阳;
展开▼

申请日2020.12.28
分类号G06V10/80(2022.01);G06V10/82(2022.01);G06V20/52(2022.01);G06N3/08(2006.01);G06N3/04(2006.01);
代理机构济南圣达知识产权代理有限公司 37221;
代理人祖之强
地址 250014 山东省济南市历下区文化东路88号
入库时间 2022-09-26 23:16:43

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-26

授权

发明专利权授予

说明书

技术领域

本公开涉及计算机视觉图像处理技术领域，特别涉及一种基于多尺度引导注意力机制网络的人群计数方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

随着科技水平发展到新的高度，人民的生活质量逐步得到提升。人们经常参加一些大型活动，在这种场景下，但随之而来的安全隐患诸如拥挤、踩踏等对人民生命财产带来巨大的威胁。因此，高密度人群分布场所的安防措施成了保障人民群众生命财产安全的关键性问题。因此，人群计数问题的研究也越来越火热，若能准确估计当前场景的人群密度、及时地检测人群急剧变化，就可以优化公共交通调度、安排相应的安保措施，以此来达到有效的减少或避免此类事件发生的目的。

近年来，基于计算机视觉的人群计数取得了巨大的进展。人群计数的目的是预测图像中出现的人数。针对人群计数开发的算法具有多种应用，如视频和交通监控，农业监测(植物计数)，细胞计数，场景理解，城市规划和环境调查。计算机视觉领域已经通过各种方式来处理这个任务：早期的工作基于身体或头部检测器的输出进行计数，或者学习从图像的全局或局部特征到预测计数的映射。但是，这些方法只适用于比较稀疏的人群。在拥挤的场景中，人群计数仍然是一项具有挑战性的任务，因为它存在尺度可变化、遮挡、视角变化、背景杂乱等问题。

发明人发现，目前一些基于卷积神经网络(CNN，Convolutional NeuralNetworks)的方法试图解决这些问题，并取得了不同程度的成功。尽管卷积神经网络推动了人群计数的发展，但这些模型仍存在一些缺陷。首先，使用多尺度方法，由于相似的低级特征在多个尺度上被多次提取，导致信息冗余，尽管金字塔池化、空洞卷积金字塔这些方法可能有助于在不同尺度上捕获对象，但所有图像区域的上下文依赖都是同构的、非自适应的，忽略了局部特征表示和上下文信息之间的依赖关系；其次，无法有效地对远距离特征依赖关系进行提取，从而导致无法精确地进行人群计数。

发明内容

为了解决现有技术的不足，本公开提供了一种基于多尺度引导注意力机制网络的人群计数方法及系统，采用多尺度引导注意力机制来捕获更丰富的多尺度上下文特征信息，从而克服了现有的卷积神经网络结构的限制，能够将局部特征与其相应的全局依赖关系相集成，并以自适应方式突出显示重要的通道信息；同时不同模块之间的附加损失会通过引导注意力机制忽略无关信息，并通过强调相关的特征关联来关注图像的人群区域，进而极大的提高了人群计数的精度。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于多尺度引导注意力机制网络的人群计数方法。

一种基于多尺度引导注意力机制网络的人群计数方法，包括以下步骤：

获取待识别的图像数据；

对获取的图像数据进行多尺度特征提取，得到多个特征图，对所有特征图进行融合得到多尺度融合特征图；

将获取的各个尺度的特征图和多尺度融合特征图输入到预设的引导注意力机制模型中，得到不同尺度下的注意力特征图；

将各个尺度下的注意力特征图进行融合，对融合后的特征图进行密度回归，得到人群密度图，根据人群密度图得到人群计数。

作为可能的一些实现方式，引导注意力机制模型中，根据空间注意力和通道注意力，得到加权后的不同尺度下的注意力特征图。

作为可能的一些实现方式，通过设置不同的损失函数，引导注意力机制模型在训练中自我调整需要注意的特征信息。

作为进一步的限定，根据获取的特征图和多尺度融合特征图，结合引导注意力机制模型的编码-解码器和注意力机制模块，得到各个尺度上的第一注意力损失函数，将各个尺度上的第一注意力损失函数相加后得到组合引导损失。

作为进一步的限定，引导编码-解码器的输出与其输入的特征一致或者接近一致，结合重构的特征图以及输入的特征图，得到各个尺度上的第二注意力损失函数，将各个尺度上的第二注意力损失函数相加后得到组合重建损失。

作为可能的一些实现方式，将得到的多个特征图进行concate操作，而后进行卷积操作，生成多尺度融合特征图。

作为可能的一些实现方式，对人群密度图像素值进行累加求和，得到最终的人群计数的数值。

本公开第二方面提供了一种基于多尺度引导注意力机制网络的人群计数系统。

一种基于多尺度引导注意力机制网络的人群计数系统，包括：

图像获取模块，被配置为：获取待识别的图像数据；

多尺度特征提取模块，被配置为：对获取的图像数据进行多尺度特征提取，得到多个特征图，对所有特征图进行融合得到多尺度融合特征图；

引导注意力机制模块，被配置为：将获取的各个尺度的特征图和多尺度融合特征图输入到预设的引导注意力机制模型中，得到不同尺度下的注意力特征图；

人群计数模块，被配置为：将各个尺度下的注意力特征图进行融合，对融合后的特征图进行密度回归，得到人群密度图，根据人群密度图得到人群计数。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于多尺度引导注意力机制网络的人群计数方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于多尺度引导注意力机制网络的人群计数方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，采用多尺度引导注意力机制来捕获更丰富的多尺度上下文特征信息，从而克服了现有的卷积神经网络结构的限制，能够将局部特征与其相应的全局依赖关系相集成，并以自适应方式突出显示重要的通道信息。

2、本公开所述的方法、系统、介质或电子设备，不同模块之间的附加损失会通过引导注意力机制忽略无关信息，并通过强调相关的特征关联来关注图像的人群区域，进而极大的提高了人群计数的精度。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于多尺度引导注意力机制网络的人群计数方法的流程示意图。

图2为本公开实施例1提供的基于多尺度引导注意力机制网络的计数方法的原理图。

图3为本公开实施例1提供的引导注意力机制模块原理图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1、图2和图3所示，本公开实施例1提供了一种基于多尺度引导注意力机制网络的人群计数方法，采用了用于人群计数的多尺度引导注意力机制网络。

多尺度引导注意力机制网络包括多尺度特征信息提取模块、注意力机制模块和引导注意力机制模块。

首先，多尺度特征信息提取模块会接收不同感受野下的上下文信息。低级特征专注于局部信息，高级特征将对全局信息进行编码，这种多尺度方法鼓励以不同感受野生成的注意力图对不同的语义信息进行编码；然后，在每个尺度信息上，引导注意力机制模块将逐渐去除其噪声区域，并强调那些与人群目标语义的区域，注意力机制模块包含两个独立的注意力机制，它们分别处理空间和通道上的特征依赖性，它们分别可以提取更广泛和更丰富的上下文信息，并加强特征图中通道之间的依赖关系，从而减少背景区域造成的干扰。

具体的，技术方法包括以下步骤：

S1：多尺度特征信息提取

整个网络是基于VGG16进行的改进，Conv1、Conv2、Conv3、Conv4所生成不同尺度的特征图F0、F1、F2、F3，将它们通过Bilinear interpolation上采样到相同的尺寸，即F′

由于多尺度特征F

S2：注意力机制

注意力机制模块明确地建立了空间注意力机制和通道注意力机制，每个位置的特征是通过与其他所有位置的比较提取的。

对于输入特征

c(F

δ是一个softmax标准化，在处理低级特征时，每个响应都可以看作是人群的检测器。考虑到δ

然后计算空间注意，它包括两项：第一项类似于通道注意力，计算空间均值矩阵，并使用softmax进行归一化，第二项LPPool解决了局部块的相似度。我们通过点卷积将通道缩放到1，并使用平均池化(2*2)得到每个块的代表值，从而确保每个像素的注意力特征在局部和全局都得到计算：

s(F

其中，σ是一个sigmoid，需要注意的是，在空间平均池化中使用softmax，在局部注意力计算中使sigmoid，因为单个位置的响应应该是独立的(总和为1)，而局部的响应则与其他位置是相关的。

最后，计算注意力加权特征

其中，·*是像素乘法c(F

S3：引导注意力机制模块

在引导注意力机制模块中，直接使用S2中提出的注意力机制，通过设置不同的loss，来引导模型在训练中，自我调整需要注意的特征信息。

各个尺度的特征图和多尺度融合特征图一方面输入到注意力机制模块中产生注意力特征图，另一方面进入编码-解码器中，两部分计算出第一注意力loss:

其中，E

此外，为了保证重构后的特征与注意力机制模块输入处的特征相对应，引导编码-解码器的输出与其输入的特征接近一致，计算出第二注意力的loss：

其中

由于引导注意力机制模块是在多个尺度上应用的，所以所有模块的组合引导损失为：

同样的，重建损失也会变成：

其中L

把生成的多尺度特征图F

其中，A

S4：回归密度图

将引导注意力机制模块输出的4个特征图A

S5：人群计数

对密度图像素值进行累加求和，得到最终的人群计数的数值，具体公式如下：

其中，C是最终估计的人数，H是密度图的高度，W是密度图的宽度，P

实施例2：

本公开实施例2提供了一种基于多尺度引导注意力机制网络的人群计数系统，包括：

图像获取模块，被配置为：获取待识别的图像数据；

多尺度特征提取模块，被配置为：对获取的图像数据进行多尺度特征提取，得到多个特征图，对所有特征图进行融合得到多尺度融合特征图；

所述系统的工作方法与实施例1提供的基于多尺度引导注意力机制网络的人群计数方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于多尺度引导注意力机制网络的人群计数方法中的步骤，所述步骤为：

获取待识别的图像数据；

对获取的图像数据进行多尺度特征提取，得到多个特征图，对所有特征图进行融合得到多尺度融合特征图；

将获取的各个尺度的特征图和多尺度融合特征图输入到预设的引导注意力机制模型中，得到不同尺度下的注意力特征图；

将各个尺度下的注意力特征图进行融合，对融合后的特征图进行密度回归，得到人群密度图，根据人群密度图得到人群计数。

详细步骤与实施例1提供的基于多尺度引导注意力机制网络的人群计数方法相同，这里不再赘述。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于多尺度引导注意力机制网络的人群计数方法中的步骤，所述步骤为：

获取待识别的图像数据；

对获取的图像数据进行多尺度特征提取，得到多个特征图，对所有特征图进行融合得到多尺度融合特征图；

将获取的各个尺度的特征图和多尺度融合特征图输入到预设的引导注意力机制模型中，得到不同尺度下的注意力特征图；

将各个尺度下的注意力特征图进行融合，对融合后的特征图进行密度回归，得到人群密度图，根据人群密度图得到人群计数。

详细步骤与实施例1提供的基于多尺度引导注意力机制网络的人群计数方法相同，这里不再赘述。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多尺度引导注意力机制网络的人群计数方法及系统 [P] . 中国专利： CN112784685A . 2021-05-11
2. 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法 [P] . 中国专利： CN114155210A . 2022-03-08
3. AUTOMATIC PEST COUNTING METHOD BASED ON COMBINATION OF MULTI-SCALE FEATURE FUSION NETWORK AND POSITIONING MODEL [P] . 世界知识产权组织专利： WO2020047738A1 . 2020-03-12

机译：基于多尺度特征融合网络与定位模型相结合的害虫自动计数方法
4. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures [P] . 美国专利： US10424087B2 . 2019-09-24

机译：用于使用稳定和可控制的参数模型，基于多尺度综合框架和新型网络架构的基于卷积神经网络的图像合成系统和方法
5. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures [P] . 美国专利： US9922432B1 . 2018-03-20

机译：用于使用稳定和可控制的参数模型，基于多尺度综合框架和新型网络架构的基于卷积神经网络的图像合成系统和方法