法律状态公告日
法律状态信息
法律状态
2020-06-02
授权
授权
2017-07-04
实质审查的生效 IPC(主分类):G06K9/00 申请日:20161227
实质审查的生效
2017-06-09
公开
公开
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于人体表观结构的人群数量预测方法。
背景技术
20世纪末以来,随着计算机视觉的发展,智能视频监控技术得到广泛的关注和研究。人群计数是其中一项重要和具有挑战性的任务,其目标是准确预测高密度人群图像中的行人数量。人群计数任务的的三个关键因素是行人、头部以及它们的上下文结构。当我们人类在统计人群的数量时,我们会利用行人身体不同部分的语义结构作为线索来准确判断每个人的位置。因此,准确地预测人群数量需要对行人身体的语义结构进行分析。
现有的人群计数方法通常包含如下三类:1、基于行人检测器的人群计数。这类方法利用各种行人检测器来匹配图像中的每个行人;2、基于全局回归的人群计数。这类方法主要建模人群图像与人群数量之间的映射;3、基于密度估计的人群计数。这类方法建模人群的密度分布,再通过密度分布预测人群数量。现有的方法将行人的整个身体作为一个整体建模,或者仅建模行人的头部。它们忽略了丰富的行人身体部分的语义结构信息,利用这些结构信息可以提高人群计数算法的性能。
发明内容
为解决上述问题,本发明的目的在于提供一种基于人体表观结构的人群数量预测方法,用于预测给定场景图像里的人群数量。本方法基于深度神经网络对行人的身体表观结构和密度分布信息进行语义建模,并根据建模结果预测准确的人群数量,能够更好地适应真实视频监控场景中的复杂情况。
为实现上述目的,本发明的技术方案为:
一种基于人体表观结构的人群数量预测方法,包括以下步骤:
S1、获取用于训练人群数量预测模型的监控图像数据集,并定义算法目标;
S2、对监控图像数据集中行人身体的表观语义结构进行建模,并对行人的密度分布和身体形状进行联合建模;
S3、根据步骤S2中的建模结果建立人群数量的预测模型;
S4、使用所述预测模型预测场景图像中的人群数量。
进一步的,步骤S1中,所述的用于训练人群数量预测模型的监控图像数据集,包括场景图像
定义算法目标为:预测一幅场景图像
进一步的,步骤S2中,对行人身体的表观语义结构进行建模具体包括:
S21、根据监控图像数据集中所有行人头部位置Ptrain及其各自的场景深度值
S22、将行人图像Itrain分别输入单个行人语义分割系统进行语义分割;
S23、对每幅场景图像
进一步的,步骤S2中,对行人的密度分布和身体形状的联合建模具体包括:
S24、对场景图像
其中,p是
进一步的,步骤S3中,建立人群数量的预测模型具体包括:
S31、建立深度卷积神经网络,神经网络的输入为一幅场景图像
S32、子映射
其中
S33、子映射
其中
S34、子映射
其中
S35、整个神经网络的损失函数为
L=Lc+λdLd+λbLb公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
进一步的,步骤S4中,预测场景图像中的人群数量包括:将待预测的场景图像
本发明的基于人体表观结构的人群数量预测方法,相比于现有的人群数量预测方法,具有以下有益效果:
首先,本发明的人群数量预测方法发掘了人群计数问题的语义属性,定义并建模了本问题的三个关键因素:身体,头部和它们的上下文结构。该种假设更加适应实际场景中的复杂情况。
其次,本发明的人群数量预测方法基于深度卷积神经网络建立人群数量预测模型。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征提取、行人语义建模和人群数量回归被统一在同一个框架里,提高了方法的最终效果。
本发明的基于人体表观结构的人群数量预测方法,在智能视频监控分析系统里具有良好的应用价值,能够有效提高人群数量预测的效率和准确度。例如,在公共安全的应用场景里,本发明的人群数量预测方法可以快速和准确地预测监控摄像头拍摄区域的行人数量,为公共场所的日常运行和应急处理提供决策依据。
附图说明
图1为本发明的基于人体表观结构的人群数量预测方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,基于人体表观结构的人群数量预测方法,包括以下步骤:
首先,获取用于训练人群数量预测模型的监控图像数据集。其中,用于训练人群数量预测模型的监控图像数据集,包括场景图像
定义算法目标为:预测一幅场景图像
其次,对获得的监控图像数据集中行人的密度分布和身体形状进行联合建模。具体的,其包括如下步骤:
第一步,根据监控图像数据集中所有行人头部位置Ptrain及其各自的场景深度值
第二步,将行人图像Itrain分别输入单个行人语义分割系统进行语义分割;
第三步,对每幅场景图像
接下来,对行人的密度分布和身体形状进行联合建模。对场景图像
其中,p是
之后,建立人群数量的预测模型。具体包括:
第一步,建立深度卷积神经网络,神经网络的输入为一幅场景图像
第二步,子映射
其中
第三步,子映射
其中
第四步,子映射
其中
第五步,整个神经网络的损失函数为
L=Lc+λdLd+λbLb公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
最后,使用建立的模型对待预测场景图像中的人群数量进行预测。具体包括:将预测的场景图像
上述实施例中,本发明的人群数量预测方法首先将行人的身体表观结构和密度分布信息建模为两种语义场景模型。在此基础上,将原问题转化为多任务学习问题,并基于深度神经网络建立人群数量预测模型。最后,利用训练好的人群数量预测模型来预测新的场景图像中准确的行人数量。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种应用于视频监控场景的人群数量预测算法。本发明可以同时有效建模行人的身体语义结构信息和密度分布信息,从而预测准确的人群数量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
机译: 使用一种或多种遗传和表观遗传标记提供遗传测试服务的方法及其用于源自一种或多种模型物种的一种或多种遗传和表观遗传标记的靶物种,基于不同物种之间的匹配
机译: 包含一种或多种表观抗原(EPISENSUS)的人类免疫缺陷病毒(HIV)疫苗接种人群
机译: 包含一种或多种人群表观抗原的HIV疫苗