首页> 中国专利> 一种打架行为识别方法、装置、设备及存储介质

一种打架行为识别方法、装置、设备及存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请实施例提供的一种打架行为识别方法、装置、设备及存储介质，包括：从视频流中获取图像帧按照时间顺序存入到预设的队列中；通过预3D‑CNN模型对人体行为对队列中的图像帧进行识别，从空间和时间的维度提取特征以捕捉多个连续帧中的运动信息；采用TDN模型根据连续图像帧的差异提取特征，对局部移动信息进行建波并对多尺寸跨分片的全局移动信息建模；根据3D‑CNN模型和TDN模型输出的结果获得每个行人的打架得分值。3D‑CNN模型通过三维深度神经网络直接对输入进行操作，提取打架行为的时空特征信息。TDN模型捕获视频中的短期和长期时间信息。通过对3D卷积识别结果和TDN结果采用自适应结合，降低了人为设定参数带来的不合理，有效提升打架行为识别的效果。

著录项

公开/公告号CN115719517A

专利类型发明专利
公开/公告日2023-02-28

原文格式PDF
申请/专利权人长沙海信智能系统研究院有限公司;
展开▼

申请/专利号CN202211629035.2
发明设计人吴婷;闾凡兵;陈俊;
展开▼

申请日2022-12-19
分类号G06V40/20;G06V20/40;G06V20/52;G06V10/62;G06V10/764;G06V10/82;
代理机构长沙市岳麓慧专利代理事务所(普通合伙);
代理人王中华
地址 410006 湖南省长沙市岳麓区洋湖街道潇湘南路一段368号中盈广场C座5层502号
入库时间 2023-06-19 18:37:28

法律信息

法律状态公告日

法律状态信息

法律状态
2023-02-28

公开

发明专利申请公布

说明书

技术领域

本申请涉及图像处理技术领域，具体地涉及一种打架行为识别方法、装置、设备及存储介质。

背景技术

现有的安全监控系统中，通常是通过监控人员的即时反馈来报告异常情况，但人为监控的方式存在即时性不能保证，耗费大量人力资源等缺陷。在轨道交通场景中，人员流动性大，一旦因为发生打架斗殴行为不能及时告警，会造成人流堵塞，甚至出现踩踏事件。因此一种及时告警的打架行为检测方法能为维护社会治安提供即时响应和关键证据。

中国专利（CN113191278A）基于视频和声音数据融合的打架行为检测方法，主要是选择处理声音片段和视频片段的深度网络结构，通过采集频段中的行人的动作和声音段中的声音实现对打架行为的判定。中国专利（CN113468975A）公开了一种打架行为检测方法及装置，主要通过获取待检测的序列图像,并确定序列图像对应的特征热力图 ;基于特征热力图确定报警区域;对报警区域进行检测,以判断报警区域是否存在打架行为。

上述现有技术虽然都可以在一定程度上实现对打架行为的识别确定，但是采用音频的方式容易受到周围环境的影响。采用特征热力图的方式可以对人员实现定位，一旦人员背着物体，则无法精确识别行人的打架行为。

发明内容

有鉴于此，本申请提供一种打架行为识别方法、装置、设备及存储介质，以利于解决现有技术中无法准确识别公众场合中打架行为的问题。

第一方面，本申请实施例提供了一种打架行为识别方法，包括：

从视频流中获取图像帧，并按照时间顺序将所述图像帧存入到预设的队列中；

通过预设的打架动作识别3D-CNN模型对人体行为对所述队列中的图像帧进行识别，从空间和时间的维度提取特征以捕捉多个连续帧中的运动信息；

采用预设的时序差分分类TDN（时间差分网络，Temporal Difference Network）模型根据连续图像帧的差异提取特征，对局部移动信息进行建波并对多尺寸跨分片的全局移动信息建模；

根据所述3D-CNN模型和TDN模型输出的结果获得每个行人的打架得分值，所述打架得分值用于判断是否进行报警操作。

一种可能的实现方式，所述通过预设的打架动作识别3D-CNN模型对人体行为对所述队列中的图像帧进行识别，从空间和时间的维度提取特征以捕捉多个连续帧中的运动信息，包括：

从所述队列中选择kd个连续帧组成一个3D图像队列，所述kd为每个3D卷积核处理的连续帧数；

所述3D卷积核在图像序列中进行卷积计算，获得输出特征值，所述输出特征值用于确定图像帧中行人是否打架的概率。

一种可能的实现方式，所述3D卷积核在图像序列中进行卷积计算，包括：所述3D卷积核在多个连续帧上进行滑动，每次滑动kd 个连续帧中对应位置内的元素与卷积核中的参数进行乘加计算。

一种可能的实现方式，所述3D-CNN模型包括3个卷积层、1个全连接层和2个池化层，其中前两个卷积层为3D卷积层，卷积核大小为7×7×3 和7×6×3 ，两个卷积核分别处理3个连续帧中7×7 和7×6 大小的区域。

一种可能的实现方式，所述采用预设的时序差分分类TDN模型根据连续图像帧的差异提取特征，对局部移动信息进行建波并对多尺寸跨分片的全局移动信息建模，包括：

从每个视频片段中随机抽取一帧图形帧得到T帧 I= [T1, T2，……，Tn]，其中I的形状为[T, C, H, W]；

应用时差图和稀疏采样策略建立视频级的移动信息建模框架TDN模型，所述TDN由S-TDM和L-TDM组成；

通过S-TDM对于叠加了时差信息的RGB图做局部移动信息的建模，L-TDM对于多尺寸跨分片的全局移动信息建模。

一种可能的实现方式，分别获取3D-CNN模型和TDN模型在测试集上的第一错误率和第二错误率，所述第一错误率用于确定所述3D-CNN模型的第一权重，所述第二错误率用于确定所述TDN模型的第二权重，所述第一权重和第二权重用于计算总体的打架得分。

一种可能的实现方式，通过所述打架得分判断是否打架时，同时确定打架动作持续时间是否满足预警时间段，通过所述打架得分和打架动作持续时间判断打架累计值是否达到设定阈值，所述设定阈值用于确定是否进行报警。

第二方面，本申请实施例提供了一种打架行为识别装置，包括：

视频处理模块，用于从视频流中获取图像帧，并按照时间顺序将所述图像帧存入到预设的队列中；

第一特征获取模块，用于通过预设的打架动作识别3D-CNN模型对人体行为对所述队列中的图像帧进行识别，从空间和时间的维度提取特征以捕捉多个连续帧中的运动信息；

第二特征获取模块，用于采用预设的时序差分分类TDN模型根据连续图像帧的差异提取特征，对局部移动信息进行建波并对多尺寸跨分片的全局移动信息建模；

判断模块，用于根据所述3D-CNN模型和TDN模型输出的结果获得每个行人的打架得分值，所述打架得分值用于判断是否进行报警操作。

第三方面，本申请实施例提供了一种电子设备，包括：

处理器；

存储器；

以及计算机程序，其中所述计算机程序被存储在所述存储器中，所述计算机程序包括指令，当所述指令被所述处理器执行时，使得所述电子设备执行第一方面任一可能实现方式所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面任一可能实现方式所述的方法。

在本申请实施例中，3D-CNN模型通过三维深度神经网络直接对输入进行操作，能够很好的提取打架行为的时空特征信息，从而进行检测。TDN模型捕获视频中的短期和长期时间信息。通过对3D卷积识别结果和TDN结果采用自适应结合，降低了人为设定参数带来的不合理，有效提升打架行为识别的效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种打架行为识别方法的流程示意图；

图2为本申请实施例提供的一种视频流拆分后保留图像帧的示意图；

图3为本申请实施例提供的一种CNN的框架示意图；

图4为本申请实施例提供的一种3D-CNN框架示意图；

图5为本申请实施例提供的一种3D-CNN模型的结构示意图；

图6为本申请实施例提供的一种TDN模型的结构示意图；

图7为本申请实施例提供的打架行为识别图像示例图；

图8为本申请实施例提供的打架行为识别图像示例图；

图9为本申请实施例提供的一种打架行为识别装置的框架示意图；

图10为本申请实施例提供的一种电子设备的示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

每年在很多公众场所发生数以万记的打架违法犯罪行为，严重危害了人民的精神安全和财产安全，甚至会伤害到人们的生命安全，如何才能准确识别出打架者的行为，成为目前越来越多关注的焦点，也是视频监控中非常需要的技术。随着国内智能化监控系统的快速发展，对于公共场合的安全监控、城市智能化管理具有重大意义。目前大多数公共场合的监控系统都是对监控视频进行存储而不包含智能识别，安防人员需要通过眼睛和手动操作进行可疑嫌犯和异常行为的排査，由于监控视频的数量和质量问题导致了人为观察效率的局限性，无法对每个视频片段进行24小时的实时监察，使得一些人员在公共场合打架的时候没能及时发现并制止，从而造成了严重的影响和危害。基于上述原因，本申请提供了一种打架行为识别方法。

参见图1，为本申请实施例提供的一种打架行为识别方法的流程示意图，参见图1，本实施例中的打架行为识别方法，包括：

S101，从视频流中获取图像帧，并按照时间顺序将所述图像帧存入到预设的队列中。

本申请实施例主要是针对公共场合打架行为的处理，通过公共场合的监控视频对人群进行实时的监控。按照预设的时间段获得一个视频流，将视频流拆分成连续的图像帧，图像帧之间按照时间顺序排列，预设一个队列，将图像帧存入到队列中，本实施例中的队列采用先进先出的原则。

如图2所示，如果一个视频流拆分成了10个图像帧A-J，但是图像帧C和D、H和I中行人的动作基本没有发生实质性的变化，本实施例中会从C和D、H和I中任一图像帧。这样通过视频流拆分的10个图像帧，只需要保留其中8个，将8个图像帧依次存入到队列中，这样既不会影响对行人行为识别的准确性，还会提高图像帧处理的速度。

以上举例的10个图像帧只是示意性的，一般一个视频流中会包含更多的图像帧，也会有更多相近似的图像帧，按照本申请的上述方式可以大大地提高图像帧的处理速度。

S102，通过预设的打架动作识别3D-CNN模型对人体行为对所述队列中的图像帧进行识别，从空间和时间的维度提取特征以捕捉多个连续帧中的运动信息。

一般，在视频中应用 CNN 的一个简单的方法是对每一帧图片用 CNN 来识别, 如图3所示。但是传统的2D-CNN 结构没有考虑时间维度上的特征信息。因此，本实施例中提出的 3D-CNN 模型用来进行动作识别。通过在 CNN 的卷积层进行 3D 卷积, 从而能够在空间以及时间维度上都能学习有用的特征，如图 4所示，3D-CNN 是将视频中的连续帧作为一个时空立方体，以此作为 CNN 网络的输入，用 3D 卷积核对时空立方体进行操作, 从而提取空间和时间上的特征信息.选取不同的卷积核对立方体进行卷积, 就能得到多种时空特征。

参见图5，本实施例提供的3D-CNN模型包括3个卷积层、1个全连接层以及2个池化层。其中，前两个卷积层为3D卷积层，卷积核大小为7×7×3 和7×6×3 ，也就是说每个卷积核处理3个连续帧中7×7 和7×6 大小的区域。动作识别模型使用了3D卷积，使得其可以从空间和时间的维度提取特征，从而捕捉从多个连续帧中得到的运动信息。

具体地，本实施例中将图片归一化到固定大小。输入到3D-CNN模型中，模型的输出结果为是否打架的概率P。在打架识别任务中，kd 就代表了时间维度，也就是每个3D卷积核处理的连续帧数。在3D卷积计算中，首先会将kd 个连续帧组成一个3D的图像序列，然后在图像序列中进行卷积计算。3D卷积核会在kd 个连续帧上进行滑动，每次滑动kd 个连续帧中对应位置内的元素都要与卷积核中的参数进行乘加计算，最后得到输出特征图中的一个值。

S103，采用预设的时序差分分类TDN模型根据连续图像帧的差异提取特征，对局部移动信息进行建波并对多尺寸跨分片的全局移动信息建模。

TDN是一种基于 2D 卷积网络的方法，相对于 3D 卷积方法，TDN 网络参数量小，计算开销小，训练更加简单。TDN 为每个视频的分类识别提出了一种稀疏和整体的采样策略。TDN 有短期 TDM（Short term TDM和长期TDM（Long term TDM）两种模块。TDN 研究了两种特定形式来分别完成局部窗口中的运动补充和跨不同段的运动增强任务，这两个模块通过残差连接并入主网络。

打架是一个时间段内的连续动作行为，打架动作识别需要充分考虑时间段内动作的变化情况。每个视频V被分割成T段，长度相等，没有重叠。从每个片段中随机抽取一帧，完全得到T帧 I= [T1, T2，……，Tn]，其中I的形状为[T, C, H, W]。应用时差图和稀疏采样的策略，提出了一种视频级的移动信息建模框架：TDN。

本实施例中的TDN模型主要由两部分组成：S-TDM和L-TDM，可以用非常小的计算代价将它移植到现存的任意CNNs中。S-TDM对于叠加了时差信息的RGB图做局部移动信息的建模，L-TDM对于多尺寸跨分片的全局移动信息建模。模型结构如图6所示。时序模型因为利用了连续帧之间的图像差异所提取的特征，模型的精度要高于直接利用原始图像特征。

S104，根据所述3D-CNN模型和TDN模型输出的结果获得每个行人的打架得分值，所述打架得分值用于判断是否进行报警操作

本申请实施例为了获得行人的打架得分，分别获取3D-CNN模型和TDN模型在测试集上的第一错误率和第二错误率，所述第一错误率用于确定所述3D-CNN模型的第一权重，所述第二错误率用于确定所述TDN模型的第二权重，所述第一权重和第二权重用于计算总体的打架得分。

本实施例中具体地，先获取3D-CNN模型在测试集上的第一错误率e1。根据3D-CNN模型的第一错误率，计算出3D-CNN模型的第一权重

获取两个模型的预测的概率值Gm（x），根据第一权重

本实施例中通过所述打架得分判断是否打架时，同时确定打架动作持续时间是否满足预警时间段，通过所述打架得分和打架动作持续时间判断打架累计值是否达到设定阈值，所述设定阈值用于确定是否进行报警。

例如，通过对一个视频流的中多个图像帧分析可能存在行人有打架行为，此时行人的打架得分累加到一定值。但是这些图像帧的持续时间仅是几秒的时间，后续监测的图像帧中对应的行人的行为是正常的，此时可能存在判断失误，不需要进行报警。相反的，如果判定存在行人在公共场所打架，而且打架分数达到了需要报警的分数值，并且监测时间也满足了设定的预设持续时，此时则需要触发报警。参见图7和图8，为本申请实施例方法识别的行人打架的场景图像，可以看出本实施例提供的打架行为识别方法可以比较有效的对行人打架行为进行识别。

由上述实施例可知，本申请实施例提供了一种打架行为识别方法，3D-CNN模型通过三维深度神经网络直接对输入进行操作，能够很好的提取打架行为的时空特征信息，从而进行检测。TDN模型捕获视频中的短期和长期时间信息。通过对3D卷积识别结果和TDN结果采用自适应结合，降低了人为设定参数带来的不合理，有效提升打架行为识别的效果。

与上述实施例提供的一种打架行为识别方法，本申请还提供了一种打架行为识别装置的实施例。

参见图9，打架行为识别装置200包括：

视频处理模块201，用于从视频流中获取图像帧，并按照时间顺序将所述图像帧存入到预设的队列中。

第一特征获取模块202，用于通过预设的打架动作识别3D-CNN模型对人体行为对所述队列中的图像帧进行识别，从空间和时间的维度提取特征以捕捉多个连续帧中的运动信息。

第二特征获取模块203，用于采用预设的时序差分分类TDN模型根据连续图像帧的差异提取特征，对局部移动信息进行建波并对多尺寸跨分片的全局移动信息建模。

判断模块204，用于根据所述3D-CNN模型和TDN模型输出的结果获得每个行人的打架得分值，所述打架得分值用于判断是否进行报警操作。

与上述实施例相对应，本申请实施例还提供了一种电子设备。

参见图10，为本申请实施例提供的一种电子设备的结构示意图。如图10所示，该电子设备300可以包括：处理器301、存储器302及通信单元303。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的电子设备结构并不构成对本申请实施例的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，通信单元303，用于建立通信信道，从而使电子设备可以与其它设备进行通信。

处理器301，为电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit，IC) 组成，例如可以由单颗封装的IC 所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器301可以仅包括中央处理器(centralprocessing unit，CPU)。在本申请实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

存储器302，用于存储处理器301的执行指令，存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

当存储器302中的执行指令由处理器301执行时，使得电子设备300能够执行上述方法实施例中的部分或全部步骤。

与上述实施例相对应，本申请实施例还提供一种计算机可读存储介质，其中，该计算机可读存储介质可存储有程序，其中，在程序运行时可控制计算机可读存储介质所在设备执行上述方法实施例中的部分或全部步骤。具体实现中，该计算机可读存储介质可为磁碟、光盘、只读存储记忆体（英文：read-only memory，简称：ROM）或随机存储记忆体（英文：random access memory，简称：RAM）等。

与上述实施例相对应，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包含可执行指令，当可执行指令在计算机上执行时，使得计算机执行上述方法实施例中的部分或全部步骤。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a, b, c, a-b,a-c, b-c,或a-b-c，其中a, b, c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，简称ROM）、随机存取存储器（random access memory，简称RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 欺诈行为识别方法、装置、电子设备及可读存储介质 [P] . 中国专利：
2. 一种漆面识别方法、装置、存储介质及电子设备 [P] . 中国专利：
3. 一种氨氮的识别方法、装置、存储介质及设备 [P] . 中国专利：
4. 一种总磷的识别方法、装置、存储介质及设备 [P] . 中国专利：
5. 一种溶解氧的识别方法、装置、存储介质及设备 [P] . 中国专利：
6. 打架行为的识别方法和装置、存储介质及电子装置 [P] . 中国专利： CN111860430A . 2020-10-30
7. 一种视频中打架行为检测方法、装置、设备及介质 [P] . 中国专利： CN108596032B . 2020-09-29
8. BEHAVIOR PREDICTION METHOD AND APPARATUS, GAIT RECOGNITION METHOD AND APPARATUS, ELECTRONIC DEVICE, AND COMPUTER READABLE STORAGE MEDIUM [P] . WO2021169924A1 . 2021-09-02

机译：行为预测方法和装置，步态识别方法和装置，电子设备和计算机可读存储介质
9. DANGEROUS DRIVING BEHAVIOR RECOGNITION METHOD AND APPARATUS, AND ELECTRONIC DEVICE AND STORAGE MEDIUM [P] . WO2022001091A1 . 2022-01-06

机译：危险驾驶行为识别方法和装置，以及电子设备和存储介质
10. DANGEROUS DRIVING BEHAVIOR RECOGNITION METHOD AND APPARATUS, AND ELECTRONIC DEVICE AND STORAGE MEDIUM [P] . 欧洲知识产权局专利： EP3961498A1 . 2022-03-02

机译：危险驾驶行为识别方法和装置，以及电子设备和存储介质