首页> 中国专利> 一种注意力机制引导的弱监督视觉异常事件检测方法

一种注意力机制引导的弱监督视觉异常事件检测方法

摘要

本发明提出了一种注意力机制引导的弱监督视觉异常事件检测方法,首先,利用多实例排序模型训练伪标签生成器,生成异常样本伪标签,随后将生成的异常样本伪标签进行降噪处理,得到完整标签,并采用C3D网络模型提取视频时空特征作为事件描述符,随后将事件描述符作为输入,利用时空特征结合注意力模块和引导增强模块构建和训练注意力增强弱监督异常事件检测模型,利用注意力增强弱监督异常事件检测模型实现异常事件的预测判定和定位。本发明可以准确地检测出复杂、多种场景监控视频中的异常事件。本发明利用弱监督的方法对注意力增强弱监督异常事件检测模型进行训练,有效提升了工作效率,降低了视频异常事件监测的工作量。

著录项

  • 公开/公告号CN116883885A

    专利类型发明专利

  • 公开/公告日2023-10-13

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN202310487166.X

  • 发明设计人 王向军;王霖;刘峰;李名洋;

    申请日2023-04-28

  • 分类号G06V20/40(2022.01);G06V10/764(2022.01);G06V10/774(2022.01);G06V10/82(2022.01);G06V10/30(2022.01);G06N3/0464(2023.01);G06N3/0895(2023.01);

  • 代理机构郑州优盾知识产权代理有限公司 41125;

  • 代理人栗改

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2024-04-18 19:44:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-10-31

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:202310487166X 申请日:20230428

    实质审查的生效

说明书

技术领域

本发明涉及通用计算机图像处理领域,尤其涉及一种注意力机制引导的弱监督视觉异常事件检测方法。

背景技术

越来越多的监控相机应用于工业故障检测、智能安防监控、产线缺陷检测等领域,但自动异常检测技术却发展相对滞后,导致监控相机的有效利用率明显过低。出现这种情况的原因是与正常事件相比,异常事件发生频率低、具有很强的稀疏性,导致实现自动化视觉异常检测比较困难,人工检测效率偏低且非常耗时。因此,为了减轻人力和时间成本,开发一种用于自动视觉异常检测系统的智能计算机视觉算法是非常迫切的现实需求,它的任务是及时对异常事件发出警报和定位。

因此,我们期望异常检测尽量不依赖于任何关于异常事件的先验信息,既应该在最少或没有异常信息监督的条件下进行。现有技术通常利用无监督方法进行视觉异常事件检测,这类方法的前提是将任何与所学习到的正常模式的偏离较远的事件都视为异常。然而,这个假设不可能总成立,因为几乎不可能定义或学习到一个将所有正常事件考虑到的模型。而且,这类无监督方法容易受到背景环境变化的影响,降低异常事件检测的精度。

从人类学习和理解事物的角度而言,给模型加入一些异常实例来辅助模型理解异常事件,它对异常事件的判断可能会更加准确。因此,在大量正常事件的基础上加入一些已知先验异常事件形成的弱监督数据集,可以帮助异常检测模型更好地学习表征正常和异常事件。目前的弱监督方法一般利用多实例学习作为判定准则,它将视频以粗粒度方式分割成固定片段,不考虑异常事件持续时间,容易将异常帧隐藏为通常占大多数的正常帧,造成无法准确监测到视频异常。弱监督方法侧重于以粗粒度方式或离线方式检测异常,准确度较低,不能很好地满足真实世界应用的实时监测要求。

发明内容

针对现有弱监督方法无法准确监测到视频异常的技术问题,本发明提出一种注意力机制引导的弱监督视觉异常事件检测方法,可以有效聚焦异常区域,提高对异常的空间定位能力,适用于复杂、多种场景监控视频中的异常事件检测场合。

为了达到上述目的,本发明的技术方案是这样实现的:一种注意力机制引导的弱监督视觉异常事件检测方法,包括以下步骤:

S1:将正常视频与异常视频输入多实例排序模型训练伪标签生成器,生成异常样本伪标签;

S2:将步骤S1中生成的异常样本伪标签进行降噪处理,得到完整标签;

S3:采用预训练C3D网络模型提取视频时空特征作为事件描述符;

S4:利用事件描述符结合注意力模块和引导增强模块,构建注意力增强弱监督异常事件检测模型,并利用完整标签对注意力增强弱监督异常事件检测模型进行训练;

S5:将待检测视频输入步骤S4得到的注意力增强弱监督异常事件检测模型,实现异常事件的预测判定。

步骤S1所述利用多实例排序模型训练伪标签生成器的方法为:

S11:使用预训练C3D网络模型分别提取正常视频中所有片段的特征

S12:以正常视频中所有片段的特征

S13:将正包

所述伪标签生成器为节点数分别为512、32和1的三层感知器,每层感知器之间利用概率为0.7的Dropout进行正则化,伪标签生成器的第一层通过ReLU函数激活,伪标签生成器的第三层通过Sigmoid函数激活。

所述步骤S2中异常样本伪标签进行降噪处理的方法为:

S21:利用滑动平均滤波器对异常样本伪标签Sa进行时间平滑得到平滑后的异常预测分数

S22:对异常视频片段实例分数

S23:将异常视频伪标签

所述正常视频标签Y

其特征在于,所述采用C3D网络模型提取视频时空特征作为事件描述符的方法为:

S31:将视频以连续的16帧长度截取得到视频片段立方体,将视频片段立方体进行归一化处理;

S32:将归一化后视频片段立方体输入C3D网络模型,使视频片段立方体依次通过8个3D卷积层进行3D卷积;

S33:视频片段立方体通过每层3D卷积层后利用ReLU函数进行激活进行时空特征的提取,通过第6层的3D卷积层输出特征F

步骤S4所述注意力增强弱监督异常事件检测模型包括引导分类器H

步骤S4所述构建和训练注意力增强弱监督异常事件检测模型的方法为:

S41:采用选择性注意力机制,利用步骤S33中所得卷积层输出特征F

M

S42:注意力机制模块利用注意力图M

S43:特征

S44:将步骤S41中的特征F

F

S45:将特征F

p

S46:对注意力增强弱监督异常事件检测模型进行训练,利用目标损失函数

所述加权损失函数

步骤S5中所述实现异常事件的预测判定和定位的方法为:利用步骤S43得到的异常分数p

本发明的有益效果为:首先,由多实例排序伪标签生成器生成异常样本伪标签,以监督异常检测模型训练;其次,采用C3D网络模型提取视频时空特征作为视频事件描述符;最后,利用注意力增强弱监督异常检测器对视频帧进行异常分数预测和异常判定,从而实现对异常事件的时间,精确度高,可以准确地检测出复杂、多种场景监控视频中的异常事件。同时,利用弱监督的方法对网络模型进行训练,有效提升了工作效率,降低了视频异常事件监测的工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本本发明的流程图。

图2为本发明的基于注意力增强的弱监督视觉异常事件检测网络模型结构图。

图3为本发明在UCF-Crime测试集上异常视频的预测异常分数的可视化。

图4为本发明在UCF-Crime测试集上的空间异常激活图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种注意力机制引导的弱监督视觉异常事件检测方法,包括以下步骤:

S1:利用多实例排序模型训练伪标签生成器,生成异常样本伪标签,具体方法为:

S11:截取视频中的正常视频与异常视频,使用预训练好的C3D网络模型分别提取正常视频中所有片段的特征

S12:以正常视频中所有片段的特征

S13:将正包

S2:将步骤S1中生成的异常样本伪标签进行降噪处理,得到完整标签的具体方法为:

S21:利用滑动平均滤波器对正常视频片段的异常预测分数S

其中,k为滑动平均滤波器的核尺寸,j为异常预测分数的索引。

S22:利用步骤S21所得

其中,异常分数

S23:将异常视频伪标签

S3:采用C3D网络模型提取视频时空特征作为事件描述符的具体方法为:

S31:将视频以连续的16帧长度截取得到视频片段立方体,将视频片段立方体进行归一化处理,该视频立方体维度为[3×16×112×112],其中,16为视频立方体的帧数量,使用连续16帧的视频片段来提取C3D特征,可以使特征既紧凑又具有识别力,3为视频立方体的RGB通道数。

S32:将视频片段立方体输入C3D网络模型,使视频片段立方体依次通过8个3D卷积层进行3D卷积。

S33:视频片段立方体通过每层3D卷积层后利用ReLU函数进行激活,通过第6层的3D卷积层输出特征F

S4:利用时空特征结合注意力模块和引导增强模块,构建和训练注意力增强弱监督异常事件检测模型。其中,步骤S4所述注意力增强弱监督异常事件检测模型包括引导分类器H

S41:步骤S33中所得卷积层输出特征F

M

S42:通过传统选择性注意力机制获得用注意力图M

S43:特征

其中,Ψ代表全局平均池化,∏代表全连接层操作。

S44:将步骤S41中的F

FC8=M3(M1(FC4)) (6)其中,F

S45:将F

p

其中,Ψ(·)表示全局时空平均池化,Φ(·)表示特定类别的通道平均池化。

训练时,令加权损失函数

具体的,类加权交叉熵损失函数CE

其中,w

其中,β

在构建与训练的注意力增强弱监督异常事件检测模型的过程中,步骤S4利用GAM模块与AMM模块对步骤S3中输出的特征F

S5:用步骤S4得到的注意力增强弱监督异常事件检测模型,利用步骤S43得到的异常分数p

训练开始时,使用5个epochs的学习率预热方式。采用Warmup学习率预热方式的原因:刚开始训练时,模型的权重是随机初始化的,此时若选择一个较大的学习率,可能带来模型的不稳定(振荡)。使用Warmup学习率调整策略令开始训练的5个epochs内学习率较小,模型在预热的小学习率下慢慢趋于稳定。其中,Warmup参考论文《精确的大型小批量SGD:1小时内训练ImageNet》(Accurate,Large Minibatch SGD:Training ImageNet in 1Hour)。待模型相对稳定后再用预设的学习率进行训练,加快收敛速度,使得模型训练效果更佳。同时,在训练前30个epochs内,冻结模型中的C3D网络模型的主干网络,防止C3D网络模型的预训练权重被破坏。在冻结阶段只对模型中的其余参数进行微调,经过25个epochs后解冻,在解冻后模型的所有参数都参与训练。在训练时,我们每批次采样32个异常视频和32个正常视频,并从每个视频中均匀采样5个片段。模型使用PyTorch进行端到端训练。

模型训练完成后在UCF-Crime测试集上进行性能测试。图3为本发明在UCF-Crime测试集上异常视频的预测异常分数的可视化;图4为本发明在UCF-Crime测试集上的空间异常激活图,方框是异常真值空间标注。在UCF-Crime测试集中的检测结果表明,本发明可以准确地检测出复杂多种场景监控视频中的异常事件,验证了本发明在异常事件上的时间和空间定位能力。其中,UCF-Crime参考论文《监视视频中的现实世界异常检测》(Real-WorldAnomaly Detection in Surveillance Videos)。

以上即为本发明提出的一种基于注意力增强的弱监督异常事件检测方法的具体实施方案。此实施例在异常事件数据集UCF-Crime上进行。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号