首页> 中国专利> 融合自注意力机制和残差网络的湖边危险行为检测方法

融合自注意力机制和残差网络的湖边危险行为检测方法

摘要

本发明涉及人工智能技术领域,具体涉及一种融合自注意力机制和残差网络的湖边危险行为检测方法,包括获取训练视频序列和测试视频序列;对训练视频序列依次进行图像增强和运动目标检测,得到训练数据集;对训练数据集进行筛选,得到输入数据集;使用输入数据集对长短期记忆神经网络进行训练,得到行为检测模型;对测试视频序列依次进行图像增强和运动目标检测,得到测试数据集;将测试数据集输入行为检测模型中进行训练,得到危险行为检测结果。本发明通过对视频序列进行图像增强后再进行行为检测,解决了现有的行为检测技术手段的危险行为检测的准确率低的问题。

著录项

  • 公开/公告号CN115620395A

    专利类型发明专利

  • 公开/公告日2023-01-17

    原文格式PDF

  • 申请/专利权人 重庆科技学院;

    申请/专利号CN202211283552.9

  • 申请日2022-10-20

  • 分类号G06V40/20(2022.01);G06V20/40(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构重庆蕴博君晟知识产权代理事务所(普通合伙) 50223;

  • 代理人郑勇

  • 地址 401331 重庆市沙坪坝区大学城东路20号

  • 入库时间 2023-06-19 18:21:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-10

    实质审查的生效 IPC(主分类):G06V40/20 专利申请号:2022112835529 申请日:20221020

    实质审查的生效

  • 2023-01-17

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能技术领域,尤其涉及一种融合自注意力机制和残差网络的湖边危险行为检测方法。

背景技术

目前,随着国家经济的持续发展,公共场所人员安全问题也受到越来越多的关注。公共安全是国家安全中不可缺少的一部分,是推动社会进步的重要保障,关乎国计民生。我国社会面临的公共安全问题呈现多样、易发的特点,落水溺水在众多安全问题中尤为突出,一旦发生落水溺水事故,人们的生命安全受到严重威胁,并且对社会的稳定势必造成极大地冲击。因此通过湖边监控视频来预防行人翻越围栏或失足落水导致落水溺水事故的发生、维护公共安全有着重要意义。

我国正在迅速迈进现代化社会,在此转型的关键时间段,落水溺水事故不断发生。据世界卫生组织《全球溺水报告》显示,全球每小时有40多人溺水死亡,每年共有约37.2万人溺水死亡,而半数以上溺水死亡者都不足25岁。我国每年约有5.9万人死于溺水,其中未成年人占据了95%以上。其中攀越围栏失足落水导致溺亡的人们就占据了38%,并且7、8月发生的溺水事件也呈现高发态势。8月份溺水案例占比最高,占全年溺水案例的17.49%。

2022年5月6日在江苏徐州发生一起跳河事件,一对年轻男女先后跳河,最终导致一人死亡的惨剧。据知情人士透露,事件发生在江苏徐州市沛县,一对年轻男女先是发生激烈争吵,紧接着二人先后跳入附近的河中,女子获救上岸,无生命危险,男子于当天中午被打捞上岸,已不幸身亡。2021年6月12日凌晨3时52分,河南省长葛市清潩河赵庄桥南侧发生一起跳河溺亡事故。经调查,当事人一行7人在河边喝酒,期间有人有厌世语言,其中1人突然翻越护栏跳入河中,后相继又有5人入水;2020年,江苏17岁高中因为班主任的批评,心里承受不了,翻越围栏生跳河自尽;

如今在溺水事故如此频发的环境下,如果使用人工进行实时监控行人在湖边失足落水的隐患,而且还会需要耗费大量人力物力。通过行为检测技术手段可以减低人工、时间成本,但是在现实的湖边场景中,存在夜晚光线不足弱光导致监控拍摄到的图像可见度低、图像多尺度等问题导致危险行为检测的准确率低。如果行人的危险行为能够被及时检测并及时发送警报,就能很大程度上降低损失,具有极其深远的理论研究意义。

发明内容

本发明的目的在于提供一种融合自注意力机制和残差网络的湖边危险行为检测方法,旨在解决现有的行为检测技术手段的危险行为检测的准确率低的问题。

为实现上述目的,本发明提供了一种融合自注意力机制和残差网络的湖边危险行为检测方法,包括以下步骤:

S1获取训练视频序列和测试视频序列;

S2对所述训练视频序列依次进行图像增强和运动目标检测,得到训练数据集;

S3对所述训练数据集进行筛选,得到输入数据集;

S4使用所述输入数据集对长短期记忆神经网络进行训练,得到行为检测模型;

S5对所述测试视频序列依次进行图像增强和运动目标检测,得到测试数据集;

S6将所述测试数据集输入所述行为检测模型中进行训练,得到危险行为检测结果。

其中,所述获取测试视频序列,包括:

获取湖边当前监控视频,并提取所述当前监控视频的关键帧图像,得到测试视频序列。

其中,所述对所述测试视频序列依次进行图像增强和运动目标检测,得到测试数据集,包括:

S51使用MSRCR方法对所述测试视频序列进行图像增强,得到增强数据集;

S52将所述增强数据集输入改进的Yolov5模型进行目标检测,得到行人图像;

S53将所述行人图像输入caffe模型中提取人体骨架,得到测试数据集。

其中,所述使用MSRCR方法对所述测试视频序列进行图像增强,得到增强数据集,包括:

S511使用高斯函数对所述测试视频序列进行低通滤波,得到滤波数据集;

S512将所述测试视频序列与所述滤波数据集转换到对数域做差,得到对数域的反射图像;

S513多尺度重复步骤S511-S512,直至重复次数到达预设值,得到多个反射图像,并将多个所述反射图像在像素层面上进行图像求和,得到MSR结果;

S514对所述测试视频序列求和,得到归一化因子;融合所述归一化因子进行权重矩阵归一化后转换到对数域,得到图像颜色增益;

S515将所述MSR结果按照所述图像演策增益进行组合,得到组合结果;

S516对所述组合结果进行图像恢复,得到增强数据集。

其中,所述将所述增强数据集输入改进的Yolov5模型进行目标检测,得到测试数据集,包括:

S521在Yolov5模型中引入自注意力模型和ResNet残差网络,并将FPN特征金字塔换成PANET金字塔,得到改进的Yolov5模型;

S522将所述增强数据集输入所述改进的Yolov5模型进行目标检测,得到行人图像。

本发明的一种融合自注意力机制和残差网络的湖边危险行为检测方法,通过获取训练视频序列和测试视频序列;对所述训练视频序列依次进行图像增强和运动目标检测,得到训练数据集;对所述训练数据集进行筛选,得到输入数据集;使用所述输入数据集对长短期记忆神经网络进行训练,得到行为检测模型;对所述测试视频序列依次进行图像增强和运动目标检测,得到测试数据集;将所述测试数据集输入所述行为检测模型中进行训练,得到危险行为检测结果。本发明通过对视频序列进行图像增强后再进行行为检测,解决了现有的行为检测技术手段的危险行为检测的准确率低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的一种融合自注意力机制和残差网络的湖边危险行为检测方法的原理图。

图2是SwinTransformer原理示意图。

图3是Openpse原理示意图。

图4是LSTM原理示意图。

图5是本发明提供的一种融合自注意力机制和残差网络的湖边危险行为检测方法的流程图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

请参阅图1至图5,本发明提供一种融合自注意力机制和残差网络的湖边危险行为检测方法,包括以下步骤:

S1获取训练视频序列和测试视频序列;

具体的,所述获取测试视频序列,包括:

获取湖边当前监控视频,并提取所述当前监控视频的关键帧图像,得到测试视频序列。

通过湖边的监控实况系统,并将采集到的视频数据作为样本输入,利用关键帧截取技术,使用预设的时间间隔对时监控视频流进行截取,获得可送至深度学习模型处理的视频帧。

S2对所述训练视频序列依次进行图像增强和运动目标检测,得到训练数据集;

具体的,所述训练视频序列进行图像增强和运动目标检测的方式与所述测试视频序列进行图像增强和运动目标检测的方式相同,详见步骤S511-S516。

运动目标检测:SwinTransformer提出了一种带移动窗口的自注意力模型。通过串联窗口自注意力运算(W-MSA)及滑动窗口自注意力运算(SW-MSA),使得SwinTransformer在获得近乎全局注意力能力的同时,又将计算量从图像大小的平方关系降为线性关系,大大地减少了运算量,提高了模型推理速度。将Swin Transformer的移动窗口注意力迁移到ResNet残差网络上才能够建立全局的注意力。Yolov5中模型的Backbone是用于获取输入图像并从中提取特征映射的组件。这是任何目标检测器的关键步骤,因为它是负责从输入图像提取上下文信息以及将该信息提取为模式的主要结构。本发明采用ResNet一种流行的结构,它引入残差连接来减少在深层神经网络中收益递减的影响。把ResNet作为Backbone对Yolov5模型原有的Backbone进行替换,由此可以达到既做到建立全局的注意力,也能减少在深层神经网络中收益递减的影响。

S3对所述训练数据集进行筛选,得到输入数据集;

具体的,截取所述训练数据集中运动部分的图像并保存在文件夹中,将重复无用的图片删除后打标签,得到输入数据集。

S4使用所述输入数据集对长短期记忆神经网络进行训练,得到行为检测模型;

具体的,LSTM分类器:LSTM网络是是一种RNN特殊的类型,可以学习长期依赖信息,湖边场景下,人体行为与时间戳有着密切的联系,上一秒的行为能够为下一秒的行为预测提供参考,所以本发明引入了LSTM网路单元处理时间和空间特征。LSTM通过刻意的设计来避免长期依赖问题,长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。所有RNN都具有一种重复神经网络模块的链式的形式。在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层。LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。如图四,每一条黑线传输着一整个向量,从一个节点的输出到其他节点的输入。粉色的圈代表按位逐点的操作,诸如向量的和,而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接,分开的线表示内容被复制,然后分发到不同的位置。

S5对所述测试视频序列依次进行图像增强和运动目标检测,得到测试数据集;

具体方式为:

S51使用MSRCR方法对所述测试视频序列进行图像增强,得到增强数据集;

具体方式为:

S511使用高斯函数对所述测试视频序列进行低通滤波,得到滤波数据集;

S512将所述测试视频序列与所述滤波数据集转换到对数域做差,得到对数域的反射图像;

具体的,转换到对数域做差即将图像中的低频成分减掉。

S513多尺度重复步骤S511-S512,直至重复次数到达预设值,得到多个反射图像,并将多个所述反射图像在像素层面上进行图像求和,得到MSR结果;

S514对所述测试视频序列求和,得到归一化因子;融合所述归一化因子进行权重矩阵归一化后转换到对数域,得到图像颜色增益;

具体的,首先在通道层面,对测试视频序列求和,作为各个通道的归一化因子;权重矩阵归一化,并转换到对数域,得到图像颜色增益。(测试视频序列乘以颜色修复的非线性因子,这里取2.0,再除以归一化因子)。

S515将所述MSR结果按照所述图像演策增益进行组合,得到组合结果;

具体的,所述重新组合为连乘。

S516对所述组合结果进行图像恢复,得到增强数据集。

具体的,颜色恢复后的图像乘以图像像素值改变范围的增益,加图像像素值改变范围的偏移量,得到最终结果。

S52将所述增强数据集输入改进的Yolov5模型进行目标检测,得到行人图像;

具体方式为:

S521在Yolov5模型中引入自注意力模型和ResNet残差网络,并将FPN特征金字塔换成PANET金字塔,得到改进的Yolov5模型;

具体的,SwinTransformer提出了一种带移动窗口的自注意力模型。通过串联窗口自注意力运算(W-MSA)及滑动窗口自注意力运算(SW-MSA),使得Swin Transformer在获得近乎全局注意力能力的同时,又将计算量从图像大小的平方关系降为线性关系,大大地减少了运算量,提高了模型推理速度。将Swin Transformer的移动窗口注意力迁移到ResNet残差网络上才能够建立全局的注意力。Yolov5中模型的Backbone是用于获取输入图像并从中提取特征映射的组件。这是任何目标检测器的关键步骤,因为它是负责从输入图像提取上下文信息以及将该信息提取为模式的主要结构。本发明采用ResNet一种流行的结构,它引入残差连接来减少在深层神经网络中收益递减的影响。把ResNet作为Backbone对Yolov5模型原有的Backbone进行替换,由此可以达到既做到建立全局的注意力,也能减少在深层神经网络中收益递减的影响。

S522将所述增强数据集输入所述改进的Yolov5模型进行目标检测,得到行人图像。

S53将所述行人图像输入caffe模型中提取人体骨架,得到测试数据集。

具体的,选择Openpse算法获取骨骼数据。获取的人体骨骼数据包含充足的时空信息,对人体多样化以及复杂视频具有较强鲁棒性,从而可以使用以骨骼数据作为输入的模型进行危险行为检测。目前Openpse共有两种人体骨骼关节点的输出方式,分别是18关节点和25关节点,二者最主要的差异是足部关节点,而在跌倒行为中,足部关节点似乎对跌倒并无影响,所以本发明采用18关节点。通过二值图像外接矩形模块,是将提取的人体骨骼信息转换为二值图像,即人体骨架为白色像素点,其他无关背景为黑色像素点;同时将人体骨架图像使用最小外接矩形框出,实际上实现了人体检测→骨架信息提取→外接矩形框出。

S6将所述测试数据集输入所述行为检测模型中进行训练,得到危险行为检测结果。

本发明的有益效果是:

1提出了一种可以在夜晚弱光监督条件下的一种融合自注意力机制和残差网络的湖边危险行为检测方法,可以减少人工成本、时间成本,保障行人的健康安全。有效的结合了现有资源,提高了高校硬件设施的利用率。

2本发明设计了一种有效的图像增强方法,采用MSRCR方法同时实现了动态范围压缩、颜色一致性以及亮度再现,有效解决了弱光条件下图像增强的问题。

3本发明通过SwinTransformer和ResNet残差网络对Yolov5一种改进方法。利用SwinTransformer的一种带移动窗口的自注意力模型,迁移到ResNet残差网络上,把ResNet残差网络对Yolov5的模块进行替换,大大地减少了运算量,提高了模型推理速度。

4本发明提出一种改进的特征金字塔模型,将Yolov5原有的FPN特征金字塔换成PANET金字塔,减少特征图生成过程中的信息丢失,进而提高特征金字塔的表示能力。在保证实时检测的前提下,提高了Yolov5网络对多尺度目标的检测性能。

以上所揭露的仅为本发明一种融合自注意力机制和残差网络的湖边危险行为检测方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号