首页> 中国专利> 基于自适应图网络的行人动作检测方法及装置

基于自适应图网络的行人动作检测方法及装置

摘要

本发明提供了一种基于自适应图网络的行人动作检测方法,属于机器学习领域,用于对无裁切视频进行视频的动作定位以及动作分类,其特征在于,包括如下步骤:步骤S1,从原始的无裁切视频中提取多个视频特征;步骤S2,根据步骤S1中获得的多个视频特征生成无裁切视频的多个视频提名;步骤S3,根据无裁切视频的多个视频特征以及多个视频提名建立自适应图神经网络模型;步骤S4,将包含多个训练视频的训练集输入步骤S3中的自适应图神经网络模型进行训练,得到训练完成的自适应图神经网络模型;步骤S5,根据新输入的无裁切视频的视频特征以及视频提名,利用训练完成的自适应图神经网络模型的得到动作定位以及动作分类。

著录项

  • 公开/公告号CN112836670A

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN202110208316.X

  • 发明设计人 李帅成;冯瑞;

    申请日2021-02-24

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构31204 上海德昭知识产权代理有限公司;

  • 代理人卢泓宇

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明属于机器学习领域,涉及视频动作检测技术领域,具体涉及基于图神经网络多阶段视频动作检测分类方法。

背景技术

随着网络、互联网技术的迅速发展,计算机视觉动作检测技术在当今互联网已经是非常重要的信息文化内容载体,并且视频的数量在近几年呈现爆发式的增长,因此对视频内容的分析理解技术至关重要。

未裁切的视频通常包含很多无用的背景视频段、多个动作实例片段,且动作发生的起始位置、动作类别标签都是未知的。视频动作检测方法是能够识别出未裁切视频中多个动作实例的类别标签以及对多个动作的起止位置进行定位的方法。基于深度学习的视频动作检测是目前视频内容分析理解的重要研究方向。为了处理无裁切的视频,视频动作定位算法不仅要求对视频的动作片段进行定位,更要对动作进行具体分类。目前来看,视频时序动作定位分类主要分为一阶算法以及多阶算法。

一阶算法是基于已经生成的整段视频的特征,通过神经网络模型在提取出一系列的动作提名后,对提名进行筛选分析进而得到准确的视频动作的定位以及分类。多阶算法则是基于已经生成的整段视频特征,首先利用神经网络模型生成一维时序提名。再利用另一个神经网络模型输入整段视频特征以及一维时序提名,最后定位分类视频动作。现有的动作检测算法都可以应用于非裁切的长视频中,但是目前最大的难题就是定位准确率比较低。

在论文《Temporal Action Localization in Untrimmed Videos viaMultistage CNNs》中Shou Z等人利用多尺寸的滑动窗口对未裁切的视频进行分割,使用候选分类网络筛选出候选动作提名片段,在使用3D卷积网络来实现视频片段的动作分类。但是由于候选分类网络要求网络输入的视频片段长度一致,只能在不同下采样频率下获取不同时间长度的视频片段,但是缺点就是这样得到的视频片段差异性很大,时序上特征会遭到一定程度破坏,使得动作定位的准确率提升受到了限制。

发明内容

为解决上述问题,提供一种基于自适应图网络的行人动作检测方法以及装置,本发明采用了如下技术方案:

本发明提供了一种基于自适应图网络的行人动作检测方法,用于对无裁切视频进行视频的动作定位以及动作分类,其特征在于,包括如下步骤:步骤S1,从原始的无裁切视频中提取多个视频特征;步骤S2,根据步骤S1中获得的多个视频特征生成无裁切视频的多个视频提名;步骤S3,根据无裁切视频的多个视频特征以及多个视频提名建立自适应图神经网络模型;步骤S4,将包含多个训练视频的训练集输入步骤S3中的自适应图神经网络模型进行训练,得到训练完成的自适应图神经网络模型;步骤S5,根据新输入的无裁切视频的视频特征以及视频提名,利用训练完成的自适应图神经网络模型的得到动作定位以及动作分类,其中,自适应图神经网络模型在训练过程中自适应地改变视频提名之间的联系。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,其中,步骤S3具体包括:步骤S3-1,建立包括固定邻接矩阵的无向图,固定邻接矩阵将视频提名作为图节点,视频提名之间的联系作为图边;步骤S3-2,在无向图中建立一个初始值为0的邻接矩阵作为自适应邻接矩阵,自适应地改变无向图的拓扑结构;步骤S3-3,对无向图的图节点进行图卷积,更新图节点,建立自适应图神经网络模型。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,其中,步骤S3-1中,采用SAGE方法在步骤S2中所有的视频提名中进行采样,均匀采样得到多个视频提名作为图节点。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,其中,步骤S1包括如下步骤:步骤S1-1,用户向计算机输入无裁切视频,计算机按照一定的帧率将无裁切视频导出为视频帧图片;步骤S1-2,取一定张数的步骤S1-1中得到的视频帧图片,通过TVL1算法的计算得到视频光流特征,并将视频帧图片输入I3D网络得到RGB视频特征,视频特征即为视频光流特征以及RGB视频特征。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,其中,步骤S2包括如下步骤:步骤S2-1,将步骤S1得到的视频特征输入预定的视频提名模型中,生成多个原始视频提名;步骤S2-2,对原始视频提名进行筛选,得到一定数量的筛选好的原始视频提名;步骤S2-3,在视频提名模型中,将筛选好的原始视频提名进行扩展得到扩展视频提名,扩展提名以及原始视频提名作为视频提名进行输出。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,其中,视频提名模型为BSN模型,步骤S2-2中,BSN模型生成无裁切视频的视频帧的起始概率以及终止概率,当视频帧的起始概率大于起始概率阈值时,则视频帧为起始帧,当视频帧的终止概率大于终止概率阈值时,则视频帧为终止帧,将起始帧以及终止帧互相组合,得到原始视频提名,视频提名与视频特征一一对应。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,其中,步骤S2-3中,将起始帧的前后选取一定时间段的帧数作为起始区域,将终止帧的前后选取一定时间段的帧数作为终止区域,扩展视频提名为起始区域以及终止区域。

本发明提供的基于自适应图网络的行人动作检测方法,还可以具有这样的特征,步骤S4包括如下步骤:步骤S4-1,从包括多个训练视频的训练集中提取视频特征,并根据视频特征得到视频提名;步骤S4-2,根据步骤S4-1的视频特征以及视频提名对步骤S3中的自适应图神经网络模型进行训练,得到训练完成的自适应图神经网络模型。

本发明提供了一种基于自适应图网络的行人动作检测装置,用于对无裁切视频进行视频的动作定位以及动作分类,其特征在于,包括:视频体征提取部,从无裁切视频中提取多个视频特征;视频提名生成部,根据多个视频特征生成无裁切视频的多个视频提名;以及动作定位分类获取部,用于获取无裁切视频的动作定位以及动作分类,该动作定位分类获取部包含一个训练完成的自适应图神经网络模型,其中,自适应图神经网络模型在训练过程中自适应地改变视频提名之间的联系。

发明作用与效果

根据本发明的基于自适应图网络的行人动作检测方法以及装置,基于图神经网络对无裁切视频进行视频动作定位和动作分类,首先先提取无裁切视频的多个视频特征,再根据视频特征生成多个视频提名,然后根据视频特征以及视频提名建立自适应图神经网络模型并进行训练,获得训练完成的自适应图神经网络模型,最后根据新输入的无裁切视频的视频特征以及视频提名获得动作定位以及动作分类。本发明的自适应图神经网络模型可以根据不同的动作或者定位信息来捕捉到不同的潜在的提名之间的丰富信息,在训练过程中自适应地改变视频提名之间的联系。使用自适应图网络进行视频动作检测,能够达到目前最优秀的检测准确度。本发明的基于自适应图网络的行人动作检测方法以及装置特别适合用于小型安防监控、大目标动作分类检测等场景中,对于大目标的动作能够做到很好的匹配效果。

附图说明

图1是本发明实施例基于自适应图网络的行人动作检测方法及装置步骤流程图;

图2是本发明实施例案例步骤S1的流程示意图;

图3是本发明实施例步骤S2中BSN方法流程图;

图4是本发明实施例视频动作定位和分类方法流程图。

具体实施方式

以下结合附图以及实施例来说明本发明的具体实施方式。

<实施例>

本实施例提供一种基于自适应图网络的行人动作检测方法及装置,用于进行视频中行人动作的检测。

本实施例实现的平台,操作系统ubuntu16.04,使用Python 3.7语言实现,神经网络框架使用pytorch 1.3版本,CUDA版本为10.0,计算加速单元使用4张NVIDIA1080Ti GPU。

本实施例所描述的案例为对一段视频进行多阶段视频动作检测。具体地:该案例的对象是无裁切视频,其中包含一个及以上的动作,供给内容以视频信息呈现。装置的目的是对无裁切视频中发生动作的时间点进行定位并对动作进行识别。

图1是本发明实施例基于自适应图网络的行人动作检测方法及装置步骤流程图。

步骤S1,将原始的无裁切视频通过预定的视频特征方法,形成无裁切视频的高维特征,即视频特征。

图2是本发明实施例案例步骤S1的流程示意图。

具体地,如图2所示,本实施例的步骤S1包括如下步骤:

步骤S1-1,用户向计算机输入无裁切视频,计算机按照25FPS的帧率将无裁切视频导出为视频帧图片;

步骤S1-2,将步骤S1-1中得到的视频帧图片取16张视频帧图片,通过TVL1算法的计算得到光流特征;将视频帧图片,即RGB图片输入I3D网络(Inflated 3D)中,得到RGB视频特征。

步骤S1中得到的最后的视频特征(视频片段特征)即步骤S1-2以及步骤S1-3中的光流信息以及RGB视频特征。

本发明实施例中的I3D模型中用到8层3D卷积、利用扩展卷积增加感受野,且采用双流扩展3D卷积,能够更大范围的捕捉空间信息,最后得到尺度为T*1024的视频特征,其中T为时序长度。

本实施例中,无裁切视频是一段无任何裁切的包含一个或多个动作的视频。

步骤S2,将步骤S1得到的视频特征通过预定的视频提名方法,得到每一个视频的多个视频提名,以及每一个提名的起止时间、与标签的IoU以及置信度等信息。视频提名即时序提名,为多个可能为动作的定位起止时间位置。

图3是本发明实施例步骤S2中BSN方法流程图。

具体地,如图3所示,本实施例的步骤S2包括如下步骤:

步骤S2-1中,将步骤S1得到的视频特征输入BSN模型中,生成多个原始视频提名。具体地,从步骤S1的模型中提取出每一个视频特征,将其作为BSN模型的输入,BSN模型的时序提名生成部分包括了3个时序卷积层,卷积核通道数大小分别为:512,3;512,3;3,1,卷积的所有补长均为1。在最后的卷积后采用sigmoid函数生成每一帧的起始概率、终止概率以及动作概率这3种类别的概率。

步骤S2-2,对原始视频提名进行筛选,得到筛选完成的800个原始视频提名。将满足一定条件的起止终止帧联合组成提名,并评估该提名相对于正确定位标签的IoU,具体地,对于每一个视频,生成800个上述的原始视频提名,并且将每一个提名与步骤S1中I3D模型得到的视频特征一一对应,在筛选原始视频提名时,以筛选开始帧为例,在得到每帧的3种类别概率后,仅仅当起始概率大于起始概率阈值,本实施例中即大于0.9才将其列如提名起始帧,对于终止帧的筛选同样如此,当终止概率大于终止概率阈值,本实施例中即大于0.9才将其列如提名终止帧,将起始以及帧终止帧一一组合,最后得到筛选完成的800个原始视频提名。

步骤S2-3,在BSN模型中,将原始视频提名进行扩展得到扩展提名作为视频提名进行输出。对原始视频提名做一些处理来得到一些扩展的视频提名,进一步提升网络的泛化能力,具体地,在BSN模型中,我们对于提取的800个原始视频提名,选取一个区间范围作为起始区域,即在起始帧的前后选取d/10帧来作为起始区域(d=t

对于这些视频提名,我们根据视频提名与标签动作位置的tIoU大小比较,分为三种类型,分别是前景、背景以及不完全动作。其中前景是视频候选提名与标签动作位置的tIoU>θ

图4是本发明实施例视频动作定位和分类方法流程图。

步骤S3,具体流程如图4所示,将输入的800个视频提名建立一个无向图,视频提名作为图的节点、根据一定的条件来构建节点的边。因为构建一个800*800的图太过于消耗资源,这里采用SAGE均匀采样的方法进行选择节点的邻边,并且通过邻边消息传递更新来获取提名更丰富的信息特征,利用图卷积对无向图进行消息传递更新,获取候选提名之间更丰富的特征信息,更有利于动作定位检测。更详细的操作如下:

步骤S3-1,根据提名与提名之间的特征建立无向图,并且将视频提名作为图节点,视频提名与视频提名之间的联系作为图的边。采用SAGE的方法在视频候选提名中选8个tIoU最高的作为根节点,分别为一个前景动作候选提名、一个背景候选提名、6个不完整动作候选提名。针对每一个根节点,我们选取5个候选视频提名子节点,在所有视频提名中分别寻找与该根节点的IoU和中心距离分别满足一定条件的6和2个视频提名,在这8个视频提名中随机采样两个即共4个视频提名。这样我们每一个根节点会与8个其他视频提名连接成边。具体的:若目标提名与根节点提名的tIoU>θ

步骤S3-2,在无向图中建立一个初始值为0的邻接矩阵作为自适应邻接矩阵,利用图神经网络进行训练,自适应地改变无向图的拓扑结构。步骤S3-1建立了视频提名节点之间的固定边,但是实际训练模型过程中,人工构造的固定边有很大的局限性,可能提名之间有很多潜在的联系特征,因此可以建立一个初始值为0的邻接矩阵作为自适应矩阵,即自适应图,该邻接矩阵可以跟随无向图,即自适应图神经网络模型一起训练,自适应地改变视频提名与视频提名之间的联系,并且还能学习到视频提名联系之间的强弱。在图卷积时,邻接矩阵就是固定邻接矩阵与自适应图矩阵的逐元素加。以此,在模型逐渐训练收敛后,可以捕捉到视频提名与视频提名之间潜在的一些联系。例如一个打乒乓球的场地中,背景与动作之间有联系,捡球动作对动作的终止有着很大的联系,当然自适应图神经网络还可以学习到很多人工无法捕捉到的联系。

步骤S3-3,无向图的图节点进行图卷积,更新图节点,建立自适应图神经网络模型。具体地,建立好视频提名之间的无向图,如步骤S3-2,无向图中包含固定邻接矩阵以及自适应邻接矩阵,即包含2种类型的连接边:固定边以及自适应可变边。建立图卷积层,设立两种卷积网络,分别输入原始视频提名以及扩展视频提名。两个图卷积网络分别对视频提名的内容和动作起始位置、完整性分数进行分类和预测,并且在多任务损失函数的评价下反向传播网络,优化网络参数,使得网络模型逐渐收敛。

表1本发明实施例案例所用的神经网络模型的结构

参见上表1,以图卷积网络(1)为例,输入数据矩阵为168*1024,图卷积层的操作是将有连接边的节点的消息传递并更新。得到168*512的视频提名特征,利用非线性函数Relu处理后再用图卷积层变换特征维度到1024。然后再将初始的提名特征与目前的输出进行聚合,最后利用全连接层变换分类,类别为class+1,包含背景类。以此得到每个提名的动作类别。在图卷积网络(2)中,与图卷积网络(1)大致相同,仅仅在最后全连接层有两个分类,一个是预测视频提名的置信度,另一个是预测提名的起止位置。在预测动作分类时,由于某些不完整提名的动作分类概率也会表现的很高,这个缺陷可以通过综合不完整分数与动作分类概率来解决,即在预测某个视频提名的动作分类时,衡量指标是动作分类概率与完整性分数相乘,这样可以提升动作分类准确度。

得到预测的数据后,采用NMS非极大值抑制方法,改善动作检测结果。对于起止位置的准确度一般用IoU作为判断标准,即预测起止范围与标签起止范围的交并比。

步骤S4,对步骤S4所建立的自适应图神经网络模型进行训练,得到训练好的自适应图神经网络模型,即视频动作定位分类模型,具体过程如下:

步骤S4-1,将公开数据集Thumos14数据集作为模型训练集。

本实施例中,我们利用公开数据集Thumos14作为模型训练的训练集。我们将数据集中的视频输入到I3D模型中,利用I3D模型中的8个扩展3D卷积层处理后得到视频的高维特征,即视频特征,再将视频特征输入到BSN模型,利用1D时序卷积,按照步骤2的方式生成800个原始视频提名和扩展视频提名作为视频提名。

步骤S4-2,对步骤S3建立的自适应图神经网络模型进行训练,得到训练完成的自适应图神经网络模型。具体操作如下:

将步骤1和步骤2得到的视频特征数据、视频候选提名数据作为输入,具体操作如步骤3所示。利用两个图卷积网络,生成每个提名的分类、完整性分数、起止位置概率信息。同时,以数据驱动为导向的自适应图结构会在训练过程中捕捉候选提名节点之间潜在的重要的联系信息。本实施例中,采用了I3D输出的双流特征,在最后判断类别、位置以及完整性时,将RGB特征结果和光流特征以2:3的比例进行综合。

步骤S5,根据新输入的视频特征和视频提名,利用训练好的自适应图神经网络模型对输入特征进行视频定位分类。

本实施例还提供一种基于自适应图网络的行人动作检测装置,包括视频体征提取部、视频提名生成部以及动作定位分类获取部。

对于新输入的无裁切视频,视频体征提取部以及视频提名生成部首先需要通过步骤1、2生成视频特征以及视频提名,然后输入到包含训练完成的自适应图神经网络模型的动作定位分类获取部中,得到未裁切视频动作检测结果。具体的:测试视频需要首先利用I3D方法提取视频特征,并且利用BSN方法提取出800个视频提名。将视频提名输入到训练完成的自适应图神经网络模型中,最后会生成一段视频的动作位置以及其动作分类。

实施例作用与效果

根据本实施例提供的基于自适应图网络的行人动作检测方法以及装置,基于图神经网络对无裁切视频进行视频动作定位和动作分类,首先先提取无裁切视频的多个视频特征,再根据视频特征生成多个视频提名,然后根据视频特征以及视频提名建立自适应图神经网络模型并进行训练,获得训练完成的自适应图神经网络模型,最后根据新输入的无裁切视频的视频特征以及视频提名获得动作定位以及动作分类。本实施例的自适应图神经网络模型可以根据不同的动作或者定位信息来捕捉到不同的潜在的提名之间的丰富信息,在训练过程中自适应地改变视频提名之间的联系。。使用自适应图网络进行视频动作检测,能够达到目前最优秀的检测准确度。本实施例的方法装置特别适合用于小型安防监控、大目标动作分类检测等场景中,对于大目标的动作能够做到很好的匹配效果。

进一步,本实施例提供的行人动作检测方法中建立的自适应图神经网络模型,区别与常见的图网络模型的固定边,人工的定义边难以捕捉到潜在的视频提名信息,而本实施例的自适应图神经网络模型,建立了自适应图,包含固定与不固定的连接边,可以自适应地改变无向图的拓扑结构,自适应地改变视频提名与视频提名之间的联系,还能学习到视频提名联系之间的强弱,并且自适应图神经网络还可以学习到很多人工无法捕捉到的联系,本实施例的自适应图神经网络模型特别特别是在IoU较低的情况时有更出色的精确度。

进一步,在本实施例中,根据BSN生成的视频提名构建自适应无向图,能够使得检测结果更加优秀。图卷积适用于任意结构的数据,图表示能够容忍相比于网格数据更高的复杂关系,而在视频提名间,存在着时序特征,为了有效的捕捉视频提名之间的联系,依据tIoU以及提名距离来先建立一个固定的无向图。在数据驱动的模型中,仅仅利用固定人工构建的无向图是完全不够的,本实施例再次构建了可供模型学习的自适应图结构,初始化为0在模型训练的过程中,自适应图能够捕捉到除了人工构建无向图不能捕捉到的特征提名之间的联系特征,使得动作检测定位的准确率大大提高。

进一步,本实施例提供的基于自适应图网络的行人动作检测方法中,因为每一个视频有交多个视频提名,如果以全部提名建立无向图会非常消耗内存资源以及增加模型的大小,这里使用SAGE方法,在所有视频候选提名中均匀选择一部分视频提名建立边,这样可以在保证准确率的条件下,减小训练模型时的运算量,保证在实际应用本实施方法时有更快的速度。

进一步,本实施例提供的基于自适应图网络的行人动作检测方法中,无裁切视频首先会经过I3D模型和BSN模型提取出可靠的动作片段提名,提名中融合了每个提名的始末位置以及提名的视频特征信息、最优的IoU等,这些预处理参数能够很好的辅助我们的动作检测方法,使得最后的检测结果更加精确。本实施例中,采用目前性能更优秀的开源模型I3D作为视频特征提取。利用扩展卷积增加感受野,能够提取到更加丰富的视频特征信息。而BSN模型能够生成一些可靠的视频提名,处理时间快,视频提名的准确率较高。

进一步,本实施例的基于自适应图网络的行人动作检测方法还将原始视频提名扩展为扩展视频提名,联合普通视频提名输入模型训练,能够提高网络模型的泛化能力。

进一步,本实施例中,对于训练好的模型,视频的800个提名以及特征输入模型后,由于动作存在不完整性,且某些较低IoU的视频提名可能有较高的动作分类分数,这时在计算动作概率时还会参考完整性分数,能提高动作检测的准确率。

上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号