首页> 中国专利> 一种基于动作关联注意力的弱监督视频时序动作定位方法

一种基于动作关联注意力的弱监督视频时序动作定位方法

摘要

本申请涉及一种基于动作关联注意力的弱监督视频时序动作定位方法,采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。本申请实现了采用弱监督方法实现视频的时序动作定位。

著录项

  • 公开/公告号CN114898259A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 北京联合大学;

    申请/专利号CN202210481400.3

  • 申请日2022-05-05

  • 分类号G06V20/40(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06V10/764(2022.01);G06V10/774(2022.01);G06V10/82(2022.01);

  • 代理机构北京维正专利代理有限公司 11508;

  • 代理人刘美莲

  • 地址 100020 北京市朝阳区北四环东路97号

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022104814003 申请日:20220505

    实质审查的生效

说明书

技术领域

本申请涉及人工智能的视频理解领域,尤其是涉及一种基于动作关联注意力的弱监督视频时序动作定位方法。

背景技术

时序动作定位(TAL)是视频理解中的一项具有挑战性的任务,被广泛应用于快速定位不同时间范围的动作片段,即,定位动作在视频中的开始和结束时间并进行动作的分类。现有技术中,通常在监督或弱监督设置下实现时序动作定位。对于监督的情况,需要为训练视频人工标注每个动作的帧级标签和动作的起止时间,因而会浪费大量的时间。相比之下,弱监督方法只需标注动作的视频级标签,即仅表明动作是否在视频中的标签,就可以对动作进行分类和对时间定位。因而这种弱监督时序动作定位提供了一种省力但更具挑战性的解决方案。

在没有帧级标注的情况下,弱监督时序动作定位利用同一动作的相似性来确定它的整个片段,利用不同动作的区分性来对标签进行分类。因此,W-TALC和Autoloc两个模型使用具有特征相似度的协同活动相似度损失进行定位,使用具有特征不相似度的多实例学习损失进行分类。然而,以上方法并不能模拟长期时间片段之间的关系,导致某些动作被其他动作隔开时,由于不能捕捉到后面动作对前面动作的依赖信息,那么导致最终预测的相应的时序动作定位存在较大的误差。例如,“打开衣柜”和“关闭衣柜”共享信息,但中间被长时间动作“折叠衣服”隔开,那么,预测“关闭衣柜”动作时序定位时,上述方法则无法捕捉到对“打开衣柜”信息的依赖性,导致最终预测的动作时序定位存在较大的误差。

发明内容

为了解决现有技术中的弱监督时序动作定位技术无法模拟长期时间片段之间的关系,导致某些动作被其他动作隔开时,由于不能捕捉到后面动作对前面动作的依赖信息,导致最终预测的相应的时序动作定位存在较大的误差的问题,本申请提供一种基于动作关联注意力的弱监督视频时序动作定位方法。

第一方面,本申请提供的一种基于动作关联注意力的弱监督视频时序动作定位方法采用如下的技术方案:

一种基于动作关联注意力的弱监督视频时序动作定位方法,采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。

通过采用上述技术方案,尤其是动作关联注意力模型通过利用查询机制建立弱监督的预训练,解决了弱监督训练中无真值监督训练的问题,再将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;同时利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类,最终实现了采用弱监督方法实现视频的时序动作定位,因而针对某些动作被其他动作隔开的情况,也能通过本申请的精确的动作片段分类对应的动作片段的时间定位,捕捉到后面动作对前面动作的依赖信息,使得最终预测的相应的时序动作定位精度较高。

优选的,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,具体包括:

建立预训练任务,随机裁剪出M个视频片段S={S

将每个时间区域编码为动作查询

将所述查询集Q

将所述的具有对应关系的查询集

通过采用上述方法,从而使得利用查询机制建立的弱监督的预训练模型具备了给出任意特征,即可定位出这个特征起止时间戳的能力,尤其是通过随机裁剪出M个视频片段S={S

更优选的,采用冻结参数的I3D*网络提取所述的M个视频片段的特征。本申请通过利用查询机制结合冻结参数的I3D*网络提取所述的M个视频片段的特征,从而可以有效平衡分类和定位对特征的不同偏好,使得同时获得的视频时序动作定位和分类数据更准确。

优选的,在分配查询集Q

其中,X

优选的,在分配查询集Q

优选的,所述的动作关联注意力模型通过以下方法来训练:

输入包含动作的视频作为训练数据;对所述的训练数据进行预处理,获取视频的视频帧和光流帧,并提取视频片段的I3D特征;

将所述视频片段的视频时序信息编码为位置编码;

将所述视频片段的视频时序位置编码和I3D特征输入动作关联注意力模型的编码器中,用于确定视频片段特征之间的关系,实现动作片段的分类;将所述的视频片段的视频时序位置编码输入动作关联注意力模型的解码器中,同时利用查询机制建立弱监督的预训练,并将查询机制的输出输入到动作关联注意力模型的解码器中,用于实现查询集合的时间定位;

采用分类损失函数

将所述编码器和解码器输出的查询集合进行合并,得到视频中动作片段的定位及分类。

优选的,所述的动作关联注意力模型通过全局匹配损失算法进行训练,通过二分匹配实现唯一预测;具体的,采用分类损失函数

优选的,假设

其中,

优选的,所述的定位损失函数

其中,

第二方面,本申请提供的一种电子设备采用如下技术方案:

一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如前述任一种方法的计算机程序。

第三方面,本申请提供的一种计算机可读存储介质采用如下技术方案:

一种计算机可读存储介质,存储有能够被处理器加载并执行如前述任一种方法的计算机程序。

综上所述,本申请包括以下至少一种有益技术效果:

本申请提出了基于动作关联注意力的弱监督视频时序动作定位模型(W-ART,即本申请的整个方法)来建立时间间隔较长的动作片段之间的关系,最终获得准确的视频时序动作定位和分类数据。

附图说明

图1为本申请中动作关联注意力模型的训练和测试方法流程图。

图2为本申请中对数据进行预处理的示意图。

图3为本申请中编解码器模块的流程图。

图4为本申请中编码器的核心模块的示意图。

图5为本申请中解码器的核心模块的示意图。

图6为本申请中动作关联注意力模型的训练过程的示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的图1—图6,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得所有其他实施方式,都属本发明保护的范围。

在面对背景技术中的不能模拟长期时间片段之间的关系,导致某些动作被其他动作隔开时,由于不能捕捉到后面动作对前面动作的依赖信息,那么导致最终预测的相应的时序动作定位存在较大的误差的问题时,发明人经研究发现:虽然由于局部连通性和平移不变性的优点,3D卷积和图卷积被用来建模片段的关系,但这些卷积通常只是被设计用来捕捉短程信息,而不能捕捉超出卷积接受域的远距离依赖信息。另外,尽管D3d扩展了感受域,但它并不能通过聚合较短距离的信息来捕获长期依赖关系。此外,分离的时间集合循环网络使用一种循环神经网络来捕捉时间片段的关系,然而这种方法并不能保证所有的时间片段都受到同等处理。

因此,本申请提出一种基于动作关联注意力的弱监督视频时序动作定位方法。

本申请实施例公开一种基于动作关联注意力的弱监督视频时序动作定位方法。一种基于动作关联注意力的弱监督视频时序动作定位方法,采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。

具体的,所述的动作关联注意力模型通过以下方法来训练,如图1所示:

S11,输入包含动作的视频作为训练数据;对所述的训练数据进行预处理,获取视频的视频帧和光流帧,并提取视频片段的I3D特征;

如图2所示,具体实施时,为了获得包含t帧的视频V的I3D特征F

S12,将所述视频片段的视频时序信息编码为位置编码;

S13,将所述视频片段的视频时序位置编码和I3D特征输入动作关联注意力模型的编码器中,用于确定视频片段特征之间的关系,实现动作片段的分类;

具体的,本申请为数据预处理输出的I3D特征F

具体实施时,Transformer架构中的编码器可由L

每个编码块的核心是多头自我注意(multi-head self-attention,缩写为mh_s_attn)模块,如图4所示。它由h个单头自注意(single-head self-attention,缩写为sh_s_attn)模块级联而成。对于第l个编码块,它的输入

其中

其中,通常默认

因为每个头是独立的,所以包含1/h的最终结果,故

S14,将所述的视频片段的视频时序位置编码输入动作关联注意力模型的解码器中,同时利用查询机制建立弱监督的预训练,并将查询机制的输出输入到动作关联注意力模型的解码器中,用于实现查询集合的时间定位;

具体实施时,Transformer架构中的解码器可以由L

其中,多头自注意模块,是h个单头自注意(single-head self-attention,缩写为sh_s_attn)模块的级联。第l个解码块的输入为

其中

多头交叉注意模块是h个单头交叉注意(single-head cross-attention,缩写为sh_c_attn)模块的串联。令

在归一化操作(softmax)之后,得到注意图为

mh_c_attn

其中

S15,采用分类损失函数

S16,将所述编码器和解码器输出的查询集合进行合并,得到视频中动作片段的定位及分类。

本模型的测试过程与训练过程类似,由三个部分组成(不包含联合训练)。输入含有动作标签的视频,输出是一组带有时间戳和标签的动作查询。

上述方法中,可采用冻结参数的I3D*网络提取所述的M个视频片段的特征。

为了平衡定位和分类对特征的偏好,提高最终视频时序动作定位和分类的准确性,所述的动作关联注意力模型通过全局匹配损失算法进行训练,通过二分匹配实现唯一预测;具体的,采用分类损失函数

训练过程如图6所示,定位损失函数

查询片段的特征F

形式上,假设

其中,

视频级标签用于对动作进行分类。模型平均每个类的前k个,得到一个c维视频级预测。其定义如下:

所述的定位损失函数

其中,

λ

本模型冻结主干I3D,并提出特征重建I3D*以保留分类的特征识别。

上述方法中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,具体包括:

S21,建立预训练任务,随机裁剪出M个视频片段S={S

S22,提取所述的M个视频片段的特征,得查询片段集

S23,随机生成N个包含开始和结束时间戳的时间区域,其中,所述的N远远大于M;

S24,将每个时间区域编码为动作查询

S25,将所述查询集Q

S26,将所述的具有对应关系的查询集

为了满足每个动作查询q

其中,X

此外,在动作定位任务中,动作查询之间没有显式的组分配,因此,为了模拟动作查询之间的隐式组分配,在在预训练期间分配查询集Q

本申请实施例还公开了一种电子设备。一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如前述任一种方法的计算机程序。

其中,电子设备可以采用台式电脑、笔记本电脑或者云端服务器等电子设备,并且,电子设备包括但不限于处理器以及存储器,例如,电子设备还可以包括输入输出设备、网络接入设备以及总线等。

本申请中的处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集,调用存储在存储器内的数据,执行本申请的各种功能和处理数据。处理器可以为特定用途集成电路(Application Specific IntegratedCircuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。

其中,存储器可以为电子设备的内部存储单元,例如,电子设备的硬盘或者内存,也可以为电子设备的外部存储设备,例如,电子设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为电子设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及电子设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。

本申请实施例还公开了一种计算机可读存储介质。一种计算机可读存储介质,存储有能够被处理器加载并执行如前述任一种方法的计算机程序。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

为了验证本申请的效果,发明人还进行了以下对比试验:

为了验证本申请的动作关联注意力模型对视频中动作片段的定位及分类性能,发明人将W-ART模型(即本申请的动作关联注意力模型)的性能与SOTA(采用THUMOS14数据集)方法进行了比较。使用全类平均精度(mAP)作为评估模型的指标,具体采用t-IoU上不同交点的平均精度(mAP@tIoU)作为模型的评价指标(tIoU∈{0.3,0.4,0.5,0.6,0.7}↑表示越高越好)。对比结果如表1所示:

表1

由表1可以看出:在THUMOS14数据集上,本申请的方法模型W-ART在UNT特征上获得了0.6%的精度提升,在I3D特征上比SOTA提高了0.7%的精度,即本申请的动作关联注意力模型对视频中动作片段的定位及分类性能更好,精度更高;其中,SOTA是state of art的简称,意思是针对本任务,模型中最高的精度。

此外,与SOTA(Charades)进行比较,发明人使用表2中的相同的设置计算mAP。结果如表2所示:

表2

表2表明:在Charades数据集上,W-ART(即本申请的技术方案)在I3D特征比SOTA提高了0.5%,即本申请的动作关联注意力模型对视频中动作片段的定位及分类性能更好,精度更高。

以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的方法、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号