首页> 中国专利> 一种感知视频片段关系的时序动作检测方法

一种感知视频片段关系的时序动作检测方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及视频理解领域，具体是一种感知视频片段关系的时序动作检测方法，包括如下步骤：步骤S1：对视频进行采样；步骤S2：对视频进行初步的特征提取；步骤S3：对提取的特征进行特征增强，产生时序节点的边界预测，此外，还会抽取所有候选视频段的特征；步骤S4：捕获候选视频段特征之间的关系；步骤S5：将步骤S3和步骤S4的预测结果结合起来，生成最后的评判分数；步骤S6：对重复的候选视频段进行剔除；步骤S7：对候选视频段进行分类，得到其类别信息；通过捕获他们之间的全局关系和局部关系来产生更加有效的视频段特征，从而产生更加有效的预测结果。

著录项

公开/公告号CN113255570A

专利类型发明专利
公开/公告日2021-08-13

原文格式PDF
申请/专利权人成都考拉悠然科技有限公司;
展开▼

申请/专利号CN202110659154.1
发明设计人徐行;任燚梵;沈复民;申恒涛;
展开▼

申请日2021-06-15
分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构51230 成都弘毅天承知识产权代理有限公司;
代理人郝迎宾
地址 610041 四川省成都市中国(四川)自由贸易试验区成都高新区天府五街200号4号楼A区10层1001、1002、1003室
入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明涉及视频理解领域，具体是指一种感知视频片段关系的时序动作检测方法。

背景技术

近年来，随着流媒体的不断发展，使得各个网站平台上的视频呈爆炸式增长，相对于传统的图像信息，视频中包含的信息也更为丰富，也得到更多研究者的关注，而视频理解则逐渐成为工业界和学术界的热门研究领域，时序动作检测任务是其中的一个重要的分支，它主要是在长视频中检测出各段动作实例的时序边界并判定动作的类别，这可以帮助用户更加方便、快捷的定位到视频中的动作信息。

时序动作检测任务可以帮助人们快速确定长视频中的关键内容，并能作为视频理解、人机交互等问题的预处理步骤，在实际的生活中也有着广泛的应用：（1）视频监控领域：随着物联网的快速发展，摄像头已经遍布在道路、学校等各种公共场所，发挥了重要的安防作用，但也带来了极为庞大的视频数据，如果单纯的利用人工来进行分析，这很显然是不现实的，而时序动作检测任务可以快速提取出监控视频中的有效信息，解放大量的人力资源，（2）视频检索领域：如今，随着视频在各种社交软件上的流行，普通用户也开始上传和分享各种视频数据，为了向用户推荐其感兴趣的视频，就需要为每一个上传的视频进行分类、打标签，如果利用人工来进行处理，人力成本非常的高，而时序动作检测可以检测出视频中的动作，并按照预先的定义进行初步的分类、整理和标注，进而整合到后续的视频检索和视频推荐的相关算法中。

由于时序动作检测任务在工业界和学术界的广泛应用，很多有效的算法都被提出了，目前，这些算法大致可以被分为两类：one-stage和two-stage：

1）one-stage：首先利用层级结构、级联结构等来检测出不同长度的视频片段，与此同时，在预测过程中，还会给出这段视频的类别信息；

2）two-stage：首先提取出所有可能的候选视频段，然后利用一些经典的分类器（如：Unet）来对这些候选视频段进行分类，得到其类别信息；

虽然基于two-stage的方法已经取得了较好的效果，但是他们在产生候选视频段的过程中都是单独产生候选视频段，而忽略了这些视频段之间的关系。

发明内容

基于以上问题，本发明提供了一种感知视频片段关系的时序动作检测方法，通过捕获他们之间的全局关系和局部关系来产生更加有效的视频段特征，从而产生更加有效的预测结果。

为解决以上技术问题，本发明采用的技术方案如下：

一种感知视频片段关系的时序动作检测方法，包括如下步骤：

步骤S1：对视频进行采样；

步骤S2：运用TSN模型来对视频进行初步的特征提取，得到特征

步骤S3：利用BaseNet模型来对提取的特征

步骤S4：使用全局感知模块和特征增强模块捕获候选视频段特征

步骤S5：将步骤S3和步骤S4的预测结果结合起来，生成最后的评判分数；

步骤S6：利用Soft-NMS模型来对重复的候选视频段进行剔除；

步骤S7：利用Unet分类器对候选视频段进行分类，得到其类别信息。

进一步，所述步骤S2具体包括如下步骤：

步骤S21：首先将长视频按照一定的时间间隔获取到一定数量的视频段；

步骤S22：将视频段输入到TSN模型中，分别获取视觉特征和动作特征，并连接起来。

进一步，所述步骤S3具体包括如下步骤：

步骤S31：利用图卷积建立所有视频帧之间的联系，动态的将多尺度的上下文语义信息融合到视频特征去；

步骤S32：利用图卷积，对每一个时序位置进行预测，输出其为开始节点或者结束节点的可能性，即产生时序节点的边界预测

进一步，所述全局感知模块具体如下：

设计全局感知单元来建立同行和同列的候选视频段间的关系，对于输入

其中，

对于垂直池化后的

其中，

再利用卷积核为3的一维卷积操作来聚合当前位置和其邻居的信息，之后，将该两条路径的输出融合起来，得到融合结果

则全局感知单元的输出则是：

其中，

将全局感知单元重复两次，得到全局感知模块，其计算公式如下：

其中，

进一步，所述特征增强模块具体如下：

使用了一个层级结构来对捕获候选视频段之间的局部信息，对于输入

当

随后，使用上采样操作来聚合不同层次之间的特征，其计算公式如下：

其中，

进一步，所述步骤S4～S5具体包括如下步骤：

步骤S41：使用平均池化聚合

步骤S42：将多层级的结构输入到一个共享的全局感知模块中；

步骤S43：将相邻层级中全局感知模块输出的特征聚合到一起；

步骤S44：通过一个共享的卷积操作，初步得到每一个候选视频段的预测分数。

进一步，所述步骤S6具体包括如下步骤：

步骤S61：生成所有的视频段分数按照大小进行排序；

步骤S62：选取分数较大的视频段，并且选取和其重叠度较大的视频段，将其分数进行衰减，依次重复该过程，直到保留特定数目的候选视频段。

与现有技术相比，本发明的有益效果是：从不同角度（局部信息和全局信息）来对视频段关系的捕获，对于全局信息，利用平均池化的特性从全局视角对远距离的候选视频建立关系，对于局部信息，由于候选视频段分布的特性，利用一种层级结构来聚合相邻候选视频排片段之间的信息，由于局部信息和全局信息是互补的，整个模型可以达到更好的检测结果；

对于候选视频片段的预测，如果单独对他们处理，这会忽略他们之间的一个制约关系，通过探索候选视频段之间的关系，可以产生更加完备和准确的结果，对于同一个视频中的不同候选视频段来说，他们之间往往是高度相关的，建立所有候选视频段的联系，可以利用背景信息来增强动作实例的特征，而对于相邻候选视频段来说，他们之间是存在大量重叠的，利用平均池化，来聚合他们之间有效的信息，来产生更加准确的结果。

附图说明

图1为本实施例1的流程图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

实施例1

本实施例中，主要包括全局感知模块和特征增强模块，其中：

在全局感知模块中，首先设计了GA Unit来建立同行和同列的候选视频段间的关系，对于输入

其中，

对于垂直池化后的

其中，

再利用卷积核为3的一维卷积操作来聚合当前位置和其邻居的信息，之后，将该两条路径的输出融合起来，得到融合结果

则全局感知单元的输出则是：

其中，

将全局感知单元重复两次，得到全局感知模块，其计算公式如下：

其中，

另外，在特征增强模块中，使用了一个层级结构来对捕获候选视频段之间的局部信息。对于输入

当

通过上述操作，可以从两个互补的层面（局部和全局）来建立所有候选视频段之间的关系，随后，使用上采样操作来聚合不同层次之间的特征，由于每一层都是有label信息监督，将不同层次的信息融合可以最大程度的减少噪音的产生，其计算公式如下：

这样，就可以从不同层次、不同尺度捕获到不同候选视频段之间的关系。

基于以上，如图1所示的一种感知视频片段关系的时序动作检测方法，包括如下步骤：

步骤S1：对视频进行采样；

其中，选择合适的训练、测试数据集，本实施例主要是在公开的数据集ActivityNet-1.3和THUMOS-14上进行训练和测试；

ActivityNet-1.3数据集是一个用于生成视频段和检测的公开的数据集，其主要包含19994个视频并且包含200个动作类别，这些视频主要是从youtube网站上爬取下来的，其分辨率和时间都各不相同，它曾经是ActivityNet Challenge 2016 and 2017的比赛数据集，该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集；

THIMOS-14数据集包含413个视频并且包含20个类别信息，其中，测试集包含212个视频，验证集包含200个视频被用来时序动作检测任务，在验证集上训练整个模型并在测试机上评估整个模型的性能。

步骤S2：运用TSN模型来对视频进行初步的特征提取，得到特征

首先对于一个未处理的长视频，提取出其对应的视频帧表示为

步骤S3：利用BaseNet模型来对提取的特征进行特征增强，产生时序节点的边界预测

其中，利用图卷积(包含GCN)来对特征

其中，

随后，该特征

步骤S4：使用全局感知模块和特征增强模块捕获候选视频段特征

对于上述步骤S3中输出的

之后使用

其中，

步骤S5：将步骤S3和步骤S4的预测结果结合起来，生成最后的评判分数；

为了充分利用整个模型的输出结果，将特征增强模块中的每一层输出都融合到候选视频段的最终分数中，此外，还考虑了每一个视频段的边界信息，则一个从

其中，

步骤S6：利用Soft-NMS模型来对重复的候选视频段进行剔除；

获取到所有可能的候选框后，由于其中大多数会有很大的重叠，所以利用Soft-NMS模型再一次进行剔除，对于候选视频段的分数

其中

步骤S7：利用Unet分类器对候选视频段进行分类，得到其类别信息。

在获得所有可能的候选视频段后，利用Unet分类器来对这些视频段进行分类，得到其最终的类别信息，可以将其表示为

实施例2

本实施例中，需对实施例1中整体模型进行训练，其整体损失函数表示为：

其中

因此，每一层的损失函数可以被定义为：

其中，

其中

实施例3

本实施例中，利用选取的数据集来验证本方法的有效性，具体如下：

在选取数据集上验证本方法，为了很好地评价本实施例的有效性，选取平均精度mAP作为主要的评价指标，在THUMOS-14数据集上，在iou集合{0.3,0.4,0.5,0.6,0.7}上分别计算mAP,对于ActivityNet1.3数据集，计算iou集合{0.5,0.75,0.95}上的mAP,此外，还在ActivityNet1.3上计算十个不同iou的平均mAP。

本实施例在当前主流的数据集ActivityNet-1.3上进行验证，其最后的验证结果如下表所示（在ActivityNet-1.3数据集上模型性能对比情况（%））：

表1 在ActivityNet-1.3数据集上模型性能对比情况

本实施例在当前主流的数据集THUMOS-14上进行验证，其最后的验证结果如下表所示（在THUMOS-14数据集上模型性能对比情况（%））。

表2 在THUMOS-14数据集上模型性能对比情况

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种感知视频片段关系的时序动作检测方法 [P] . 中国专利： CN113255570B . 2021.09.24
2. 一种感知视频片段关系的时序动作检测方法 [P] . 中国专利： CN113255570A . 2021-08-13
3. METHOD FOR DETECTING RESULT OF MENTAL ACTION ACCOMPLISHED BY INDUCTOR ON PERCIPIENT [P] . 俄罗斯专利： RU94001976A . 1997-05-10

机译：感应器对感知者完成的心理动作结果的检测方法
4. VISUAL RELATIONSHIP DETECTION METHOD AND SYSTEM BASED ON REGION-AWARE LEARNING MECHANISMS [P] . US2021264216A1 . 2021-08-26

机译：基于区域感知学习机制的视觉关系检测方法和系统
5. A METHOD FOR INDICATING HYBRID AUTOMATIC REPEAT REQUEST TIMING RELATION [P] . 欧洲知识产权局专利： EP2684309A2 . 2014-01-15

机译：一种指示混合自动重复请求时序关系的方法