首页> 中国专利> 基于两分支提议网络的弱监督视频时段检索方法及系统

基于两分支提议网络的弱监督视频时段检索方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于两分支提议网络的弱监督视频时段检索方法及系统，属于视频检索领域。主要包括如下步骤：1)针对于一组视频、描述文本训练集，根据一个跨模态语言感知过滤器，学习出视频信息和文本信息的联合表征，并生成带文本信息的增强视频流与抑制视频流。2)对于跨模态语言感知过滤器生成的输出，根据一个参数共享的正则化两分支提议网络，输出针对于视频和文本联合表达的时段答案。本发明采用一种使用基于场景的跨模态估计法的语言感知过滤器生成增强视频流和抑制视频流，采用一种新颖的两分支提议网络同时考虑样本间和样本内的对抗，采用提议正则化策略稳定训练过程，有效地改善了模型性能。

著录项

公开/公告号CN112417206A

专利类型发明专利
公开/公告日2021-02-26

原文格式PDF
申请/专利权人杭州一知智能科技有限公司;
展开▼

申请/专利号CN202011332463.X
发明设计人童鑫远;
展开▼

申请日2020-11-24
分类号G06F16/735(20190101);G06F16/78(20190101);G06F16/783(20190101);
代理机构33200 杭州求是专利事务所有限公司;
代理人郑海峰
地址 311200 浙江省杭州市萧山区启迪路198号杭州湾信息港F座7楼
入库时间 2023-06-19 10:02:03

说明书

技术领域

本发明涉及视频时段检索领域，尤其涉及一种基于两分支提议网络的弱监督视频时段检索方法及系统。

背景技术

视频时段检索是视频检索领域中的一个重要问题，该问题的目标是根据给定的描述文本在未修剪的视频中自动定位目标时段。

视频时段检索是计算机视觉和自然语言处理之间的一个跨学科领域。一个视频时段检索模型不仅要理解视觉内容和文本内容，还要理解它们之间的相关性。现有的方法大多数都是在全监督的情况下，使用对齐注释好的视频文本对进行训练，这种注释代价是耗时且昂贵的，尤其是对模棱两可的描述而言。近期，研究人员开始仅通过视频级句子注释来探索弱监督的时段检索。

现有的弱监督时段检索方法大多基于多实例学习(MIL)的方法，将匹配的视频文本对视为正样本，将不匹配的视频文本对视为负样本，其主要关注样本间的对抗，以判断视频是否与给定的文字描述相匹配，而忽略样本内的对抗，即决定哪个时段与给定的文字描述最匹配。在给定匹配的视频文本对的情况下，视频通常包含连续的内容，其中不乏与文字描述部分具有很大相关度但并不是完全匹配的负时段，这些时段很难与目标时段区分开来。因此，需要在视频中具有相似内容的时段之间发展足够的样本内对抗。

综上，现有技术中还不能有效地利用视频相邻时段发展样本内对抗，导致了在相似场景应用中性能有限，无法准确定位时段边界。

发明内容

本发明的目的在于解决现有技术中的问题，提出了一种基于两分支提议网络的弱监督视频时段检索方法及系统，使用基于场景的跨模态估计法的语言感知过滤器生成包含文本特征的增强视频流和抑制视频流，使用一种新颖的两分支提议网络以同时考虑样本间对抗和样本内对抗，使用一种提议正则化策略以稳定训练过程，有效地改善了模型性能。

为了实现上述目的，本发明具体采用如下技术方案：

一种基于两分支提议网络的弱监督视频时段检索方法，包括如下步骤：

1)建立由跨模态语言感知过滤器和正则化两分支提议网络组成的网络模型，所述的正则化两分支提议网络包括增强分支提议网络和抑制分支提议网络；

2)获取视频及描述文本作为训练数据集，提取视频的帧特征与描述文本的文本特征；

3)将帧特征与文本特征作为跨模态语言感知过滤器的输入，生成带有文本特征的增强视频流与抑制视频流；

4)将生成的增强视频流与文本特征作为增强分支提议网络的输入，输出提议结果与得分，并筛选得到正提议集合；将生成的抑制视频流与文本特征作为抑制分支提议网络的输入，输出提议结果与得分，并筛选得到负提议集合；

5)在增强分支提议网络中引入提议正则化，通过样本内对抗、样本间对抗、提议正则化计算多任务损失函数，并更新跨模态语言感知过滤器和正则化两分支提议网络的参数，得到训练好的网络模型；

6)对于要检测的视频和查询语句，分别提取视频的帧特征与查询语句的文本特征，并将帧特征和文本特征作为训练好的网络模型的输入，得到所预测的得分最高的正提议作为检索结果。

本发明的另一目的在于提出一种基于两分支提议网络的弱监督视频时段检索系统，用于实现上述的检索方法。

所述的弱监督视频时段检索系统包括：

数据获取模块，当系统处于训练阶段时，其用于获取视频及描述文本作为训练数据集；当系统处于检测阶段时，其用于获取待检测的视频及问题语句。

特征提取模块，其用于从视频中提取帧特征，从描述文本和问题语句中提取文本特征。

跨模态语言感知过滤模块，其用于接收帧特征与文本特征作为输入，输出包含文本特征的增强视频流与抑制视频流。

正则化两分支提议网络模块：由增强分支子模块和抑制分支子模块构成，其用于将生成的增强视频流与文本特征作为增强分支提议网络的输入，输出提议结果与得分，并筛选得到正提议集合；将生成的抑制视频流与文本特征作为抑制分支提议网络的输入，输出提议结果与得分，并筛选得到负提议集合。

相对于传统方法，本发明有效提升了视频时段检索的性能，具体体现在：

(1)针对传统方法忽略样本内对抗的问题，本发明设计了一个新颖的正则化两分支提议网络，每一个分支均包括一个用于将文本线索整合到视觉特征中以生成语言感知的帧特征的跨模式交互单元，一个基于语言感知的帧特征生成并经过卷积处理用于探究相邻时段关系的二维时段特征图，以及一个用于选择正提议的提议筛选模块；通过接收增强视频流、弱化视频流以及文本特征，能够生成一系列契合的正提议和负提议，以及每一个提议对应的得分与边界，用于弱监督的视频时段检索，并使用基于中心的提议筛选技术，筛选出优秀的正提议集合和合理的负提议集合。

此外，本发明还同时考虑了样本间对抗和样本内对抗，通过样本内损失可以鼓励样本内对抗，将同一数据对中目标时段与相似的干扰负时段区分开来；通过样本间损失可以鼓励样本间对抗，使得匹配的正样例具有比不匹配的负样例更高的得分；因此，不仅判断视频是否与给定的文字描述相匹配，还进一步判断哪个时段与给定的文字描述最匹配，能够将与文字描述部分具有很大相关度，但并不是完全匹配的负时段与目标时段区分开来，提高了检索结果的准确性。

(2)针对样本内对抗可能生成过于简单的无效负样本的问题，本发明设计了使用基于场景的跨模态估计方法的语言感知过滤器，利用NetVLAD技术将文本特征投影至聚类中心并生成基于场景的语言特征序列，进一步计算帧特征序列与基于场景的语言特征序列之间的跨模态匹配分数，得到每一帧的得分并做归一化处理，最后采用两分支门根据归一化处理后的得分分布与帧特征序列生成增强视频流与抑制视频流，其中增强视频流突出与语言相关的关键帧特征，弱化不相关的帧特征，抑制视频流则相反。

(3)针对一些有助于模型训练的先验知识，本发明在正则化两分支提议网络中设计了一种提议正则化策略，通过两分支结构一致，参数共享的特点，本正则化策略仅需要在增强分支应用。具体的，考虑到大部分时段未选择，即与文本描述不匹配，本发明使用一个全局损失函数项以降低提议的平均得分，使得未选择时段得分接近于0；考虑到要从一系列正提议中选择出一个最为准确的时段提议作为最终的结果，本发明对所有正提议应用softmax函数，同时引入一个差距损失函数项以鼓励扩大正提议之间的得分差距；综上，本发明设计的提议正则化策略一方面降低所有提议平均得分以减少不相关提议的影响，另一方面扩大正提议得分差距以助于最优提议的选择，稳定模型训练，提高模型性能。

附图说明

图1是本发明所使用网络模型示意图。

图2是本发明所使用的跨模态语言感知过滤器的结构示意图。

图3是本发明所使用的正则化两分支提议网络中的增强分支的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明提出的一种基于两分支提议网络的弱监督视频时段检索方法，包括如下步骤：

步骤一、对于输入的视频及文本，提取视频的帧特征与描述文本的文本特征；然后通过一个跨模态语言感知过滤器，生成带有文本特征的增强视频流与抑制视频流。

步骤二、对于生成的带有文本特征的增强视频流与抑制视频流，通过一个正则化两分支提议网络，生成一系列正则化的正负提议及其得分、边界，并通过样本内对抗、样本间对抗、提议正则化计算多任务损失函数以更新跨模态语言感知过滤器和正则化两分支提议网络的模型参数。

步骤三、对于要预测答案的视频和文本，根据最终生成的跨模态语言感知过滤器和正则化两分支提议网络，得到一个所预测的得分最高的正提议时段作为检索结果。

在本发明的一项具体实施中，步骤一的实施过程如下：

1.1)获取视频及描述文本作为训练数据集，提取帧特征与文本特征；

所述的帧特征提取方法具体为：使用预训练的视频特征提取器提取视频的视觉特征，并使用时序平均池化缩小视觉特征序列长度，得到视频的帧特征序列

所述的文本特征提取方法具体为：使用预训练的Glove word2vec嵌入法提取单词特征，再将单词特征作为Bi-GRU网络的输入，学习带有上下文信息的单词语义表示作为文本特征序列

1.2)将帧特征与文本特征作为跨模态语言感知过滤器的输入，生成带有文本特征的增强视频流与抑制视频流。

所述的跨模态语言感知过滤器结构如图2所示，使用基于场景的跨模态估计方法，具体为：

首先，本发明使用NetVLAD技术将文本特征

其中，W

接着，本发明计算帧特征序列

其中，

考虑到重要帧的定义，即存在某个语言场景与帧有较密切的联系，本发明使用整体得分来评价某个帧，具体地，第i帧的整体得分为：

由此得到帧上的归一化得分分布

最后，本发明采用一个两分支门生成增强视频流

在本发明的一项具体实施中，步骤二的实施过程如下：

将生成的增强视频流、抑制视频流与文本特征作为正则化两分支提议网络的输入，输出最终的正则化时段提议结果与得分；将结果与真实值比对并更新跨模态语言感知过滤器和正则化两分支提议网络的参数，得到最终的网络模型；

2.1)所述的正则化两分支提议网络的增强分支与抑制分支结构一致且参数共享，其增强分支选择提议的流程如图3所示，具体为：

给定增强视频流

其中，

2.2)再将其通过交叉门使得增强帧特征与整合文本特征彼此作用，所述公式如下：

其中，

2.3)根据语言感知的帧特征

根据构建的二维时段特征图，进行两次二维卷积以探究相邻时段之间的关系，以此获得跨模态特征

2.4)根据所计算的提议得分，采用基于中心的提议筛选法筛选提议；具体地，将得分最高的提议作为中心提议，并根据时段重叠度排序剩下的提议，取其中重叠度最高的T-1个提议，将此T个提议作为正提议，将正提议集合记为

通过该增强分支可以有效地选择一系列相关的正提议，相似地，抑制分支可以有效地生成合理的负提议，将负提议集合记为

2.5)根据所生成的正负提议及其得分，计算增强得分

根据所生成的正提议，计算增强分支得分K

2.6)对于生成的提议结果，采取正则化手段以引入一些先验知识，稳定模型训练过程，具体为：

考虑到大部分时段未选择，即与文本描述不匹配，本发明使用一个全局损失函数项

考虑到要从一系列正提议中选择出一个最为准确的时段提议作为最终的结果，本发明对所有正提议应用softmax函数进行处理，得到

考虑到两分支结构一致且参数共享，本正则化策略仅在增强分支应用。

最终应用的多任务损失函数包括上述四个损失函数及对应超参数，具体为：

其中，

在本发明的一项具体实施中，还提出了一种基于两分支提议网络的弱监督视频时段检索系统，包括：

数据获取模块，当系统处于训练阶段时，其用于获取视频及描述文本作为训练数据集；当系统处于检测阶段时，其用于获取待检测的视频及问题语句。

特征提取模块，其用于从视频中提取帧特征，从描述文本和问题语句中提取文本特征。具体的，可以采用预训练的Glove word2vec提取文本特征，采用预训练的视频特征提取器提取视频特征。

跨模态语言感知过滤模块，其用于接收帧特征

其中，

具体的，所述的跨模态语言感知过滤模块包括一个用于生成文本特征序列

正则化两分支提议网络模块：由增强分支子模块和抑制分支子模块构成，其用于将生成的增强视频流与文本特征作为增强分支提议网络的输入，输出提议结果与得分，并筛选得到正提议集合

可表示为：

其中，所述的增强分支子模块包括：

跨模式交互单元，其用于汇总视频每一帧的文本特征，获得整合文本特征；

Bi-GRU子模块，其用于使得整合文本特征与增强视频流彼此作用，以获得语言感知的帧特征。

二维时段特征图子模块，其内部设有二维时段特征图，所述的二维时段特征图包括三个维度：前两个维度用于一个时段的起始帧与终止帧索引，第三个维度为特征维度；其用于探究相邻时段的关系，根据语言感知的帧特征来获得二维图中所有时段的跨模态特征，并根据二维图中所有时段的跨模态特征，计算每一个提议的得分及边界。

提议筛选子模块，其采用基于中心的提议筛选法筛选提议，输出筛选后的正提议集合。

所述的抑制分支子模块与增强分支子模块结构相同，参数共享，最终生成负提议集合。

其中，在增强分支子模块中引入提议正则化策略，包括

同时，正则化两分支提议网络采用样本间对抗和样本内对抗，通过提高正提议得分及降低负提议得分以鼓励样本内对抗；通过提高匹配样例得分及降低不匹配样例得分以鼓励样本间对抗。

在本申请所提供的具体实施方式中，应该理解到，以上所描述的系统实施例仅仅是示意性的，例如所述正则化两分支提议网络模块，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接，可以是电性或其它的形式。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在Charades-STA，ActivityCaption以及DiDeMo三大数据集上进行实验验证，三大数据集具体情况为：

Charades-STA数据集包含9848个室内活动视频，视频平均时长为29.8秒；数据集用于训练，测试的句子-时段对分别有12408，3720个。

ActivityCaption数据集包含19209个不同内容的视频，视频平均时长约2分钟；数据集用于训练，验证，测试的句子-时段对分别有37417，17505，17031个。

DiDeMo数据集包含10464个视频，每个视频时长为25-30秒；数据集用于训练，验证，测试的句子-时段对分别有33005，4180，4021个；特别地，DiDemo中每个视频都分为六个五秒钟的剪辑，目标时刻往往包括其中一个或多个连续的剪辑，故而与Charades-STA和ActivityCaption相比，DiDeMo数据集的时段只有21个候选。

在测试评价标准方面，本发明遵循广泛使用的标准，采用R@n，IoU＝m作为Charades-STA和ActivityCaption的标准，采用Rank@1，Rank@5和mIoU作为DideMo的标准；更具体地，本发明先计算所预测的时间段与真实值之间的IoU值；然后，R@n，IoU＝m计算在前n个时段中至少有一个时段的IoU值比m大的情况所占的百分比，mIoU计算所有测试样本中第一个时段IoU值的均值，Rank@1，Rank@5计算真实值在第一个或者前五个的情况所占的百分比。

表1至表3是本发明在在Charades-STA，ActivityCaption以及DiDeMo三大数据集上的实验结果，本发明缩写为RTBPN。

表1在Charades-STA数据集上的实验结果

表2在ActivityCaption数据集上的实验结果

表3在DiDeMo数据集上的实验结果

由于弱监督算法的数据仅仅是粗粒度的句子级标注，其训练过程中往往会包括许多无效甚至起负面作用的学习，故而在同等框架下的训练效果会比有句子对应时段标注的全监督算法要差上许多。

然而，通过表1-表3可以看出，由于本发明同时考虑了样本间对抗和样本内对抗，通过样本内损失可以鼓励样本内对抗，将同一数据对中目标时段与相似的干扰负时段区分开来；通过样本间损失可以鼓励样本间对抗，使得匹配的正样例具有比不匹配的负样例更高的得分。具体的，基于场景的跨模态估计方法的语言感知过滤器生成的增强视频流突出与语言相关的关键帧特征，弱化不相关的帧特征，抑制视频流则相反，并设计了一个新颖的正则化两分支提议网络并基于中心的提议筛选技术，能够筛选出优秀的正提议集合和合理的负提议集合，使得本发明在视频时段检索性能上已经超过了早期的全监督算法VSA-RNN，VSA-STV及CTRL，并与TGN,QSPN和MCN取得了相当的效果，这无疑说明了本发明性能的优越性。

与当前存在的其他弱监督算法相比，本发明仅在ActivityCaption数据集的R@1，IoU＝0.3的情况下略有不如，在其他所有情况下都取得了进步，这足以说明本发明已经在视频时段检索性能上已经超过了现有的其他弱监督算法。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于两分支提议网络的弱监督视频时段检索方法及系统 [P] . 中国专利： CN112417206B . 2021.09.24
2. 基于两分支提议网络的弱监督视频时段检索方法及系统 [P] . 中国专利： CN112417206A . 2021-02-26
3. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING [P] . WO2021092632A3 . 2022-01-13

机译：基于弱监督的基于文本的视频时刻通过跨关注建模检索
4. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL [P] . WO2021092631A2 . 2021-05-14

机译：基于弱监督的基于文本的视频时刻检索
5. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING [P] . WO2021092632A2 . 2021-05-14

机译：基于弱监督的基于文本的视频时刻通过跨关注建模检索