首页> 中国专利> 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法

一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，包括从外观、运动、语义和音频方面提取多维特征，以增强编码器的内容表示能力；构造编码器，进行多特征的融合；构造解码器，进行词句的预测生成；采取多阶段训练策略进行模型训练。本发明使用最新提出的大规模多语言视频描述数据集VATEX，解决了以往视频描述只有英语数据集的问题，使用多特征融合方法进行编码，模型训练采取多阶段训练策略，避免了“曝光偏差”问题。

著录项

公开/公告号CN114677631A

专利类型发明专利
公开/公告日2022-06-28

原文格式PDF
申请/专利权人西北大学;
展开▼

申请/专利号CN202210430266.4
发明设计人高岭;周腾;曹亚梅;周一璇;陈沐梓;秦钰林;曹瑞;郑杰;
展开▼

申请日2022-04-22
分类号G06V20/40;G06V10/44;G06V10/764;G06V10/82;G06V10/80;G06K9/62;G06N3/04;G06N3/08;
代理机构西安西达专利代理有限责任公司;
代理人刘华
地址 710069 陕西省西安市碑林区太白北路229号
入库时间 2023-06-19 15:47:50

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-28

公开

发明专利申请公布

说明书

技术领域

本发明涉及计算机视觉和自然语言处理交叉技术领域，具体涉及一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法。

背景技术

如今，互联网上的多媒体数据，尤其是视频的数量日益增加。以公共文化资源数据举例，根据最新统计，文化和旅游部全国公共文化发展中心联合各地建成精品资源约780TB，并推出国家公共文化云，云上累计发布数字资源总量20614条、文化场馆1036个、文化活动4461个。400余家图书馆通过数字图书馆工程开展了文献的数字化和元数据集中仓储建设，资源总量超过22414TB。这其中大量数据都是以视频形式存储。

现实生活中庞大的视频数量导致了视频的自动分类、索引和检索的问题。视频描述生成是通过理解视频中的动作和事件来自动为视频添加描述的任务，这有助于通过文本高效地检索视频。在有效解决视频描述生成的任务时，计算机视觉和自然语言之间的鸿沟也可以大大缩小。视频是由大量连续的帧、声音和运动组成的丰富的信息源。视频中大量相似帧、复杂动作和事件的存在使得视频描述生成的任务具有挑战性。与此同时，现有的大规模视频描述数据集大多是单语的，即只有英语，因此视频描述生成模型的开发仅限于英语语料库。然而，中文视频描述生成的研究对于我国大量不会说英文的人来说是至关重要的。

VATEX是最新提出的大规模多语言视频描述数据集，与广泛使用的MSR-VTT数据集相比，VATEX是多语言的，且规模更大、语言更复杂、视频和自然语言描述更加多样化。VATEX包含大量中英文描述，支持中文相关研究，而这是以往的单语言英文数据集无法满足的；VATEX具备最大数量的视频片段-句子对，且每个视频片段都有多个不同的句子描述，每个描述在整个数据集中都是独一无二的；VATEX包含更全面且具代表性的视频内容，覆盖600种人类活动；VATEX中的中文语料在词汇方面非常丰富，从而可以生成更自然和多样化的视频描述。

目前视频描述生成领域已经完全步入深度学习阶段，在此阶段，已经提出了许多先进的视频描述生成架构，循环神经网络被频繁应用到相关研究，注意力机制也已经被广泛应用到序列学习方法中，但是，目前对注意力机制的使用仅仅局限在对视频提取特征后的单一模态特征中，未能利用到视频本身的多模态特征，这使得注意力机制不能完全发挥出自身的潜力。同时，由于“曝光偏差”问题的存在，导致训练和推理之间产生差距，且大多数模型单单应用交叉熵损失作为它们的优化目标，使得描述生成结果不佳。

发明内容：

为了准确识别视频中的活动事件，生成准确高质量的中文来描述视频，本发明进行特征提取时融合了视频的外观特征、运动特征、语义特征和音频特征，在训练阶段依次采用交叉熵损失和自批评训练模型。提供一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，本发明中的训练集和测试集来自最近提出的最大的多语言数据集，即VATEX。VATEX包含600类人类活动的视频，每个视频配有10个英文和10个中文不同的标题。该数据集的最大挑战是视频内容的多样性，通常很难识别。

为了实现上述目的，本发明采用的技术方式是：

一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，包括以下步骤：

步骤1，从外观、动作、语义和音频方面提取多维特征，以增强编码器的内容表示能力；具体包括：

1)对于外观特征，作用在空间维度上，包含视频显示的事物对象的信息；提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练，PNASNet是当前图像识别领域的最佳模型NASNet的改进模型，预训练完成后输入提取到的帧得到外观特征；

2)对于动作特征，作用在时间维度上，包含视频中的事物对象进行的活动事件的信息；提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练，该数据集与VATEX数据集具有完全相同的数据分布，I3D是基于3D卷积的双流模型，在行为分类方面有较大的提高，预训练完成后输入提取到的帧得到运动特征；

3)对于音频特征，使用在Audioset数据集上进行预训练的VGGish网络；首先，为每个音频提取梅尔频谱块；音频的采样率是16千赫；Mel滤波器的数量为64个；STFT窗口长度为25毫秒，顶部长度为10毫秒；预训练完成后输入提取的音频得到音频特征；

4)对于语义特征，使用SDN提取高质量的语义特征，SDN是一个具有足够计算复杂度和输入特征的语义检测网络；输入视频帧得到语义特征；

步骤2，构造编码器，进行多特征的融合；具体包括：

采用低秩多特征融合的方法，通过将张量和权重并行分解，利用特征特定的低阶因子来执行多特征融合，避免计算高维的张量，降低了运算开销，同时将指数级的时间复杂度降低到了线性；

1)将多特征融合用公式表示为一个多线性函数：f：V

2)为了能够用一个张量来模拟任意特征子集之间的相互作用，在进行外积之前给每个单一特征后面加一个1，因此输入的张量Z通过单个特征的表示计算得到：

3)根据低秩多特征融合方法，将W看作是d

4)基于W的分解，再根据

其中

步骤3，构造解码器，进行词句的预测生成；具体包括：

使用top-down模型构造解码器，top-down模型由两层GRU和一个注意力模块组成，其中一个GRU进行粗粒度解码，另一个GRU进行细粒度解码，最终采用细粒度解码的输出预测下一时刻的单词；

1)进行粗粒度解码的GRU在t时刻的输入包含两部分，即前一时刻的隐藏状态

其中，W

2)进行细粒度解码的GRU在t时刻输入包含三部分，即前一时刻的隐藏状态

其在t时刻输出

3)在解码阶段，采用基于自上而下的描述结构；Attention-GRU使用全局视频主题和最后生成的单词，来指导时间注意力模块选择最相关的帧区域；同时，Language-GRU将处理过的上下文信息组合在一起，生成下一个单词；

步骤4，采取多阶段训练策略进行模型训练；基于多特征融合及多阶段训练的视频中文描述生成方法的关键步骤4中，

1)在第一阶段，使用传统的交叉熵损失进行5个时期的训练，学习速率固定在5×10

其中，T

2)第二阶段，使用Word-Level Oracle方法来代替传统的预定采样方法；此方法主要包括两个步骤:选择Oracle Word和衰减采样；损失函数如下：

其中N为训练数据集中的sentence pairs number，|y

3)第三阶段，使用self-critical Sequence Training方法来避免曝光偏差问题；self-critical reinforcement算法直接优化了视频描述任务的评价指标；评价指标CIDEr和BLEU在整个句子生成后同样得到了优化；这一步使得视频描述任务能够更有效地在不可区分的指标上进行训练，并在VATEX数据集上显著提高视频描述性能。

所述的外观特征、动作特征、音频特征、语义特征所有特征全都使用全连接层嵌入到相同的维度中。

本发明的有益效果是：

本发明使用最新提出的大规模多语言视频描述数据集VATEX，解决了以往视频描述只有英语数据集的问题，使用多特征融合方法进行编码，模型训练采取多阶段训练策略，避免了“曝光偏差”问题。

附图说明

图1为本发明的流程示意图；

图2为多特征融合流程示意图；

图3为低秩多特征融合实施示意图；

图4为生成视频描述结构网络示意图；

图5为多阶段训练流程示意图。

具体实施方式

以下结合附图对本发明进一步叙述。

如图1至图5所示，一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，包括以下步骤：

步骤1，从外观、动作、语义和音频方面提取多维特征，以增强编码器的内容表示能力；具体包括：

1)对于外观特征，主要作用在空间维度上，包含视频显示了什么事物对象的信息。提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练，PNASNet是当前图像识别领域的最佳模型NASNet的改进模型，预训练完成后输入提取到的帧得到外观特征。

2)对于动作特征，主要作用在时间维度上，包含视频中的事物对象进行了什么活动事件的信息。提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练，该数据集与VATEX数据集具有完全相同的数据分布，I3D是基于3D卷积的双流模型，在行为分类方面有较大的提高，预训练完成后输入提取到的帧得到运动特征。

3)对于音频特征，使用在Audioset数据集上进行预训练的VGGish网络。首先，为每个音频提取梅尔频谱块。音频的采样率是16千赫。Mel滤波器的数量为64个。STFT窗口长度为25毫秒，顶部长度为10毫秒。预训练完成后输入提取的音频得到音频特征。

4)对于语义特征，使用SDN提取高质量的语义特征，SDN是一个具有足够计算复杂度和输入特征的语义检测网络。输入视频帧得到语义特征。

步骤2，构造编码器进行多特征融合。本发明采用低秩多特征融合的方法，该方法解决了基于张量的多特征融合方法计算效率差的问题，通过将张量和权重并行分解，利用特征特定的低阶因子来执行多特征融合，避免计算高维的张量，降低了运算开销，同时将指数级的时间复杂度降低到了线性；