首页> 中国专利> 视频摘要生成模型的训练方法、视频摘要生成方法及装置

视频摘要生成模型的训练方法、视频摘要生成方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请公开了一种视频摘要生成模型的训练方法、视频摘要生成方法及装置，属于机器学习领域。该方法包括：获取视频样本，从视频样本中确定出至少两帧样本图像，每一帧样本图像标注有参考评分；调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量；调用视频摘要生成模型基于混合特征向量对样本图像进行评分，得到每一帧样本图像作为视频摘要的重要性评分；基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数，最终得到训练完成的视频摘要生成模型。该方法使得模型能够更充分的捕捉视频的上下文信息，生成时序表达优秀的视频摘要。

著录项

公开/公告号CN112231516A

专利类型发明专利
公开/公告日2021-01-15

原文格式PDF
申请/专利权人北京三快在线科技有限公司;
展开▼

申请/专利号CN202011057685.5
发明设计人柴振华;王君岩;白杨;胡炳彰;龙洋;
展开▼

申请日2020-09-29
分类号G06F16/738(20190101);G06F16/74(20190101);G06T7/00(20170101);
代理机构11138 北京三高永信知识产权代理有限责任公司;
代理人唐述灿
地址 100080 北京市海淀区北四环西路9号2106-030
入库时间 2023-06-19 09:33:52

说明书

技术领域

本申请涉及机器学习领域，特别涉及一种视频摘要生成模型的训练方法、视频摘要生成方法及装置。

背景技术

随着视频资料在视频平台上的巨大增长，视频摘要的生成研究越来越受到关注。

视频摘要的生成可以采用机器模型来实现，示例性的，将视频资源输入到机器模型中，由机器模型学习出视频资料的视频摘要。

但是，一般的机器模型对于视频上下文信息的捕捉能力不足，导致生成的视频摘要的时序表达差。

发明内容

本申请实施例提供了一种视频摘要生成模型的训练方法、视频摘要生成方法及装置，能够更充分的捕捉视频的上下文信息，生成时序表达优秀的视频摘要。所述技术方案如下：

根据本申请的一个方面，提供了一种视频摘要生成模型的训练方法，该方法包括：

获取视频样本，从视频样本中确定出至少两帧样本图像，每一帧样本图像标注有参考评分，参考评分是指样本图像作为视频摘要的参考评分；

调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量；

调用视频摘要生成模型基于混合特征向量对样本图像进行评分，得到每一帧样本图像作为视频摘要的重要性评分；

基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数，最终得到训练完成的视频摘要生成模型。

根据本申请的另一个方面，提供了一种视频摘要生成方法，该方法包括：

获取视频，从视频中确定出至少两帧图像；

调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习，得到图像在时间与空间上的混合特征向量；

调用视频摘要生成模型基于混合特征向量对图像进行评分，得到每一帧图像作为视频摘要的重要性评分；

调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。

根据本申请的另一个方面，提供了一种视频摘要生成模型的训练装置，该装置包括：

获取模块，用于获取视频样本，从视频样本中确定出至少两帧样本图像，每一帧样本图像标注有参考评分，参考评分是指样本图像作为视频摘要的参考评分；

训练模块，用于调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量；

训练模块，用于调用视频摘要生成模型基于混合特征向量对样本图像进行评分，得到每一帧样本图像作为视频摘要的重要性评分；

训练模块，用于基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数，最终得到训练完成的视频摘要生成模型。

根据本申请的另一个方面，提供了一种视频摘要生成装置，该装置包括：

获取模块，用于获取视频，从视频中确定出至少两帧图像；

学习模块，用于调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习，得到图像在时间与空间上的混合特征向量；

学习模块，用于调用视频摘要生成模型基于混合特征向量对图像进行评分，得到每一帧图像作为视频摘要的重要性评分；

学习模块，用于调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。

根据本申请的另一方面，提供了一种计算机设备，上述计算机设备包括：处理器和存储器，上述存储器存储有计算机程序，上述计算机程序由上述处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法，或者，如上所述的视频摘要生成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序由处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法，或者，如上所述的视频摘要生成方法。

根据本申请的另一个方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上所述的视频摘要生成模型的训练方法，或者，如上所述的视频摘要生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在模型训练的过程中，该视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习，也即分别专注于时间特征与空间特征的混合自注意力学习，使得模型能够更充分地捕捉视频的上下文信息，更优秀地学习视频摘要中每一帧图像的时序表达，最终训练完成的视频摘要生成模型能够在输入视频之后，输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的视频摘要生成模型的训练方法的流程图；

图2示出了本申请一个示例性实施例提供的特征图提取的示意图；

图3示出了本申请一个示例性实施例提供的混合特征向量学习的示意图；

图4示出了本申请一个示例性实施例提供的时间/空间特征向量学习的示意图；

图5示出了本申请另一个示例性实施例提供的视频摘要生成模型的训练方法的流程图；

图6示出了本申请一个示例性实施例提供的元学习过程的示意图；

图7示出了本申请一个示例性实施例提供的视频摘要生成方法的流程图；

图8示出了本申请一个示例性实施例提供的视频摘要生成模型的训练装置的框图；

图9示出了本申请一个示例性实施例提供的视频摘要生成装置的框图；

图10示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍：

视频摘要：是指对原始视频的视频内容进行概括表达的视频；即是以自动或者半自动的方式，通过分析视频的结构和内容存在的时空冗余，从原始视频中提取有意义的片段帧。示例性的，本申请中摘要视频即是直接从视频中提取的关键帧合成的新视频。

提供有计算机系统支持视频平台的运行，各大视频平台上的视频资料庞大，为了更快捷地查看视频资料，视频平台上可以提供视频资料的视频摘要，通过视频摘要了解视频资料的内容。上述视频摘要可以是由视频平台基于视频资料自动生成的；示例性的，计算机系统包括服务器与终端，用户通过终端将视频资料上传至服务器，由服务器对接收到的视频资料进行视频摘要的提取，之后将视频资料与视频摘要进行对应存储，以提供后续的对视频资料与视频摘要的查找与查看。

其中，上述计算机系统中终端可以包括智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机中、笔记本电脑的至少一种。

上述计算机系统中服务器可以包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。本领域技术人员可以知晓，上述计算机系统中终端的数量可以更多或更少。比如，上述计算机系统中终端可以仅为一个，或者为几十个或几百个，或者更多数量，本申请实施例对计算机系统中终端的数量和设备类型不加以限定。

对于上述视频资料的视频摘要的生成，本申请提供了一种视频摘要生成模型，该视频摘要生成模型可以是由机器模型训练得到的，能够基于视频直接生成该视频对应的视频摘要，该视频摘要对视频的上下文信息表达充分地、且视频帧时序表达准确。

图1示出了本申请的一个示例性实施例提供的视频摘要生成模型的训练方法的流程图，以该方法应用于服务器中为例，对上述视频摘要生成模型的训练进行说明，该方法包括：

步骤101，获取视频样本，从视频样本中确定出至少两帧样本图像，每一帧样本图像标注有参考评分。

上述样本视频存储在数据库中，服务器从数据库中获取至少一个视频样本，每一个视频样本均是独立存在的完整视频；每一个视频样本中的每一帧图像均标注有参考评分，上述参考评分是指样本图像作为视频摘要的参考评分。

服务器在获取得到一个视频样本之后，从该视频样本中抽取出至少两帧样本图像，对于样本图像的抽取可以是以下方式中的至少一种：

1)利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频，将每段间隔视频中的中间帧确定为样本图像，n为正整数。

2)仍是利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频，从每段间隔视频中随机抽取一帧图像作为样本图像。

3)按照设置的时间间隔从视频中抽取图像帧作为样本图像，比如，在整段视频中，从第一帧图像开始每间隔时长c抽取一帧图像作为样本图像，c为正整数。

在模型训练的过程中，服务器采用一个样本视频对模型进行一轮训练，也即每一个样本视频对应一个训练任务(task)；服务器在得到一个样本视频的至少两帧样本图像之后，对视频摘要生成模型进行一轮训练，在未完成对视频摘要生成模型的训练之前，服务器继续采用下一个样本视频进行模型训练。

步骤102，调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量。

在一轮模型训练中，服务器在获得至少两帧样本图像之后，将至少两帧样本图像依次输入视频摘要生成模型中，调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量。

在一些实施例中，对于混合特征向量的生成，服务器调用视频摘要生成模型从每一帧样本图像中提取时间特征图与空间特征图；调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习，得到时间特征向量与空间特征向量；调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。

可选地，上述视频摘要生成模型包括时间通道与空间通道，服务器将每一帧样本图像输入视频摘要生成模型的时间通道，得到样本图像的时间特征图；将每一帧样本图像输入视频摘要生成模型的空间通道，得到样本图像的空间特征图。也就是说，服务器将样本图像输入视频摘要生成模型之后，视频摘要生成模型将样本图像分别输入时间通道与空间通道，由时间通道输出时间特征图，由空间通道输出空间特征图。

可选地，上述时间通道是由双向长短期记忆(Bi-directional Long Short TermMemory，Bi-LSTM)构成的，上述空间通道是由深度卷积神经网络(Deep ConvolutionalNeural Networks，Deep CNNs)构成的。示例性的，如图2，将从视频样本中提取出的一组视频帧输入至由Bi-LSTM构成的时间通道11中，输出时间特征图h

在得到时间特征图与空间特征图之后，视频摘要生成模型针对时间特征图进行混合自注意力学习，得到样本图像在时间上的混合注意力表达，即时间特征向量；针对空间特征图进行混合自注意力学习，得到样本图像在空间上的混合注意力表达，即空间特征向量；之后对时间特征向量与空间特征向量进行拼接，得到样本图像的混合特征向量。示例性的，视频摘要生成模型还可以将时间特征向量与空间特征向量进行相加或者加权相加，来生成样本图像的混合特征向量。

步骤103，调用视频摘要生成模型基于混合特征向量对样本图像进行评分，得到每一帧样本图像作为视频摘要的重要性评分。

服务器调用视频摘要生成模型基于混合特征向量对样本图像进行评分，以评价每一帧样本图像作为视频摘要的重要性，示例性的，视频摘要生成模型包括打分层，将上述混合特征向量输出打分层进行对样本图像进行评分。示例性的，上述打分层可以是由两层线性网络构成的，比如，上述线性网络可以是由归一化函数(即softmax函数)构成的。

步骤104，基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数，最终得到训练完成的视频摘要生成模型。

在得到样本图像的重要性评分之后，服务器调用视频摘要生成模型计算该样本图像的参考评分与重要性评分之间的学习损失，根据上述学习损失对视频摘要生成模型中的模型参数进行传播训练。

可选地，视频摘要生成模型中包括损失函数，视频摘要生成模型将样本图像的重要评分与参考评分对应输入损失函数中，计算样本图像的学习损失，之后根据学习损失对视频摘要生成模型进行反向传播训练。示例性的，上述损失函数可以是均方误差损失函数、平均绝对值误差损失函数、平滑平均绝对误差(Huber Loss)损失函数、Log-Cosh损失函数、分位数损失函数中的任一项。

每一个视频样本的训练任务作为一次迭代，在经过指定的迭代次数的训练之后，最终得到训练完成的视频摘要生成模型。

综上所述，本实施例提供的视频摘要生成模型的训练方法，在模型训练的过程中，该视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习，也即分别专注于时间特征与空间特征的混合自注意力学习，使得模型能够更充分地捕捉视频的上下文信息，更优秀地学习视频摘要中每一帧图像的时序表达，最终训练完成的视频摘要生成模型能够在输入视频之后，输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。

该训练方法中，针对时间与空间的维度分别设置了特征图的提取通道，从而提取出时间特征图与空间特征图，基于时间特征图与空间特征图充分学习样本图像中的时间特征与空间特征，更准确地学习出视频样本的时间与空间结构。

一般的机器学习模型在注意力方面还存在归一化瓶颈(softmax bottleneck)问题，也即softmax函数无法表达视频资料的真正注意力分布，因此，本申请提供的视频摘要生成模型在对时间与空间特征图学习时，采用了混合自注意力学习的方式，可选地，视频摘要生成模型包括混合自注意力层，相应地，调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习，以得到时间特征向量与空间特征向量则可以采用以下方式：

1)通过混合自注意力层学习时间特征图的混合注意力分布，得到时间特征向量。

视频摘要生成模型中设置有m个混合自注意力层，m个混合自注意力层之间串行连接，上述m个混合自注意力层用于学习时间特征图的混合注意力分布；服务器将时间特征图输入上述m个混合自注意力层中，经由m个混合自注意力层的m次混合自注意力学习得到时间特征向量，m为正整数。

可选地，对于每一层混合自注意力层对时间特征图的混合注意力分布的学习，服务器通过视频摘要生成模型中的混合自注意力层从时间特征图中学习出时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵；调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘，得到时间特征图对应的注意力矩阵与辅助注意力矩阵；调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成时间特征向量。

示例性的，混合自注意力层中设置有查询参数矩阵、键参数矩阵、值参数矩阵、以及辅助查询参数矩阵，混合自注意力层中还设置有归一化函数；服务器通过混合自注意力层将时间特征图分别与查询参数矩阵、键参数矩阵、值参数矩阵相乘，得到时间特征图对应的查询矩阵、键矩阵和值矩阵；通过混合自注意力层将查询矩阵与辅助查询参数矩阵相乘，得到时间特征图对应的辅助查询矩阵；通过混合自注意力层将查询矩阵与辅助查询矩阵分别与键矩阵相乘，得到时间特征图对应的注意力矩阵与辅助注意力矩阵；通过混合自注意力层中归一化函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布；通过混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘，得到混合注意力分布；通过混合自注意力层将混合注意力分布与键矩阵相乘，得到时间特征向量。

在m个混合自注意力层中，第1个混合自注意力层的输入为时间特征图，第i个混合自注意力层的输入为第i-1个混合自注意力层的输出的中间特征向量，第m个混合自注意力层的输出为时间特征向量，i为大于1且小于等于m的正整数。

可选地，m个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵相同，和/或，m个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵不同。

2)通过混合自注意力层学习空间特征图的混合注意力分布，得到空间特征向量。

视频摘要生成模型中设置有k个混合自注意力层，k个混合自注意力层之间串行连接，上述k个混合自注意力层用于学习空间特征图的混合注意力分布；服务器将空间特征图输入上述k个混合自注意力层中，经由k个混合自注意力层的k次混合自注意力学习得到空间特征向量，k为正整数。可选地，m的取值可以与k的取值相同或者不同。

可选地，对于每一层混合自注意力层对空间特征图的混合注意力分布的学习，服务器通过视频摘要生成模型中的混合自注意力层从空间特征图中学习出空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵；调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘，得到空间特征图对应的注意力矩阵与辅助注意力矩阵；调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成空间特征向量。

示例性的，混合自注意力层中设置有查询参数矩阵、键参数矩阵、值参数矩阵、以及辅助查询参数矩阵，混合自注意力层中还设置有归一化函数；服务器通过混合自注意力层将空间特征图分别与查询参数矩阵、键参数矩阵、值参数矩阵相乘，得到空间特征图对应的查询矩阵、键矩阵和值矩阵；通过混合自注意力层将查询矩阵与辅助查询参数矩阵相乘，得到空间特征图对应的辅助查询矩阵；通过混合自注意力层将查询矩阵与辅助查询矩阵分别与键矩阵相乘，得到空间特征图对应的注意力矩阵与辅助注意力矩阵；通过混合自注意力层中归一化函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布；通过混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘，得到混合注意力分布；通过混合自注意力层将混合注意力分布与键矩阵相乘，得到空间特征向量。

在k个混合自注意力层中，第1个混合自注意力层的输入为空间特征图，第j个混合自注意力层的输入为第j-1个混合自注意力层的输出的中间特征向量，第m个混合自注意力层的输出为空间特征向量，j为大于1且小于等于k的正整数。

可选地，k个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵相同，和/或，k个混合自注意力层中存在至少两个混合自注意力层中的参数矩阵不同。

示例性的，如图3，将时间特征图h

示例性的，如图4，对于每一个混合自注意力层中混合注意力分布的学习过程进行详细说明：

混合自注意力层(Mixture of self-Attention layer，MoA)中设置有查询参数矩阵W

其中，F

其中，A是注意力分布，t是指T帧样本图像(即至少两帧样本图像)中的第t帧样本图像，t、T为正整数，t小于等于T；混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘，得到混合注意力分布，示例性的，公式如下：

其中，A’是辅助注意力分布，A’

需要说明的是，上述查询矩阵相当于“查询，键和值(Queries,Keys and Values)”中的查询值，上述键矩阵相当于“查询，键和值”中的键值，上述值矩阵相当于“查询，键和值”中的值。

综上所述，本实施例提供的视频摘要生成模型的训练方法，所训练的视频摘要生成模型包括了混合自注意力层，通过二次辅助查询特征与混合注意力的方式，更好地解决了模型中的Softmax Bottleneck问题。

对于视频资料的视频摘要的生成，还存在由于视频帧的标注困难导致的视频样本难以获取的问题，这一问题导致了模型训练可用的视频样本数量少，因此，为了解决这一问题，可以采用元学习的方式对视频摘要生成模型进行训练，示例性的，如图5，示出了本申请的一个示例性实施例提供的视频摘要生成模型的训练方法的流程图，以该方法应用于服务器中为例，对视频摘要生成模型的训练采用元学习的方式进行说明，该方法包括：

步骤201，获取视频样本，从视频样本中确定出至少两帧样本图像，每一帧样本图像标注有参考评分。

上述样本视频存储在数据库中，服务器从数据库中获取E个视频样本，每一个视频样本均是独立存在的完整视频；每一个视频样本中的每一帧图像均标注有参考评分，上述参考评分是指样本图像作为视频摘要的参考评分；E为大于1的正整数。

将每一个视频样本的学习作为一个task，对视频摘要生成模型进行训练，首先，服务器在获取得到第x个视频样本之后开始执行第x个任务，从该视频样本中抽取出至少两帧样本图像，x为小于等于E的正整数。

步骤202，调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量。

在一轮模型训练中，服务器在获得至少两帧样本图像之后，将至少两帧样本图像依次输入视频摘要生成模型中，调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到每一帧样本图像在时间与空间上的混合特征向量。

在一些实施例中，对于混合特征向量的生成，服务器调用视频摘要生成模型从每一帧样本图像中提取时间特征图与空间特征图；调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习，得到时间特征向量与空间特征向量；调用视频摘要生成模型对时间特征向量与空间特征向量进行拼接，得到样本图像的混合特征向量。

步骤203，调用视频摘要生成模型基于混合特征向量对样本图像进行评分，得到每一帧样本图像作为视频摘要的重要性评分。

服务器调用视频摘要生成模型基于混合特征向量对样本图像进行评分，以评价每一帧样本图像作为视频摘要的重要性，示例性的，视频摘要生成模型包括打分层，将上述混合特征向量输出打分层进行对样本图像进行评分。

步骤204，基于参考评分与重要性评分之间的学习损失更新学习器中的模型参数，且记录本轮训练中学习器中模型参数的更新次数。

视频摘要生成模型包括学习器与元学习器，也即视频摘要生成模型的结构可以划分为学习器与元学习器；在得到至少两帧样本图像的重要性评分之后，服务器调用视频摘要生成模型计算至少两帧样本图像的参考评分与重要性评分之间的学习损失，根据上述学习损失对视频摘要生成模型中学习器的模型参数进行传播训练。

对模型的一轮训练采用一个任务，在每一个任务中，基于一个视频样本的至少两帧样本图像对学习器进行反复训练，因此，服务器记录本轮训练中学习器中模型参数的更新次数，也即是本轮训练中采用至少两帧图像对学习器训练的次数。

步骤205，响应于学习器中模型参数的更新次数小于次数阈值，继续基于本轮训练中的至少两帧样本图像对学习器中的模型参数进行更新。

服务器中设置有学习器中模型参数更新的次数阈值，服务器在确定本轮训练过程中学习器中模型参数的更新次数小于次数阈值，则继续采用本轮训练中的至少两帧样本图像进行学习器中的模型参数的训练更新。

需要说明的是，在一个任务中，学习器对于样本图像的每一次学习，采用的可以是至少两帧样本图像中的不同样本图像组合，比如，至少两帧样本图像的集合{I

步骤206，响应于学习器中模型参数的更新次数等于次数阈值，基于学习器中的模型参数更新元学习器中的模型参数。

服务器在确定本轮训练过程中学习器中模型参数的更新次数等于次数阈值，则基于学习器中的模型参数更新元学习器中的模型参数。在对元学习器中的模型参数更新完成后，将元学习器中的模型参数复制到学习器中，采用第x+1个任务继续对学习器进行训练，x+1小于E。

示例性的，如图6，视频摘要学习模型采用双通道混合注意力网络(Dual ofMixture Attention network，DMA)41；采用第x-1个任务对模型训练后，将元学习器中的模型参数复制到学习器中θ

其中，

其中，θ

步骤207，获取本轮训练中视频样本对应的验证视频，通过验证视频对视频摘要生成模型进行模型评估，得到模型评估值。

上述视频样本对应的验证视频是从视频样本中提取得到的至少两个视频帧。示例性的，在从视频样本中提取得到至少两帧样本图像之后，可以将至少两帧样本划分为两个样本集合，一个样本集合用于作为训练样本集合，另一个样本集合用于作为验证视频。在每一轮训练中，当采用视频样本学习完成后，还采用该视频样本对应的验证视频对视频摘要生成模型进行模型评估，从而得到模型评估值(F-Score)。示例性的，模型评估值可以为F1，F1是指模型评估公式中参数值为1时的模型评估值。

步骤208，响应于模型评估值在本轮训练上未收敛，从所述获取视频样本的步骤开始下一轮训练。

在对视频摘要生成模型进行多轮训练之后，当本轮训练的模型评估值在收敛函数上还未收敛，重新获取一个视频样本来执行新任务，以对视频摘要生成模型继续训练，直至模型评估值收敛，执行步骤209。

步骤209，响应于模型评估值在本轮训练上收敛，完成对视频摘要生成模型的训练。

在对视频摘要生成模型进行多轮训练之后，当本轮训练的模型评估值在收敛函数上收敛，确定完成了对视频摘要生成模型的训练。需要说明的是，确定完成视频摘要生成模型的方式，还可以是对视频摘要生成模型的训练达到要求的迭代次数，比如，可以是对元学习器中模型参数更新的迭代次数达到了要求的迭代次数。

综上所述，本实施例提供的视频摘要生成模型的训练方法，采用了元学习策略来解决视频样本的数据库量小的问题，进而在视频样本少的情况下也能够对视频摘要生成模型进行充分地训练。该方法中还以一个视频样本作为一个任务，以一个任务对视频摘要生成模型进行一轮训练，也即采用了单视频元学习策略(Single-video meta learning)，遵循了每个单独的视频拥有各自的潜在机制的规则，使得训练得到的视频摘要生成模型能够更准确地学习出不同机制下视频的视频摘要。

对于上述训练完成的视频摘要生成模型的应用说明，请参考图7，示出了本申请的一个示例性实施例提供的视频摘要生成方法的流程图，以该方法应用于服务器中为例，该方法包括：

步骤301，获取视频，从视频中确定出至少两帧图像。

服务器获取视频，示例性的，该视频可以是通过终端上传的视频；从上述视频中抽取出至少两帧图像，示例性的，对于上述至少两帧图像的抽取可以采用如下方式中的至少一种：

1)利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频，获取每段间隔视频中的中间帧，n为正整数。

2)仍是利用核时序分割的方式在时间上将整段视频分割成不相交的n段间隔视频，从每段间隔视频中随机抽取一帧图像。

3)按照设置的时间间隔从视频中抽取图像帧，比如，在整段视频中，从第一帧图像开始每间隔时长c抽取一帧图像，c为正整数。

步骤302，调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习，得到图像在时间与空间上的混合特征向量。

服务器调用视频摘要生成模型从每一帧样本图像中提取时间特征图与空间特征图；调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习，得到时间特征向量与空间特征向量；调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。

可选地，上述视频摘要生成模型包括时间通道与空间通道，服务器将每一帧图像输入视频摘要生成模型的时间通道，得到图像的时间特征图；将每一帧图像输入视频摘要生成模型的空间通道，得到图像的空间特征图。可选地，上述时间通道是由Bi-LSTM构成的，上述空间通道是由深度卷积神经网络Deep CNNs构成的。

可选地，视频摘要生成模型中设置有至少两个混合自注意力层，至少两个混合自注意力层之间串行连接，上述至少两个混合自注意力层用于学习特征图的混合注意力分布；服务器将特征图输入上述至少两个混合自注意力层中，经由至少两个混合自注意力层的至少两次混合自注意力学习得到特征向量。

示例性的，混合自注意力层中设置有查询参数矩阵、键参数矩阵、值参数矩阵、以及辅助查询参数矩阵，混合自注意力层中还设置有归一化函数；服务器通过混合自注意力层将特征图分别与查询参数矩阵、键参数矩阵、值参数矩阵相乘，得到特征图对应的查询矩阵、键矩阵和值矩阵；通过混合自注意力层将查询矩阵与辅助查询参数矩阵相乘，得到特征图对应的辅助查询矩阵；通过混合自注意力层将查询矩阵与辅助查询矩阵分别与键矩阵相乘，得到特征图对应的注意力矩阵与辅助注意力矩阵；通过混合自注意力层中归一化函数将注意力矩阵与辅助注意力矩阵分布转换为注意力分布与辅助注意力分布；通过混合自注意力层将注意力分布与辅助注意力分布的转置矩阵相乘，得到混合注意力分布；通过混合自注意力层将混合注意力分布与键矩阵相乘，得到特征向量。

上述特征图是时间特征图或者空间特征图；当特征图是时间特征图时，上述特征向量为时间特征向量；当特征图是空间特征图时，上述特征向量为空间特征向量。

步骤303，调用视频摘要生成模型基于混合特征向量对图像进行评分，得到每一帧图像作为视频摘要的重要性评分。

服务器调用视频摘要生成模型基于混合特征向量对图像进行评分，以评价每一帧图像作为视频摘要的重要性，示例性的，视频摘要生成模型包括打分层，将上述混合特征向量输出打分层进行对图像进行评分。示例性的，上述打分层可以是由两层线性网络构成的，比如，上述线性网络可以是由softmax函数构成的。

步骤304，调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。

示例性的，服务器调用视频摘要生成模型生成至少两帧图像的重要性评分的预测曲线，将预测曲线中峰值所在位置对应的图像确定为摘要图像，根据摘要图像生成视频摘要，比如，将摘要图像按照时序拼接生成视频摘要。示例性的，服务器还可以将上述预测曲线在时间上分段，将每一段上峰值所在位置对应的图像确定为摘要图像，根据摘要图像生成视频摘要。

综上所述，本实施例提供的视频摘要生成方法，采用视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习，也即分别专注于时间特征与空间特征的混合自注意力学习，使得模型能够更充分地捕捉视频的上下文信息，更优秀地学习视频摘要中每一帧图像的时序表达，最终输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。

图8示出了本申请一个示例性实施例提供的视频摘要生成模型的训练装置的框图，该装置可以通过软件、硬件、或者二者结合实现成为服务器或者终端的部分或者全部，该装置中设置有视频摘要生成模型。该装置包括：

获取模块401，用于获取视频样本，从视频样本中确定出至少两帧样本图像，每一帧样本图像标注有参考评分，参考评分是指样本图像作为视频摘要的参考评分；

训练模块402，用于调用视频摘要生成模型分别对每一帧样本图像进行时间特征与空间特征的混合自注意力学习，得到样本图像在时间与空间上的混合特征向量；

训练模块402，用于调用视频摘要生成模型基于混合特征向量对样本图像进行评分，得到每一帧样本图像作为视频摘要的重要性评分；

训练模块402，用于基于参考评分与重要性评分之间的学习损失更新视频摘要生成模型中的模型参数，最终得到训练完成的视频摘要生成模型。

在一些实施例中，训练模块402，包括：

提取子模块4021，用于调用视频摘要生成模型从每一帧样本图像中提取出时间特征图与空间特征图；

学习子模块4022，用于调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习，得到时间特征向量与空间特征向量；

生成子模块4023，用于调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。

在一些实施例中，视频摘要生成模型包括时间通道与空间通道；

提取子模块4021，用于将每一帧样本图像输入时间通道，得到样本图像的时间特征图；将每一帧样本图像输入空间通道，得到样本图像的空间特征图。

在一些实施例中，视频摘要生成模型包括混合自注意力层；

学习子模块4022，用于通过混合自注意力层学习时间特征图的混合注意力分布，得到时间特征向量；通过混合自注意力层学习空间特征图的混合注意力分布，得到空间特征向量。

在一些实施例中，学习子模块4022，用于调用混合自注意力层从时间特征图中学习出时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵；调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘，得到时间特征图对应的注意力矩阵与辅助注意力矩阵；调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成时间特征向量。

在一些实施例中，学习子模块4022，用于调用混合自注意力层从空间特征图中学习出空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵；调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘，得到空间特征图对应的注意力矩阵与辅助注意力矩阵；调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成空间特征向量。

在一些实施例中，视频摘要生成模型中包括学习器与元学习器；训练模块402，用于：

基于参考评分与重要性评分之间的学习损失更新学习器中的模型参数，且记录本轮训练中学习器中模型参数的更新次数；

响应于学习器中模型参数的更新次数小于次数阈值，继续基于本轮训练中的至少两帧样本图像对学习器中的模型参数进行更新；响应于更新次数等于次数阈值，基于学习器中的模型参数更新元学习器中的模型参数；

获取本轮训练中视频样本对应的验证视频，通过验证视频对视频摘要生成模型进行模型评估，得到模型评估值；

响应于模型评估值在本轮训练上未收敛，从获取视频样本的步骤开始下一轮训练，直至模型评估值收敛，完成对视频摘要生成模型的训练。

综上所述，本实施例提供的视频摘要生成模型的训练装置，在模型训练的过程中，该视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习，也即分别专注于时间特征与空间特征的混合自注意力学习，使得模型能够更充分地捕捉视频的上下文信息，更优秀地学习视频摘要中每一帧图像的时序表达，最终训练完成的视频摘要生成模型能够在输入视频之后，输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。

图9示出了本申请一个示例性实施例提供的视频摘要生成装置的框图，该装置可以通过软件、硬件、或者二者结合实现成为服务器或者终端的部分或者全部，该装置中设置有视频摘要生成模型。该装置包括：

获取模块501，用于获取视频，从视频中确定出至少两帧图像；

学习模块502，用于调用视频摘要生成模型分别对每一帧图像进行时间特征与空间特征的混合自注意力学习，得到图像在时间与空间上的混合特征向量；

学习模块502，用于调用视频摘要生成模型基于混合特征向量对图像进行评分，得到每一帧图像作为视频摘要的重要性评分；

学习模块502，用于调用视频摘要生成模型基于重要性评分从至少两帧图像中确定出视频摘要。

在一些实施例中，学习模块502，包括：

提取子模块5021，用于调用视频摘要生成模型从每一帧图像中提取出时间特征图与空间特征图；

学习子模块5022，用于调用视频摘要生成模型分别对时间特征图与空间特征图进行混合自注意力学习，得到时间特征向量与空间特征向量；

生成子模块5023，用于调用视频摘要生成模型基于时间特征向量与空间特征向量生成混合特征向量。

在一些实施例中，视频摘要生成模型包括时间通道与空间通道；

提取子模块5021，用于将每一帧图像输入时间通道，得到图像的时间特征图；将每一帧图像输入空间通道，得到图像的空间特征图。

在一些实施例中，视频摘要生成模型包括混合自注意力层；

学习子模块5022，用于通过混合自注意力层学习时间特征图的混合注意力分布，得到时间特征向量；通过混合自注意力层学习空间特征图的混合注意力分布，得到空间特征向量。

在一些实施例中，学习子模块5022，用于调用混合自注意力层从时间特征图中学习出时间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵；调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘，得到时间特征图对应的注意力矩阵与辅助注意力矩阵；调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成时间特征向量。

在一些实施例中，学习子模块5022，用于调用混合自注意力层从空间特征图中学习出空间特征图对应的查询矩阵、键矩阵、值矩阵、以及辅助查询矩阵；调用混合自注意力层将查询矩阵、辅助查询矩阵分别与键矩阵相乘，得到空间特征图对应的注意力矩阵与辅助注意力矩阵；调用混合自注意力层基于注意力矩阵、辅助注意力矩阵、以及值矩阵生成空间特征向量。

综上所述，本实施例提供的视频摘要生成装置，采用视频摘要生成模型分别对样本图像在时间与空间上进行混合自注意力学习，也即分别专注于时间特征与空间特征的混合自注意力学习，使得模型能够更充分地捕捉视频的上下文信息，更优秀地学习视频摘要中每一帧图像的时序表达，最终输出上下文信息表达充分地、视频帧时序表达准确地视频摘要。

图10示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是执行如本申请提供的视频摘要生成模型的训练方法或者视频摘要生成方法的设备，该计算机设备可以是终端或者服务器。具体来讲：

计算机设备600包括中央处理单元(CPU，Central Processing Unit)601、包括随机存取存储器(RAM，Random Access Memory)602和只读存储器(ROM，Read Only Memory)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，大容量存储设备607可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例，计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法，或者，视频摘要生成方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频摘要生成模型的训练方法，或者，视频摘要生成方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频摘要生成模型的训练方法，或者，视频摘要生成方法。

本申请还提供了一种计算机程序产品，上述计算机程序产品包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上所述的视频摘要生成模型的训练方法，或者，视频摘要生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 视频摘要生成模型的训练方法、视频摘要生成方法及装置 [P] . 中国专利： CN112231516A . 2021-01-15
2. 视频摘要生成装置及视频摘要生成方法 [P] . 中国专利： CN108391180B . 2020.06.26
3. VIDEO DIGEST GENERATING METHOD, VIDEO DATABASE GENERATING METHOD, VIDEO DIGEST GENERATING APPARATUS, AND VIDEO DATABASE GENERATING APPARATUS [P] . 日本专利： JP2004193708A . 2004-07-08

机译：视频摘要生成方法，视频数据库生成方法，视频摘要生成装置和视频数据库生成装置
4. Video summary generation method and video summary generation device [P] . 日本专利： JP4201454B2 . 2008-12-24

机译：视频摘要生成方法和视频摘要生成装置
5. METHOD FOR TRAINING IMAGE GENERATION MODEL, IMAGE GENERATION METHOD, DEVICE AND APPARATUS, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020199478A1 . 2020-10-08

机译：图像生成模型的训练方法，图像生成方法，装置和装置以及存储介质