首页> 中国专利> 基于语义分割和多层注意力框架的视频字幕生成方法

基于语义分割和多层注意力框架的视频字幕生成方法

摘要

本发明涉及基于语义分割与多模态注意力模型相结合的视频多字幕生成方法,包括:步骤1、从要生成字幕的视频中提取多帧图片;步骤2、利用全卷积实例感知语义分割模型,从视频提取某一反卷积层的特征信息;步骤3、提取视频的运动特征以及音频特征;步骤4、利用全卷积实例感知语义分割模型,从在步骤1中提取的图片中提取属性标签,其中,属性标签包含每帧图片中的物体信息;步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;步骤6、经由LSTM,通过多层感知机处理,得到作为字幕组成部分的单词;步骤7、将得到的所有单词进行串联组合,产生最终的字幕。

著录项

  • 公开/公告号CN107979764A

    专利类型发明专利

  • 公开/公告日2018-05-01

    原文格式PDF

  • 申请/专利权人 中国石油大学(华东);

    申请/专利号CN201711273239.6

  • 申请日2017-12-06

  • 分类号H04N21/234(20110101);H04N21/233(20110101);H04N21/44(20110101);H04N21/439(20110101);H04N21/488(20110101);G06K9/62(20060101);G06K9/00(20060101);

  • 代理机构11340 北京天奇智新知识产权代理有限公司;

  • 代理人陆军

  • 地址 266580 山东省东营市北二路271号

  • 入库时间 2023-06-19 05:13:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-18

    未缴年费专利权终止 IPC(主分类):H04N21/234 专利号:ZL2017112732396 申请日:20171206 授权公告日:20200331

    专利权的终止

  • 2020-03-31

    授权

    授权

  • 2018-05-25

    实质审查的生效 IPC(主分类):H04N21/234 申请日:20171206

    实质审查的生效

  • 2018-05-01

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉和自然语言处理的技术领域,特别是涉及基于计 算机视觉的三维特征提取技术和语义分割技术、以及基于自然语言处理的时 序模型技术,更具体地,涉及基于全卷积语义分割和多层注意力框架的视频 字幕生成方法。

背景技术

视频字幕生成指的是对一段视频自动生成自然语言描述。此类研究在人 工智能和计算机视觉领域受到越来越多的关注。在当今社会,它具有非常广 泛的应用,例如帮助盲人的日常生活,提高视频在线检索的质量等。除了相 关应用之外,视频字幕生成技术对计算机视觉领域和跨模态技术的发展起到 了巨大的推动作用。不同于单一的图像处理技术,视频字幕生成不仅要考虑 到时间空间的相互协调,还要顾及到视频信息和语义信息的结合。

现有的对视频字幕生成方法的研究主要分为两大方向,分别是基于更多 模态融合的方法、以及优化传统注意力模型的方法。

基于更多模态融合的方法以信息论为基础,尽可能地利用视频中的不同 种类的信息,例如视频时空信息、分类信息和音频信息等。通过相关融合技 术来提高生成字幕(描述)的质量。

优化传统注意力模型的方法主要受到图片描述中软注意力模型的启发。 考虑到视频描述的动态性、多样性等特点,通过改变注意力的施加方式及位 置来提高生成字幕的质量。

此外,一些科研院所提出了多模态融合技术,其不仅利用了不同的模态 信息,还能有效的把不同信息融合在一起。

相比于上述传统方法,多模态融合技术在准确度和个性化方面具有优点。 同时,多模态融合技术还存在很多的不足。例如,由于视频的特性,导致视 频需要提取大量的图片特征,而对每一张图片都进行大小调整会丢失图片的 结构信息,并且提取三维卷积和二维卷积看似提取出了不同的特征,但由于 卷积的权值共享因素导致了大量信息的重复提取。目前,虽然利用注意力机 制提升了模态之间的融合效果,但对不同模态利用同一注意力操作并没有考 虑模态之间存在差异,这会导致模态间的信息交叉干扰。

发明内容

本发明的目的是针对现有技术的不足,提供一种基于完全卷积语义分割 和多层注意力模型相结合的视频字幕生成方法。本发明首次实现了把语义分 割技术利用到视频字幕生成当中。具体地,以语义分割代替传统的视觉特征, 并通过融合语义分割产生的相关词汇来优化视频字幕的质量。

根据本发明的实施例,提供了一种基于全卷积语义分割与多模态注意力 模型相结合的视频多字幕生成方法,包括以下步骤:

步骤1、从要生成字幕的视频中提取多帧图片;

步骤2、利用全卷积实例感知语义分割模型,从所述视频提取某一反卷 积层的特征信息;

步骤3、提取所述视频的运动特征以及音频特征;

步骤4、利用全卷积实例感知语义分割模型,从在所述步骤1中提取的图 片中提取属性标签,其中,所述属性标签包含每一帧图片中的物体信息;

步骤5、并根据在前述步骤中提取的各个信息,生成不同模态的上下文 矩阵,并对不同模态的上下文矩阵进行分层融合,生成融合后的上下文矩阵;

步骤6、初始化LSTM网络,将LSTM网络在前一时刻的隐藏层状态ht-1和>传入LSTM网络,得到当前时刻的状态ht,通过对ht做多层>t;

步骤7、判断是否在单词wordt中检测到停止标识,若检测到停止标识,>t进行串联组合,产生最终的字幕;若未检测到停止>

由此,本发明提出了一种新的方法来生成视频描述,在各种普及的标准 基准上表现出了较好的效果。与现有技术不同,本发明第一次提出了利用fcis (fullyconvolutional instance-aware semantic segmentation)与多层注意力相结合 的方法,尽可能利用视频的有用信息,摒弃无用信息,并模拟现实情况提出 动作与声音结合的方式。因此,本发明的方法不仅利用了fcis属性和特征突 出化的有点,而且还科学地对不同模态施加注意力,让生成的句子(视频描 述)更能够真实的反应视频的内容。本发明的方法能够极大地提高不同模态 信息的利用率。

附图说明

图1为根据本发明的实施例的基于全卷积语义分割和多层注意力框架的 视频字幕生成方法的架构示意图;

图2为本发明的实施例所采用的LSTM网络的结构示意图。

具体实施方式

下面,结合附图对技术方案的实施作进一步的详细描述。

本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施 例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任 何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它 们不背离本发明的原理和精神即可。

另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中, 可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等 处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明 书的公开充分性。

下面结合附图对具体实施方案进行详细描述。

本发明的目的在于针对每一时刻生成的词,减小对上一次时刻词的依赖, 已达到更准确的描述图像的效果。

本发明分别采用C3D(三维卷积神经网络)、MFCC(倒谱系数)、fcis(全 卷积语义分割)的全卷积来提取视频动作、时间和声音特征。并且本发明利 用fcis的语义分割技术提取视频不同帧的属性。在t时刻,对于第一层注意力 模型,主要对音频特征做注意力处理,对于第二层注意力模型,分别针对不 同性质的模态信息做注意力处理,对于第三层注意力模型,通过对生成的 LSTM的状态做注意力处理。整个模型的架构如图1所示。

图1为根据本发明的实施例的基于全卷积语义分割和多层注意力框架的 视频字幕生成方法的架构示意图。如图1所示,FCIS特征(feature)代表对 从视频中抽取的图像(帧)提取特征(对应上方的图像特征提取工作),FCIS 实例(Instance)代表从视频图像中提取的属性标签,C3D特征(feature)代 表提取的三维特征。音频特征(Audio feature)代表提取的声音特征。LSTM 代表长短期记忆网络网络。注意力(Attention)代表不同模态的注意力操作。 从图1中可以看出,本发明利用了层次型的注意力方法,用不同层的注意力来编码不同的模态。从图1中还可看出,本发明结合了FCIS的卷积操作和标 签提取操作。这正明确了本发明所提出的基于全卷积语义分割(FCIS)和多 层注意力相结合的方法。

根据本发明的实施例,提供了一种基于语义分割与多模态注意力模型相 结合的视频多字幕生成方法,包括以下步骤(1)至(7),下面逐一说明。

步骤(1):利用OPENCV库,从要生成字幕的视频中提取关键帧,并保 存成图片格式,如.jpg格式;

步骤(2):利用全卷积实例感知语义分割模型(Fully Convolutional Instance-aware Semantic Segmentation)代替传统的Resnet(残差网络)模型, 从视频提取某一卷积层的特征信息。

步骤(3):利用C3D(三维卷积神经网络)提取视频的空间(三维)特 征。利用小波变换技术提取视频中包含的音频特征;

其中,上述步骤(1)至(3)是独立执行的步骤;

步骤(4):利用全卷积实例感知语义分割模型,从在步骤(1)中保存的 关键帧图片中提取提取属性标签。属性标签主要包含每一帧图像中的物体信 息。如图片中有“人”这个物体,就会把“人”这个词存入属性标签中;

简而言之,上述步骤(1)-(3)是构建编码结构,步骤(4)构建解码 结构。编码是用预先规定的方法将文字、数字或其它对象编成数码,或将信 息、数据转换成规定的电脉冲信号。编码是信息从一种形式或格式转换为另 一种形式的过程。解码,是编码的逆过程。

步骤(5):创建时序引导LSTM网络。其作用主要分为两点,一是提供 了对不同模态实施注意力的依据,二是作为字幕生成方法的主体引导框架。 以LSTM网络的t-1时刻的隐藏层状态产生的注意力模态的注意力向量, 并将其与空间嵌入后的不同模态的特征相互结和,产生不同模态的上下文矩 阵ct,并根据视频的特性分层处理注意力模型,最后对不同层的上下文进行>

步骤(6):将ht-1和融合后的传入LSTM得到通过对做多 层感知机处理得到单词Wt

步骤(7):判断是否在单词Wt中检测到停止标识,若是,则将得到的所>t进行串联组合,产生视频字幕;若不是,重复执行步骤(5)至(6),>

在步骤(1)至(4)中,可使用现有方法提取不同的特征,为了使本说 明书的描述不限于冗繁,在此不再详述。

下面所以对步骤(5)至(6)的实现(公式)进行详解。

所述步骤(5)的实现:

一、属性模态注意力模型相关公式:

Words=Ins+wordt-1>

公式(1)中,Ins代表在步骤(4)中提取的属性标签,wordt-1代表模型>

公式(2)中,代表施加注意力后的上下文矩阵,其中的上标W 代表“Word”,主要用来说明是对这些“Word”(属性标签和上一时刻生成的 词)施加注意力操作,下标t代表时间。funcw表示属性注意力函数。alpha代>

下面是对属性注意力函数的说明。

使用nlp(自然语言处理)中的embedding(空间嵌入)方法并结合非线 性化过程,将属性标签Words转化成一个N*L维的向量表示:

其中,N为维单词的个数,L为空间嵌入后的属性标签的维度,空间嵌 入是一个对向量从低维空间到高维空间转化的过程,如向量本身的维度为m 经过空间嵌入后可以变为L,L的具体大小根据情况而定,对于属性矩阵的每 个区域,属性注意力模型回归函数softmax根据属性矩阵Words和LSTM在t-1 时刻的状态ht-1产生权重向量

上标W代表word的意思,表示在对语义信息(属性标签)做注意力操作,而非其他的模态。

并进行归一化处理:

其中,表示属性注意力模型中属性标签矩阵第i个区域(其中i代 表第i个单词对应的向量,而对应到属性标签矩阵中就是第i个区域)在t时 刻的权重;wordi,k和wordi,t分别表示属性矩阵Words的不同位置。

作为示例,经过属性注意力模型处理以后的属性上下文为

二、视觉模态注意力模型相关公式:

Multi_images=Opencv(video,num) (6)

Temporal_features=Fcis_deconv(Multi_images) (7)

其中,Multi_images代表在步骤(1)中提取的多帧图片,比如一个视频 有150帧,从中提取100帧,那么Multi_images就代表100张图片的总和。而 Opencv是一种通用的视频帧提取工具。video代表所要操作的视频,num代 表需要提取帧的数量。Temporal_features代表通过全卷积语义分割网络提取的 反卷积层的特征。Fcis_deconv代表Fcis(FullyConvolutional Instance-aware Semantic Segmentation)反卷积层函数。表示施加注意力的图像上下文。 其中V代表visual,表示是对视觉信息施加注意力操作。

其中,公式(6)表示利用现有opencv技术每几帧提取视频图片(关键 帧)的过程。公式(7)表示利用Fcis的反卷积层来从多帧图片中提取反卷积 特征,而t代表时刻序列,funcV代表视觉注意力函数,代表对于不同帧 分配的权重。

下面说明视觉注意力函数。

使用多张图片形成的时间特征作为特征输入,其被表示为一个N*L*D的 三维矩阵(时间特征矩阵),具体形式如下:

Temporal_features={T1,T2........TD}

其中,Ti表示每一张图片的特征,其维度为(N,L),D表示图片(关>

对于时间特征矩阵Temporal_features的每一张图片的特征Ti,视觉注意>t-1产生权重向量

其中,表示视觉注意力模型中图像矩阵第i个区域(其中i代表第i 帧对应的向量,而对应到图像矩阵中就是第i个区域。在t时刻的权重; Temporal_featuresi,k和Temporal_featuresi,t分别表示图像矩阵的不同位置。

经过视觉注意力模型处理以后的视觉上下文为

三、动作模态注意力模型相关公式:

Motion_features=C3D_conv(video) (11)

其中,公式(11)表示利用C3D(三维卷积神经网络)从目标视频提取 三维特征,其中三维特征代表三维卷积特征,其是从一般的二维卷积特征发 展而来,主要用来对视频中的动作提取特征(可参见Learning Spatiotemporal Features with 3D ConvolutionalNetworks),公式(12)中的funcM表示动作注意>表示动作注意力模型中第i个区域在t时刻的权重,t代表时间 序列;其中:

其中,表示动作注意力模型中动作矩阵第i个区域在t时刻的权重;Motion_featuresi,k和Motion_featuresi,t分别表示动作矩阵的不同位置。

经过动作注意力模型处理以后的动作上下文为

M代表motion的意思,表示在对动作信息做注意力操作,而非其他的模 态。

四、声音模态注意力模型相关公式:

Audio_features=MFCC(audio) (15)

其中,公式(15)表示利用MFCC(倒频谱系数)对目标声音提取音频 特征,公式(16)的funcA表示声音注意力函数,表示声音注意力模型 中第i个区域在t时刻的权重,t代表时间序列;

其中权重计算为:

其中,表示声音注意力模型中声音矩阵第i个区域(第i个区域代 表声音矩阵的第i行,没有实际意义)在t时刻的权重;Audio_featuresi,k和>i,t分别表示声音矩阵的不同位置。

经过声音注意力模型处理以后的声音上下文为

A代表audio的意思,表示在对声音信息做注意力操作,而非其他的模态。

五、注意力模型融合

一层注意力融合公式:

其中公式(13)中的concentrate代表级联操作。公式(19)的funcM_A表>表示融合注意力模型中第i个区域在t时刻的权重, t代表时间序列;

二层注意力融合公式:

其中公式(21)表示通过相加操作对不同的注意力模型进行融合。

所述步骤(6)的公式为:

wordt=MLP(ht)>

其中,表示LSTM的左分支,表示LSTM的右分支,LSTM表示 长短时记忆网络,ht-1表示LSTM的上一个状态,softmax表示回归函数,>t表示LSTM当前状态,MLP表示多层感>t表示求得的单词。

本发明采用维度为K的one-hot向量来表示:

模型在t时刻产生的单词wordt的向量的维度为1x>

视频生成的句子用维度为C*K的向量W来表示:

W={w1,...,wc},wi∈RK

其中K表示词典的大小,C表示产生的句子的长度(单词的数量)。

下面说明本发明的实施例所使用的LSTM网络。

图2为本发明的实施例所采用的LSTM网络的结构示意图。LSTM是循 环神经网的特殊形式,它成功解决了循环神经网络的梯度消失和梯度爆炸问 题,LSTM的核心是它在每个步骤中的存储单元Cell,每个存储单元由三个 Gate(输入门(Input Gate)、遗忘门(ForgetGate)、输出门(Output Gate)) 和一个cell单元组成。Gate可使用sigmoid激活函数,而input和cell state可 使用tanh来转换。

有关构造LSTM网络的具体方式、以及LSTM的Gates、Cell、输入变换 和状态更新的具体定义,可从现有资料获得,这对于本领域的技术人员来说 是熟知的。为了使本说明书的描述不限于冗繁,在此不再详述。

数据集及实验结果:

下面,选择流行的Youtube2Text和MSR-VTT dataset评估本发明的模型的 性能Youtube2Text包含10000个视频片段(video clip),被分为训练,验证和 测试集三部分。每个视频片段都被标注了大概20条英文句子。此外,MSR-VTT 还提供了每个视频的类别信息(共计20类),这个类别信息算是先验的,在 测试集中也是已知的。同时,视频都是包含音频信息的。YouTube2Text dataset (MSVD dataset)数据集同样由Microsoft Research提供,网址为 https://www.microsoft.com/en-us/download/details.aspx?id=52422&from=http:// research.microsoft.com/en-us/downloads/38cf15fd-b8df-477e-a4e4-a4680caa75af/d efault.aspx。该数据集包含1970段YouTube视频片段(时长在10-25s之间), 每段视频被标注了大概40条英文句子。

实验结果如下表所示。

在这项工作中,本发明提出了一种新的方法来完成视频描述。在各种普 及的标准基准上表现出了较好的效果。与以前的工作不同,本发明的方法第 一次提出了利用fcis与多层注意力相结合的方法,尽可能的利用视频的有用 信息,摒弃无用信息,并模拟现实情况提出动作与声音结合的方式。因此, 本发明的方法不仅利用了fcis属性和特征突出化的有点,而且还科学的对不 同模态施加注意力,让生成的句子更能够真实的反应视频的内容。本发明的 模型能够最大化地提高不同模态信息的利用率。

最后,本领域的技术人员能够理解,对本发明的上述实施例能够做出各 种修改、变型、以及替换,其均落入如所附权利要求限定的本发明的保护范 围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号