首页> 中国专利> 基于深度学习的无监督视频分割方法

基于深度学习的无监督视频分割方法

摘要

本发明提供了一种基于深度学习的无监督视频分割方法,包括:建立编码解码深度神经网络,编码解码深度神经网络包括:静态图像分割流网络、帧间信息分割流网络以及融合网络;静态图像分割流网络用于对当前视频帧进行前景背景分割处理,帧间信息分割流网络用于对当前视频帧和下一视频帧之间的光流场信息进行运动物体的前景背景分割;将静态图像分割流网络和帧间信息分割流网络输出的分割图像通过融合网络进行融合后,得到视频分割结果。本发明的静态图像分割流网络用于高质量的帧内分割,帧间信息分割流网络用于高质量的光流场信息分割,两路输出通过最后的融合操作得到提升后的分割结果,从而可以根据有效的双路输出和融合操作得到较好的分割结果。

著录项

  • 公开/公告号CN107808389A

    专利类型发明专利

  • 公开/公告日2018-03-16

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201711004135.5

  • 发明设计人 宋利;许经纬;解蓉;张文军;

    申请日2017-10-24

  • 分类号G06T7/215(20170101);G06T7/194(20170101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构31317 上海恒慧知识产权代理事务所(特殊普通合伙);

  • 代理人徐红银

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-06-19 04:48:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-17

    授权

    授权

  • 2018-04-10

    实质审查的生效 IPC(主分类):G06T7/215 申请日:20171024

    实质审查的生效

  • 2018-03-16

    公开

    公开

说明书

技术领域

本发明涉及视频处理技术领域,具体地,涉及基于深度学习的无监督视频分割方法。

背景技术

视频分割指的是对视频每一帧中的物体进行前景背景分割得到二值图的过程,其难点在于既要保证空间域(帧内)分割的稠密性,也要同时保证时间域(帧间信息)分割的连续性。高质量的视频分割是视频编辑、视频物体识别、视频语义分析的基础,因而具有非常重要的意义。

现有的视频分割方法可根据其原理大致分为以下三类:

1)基于无监督的传统视频分割方法

该类方法不需要人工参与标注关键帧如(第一帧)信息,一般步骤是图像分割加上帧间相似块匹配,自动分割给定视频。如A.aktor and M.Irani等人在2014年BMVC发表的“Video segmentation by non-local consensus voting”一文中对每帧处理得到一些可能包含物体的分割(object proposal),然后基于这些分割进行帧间相似度检测,筛选相似度最高的分割作为分割结果。该类方法的优点是不需要人工干预,但需要计算大量的分割中间形式如超像素点(superpixels)等,消耗大量的时间和存储空间。

2)基于半监督的传统视频分割方法

该类方法一般需要人工参与标注关键帧(如第一帧或前几帧)信息,然后将这些标注好的分割信息通过帧间传递的方式传给后续所有帧。如Y.-H.Tsai,M.-H.Yang和M.J.Black等人在2016年CVPR发表的“Video segmentation via object flow”一文中提出使用全局图的方法将所有帧放到一个图中去,图的边代表帧间的相似度,最终通过求解图的分割将标记好的第一帧传给后续的帧。该方法是传统方法中准确率最高的方法,因为它在优化过程中考虑了每一帧的信息,但由于全局图求解的难度,计算分割的时间大大增加。这也是该类方法的共性—分割准确率高但同时计算复杂度也很高。

3)基于深度学习的方法

随着深度学习的发展,深度神经网络在图像分类、分割、识别等领域都取得了比较好的结果,但在视频领域受限于时间域较高的冗余度它还没有完全发挥强大的作用。S.Caelles,K.Maninis,J.Pont-Tuset,L.Leal-Taixe,D.Cremers,and L.Van Gool等人于2017年CVPR发表的“One-shot video object segmentation”一文中提出视频分割仅需要对视频每帧进行单帧分割,不需要依赖帧间信息。他们认为帧间信息是冗余的,没有必要的,而且很多情况下没有准确的帧间信息可以作为参考,因而他们给出的方案是训练一个强图像分割网络,然后在分割给定视频时,对第一帧或前面若干帧进行准确标注,用这些帧去微调(finetune)大网络,最后用这个网络去分割该视频的其他帧。该方法有过拟合的可能性,且不能适用于大规模的视频分割情景。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于深度学习的无监督视频分割方法。

根据本发明提供的基于深度学习的无监督视频分割方法,包括:

建立编码解码深度神经网络,所述编码解码深度神经网络包括:静态图像分割流网络、帧间信息分割流网络以及融合网络;其中,所述静态图像分割流网络用于对当前视频帧进行前景背景分割处理,所述帧间信息分割流网络用于对所述当前视频帧和下一视频帧之间的光流场信息进行运动物体的前景背景分割;

将所述静态图像分割流网络和帧间信息分割流网络输出的分割图像通过所述融合网络进行融合后,得到视频分割结果。

可选地,所述建立编码解码深度神经网络,包括:

建立静态图像分割流网络,并通过已经进行静态图像分割的图像对所述静态图像分割流网络进行训练;

建立帧间信息分割流网络,并通过已经进行帧间信息分割的视频对所述帧间信息分割流网络进行训练;

利用完全标注的视频分割数据训练所述编码解码深度神经网络。

可选地,所述静态图像分割流网络包括:全卷积网络构成的编码部分和解码部分,其中,

编码部分的全卷积网络包括:五层级联的广义卷积层和与第五层广义卷积层级联的一层扩张卷积层,位于第六层的所述扩张卷积层包括四类不同尺度的扩张,每一类构成一个输出路,四类输出路的输出结果的平均值为所述编码部分的输出结果;

解码部分的全卷积网络为:三层循环卷积层和三层上采样层构成的全卷积网络;所述解码部分的全卷积网络,用于输出与输入图片分辨率一致的图片分割结果。

可选地,编码部分的全卷积网络中五层广义卷积层包括级联的第一广义卷积层、第二广义卷积层、第三广义卷积层、第四广义卷积层、第五广义卷积层,其中:

第一广义卷积层依次包括:卷积层A11、激活层、卷积层A12、激活层、池化层;

第二广义卷积层依次包括:卷积层A21、激活层、卷积层A22、激活层、池化层;

第三广义卷积层依次包括:卷积层A31、激活层、卷积层A32、激活层、卷积层A33、激活层、池化层;

第四广义卷积层依次包括:卷积层A41、激活层、卷积层A42、激活层、卷积层A43、激活层、池化层;

第五广义卷积层依次包括:卷积层A51、激活层、卷积层A52、激活层、卷积层A53、激活层、池化层;

编码部分的全卷积网络中与第五层广义卷积层级联的所述扩张卷积层的包括:并联的四类扩张卷积层,其中:

第一类扩张卷积层依次包括:第一尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

第二类扩张卷积层依次包括:第二尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

第三类扩张卷积层依次包括:第三尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

第四类扩张卷积层依次包括:第四尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层。

可选地,解码部分的全卷积网络中,每层上采样层与相应的循环卷积层级联,其中:

第一上采样层与第三循环卷积层级联,所述第一上采样层用于对上一层的输出进行两倍上采样;所述第三循环卷积层用于将编码部分卷积层A33的输出进行卷积处理并和第一上采样层的输出进行循环卷积操作;

第二上采样层与第二循环卷积层级联,所述第二上采样层用于对上一层的输出进行两倍上采样;所述第二循环卷积层用于将编码部分卷积层A22的输出进行卷积处理并和第二上采样层的输出进行循环卷积操作;

第三上采样层与第一循环卷积层级联,所述第三上采样层用于对上一层的输出进行两倍上采样;所述第一循环卷积层用于将编码部分卷积层A12的输出进行卷积处理并和第三上采样层的输出进行循环卷积操作。

可选地,所述通过已经进行静态图像分割的图像对所述静态图像分割流网络进行训练,包括:

选取ECSSD图像分割数据集、MSRA 10K图像分割数据集和PASCAL VOC 2012图像分割数据集中的样本图片;

对所述样本图片进行随机裁剪、镜像、翻转、放大缩小、仿射变换后扩张至104量级的数据数量;

固定解码部分,使用60%的数据去训练编码部分,直到编码部分收敛;

使用100%的训练数据训练所述静态图像分割流网络;其中,所述编码部分使用收敛时的权值进行初始化,解码部分进行随机初始化。

可选地,所述帧间信息分割流网络包括:全卷积网络构成的相互级联的编码部分和解码部分;其中:

编码部分的全卷积网络包括:五层级联的广义卷积层和与第五层广义卷积层级联的一层扩张卷积层,位于第六层的所述扩张卷积层包括四类不同尺度的扩张,每一类构成一个输出路,四类输出路的输出结果的平均值为所述编码部分的输出结果;

编码部分的全卷积网络中五层广义卷积层包括级联的第一广义卷积层、第二广义卷积层、第三广义卷积层、第四广义卷积层、第五广义卷积层,其中:

第一广义卷积层依次包括:卷积层B11、激活层、卷积层B12、激活层、池化层;

第二广义卷积层依次包括:卷积层B21、激活层、卷积层B22、激活层、池化层;

第三广义卷积层依次包括:卷积层B31、激活层、卷积层B32、激活层、卷积层B33、激活层、池化层;

第四广义卷积层依次包括:卷积层B41、激活层、卷积层B42、激活层、卷积层B43、激活层、池化层;

第五广义卷积层依次包括:卷积层B51、激活层、卷积层B52、激活层、卷积层B53、激活层、池化层;

编码部分的全卷积网络中与第五层广义卷积层级联的所述扩张卷积层的包括:并联的四类扩张卷积层,其中:

第一类扩张卷积层依次包括:第一尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

第二类扩张卷积层依次包括:第二尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

第三类扩张卷积层依次包括:第三尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

第四类扩张卷积层依次包括:第四尺度扩张卷积层、激活层、随机丢弃层、卷积层、激活层、随机丢弃层、卷积层;

解码部分的全卷积网络为:三层循环卷积层和三层上采样层构成的全卷积网络;所述解码部分的全卷积网络,用于输出与输入图片分辨率一致的图片分割结果;其中:

解码部分的全卷积网络中,每层上采样层与相应的循环卷积层级联,其中:

第一上采样层与第三循环卷积层级联,所述第一上采样层用于对上一层的输出进行两倍上采样;所述第三循环卷积层用于将编码部分卷积层B33的输出进行卷积处理并和第一上采样层的输出进行循环卷积操作;

第二上采样层与第二循环卷积层级联,所述第二上采样层用于对上一层的输出进行两倍上采样;所述第二循环卷积层用于将编码部分卷积层B22的输出进行卷积处理并和第二上采样层的输出进行循环卷积操作;

第三上采样层与第一循环卷积层级联,所述第三上采样层用于对上一层的输出进行两倍上采样;所述第一循环卷积层用于将编码部分卷积层B12的输出进行卷积处理并和第三上采样层的输出进行循环卷积操作。

可选地,所述通过已经进行帧间信息分割的视频对所述帧间信息分割流网络进行训练,包括:

收集ILSVRC2015中视频物体检测的训练视频集VID,其中,所述训练视频集VID中都有完整的物体检测的标记框;

利用训练得到的静态图像分割流网络对视频集VID的每帧做图像分割,得到前景背景分割结果;

计算每个视频帧间的光流场并将视频每帧对应的光流场信息保存成RGB图;

根据预设的筛选策略结合所述训练视频集VID中的标记框筛选出分割正确的图像分割结果作为所述帧间信息分割流网络的初始训练图像;其中,所述筛选策略满足以下条件:

第一:对视频每帧进行图像分割的结果占据物体检测标记框的范围是75%到90%;

第二:计算得出的光流场RGB图的平均光流幅度值在5到100之间;

将所述初始训练图像进行随机裁剪、镜像、翻转、放大缩小、仿射变换后扩张至104量级的数据数量;

固定解码部分,使用60%的数据去训练编码部分,直到编码部分收敛;

使用100%的训练数据训练所述帧间信息分割流网络;其中,所述编码部分使用收敛时的权值进行初始化,解码部分进行随机初始化。

可选地,所述融合网络包括:连接层、卷积层、激活层、卷积层、激活层;其中:

所述连接层用于连接所述静态图像分割流网络和所述帧间信息分割流网络,并通过卷积层、激活层、卷积层、激活层对所述静态图像分割流网络和所述帧间信息分割流网络的输出结果进行融合,得到最终的视频分割结果。

可选地,所述静态图像分割流网络和帧间信息分割流网络在训练过程中进行网络参数的实时更新。

与现有技术相比,本发明具有如下的有益效果:

本发明提供的基于深度学习的无监督视频分割方法,通过构建包含静态图像分割流网络和帧间信息分割流网络的双流视频分割网络,其中,静态图像分割流网络用于高质量的帧内分割,帧间信息分割流网络用于高质量的光流场信息分割,两路输出通过最后的融合操作得到提升后的分割结果;当存在遮挡、运动缓慢等传统方法不能完整解决的问题时,本发明依然可以根据有效的双路输出和融合操作得到较好的分割结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明基于深度学习的无监督视频分割方法的原理图;

图2为本发明使用的解码网络中循环卷积层的原理示意图;

图3为本发明提出的生成帧间信息分割流网络训练所需数据集的筛选策略的效果示意图;

图4为本发明实施例在当前最好的无监督方法和有监督方法的结果对比图。其中,快速视频分割(Fast Object Segmentation in Unconstrained Video,FST)方法和物体流视频分割(Video Segmentation via Object Flow,OFL)方法分别为当前最好的无监督和半监督方法。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示,本实施提供一种基于深度学习的无监督视频分割方法,具体实施细节如下,以下实施没有详细说明的部分参照发明内容进行。

首先搭建两路网络,包括静态图像分割流和帧间信息分割流网络。两路网络的结构完全相同,它们都是基于编码—解码架构:其中编码部分是一个全卷积网络,包括五层广义卷积层(前三层都有卷积层,池化层和激活层,后两层没有池化层)和最后一层“扩张”的卷积层。其中最后一层分成4类不同尺度的“扩张”,每类形成一路,编码部分的输出结果是这4路输出结果的平均;解码部分也是一个全卷积网络,它接在编码部分的后面,包括三个循环卷积层和三个上采样层。最终两路的输出结果都与输入的大小一致。编码部分和解码部分的细节信息如下:

编码部分的具体结构如下:(以下列出的广义卷积层1~5层都是级联操作,第6层的4路之间是并联操作,第6层和第5层之间是级联操作)

广义卷积层1:卷积层1-1+激活层+卷积层1-2+激活层+池化层;

广义卷积层2:卷积层2-1+激活层+卷积层2-2+激活层+池化层;

广义卷积层3:卷积层3-1+激活层+卷积层3-2+激活层+卷积层3-3+激活层+池化层;

广义卷积层4:卷积层4-1+激活层+卷积层4-2+激活层+卷积层4-3+激活层+池化层;

广义卷积层5:卷积层5-1+激活层+卷积层5-2+激活层+卷积层5-3+激活层+池化层;

“扩张”卷积层6-1:“扩张”卷积层(dilation=6)+激活层+随机丢弃层(dropout)+卷积层+激活层+随机丢弃层(dropout)+卷积层;

“扩张”卷积层6-2:“扩张”卷积层(dilation=12)+激活层+随机丢弃层(dropout)+卷积层+激活层+随机丢弃层(dropout)+卷积层;

“扩张”卷积层6-3:“扩张”卷积层(dilation=18)+激活层+随机丢弃层(dropout)+卷积层+激活层+随机丢弃层(dropout)+卷积层;

“扩张”卷积层6-4:“扩张”卷积层(dilation=24)+激活层+随机丢弃层(dropout)+卷积层+激活层+随机丢弃层(dropout)+卷积层;

解码部分的具体结构如下:(以下列出的上采样层+循环卷积层3~1都是级联操作)

上采样层+循环卷积层3:上采样层是对上一层的输出进行两倍上采样。循环卷积层3是将编码部分卷积层3-3的输出进行卷积处理并和上采样层的输出进行循环卷积操作。

上采样层+循环卷积层2:上采样层是对上一层的输出进行两倍上采样。循环卷积层2是将编码部分卷积层2-2的输出进行卷积处理并和上采样层的输出进行循环卷积操作。

上采样层+循环卷积层1:上采样层是对上一层的输出进行两倍上采样。循环卷积层1是将编码部分卷积层1-2的输出进行卷积处理并和上采样层的输出进行循环卷积操作。为

需要说明的是,本实施例中的“+”表示级联关系,下标1-1表示广义卷积层1的第一层卷积层,下标1-2表示广义卷积层1的第二层卷积层;下标i-j表示广义卷积层i的第j层卷积层,其中i为1~5,j为1~3。下标6-1表示“扩张”卷积层的第一类“扩张”卷积层、下标6-2表示“扩张”卷积层的第二类“扩张”卷积层、下标6-3表示“扩张”卷积层的第三类“扩张”卷积层、下标6-4表示“扩张”卷积层的第四类“扩张”卷积层。

循环卷积层的细节如图2所示,它可以看成是在卷积层的基础上沿着时间维度增加了循环连接,这样做的好处是:随着训练时间的增加,每个卷积层在不增加参数的情形下增大对输入的局部感知范围,可以更换地捕捉、融合局部细节。如图2所示,本发明中设定循环连接的层数为3,在保证计算效率的同时平衡了训练的硬件压力。在搭建好上述网络后,分别对两路网络进行训练:

对于静态图像分割流网络:我们选取当前已公开的三个权威图像分割数据集(包括ECSSD,MSRA 10K和PASCAL VOC 2012),将它们汇总得到21582张图片,并通过随机裁剪、镜像、翻转、放大缩小、仿射变换等操作将数据集扩张至104量级,减轻训练过程中可能出现的过拟合。训练该网络时,先固定解码部分,使用60%的数据去训练编码部分;等编码部分收敛后,使用100%的训练数据去训练整个网络,其中编码部分使用之前收敛时的权值初始化,解码部分随机初始化。

对于帧间信息分割流网络:当前没有公开的大规模视频分割数据集,因而我们必须手动制作训练数据集。先收集ILSVRC2015中视频物体检测的训练视频集VID,这些视频集都有完整的物体检测的标记框,精确表示物体的位置。然后使用训练得到的静态图像分割流网络对视频集的每帧做图像分割得到前景背景分割结果。接着计算每个视频帧间的光流场并将视频每帧对应的光流场信息保存成RGB图。最后使用一套筛选策略结合已有的视频检测的标记框筛选得出符合条件的帧及其分割结果,将其汇总作为训练帧间信息分割流网络的训练数据。

筛选策略包括两点:1)可靠的分割结果:即对视频每帧进行图像分割的结果占据物体检测标记框的范围是75%到90%。2)可靠的光流场信息:即计算得出的光流场RGB图必须满足平均光流幅度值在5到100之间,很慢或很快的运动都会导致光流场信息非常不准确。

经过筛选最终得到24960张可供训练的原始数据(如图3所示,筛选过程中出现的部分可能情形及处理),并通过随机裁剪、镜像、翻转、放大缩小、仿射变换等操作将数据集扩张至104量级,减轻训练过程中可能出现的过拟合。训练该网络时,先固定解码部分,使用60%的数据去训练编码部分;等编码部分收敛后,使用100%的训练数据去训练整个网络,其中编码部分使用之前收敛时的权值初始化,解码部分随机初始化。

在上述两路网络训练完毕后,搭建最后一个部分—融合网络。该网络包括一个连接层和两个广义卷积层(包括卷积层和激活层)。融合网络的具体结构如下:连接层、卷积层、激活层、卷积层、激活层。其中,连接层将静态图像分割流网络和帧间信息分割流网络直接相连,对两路输出融合处理作为最终的分割结果。三个网络组成了一个整体即为完整的视频分割网络。

最后使用部分完全标注的视频分割数据集训练融合网络。参与训练过程的是已训练的静态图像分割流网络、已训练的帧间信息分割流网络和待训练的融合网络组成的整体。训练过程中,固定静态图像分割流网络和帧间信息分割流网络参数不更新,选取完全标注的视频分割数据集DAVIS中的部分训练集更新融合网络的参数,待训练收敛即完成。

至此,提出的无监督视频分割方法需要的深度神经网络已准备完毕。测试时直接使用该网络即可,不需要做任何后处理工作。测试流程如下:首先计算得到视频帧与帧之间的光流场并处理得到和每帧对应的光流场RGB图。然后将视频每一帧和其对应的光流场RGB图同步输入第二步得到的静态图像分割流网络和第四步得到的帧间信息分割流网络。最后融合网络的输出即为最终的分割结果。

为了体现本发明的进步性,本发明方法与当前有代表性的的无监督方法和半监督方法进行了比较。目前绝大多数视频分割方法采用的评估手段都是使用交除并(Intersection over U),公式定义如下:

IoU=100×(S∩G)/(S∪G)

其中:S为各算法得到的分割结果,G为对应的标准分割结果。IoU越大,说明分割结果越好。

表1

表1是本发明方法和其他方法在DAVIS和SegTrack v2两个数据集上的IoU结果对比。其中:DAVIS数据集是目前最权威的数据集,图片均为480p和1080p,物体种类多,标注清楚;SegTrack v2数据集物体都很小,视频分辨率比较低。从表的结果看出:在DAVIS数据集上,本发明方法超过所有的无监督和半监督方法,其中提升最好的无监督方法FST14%,提升最好的半监督方法接近两个点。需要注意的是,半监督方法因为需要第一帧或前面若干帧的准确标注,处理时间一般都比较长。拿OFL对比,OFL方法处理一张480p大小的图片需要接近2分钟,而本发明方法只需要0.2秒。在SegTrack v2数据集上,本发明方法较OFL方法差了一点,可能的原因如下:(1)视频的分辨率比较低,物体都较小,不利于本发明的深度学习的方法捕捉细节信息;(2)OFL方法是一种参数化方法,在实验中该方法针对每个视频都做了参数优化以得到最好的结果,相比之下,本发明的方法没有进行过特定域优化,在所有的实验视频上用的网络都是预训练好的。图4是本发明方法和FST方法、OFL方法的分割结果直观对比,可以看出本发明方法在细节处保存最好,分割精度也最高。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号