首页> 中国专利> 一种基于深度学习技术的视频摘要生成方法

一种基于深度学习技术的视频摘要生成方法

摘要

一种基于深度学习技术的视频摘要生成方法,包括:对视频流逐帧进行背景建模,获取运动前景作为候选运动目标;使用多目标跟踪算法对每一帧的候选运动目标跟踪,更新形成运动轨迹的候选目标;使用卷积神经网络训练目标分类器,对候选目标进行确认,在确认真实运动目标后,使用分类器对目标类别进行判定;将所有真实运动目标和相关信息贴合在少量图像上,形成视频快照显示给用户。本发明利用深度学习技术对真实目标和噪声进行准确区分;且利用准确的多目标追踪技术来避免逐帧进行目标确认,大幅减少了计算量,有效降低了弱小目标的漏检率及噪声的虚警率,提升了视频处理速度,能够运用于各种复杂的场景。

著录项

  • 公开/公告号CN104244113A

    专利类型发明专利

  • 公开/公告日2014-12-24

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201410525704.0

  • 发明设计人 袁飞;唐矗;

    申请日2014-10-08

  • 分类号H04N21/8549(20110101);G06T7/20(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人宋焰琴

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2023-12-18 08:15:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-22

    授权

    授权

  • 2015-01-14

    实质审查的生效 IPC(主分类):H04N21/8549 申请日:20141008

    实质审查的生效

  • 2014-12-24

    公开

    公开

说明书

技术领域

本发明涉及图像处理技术领域,更具体地,涉及一种基于深度学习技 术的视频摘要生成方法。

背景技术

现代社会中,视频监控系统在各行各业中都扮演着重要的角色,在维 护社会治安,加强社会管理以及安全保障方面发挥着重要的作用;但是伴 随着摄像头数目的飞速增长,海量的监控视频数据的存储以及了解这些视 频中记录的事件会耗费大量的人力、物力。根据ReportLinker公司统计, 在2011年,全世界拥有超过1.65亿个监控摄像机,产生1.4万亿个小时 的监控数据,假如有20%的重要监控视频数据需要人工观看,则需要雇佣 超过1亿的劳动力(每天工作8小时,每年工作300天)。因此,将大量 的视频进行浓缩,帮助用户快速了解视频中发生的事件,迅速锁定检索对 象,能够有效地提高海量监控视频的利用效率。

在图像处理领域,为了提高视频的浏览效率,可采用视频摘要技术, 将视频中用户感兴趣的内容提取出来,然后将它们以紧凑的方式重新安 排,以视频快照的形式将视频的内容展示出来。为了能够自动的提取视频 中用户感兴趣的内容,最简单的方法是提取原始视频中的关键帧,来构成 视频摘要(例如参考文献:查德威克凯姆等,“一种基于目标的视频摘要 整体方案”,《第八届计算机协会多媒体国际会议汇刊》,2000年,第303-311 页(Kim,C.,Hwang,J.N.:An integrated scheme for object-based video  abstraction.In:Proceedings of the eighth ACM international conference on  Multimedia.(2000)303-311)),但是关键帧无法完整的描述整段视频, 会造成视频中重要信息的丢失,而且由于视频内容种类繁多,如何选择合 适的关键帧是一个难题。另一种方法是先对视频内容进行分析,提取原始 视频中运动目标的相关信息,然后将提取出的运动信息紧凑地安排,生成 视频摘要(例如参考文献:雅艾尔普瑞奇等,“非时序视频摘要与索引”, 《IEEE模式分析与机器智能汇刊》,2008年,第1971-1984页(Pritch,Y., Rav-Acha,A.,Peleg,S.:Nonchronological video synopsis and indexing.IEEE  Trans.Pattern Anal.Mach.Intell.30(2008)1971-1984)),这种方法能够 较好的保留视频的动态内容。对于这种方法来说,问题的关键在于如何准 确地提取用户感兴趣的所有事件。

对于监控视频来说,监控视频的拍摄场景非常复杂:有的场景车辆多, 运动速度快,如高速公路;有的场景中,运动目标在画面上所占像素面积 很小;有的场景中,树木、旗子等不感兴趣的物体由于风吹而同样产生运 动等等;场景的复杂性为运动目标的准确检测带来很大的挑战。目前的视 频摘要技术并不能很好地解决复杂场景中运动目标的检测问题,常常使得 运动目标的漏检率非常高,同时受噪声干扰较大,无法准确提取视频中的 重要事件,从而致使生成的视频摘要漏掉原始视频中的重要信息。

发明内容

有鉴于此,本发明的目的是提出一种基于深度学习技术的视频摘要生 成方法,以方便用户对长时间的监控视频进行快速浏览,降低复杂场景中 运动目标的漏检率以及错检率。

为了实现上述目的,本发明提供了一种基于深度学习技术的视频摘要 生成方法,包括以下步骤:

步骤1,对输入的原始视频的图像序列进行背景建模,提取运动目标 对应的前景区域;

步骤2,将获得的所述前景区域作为运动候选目标,使用多目标跟踪 技术对所述运动候选目标进行跟踪,计算每一帧中所述运动候选目标的运 动轨迹;

步骤3,对确定所述运动轨迹为活跃轨迹的运动候选目标使用基于深 度学习技术的目标分类器进行进一步确认,判定所述运动候选目标是否是 真实的目标,以及确认目标后,再使用分类器判断所述运动候选目标的类 别;

步骤4,将多个检测到的所述运动目标贴合在同一幅图像中,生成视 频快照,以所述视频快照展示视频中检测到的所述运动目标。

其中,在步骤1中对输入的原始视频的图像序列进行背景建模的步骤 之前还包括将输入的所述原始视频的图像序列缩放至相同大小的步骤。

其中,在步骤1所述提取运动目标对应的前景区域的步骤中还包括对 获得的所述运动前景进行后处理的步骤,具体包括:

步骤11,用形态学结构元素,对所述前景区域进行形态学开运算和形 态学闭运算,获得轮廓光滑的前景区域,并且消除面积较小的噪声块;

步骤12,对所述前景区域进行面积计算,若所述前景区域像素点数目 小于T1=5时,则滤除所述前景区域,否则,保留所述前景区域,确定所 述前景区域是候选目标。

其中,在步骤2中所述的多目标跟踪技术是基于匈牙利算法构建的, 具体包括:

步骤21,计算当前帧的所述运动候选目标的颜色直方图特征,以及所 述颜色直方图特征与上一帧中运动候选目标的相似性;

步骤22,利用卡尔曼滤波预测上一帧中的所述运动候选目标在当前帧 的位置信息,计算所述运动候选目标的预测位置与当前帧所述运动候选目 标位置之间的欧氏距离;

步骤23,根据上述计算结果,使用匈牙利算法,对当前帧中的所述运 动候选目标与上一帧中所述运动候选目标的轨迹进行匹配,获得匹配结 果,并根据所述匹配结果更新所述运动候选目标的轨迹。

其中,在步骤3中所述的目标分类器是预先使用深度学习技术中的卷 积神经网络进行离线训练得到的,用于判定所述运动候选目标是否是真实 目标,以及所述运动候选目标的类型。

其中,对所述的目标分类器进行离线训练的步骤包括采用样品集来离 线训练所述目标分类器,以及训练所述目标分类器使用的样本集包括监控 视频中出现的五类运动目标或物体对应的图像和除去这五类外的图像背 景区域:①行人;②非机动车;③轿车等小型车;④卡车等大型车;⑤树 木、旗帜等非感兴趣目标但是会运动物体的局部;⑥监控场景中的除了上 述五类运动物体外的图像区域;通过上述训练得到一个六分类的目标分类 器,用于确认所述运动候选目标是否是真实目标。

其中,将上述样本中①、②类样本以及③、④样本分别组合成两个大 的类别:人、机动车,使用这两类样本训练一个人/机动车的二分类分类器, 用于在确认所述运动候选目标为感兴趣目标之后,对所述运动候选目标的 类别进行判定。

其中,步骤3具体包括以下步骤:

步骤31,对于没有形成轨迹的所述运动候选目标,使用所述六分类分 类器进行分类,只有当所述运动候选目标被判定为上述第⑤或者第⑥类时 才认为该候选目标是噪声,否则认为是真实目标;而对于形成轨迹的所述 运动候选目标,挑选其轨迹中的三个位置对应的包含所述运动候选目标的 图像,分别使用所述六分类分类器进行分类,判定所述运动候选目标是否 是真实目标,如果在这三个位置,所述运动候选目标都被判定为第⑤或者 第⑥类,才认为所述运动候选目标是噪声,删除该轨迹,否则认为所述运 动候选目标为真实运动目标;

步骤32,对于判定为真实运动目标的情况,如果在所述运动候选目标 确认时的三次分类中,对所述运动候选目标是人还是机动车的判定存在分 歧,则对所述运动候选目标使用人/机动车的分类器对其进行类型判定。

其中,在步骤4中,在确认后的所述目标轨迹中,挑选面积最大的一 个位置,使将所述位置对应的图像贴合在一幅快照上,多个所述运动候选 目标贴合组成一张快照,使用所述快照展示视频中出现的运动目标。

其中,在步骤4中,生成的所述快照中所有所述运动候选目标没有重 叠,并且所述运动候选目标在所述快照上出现的先后顺序整体上是按照所 述运动候选目标出现的真实时间排列。

基于上述技术方案可知,本发明针对复杂场景下的监控视频,通过新 颖的视频内容分析技术,提取原始视频中的候选运动目标,并通过多目标 跟踪,对候选目标进行初步区分,对于未形成轨迹和形成轨迹的候选运动 目标,通过深度学习方法进行确认和分类,并以图像的形式紧凑地显示给 用户,用户通过观看记录每个运动目标事件的图片便可达到观看原始视频 的目的,大大地缩短了用户观看视频所耗费的时间。本发明的方法充分考 虑到场景的复杂性,采用的技术方案能够保证计算结果的可靠性,将运动 目标事件的漏检率以及噪声的干扰控制在极低的水平,从而使得本发明可 以广泛运用于许多部门的实战中,例如公安侦查等。

附图说明

图1是本发明的基于深度学习技术的视频摘要生成方法的流程图;

图2是本发明的基于深度学习技术的视频摘要生成方法中多目标跟踪 方法的流程图;

图3是本发明的基于深度学习技术的视频摘要生成方法中候选目标确 认的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明作进一步的详细说明。

本发明提出了一种基于深度学习技术的视频摘要生成方法,该方法包 括以下步骤:

首先,对原始视频的图像序列进行背景建模,获得运动前景块,并对 其进行前景后处理等;其次,把提取出来的运动区域当做候选运动目标, 利用基于匈牙利算法的多目标跟踪技术对这些候选运动目标进行跟踪,将 候选目标分为形成轨迹和未形成轨迹两类;再次,使用卷积神经网络分类 器对于候选运动目标进行进一步的确认和分类;最后,将多个确认的运动 目标贴合在同一幅图像上,本发明将贴合后的图像称为“视频快照”。值 得指出的是,本发明方法先把提取的运动区域当做潜在的运动目标进行跟 踪,将候选运动目标初步区分,并使用深度学习中的卷积神经网络(CNN) 对候选目标进行进一步的确认与类型判定,从而有效地降低了把噪声误判 为运动目标的概率,并且保证了运动目标的检测率,并且对于形成轨迹的 候选运动目标只进行三次分类判定,减少了计算量。可进行视频摘要处理 的原始视频包括但不限于:视频监控系统采集的实时视频流、视频监控系 统储存的录像文件、常规的多媒体视频文件、电视节目、电影等。

为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方 式作进一步描述。

本发明的基于深度学习技术的视频摘要生成方法的框架图如图1所 示,本发明提出了一种基于深度学习技术的视频摘要生成方法,可以用于 复杂场景进行可靠工作,其具体实施步骤如下:

步骤S101,采集待生成视频摘要的视频数据;

步骤S102,存储所采集的原始视频,形成原始视频数据库;原始视频 可以是监控摄像头实时采集的视频,也可以是监控录像的回放视频;

步骤S103,对不同分辨率的原始视频,将视频的每一帧都缩放至相同 大小,进行背景建模,提取运动的前景区域,并进行后处理,作为候选运 动目标;

将不同分辨率的原始视频帧进行统一缩放,而不是直接对高分辨率的 原始图像进行处理,能够有效地提高背景建模提取运动区域的运算速度。 在本发明的实施例中,背景建模可以采用多种相关算法,本实施例不一一 列举。背景建模的目的,是为了将视频帧中的背景以及运动目标区分开。 场景中的背景是指视频中较长时间保持不变或者有微小变化的区域,相对 应的,场景中的前景是指有明显变化的区域。例如在一段监控视频中,在 场景中行驶的汽车和走路的行人,只在短时间内存在在视频场景中,所以 被认为是运动前景,而马路、红绿灯和路两旁的树木,长时间存在在视频 场景中,可以被当做运动背景。通过对原始视频进行背景建模,再使用当 前帧与背景模型进行匹配,区分运动前景与背景。

但是,对于复杂监控场景下视频的运动前景提取往往存在一些噪声 点,例如树木等属于背景的部分,由于风吹扰动,而被误判为前景,为了 有效地减少噪声点,本发明的优选实施例中对同一段视频使用两个背景模 型,两个背景模型相差300帧分别更新,但是在提取运动前景时,使用当 前帧分别与这两个背景模型进行对比,得到两幅前景二值图,分别指示当 前帧上的运动区域,对这两幅前景二值图进行“与”操作,得到的二值图 作为当前帧对应的前景二值图;此外,对所获得的运动前景进行前景后处 理,前景后处理采用形态学计算,具体包括:

首先,使用形态学结构元素,对前景目标进行形态学开运算和形态学 闭运算,可获得轮廓光滑的前景,并消除面积较小的噪声点,缩小面积较 大的噪声点;

然后,对前景目标进行面积计算,若前景目标的面积中像素点个数小 于阈值T1=5时,则认为该前景目标属于噪声,应滤除,反之,则保留该 前景目标。通过以上方法,来消除运动前景中的噪声干扰,并且可使前景 的边缘变得平滑。

步骤S104,把步骤S103中每一帧提取的运动前景当做候选的运动目 标,利用基于匈牙利算法多目标跟踪技术对这些候选运动目标进行跟踪。 其中,活跃轨迹表示正在跟踪的、在实时处理结果中显示的轨迹;历史轨 迹,表示当前没有被跟踪,但是可能转变成活跃轨迹的轨迹;死亡轨迹, 表示彻底结束、不再被跟踪的轨迹。

本方法采用基于匈牙利算法的多目标跟踪方式来获取运动目标的运 动轨迹,其中匈牙利算法用来计算多个运动目标的最优对应问题。其中, 运动目标相似度的描述是基于运动目标的颜色信息和位置信息。颜色信息 采用颜色直方图来量化,颜色直方图表示图像中颜色分布的一种统计值, 表示不同色彩在图像中所占的比例,计算简单,而且具有尺度、平移以及 旋转不变性。位置信息结合卡尔曼滤波器来计算,卡尔曼滤波是在最小均 方误差准则下的线性系统最优估计方法,它的基本思想是使得估计误差的 方差为最小,并且估计是无偏的,能够提升目标跟踪效果。

如图2所示,本发明中基于匈牙利算法的多目标跟踪方式来获取运动 目标的运动轨迹具体可分为以下几个步骤:

步骤S1041,计算步骤S103中所有候选运动目标的8×8×8颜色直方 图特征,然后计算当前帧中获得的运动目标的颜色直方图特征与上一帧运 动目标的颜色直方图特征的相似性。优选地,本发明采用RGB颜色空间 计算每一个运动目标的颜色直方图:先对颜色空间RGB中的三个颜色分 量进行量化,将每个颜色空间划分为8个子空间,每个子空间对应直方图 中的一维(bin),统计落在直方图每一维对应的子空间内的像素数目,从 而得到颜色直方图,然后计算上一帧活跃轨迹对应的运动目标与当前帧运 动目标的颜色直方图特征之间的相似度。优选地,本发明采用Hellinger 距离来度量两个直方图分布的相似度:

d(h1,h2)=1-1h1h2N2Σq=1Nh1(q)h2(q)

其中,h1(q)和h2(q)代表两个颜色直方图向量,N为8×8×8, hk=1NΣj=1Nhk(j).

若两个目标的颜色直方图越相似,即颜色直方图向量之间的Hellinger 距离越小,则两个目标匹配的可能性越高,其概率分布符合高斯分布。例 如,公路的监控视频画面中,左侧有一辆白色小轿车W,右侧有一辆黑色 小轿车B,本方法需要对这两个运动目标进行跟踪,从而获取它们的运动 轨迹。若在上一帧中,对画面中检测到的两个运动物体W和B计算颜色 直方图得到h1和h2,对当前帧画面中的两个运动物体W和B计算颜色直 方图得到h3和h4,通过计算h1和h3,h1和h4,h2和h3,h2和h4之间的 Hellinger距离,可发现h1和h3,h2和h4的Hellinger距离远远小于h1和h4, h2和h3之间的Hellinger距离,那么能够得到h1和h3是W在连续两帧所对 应的颜色直方图,h2和h4是B在连续两帧所对应的颜色直方图,该信息可 帮助连续两帧出现的目标进行匹配。

步骤S1042,根据上一帧图像中运动目标的活跃轨迹信息,利用卡尔 曼滤波器预测运动目标的位置。根据第t-1帧图像中的每条活跃轨迹信息, 利用卡尔曼滤波器预测第t帧中运动目标出现的位置。步骤S103中得到第 t帧的候选运动目标,而在S1042中该步骤中依次对运动目标在第t帧的 预测位置与第t帧检测模块的目标检测结果进行欧式距离计算,欧氏距离 越小,则预测位置与确切位置越接近,那么两个目标匹配的可能性越高, 其概率分布符合高斯分布。例如,上文提到的监控画面中的左侧车辆W和 右侧车辆B,若在第t-1帧中,对画面中的检测到的两个运动物体W和B 利用卡尔曼滤波器进行位置预测,得到在第t帧中的预测位置l1′和l2′,步 骤S104中在第t帧对两个运动物体W和B进行检测后,获取目标的实际 位置l1和l2。因为在连续的两帧中,车辆的位置不会发生巨大变动,所以l1′ 和l1,l2′和l2的欧式距离将远远小于l1′和l2,l1′和l2的欧式距离,该信息可 帮助连续两帧出现的目标进行匹配。

步骤S1043,采用匈牙利算法,利用颜色信息和位置信息来进行多目 标的匹配,匈牙利算法是解决二分图最大匹配问题的经典算法。例如,若 在第t-1帧中存在m个活跃轨迹,步骤S103在第t帧中获得了n个候选运 动目标,并由Hellinger计算第t-1帧的活跃轨迹与第t帧的运动目标颜色 直方图特征之间的相似度,并得到m×n的矩阵M1;而计算第t-1帧的活跃 轨迹在第t帧中的预测位置与第t帧运动目标的确切位置之间的欧式距离, 可以得到m×n的矩阵M2。将矩阵M1和M2对应位置的元素相乘,得到m×n 的矩阵M,将该矩阵M作为匈牙利算法的输入值,匈牙利算法可给出第t-1 帧中m个活跃轨迹与第t帧n个运动目标的匹配结果,匹配结果中若相似 度小于阈值T2=0.5时,则认为不匹配,反之则匹配成功。

步骤S1044,根据上一步骤中目标的匹配结果,生成当前帧中运动目 标的运动轨迹;同时预测目标在下一帧中的位置信息等。

若第t-1帧的活跃轨迹mi与第t帧的运动目标nj匹配成功,则认为目 标nj在前t-1帧中的运动轨迹为mi,更新活跃轨迹mi。此时,对于目标nj在 第t帧的跟踪过程结束。

若第t帧的运动目标没有匹配到第t-1帧的活跃轨迹,说明该目标没 有运动轨迹,为新目标;若第t-1帧的活跃轨迹没有匹配到第t帧的运动 目标,说明目标已消失,则将该活跃轨迹与历史轨迹进行匹配,若能匹配 上,则该活跃轨迹与历史轨迹整合为新的活跃轨迹,否则,该活跃轨迹转 变为历史轨迹。

本发明在第t帧目标nj更新活跃轨迹后,利用卡尔曼滤波器预测目标 nj在第t+1帧的位置,并保存目标nj的类型、位置、面积、宽高比等信息, 以在第t+1帧目标检测时使用。

步骤S105,利用目标分类器,对候选运动目标进行确认和分类。

在步骤S103、S104中,通过背景建模的方法对原始视频中的运动区 域进行了提取和跟踪,但是由于噪声(如树木、旗帜等)能够直接干扰到 背景建模对于运动区域的提取,因此在S103、S104中提取的候选运动目 标中很容易混有大量的噪声,如果直接把这些候选目标当做真实的运动目 标,用以生成视频快照,会导致快照数目过多,虚警过多,从而影响用户 查找感兴趣目标的效率,因此,需要对这些候选运动目标进行进一步的筛 选和判定,区分真实的运动目标和噪声。鉴于深度学习技术在越来越多图 像识别领域的应用中表现出了优越的性能,本发明创造性的将深度学习技 术使用在视频摘要方法中,充分的利用了深度学习技术在图像识别方面的 卓绝性能。在本发明中,我们使用了基于深度学习技术中的卷积神经网络 (CNN)作为目标分类器来区分真实运动目标以及噪声。

在步骤S104中,分别对步骤S103中每一帧提取得到的候选运动目标 进行跟踪,对于未形成轨迹的候选目标,直接使用目标分类器对其进行判 定,而对于形成轨迹的候选运动目标,在其轨迹变成死亡轨迹之后,使用 目标分类器对其进行进一步的确认,判断该候选目标是否是真实运动目 标,如果判定是真实目标,则对该目标进行类别判定。这样做,一方面可 以利用CNN分类器的优越性能,对候选目标进行精确地判定,区分噪声 和真实目标;另一方面,对于形成轨迹的目标只进行少量的分类操作,而 不是逐帧进行分类,减少计算量;最后,对目标进行了分类,方便之后的 快照生成与目标检索。

本发明优选实施例中,采用离线训练好的目标分类器,对步骤S104 中获得的候选目标进行确认和分类。目标分类器的离线训练具体实施方法 如下:

首先,收集训练样本。样本集可以根据各种具体场景需要进行分类, 例如对于交通路况监控,可以分为:(1)行人;(2)非机动车;(3)轿车 等小型车;(4)卡车等大型车;(5)树木、旗帜等非感兴趣目标但是会运 动物体的局部;(6)监控场景中的除了上述五类运动物体外的图像区域; 这些样本是根据具体场景需要从真实的监控视频中通过人工标注裁剪得 到的。对于其他场景也可以有各种不同的分类。在本发明的优选实施例中, 针对交通路况监控,训练了一个六分类分类器分别用来判定候选目标是否 是真实目标,和一个人/机动车的二分类分类器对真实的目标进行类型判 定。之所以在确认目标时将目标类别进行细致的划分,是因为这样充分考 虑到了感兴趣目标类内的差异,可以更加详细准确的区分真实的感兴趣目 标与噪声,例如,轿车与大卡车如果共同归类为机动车大类进行训练,由 于两者在外观上存在差异性,会使得训练获得的分类器模型更容易将噪声 判定为机动车大类,而如果拆分为两个小类,那么这两个类别与噪声的区 分度会变大,从而能够更准确的区分感兴趣目标与噪声。

其次,卷积神经网络的构建。本发明使用深度学习技术中的卷积神经 网络(CNN)来对目标图像进行分类。在本发明的优选实施例中,我们构 建了一个包含三个卷积层,三个下采样层,三个非线性传播函数层,一个 全连接层,一个回归层的神经网络结构,收集的样本经过缩放归一化之后, 与其类别标签一起输入网络,以最大化的区分输入的不同类别样本为目 标,使用随机梯度下降算法,对网络进行优化,学习得到网络结构中各层 的参数。这一学习过程是离线进行的,为了能够对于大量样本进行快速学 习训练,本发明提出了一种对于图像进行分割,并行计算图像卷积的方法:

以卷积核大小为n×n(n为奇数)为例:

1、将输入的训练样本图像分割为m×m的若干块,如果图像不能够 分割为整数个小块,则在边缘处补0后分割;

2、对于每一小块图像,以该小块图像中心为中心取(m+n-1)×(m+n -1)大小的图像作为训练样本图像的子图像,将同一个样本图像的的子图像 并行地进行卷积计算,这样得到的每个子图像卷积后特征图大小为m×m;

3、将同一幅子图像m×m特征图按照其在原图上的位置进行排列, 很容易证明获得的与原图等大小的特征图即是该图像经过卷积计算得到 的特征图;

使用这样的方法能够实现对于同一幅图像卷积计算的并行化,从而极 大地提高了模型训练的速度,此外,为了使模型的训练更加精细,在本方 法中,对于每一层网络的学习率参数进行动态设置,学习率参数会根据模 型的收敛程度进行自动微调,从而使得模型应用在实际场景中的鲁棒性更 高。

在学习得到所有最优的参数后,获得相应的模型。在对图像进行分类 时,使用该模型,通过三个卷积层、下采样层以及非线性传播函数层计算 该图像对应的特征图,特征图的计算方法如下:

1、将图像按照RGB三通道分解为三幅等大小图像,作为整个卷积网 络的输入;

2、输入卷积层,通过训练得到的N个卷积核对输入图像进行卷积, 获得N幅特征图;

3、对N幅特征图进行下采样,获得新的特征图;

4、对于采样后的特征图通过一个非线性传播函数层,对每个特征值 进行放大;

5、把非线性传播函数层的输出作为下一个卷积层的输入,重复2-4 的步骤,一共通过三次卷积层、下采样层和非线性传播函数层,把最后一 个非线性传播函数层的输出作为输入图像的特征图;

把得到的特征图作为全连接层以及逻辑回归层的输入,将训练得到的 特征图分别通过全连接层网络,全连接层的每个卷积核对所有的特征图进 行卷积计算,并将卷积结果按照一定的顺序排成组成一个N维的特征向量 组,该特征向量转置后通过逻辑回归层的N×M参数矩阵得到一个1×M 的概率矩阵,该矩阵的M个元素分别表示该图像属于M个类别的概率, 从而达到对输入图像进行分类的目的。

如图3所示,候选目标的确认以及分类具体可分为以下几个步骤:

步骤S1051,判定候选目标是否形成了轨迹;

步骤S1053、S1054,对于未形成轨迹的候选目标,使用六分类分类 器进行判定,如果该候选目标类型属于第(5)或者第(6)类,则认为该 候选目标确实为噪声;

步骤S1052,判定候选目标的轨迹是否是死亡轨迹,如果不是死亡轨 迹,说明目标仍然在被跟踪,此时不进行目标确认,这样是为了对每一个 轨迹只确认一次,提高运算速度;在本方法中,当某个历史轨迹,经过N 帧的匹配运算,仍然无法与运动前景匹配上,则视为该历史轨迹终止,本 算法中N=50。

步骤S1055,一个候选目标在不同帧中存在于视频帧上的不同位置, 根据其轨迹记录的位置信息,从相应的视频帧上获得该目标的对应图像, 进行确认,在本发明的优选实施例中,为保证目标确认的准确性,从一个 目标轨迹的起始、中间以及终止处各选择一幅包含候选目标的图像,共三 幅进行确认。

步骤S1056、S1057和S1058,使用六分类分类器分别对三幅候选目 标图像进行分类,如果三幅图像的类别都被判定为属于第(5)或者(6) 类,则认为该候选目标是噪声,删除该目标的信息;否则,则认为该目标 是真实目标;同时记录六分类分类器对于该目标的三次类型判定,如果这 三次类型判定对于该目标的大类别(人/机动车)判断存在分歧,例如,一 次判断为非机动车,另外两次判断为轿车等小型车,那么对于该目标使用 人/机动车分类器进行类别判定。

步骤S1059,当确定一个真实目标的类别之后,记录该目标的类型、 轨迹信息用以在之后生成视频快照。

步骤S106,把所有记录的运动目标用少量的快照展示。使用原始视频 中若干帧的平均作为生成的快照背景图像,把记录的真实运动目标按照其 在原始帧中出现的位置贴合在快照背景图像上;由于每一个运动目标除了 类型信息之外,还记录该目标的轨迹信息,为了使用少量的快照清晰地展 现该目标,从该目标轨迹上的各个位置中挑选目标面积最大的位置,提取 该目标,并且按照其在该帧中出现的位置贴合在快照背景图像上;同时, 为了只使用少量的快照展示所有的目标,并且每一个目标都能够在快照上 清晰地展现,本方法提出了一种局部优化的快照生成算法:

1、在算法处理过程中即时记录检测到的目标,在队列中进行保存;

2、当队列长度大于一定阈值T时,进行一次快照生成:将队列中第 一个目标O1进行贴合;

3、判断队列中剩余的目标是否与第O1重叠,找到第一个与O1不重 叠的目标O2贴合在快照上;

4、以O2为起始,向后查找,直到找到第一个与O2无重叠的目标, 贴合在快照上;

依次类推,直至队列遍历结束。

该方法生成的快照中所有目标没有重叠,并且目标在快照上的出现的 先后顺序整体上是按照目标出现的真实时间排列,从而保证了目标在快照 上的清晰展示,同时可以通过提高阈值T来灵活地提高目标在快照上密 度,减少快照数目;对于每一个贴合在快照上的目标,其出现在视频中的 时间都会标定在目标上,方便,用户快速的在原始视频中定位感兴趣的目 标。

经过实际验证,本发明的优选实施例在配置Intel i7-3770 CPU的PC 机上对高清的监控视频(1280×720以上)的处理速度可以达到视频正常 播放速度的12-20倍,而目标的遗漏率小于2%,虚警率小于5%。

本发明关注视频摘要系统在复杂场景下的可靠性,创造性的使用了基 于深度学习的目标分类技术,大幅减小了运动目标的漏检率,同时,降低 噪声被误判为运动目标从而干扰视频摘要质量的概率;除此之外,在对运 动目标的判定与检测过程中,使用了多目标追踪技术,从而避免了对于每 一帧中的候选运动目标逐个进行分类判定,大幅减少了计算量,从而提升 了视频摘要系统处理视频的速度。与传统的视频摘要方法相比,本发明能 够准确、快速、完整地提取复杂场景中前景运动目标,以少量快照图片的 形式清晰地展示出长段视频中的所有运动目标,在复杂场景下,能够生成 可靠的视频摘要。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已, 并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、 等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号