首页> 中国专利> 视频类别识别方法和装置、数据处理装置和电子设备

视频类别识别方法和装置、数据处理装置和电子设备

摘要

本发明实施例公开了一种视频类别识别方法和装置、数据处理装置和电子设备。其中,方法包括:对视频进行分段,获得多个分段视频;分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果;以及利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果;对空域分类结果和时域分类结果进行融合处理,获得所述视频的分类结果。本发明实施例可以提高视频类别识别的正确率。

著录项

  • 公开/公告号CN106599789A

    专利类型发明专利

  • 公开/公告日2017-04-26

    原文格式PDF

  • 申请/专利权人 北京市商汤科技开发有限公司;

    申请/专利号CN201611030170.X

  • 申请日2016-11-15

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构北京思元知识产权代理事务所(普通合伙);

  • 代理人杨惠

  • 地址 100084 北京市海淀区中关村东路1号院3号楼7层710-712房间

  • 入库时间 2023-06-19 02:00:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-11

    授权

    授权

  • 2017-05-24

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20161115

    实质审查的生效

  • 2017-04-26

    公开

    公开

说明书

技术领域

本发明属于计算机视觉技术领域,特别是涉及一种视频类别识别方法和装置、数据处理装置和电子设备。

背景技术

动作识别是计算机视觉研究的一个热门方向。动作识别技术主要是通过对由彩色图片序列构成的视频进行处理,来识别出视频中的动作。动作识别技术的难点在于:如何对动态变化的视频内容进行处理,以克服距离、视角的变化,相机的移动,以及场景的变化等来正确识别出视频中的动作。

目前,常用的动作识别技术主要是使用手工设计的特征描述子配合支持向量机等分类器进行动作识别。其中,最具代表性的方法为使用改进型密集轨迹描述子作为特征,配合支持向量机分类器进行动作识别。这类方法由于手工设计的特征描述子无法在训练时自动改进特征表示,常常无法获得较好的识别正确率。

近年来,随着深度学习技术的飞速发展,特别是在计算机视觉领域中的应用,基于深度学习的动作识别技术已经逐渐成为主流。这类基于深度学习的方法主要是使用卷积神经网络对视频进行处理,从而识别出视频中的动作。

发明内容

本发明实施例提供一种视频类别识别技术方案。

根据本发明实施例的一个方面,提供一种视频类别识别方法,包括:

对视频进行分段,获得多个分段视频;

分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;

利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果;以及利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果;

对所述空域分类结果和所述时域分类结果进行融合处理,获得所述视频的分类结果。

基于上述方法的另一个实施例中,所述对视频进行分段包括:

对所述视频进行平均分段,获得长度相同的多个分段视频。

基于上述方法的另一个实施例中,所述获得各分段视频的原始图像包括:

分别从各分段视频中随机抽取一帧图像,作为各分段视频的原始图像。

基于上述方法的另一个实施例中,所述获得各分段视频的光流图像包括:

分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像。

基于上述方法的另一个实施例中,所述光流图像为基于8位位图、共256个离散的色阶的灰度图像,所述灰度图像的中值为128。

基于上述方法的另一个实施例中,所述分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像包括:

分别针对各分段视频:从每一分段视频中随机抽取连续的N帧图像;其中,N为大于1的整数;以及

分别基于所述N帧图像中的每相邻的两帧图像进行计算,获得N-1组光流图像,所述N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。

基于上述方法的另一个实施例中,其特征在于,所述利用空域卷积神经网络处理各分段视频的原始图像以获得所述视频的空域分类结果包括:

分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果;

利用空域共识函数对所述多个分段视频的空域初步分类结果进行综合处理,获得所述视频的空域分类结果;

和/或

利用时域卷积神经网络处理各分段视频的光流图像以获得所述视频的时域分类结果包括:

分别利用时域卷积神经网络对各分段视频的光流图像进行处理,获得各分段视频的时域初步分类结果;

利用时域共识函数对所述多个分段视频的时域初步分类结果进行综合处理,获得所述视频的时域分类结果。

基于上述方法的另一个实施例中,所述空域共识函数和/或所述时域共识函数包括:平均函数、最大值函数或带权平均函数。

基于上述方法的另一个实施例中,还包括:

选取在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数作为所述空域共识函数;和/或

选取在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数作为所述时域共识函数。

基于上述方法的另一个实施例中,所述空域初步分类结果及所述时域初步分类结果分别为维度等于分类类别数量的分类结果向量;

所述视频的空域分类结果及所述视频的时域分类结果分别为维度等于分类类别数量的分类结果向量;

所述视频的分类结果为维度等于分类类别数量的分类结果向量。

基于上述方法的另一个实施例中,对所述空域分类结果和所述时域分类结果进行融合处理包括:

将所述空域分类结果与所述时域分类结果分别乘以预先设定的权重系数后进行求和,获得所述视频的分类结果。

基于上述方法的另一个实施例中,所述空域分类结果与所述时域分类结果之间的权重系数比值为1:1.5。

基于上述方法的另一个实施例中,所述光流图像具体为原始光流图像,所述时域卷积神经网络具体为第一时域卷积神经网络;

分别利用所述第一时域卷积神经网络对各分段视频的原始光流图像进行处理,获得各分段视频的第一时域初步分类结果;

利用第一时域共识函数对所述多个分段视频的第一时域初步分类结果进行综合处理,获得所述视频的第一时域分类结果。

基于上述方法的另一个实施例中,还包括:

获取所述原始光流图像变形后的变形光流图像;

分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理,获得各分段视频的第二时域初步分类结果;

利用第二时域共识函数对所述多个分段视频的第二时域初步分类结果进行综合处理,获得所述视频的第二时域分类结果;

对所述空域分类结果和所述时域分类结果进行融合处理包括:对所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果进行融合处理,获得所述视频的分类结果。

基于上述方法的另一个实施例中,所述获取原始光流图像变形后的变形光流图像包括:

分别对每相邻的两帧图像进行计算,获得每相邻的两帧图像之间的单应性变换矩阵;

分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换;

分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算,获得变形光流图像。

基于上述方法的另一个实施例中,所述对每相邻的两帧图像进行计算包括:根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。

基于上述方法的另一个实施例中,对所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果进行融合处理包括:

将所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果分别乘以预先设定的权重系数后进行求和,获得所述视频的分类结果。

基于上述方法的另一个实施例中,所述空域分类结果与所述第一时域分类结果及所述第二时域分类结果之间的权重系数比值为1:1:0.5。

基于上述方法的另一个实施例中,所述视频的分类结果为维度等于分类类别数量的分类结果向量;

所述方法还包括:

利用Softmax函数对所述视频的分类结果向量进行归一化处理,获得视频属于各类别的分类概率向量。

基于上述方法的另一个实施例中,还包括:

预设初始空域卷积神经网络和初始时域卷积神经网络;

分别基于各作为样本的视频,采用随机梯度下降法对所述初始空域卷积神经网络进行训练,获得所述空域卷积神经网络;以及采用随机梯度下降法对所述初始时域卷积神经网络进行训练,获得所述时域卷积神经网络。

基于上述方法的另一个实施例中,采用随机梯度下降法对所述初始空域卷积神经网络进行训练,获得所述空域卷积神经网络包括:

针对一个作为样本的视频,开始执行所述对视频进行分段的操作,直到获得所述视频的空域分类结果;

比较所述视频的空域分类结果相对于所述视频的预设标准空域分类结果的偏差是否小于预设范围;

若不小于预设范围,对所述初始空域卷积神经网络的网络参数进行调整;以调整网络参数后的空域卷积神经网络作为初始空域卷积神经网络,针对下一个作为样本的视频,开始执行所述对视频进行分段的操作;

若小于预设范围,以当前的初始空域卷积神经网络作为所述空域卷积神经网络。

基于上述方法的另一个实施例中,采用随机梯度下降法对所述初始时域卷积神经网络进行训练,获得所述时域卷积神经网络包括:

针对一个作为样本的视频,开始执行所述对视频进行分段的操作,直到获得所述视频的时域分类结果;

比较所述视频的时域分类结果相对于所述视频的预设标准时域分类结果的偏差是否小于预设范围;

若不小于预设范围,对所述初始时域卷积神经网络的网络参数进行调整;以调整网络参数后的时域卷积神经网络作为初始时域卷积神经网络,针对下一个作为样本的视频,开始执行所述对视频进行分段的操作;

若小于预设范围,以当前的初始时域卷积神经网络作为所述时域卷积神经网络;

所述初始时域卷积神经网络包括第一初始时域卷积神经网络或第二初始时域卷积神经网络,所述时域分类结果相应的包括第一时域分类结果或第二时域分类结果,所述时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。

基于上述方法的另一个实施例中,还包括:

利用Softmax函数对所述视频的空域分类结果进行归一化处理,获得所述视频属于各类别的一个空域分类概率向量;以及利用Softmax函数对所述视频的时域分类结果进行归一化处理,获得所述视频属于各类别的一个时域分类概率向量。

根据本发明实施例的另一个方面,提供一种视频类别识别装置,包括:

分段单元,用于对视频进行分段,获得多个分段视频;

采样单元,用于分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;

空域分类处理单元,用于利用空域卷积神经网络处理各分段视频的原始图以获得所述视频的空域分类结果;

时域分类处理单元,用于分别利用时域卷积神经网络处理各分段视频的光流图像以获得各分段视频的时域分类结果;

融合单元,用于对所述空域分类结果和所述时域分类结果进行融合处理,获得所述视频的分类结果。

基于上述装置的另一个实施例中,所述分段单元,具体用于对所述视频进行平均分段,获得长度相同的多个分段视频。

基于上述装置的另一个实施例中,所述采样单元包括:

图像采样模块,用于分别从各分段视频中随机抽取一帧图像,作为各分段视频的原始图像;

光流采样模块,用于分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像。

基于上述装置的另一个实施例中,所述光流图像为基于8位位图、共256个离散的色阶的灰度图像,所述灰度图像的中值为128。

基于上述装置的另一个实施例中,所述光流采样模块,具体用于:

分别针对各分段视频:从每一分段视频中随机抽取连续的N帧图像;其中,N为大于1的整数;以及分别基于所述N帧图像中的每相邻的两帧图像进行计算,获得N-1组光流图像,所述N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。

基于上述装置的另一个实施例中,所述空域分类处理单元包括:

空域分类处理模块,用于分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果;和

第一综合处理模块,用于利用空域共识函数对所述多个分段视频的空域初步分类结果进行综合处理,获得所述视频的空域分类结果;

所述时域分类处理单元包括:

第一时域分类处理模块,用于分别利用时域卷积神经网络对各分段视频的光流图像进行处理,获得各分段视频的时域初步分类结果;和

第二综合处理模块,用于利用时域共识函数对所述多个分段视频的时域初步分类结果进行综合处理,获得所述视频的时域分类结果。

基于上述装置的另一个实施例中,所述空域共识函数和/或所述时域共识函数包括:平均函数、最大值函数或带权平均函数。

基于上述装置的另一个实施例中,所述空域共识函数具体为在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数;

所述时域共识函数具体为在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数。

基于上述装置的另一个实施例中,所述空域初步分类结果及所述时域初步分类结果分别为维度等于分类类别数量的分类结果向量;

所述视频的空域分类结果及所述视频的时域分类结果分别为维度等于分类类别数量的分类结果向量;

所述视频的分类结果为维度等于分类类别数量的分类结果向量。

基于上述装置的另一个实施例中,所述融合单元,具体用于将所述空域分类结果与所述时域分类结果分别乘以预先设定的权重系数后进行求和,获得所述视频的分类结果。

基于上述装置的另一个实施例中,所述空域分类结果与所述时域分类结果之间的权重系数比值为1:1.5。

基于上述装置的另一个实施例中,所述光流图像具体为原始光流图像,所述时域卷积神经网络具体为第一时域卷积神经网络;

所述第一时域分类处理模块,具体用于分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理,获得各分段视频的第一时域初步分类结果;

所述第二综合处理模块,具体用于利用第一时域共识函数对所述多个分段视频的第一时域初步分类结果进行综合处理,获得所述视频的第一时域分类结果。

基于上述装置的另一个实施例中,还包括:

光流处理单元,用于获取所述原始光流图像变形后的变形光流图像;

所述时域分类处理单元还包括:

第二时域分类处理模块,用于分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理,获得各分段视频的第二时域初步分类结果;

第三综合处理模块,用于对所述多个分段视频的第二时域初步分类结果进行综合处理,获得所述视频的第二时域分类结果;

所述融合单元,具体用于对所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果进行融合处理,获得所述视频的分类结果。

基于上述装置的另一个实施例中,所述光流处理单元,具体用于:

分别对每相邻的两帧图像进行计算,获得每相邻的两帧图像之间的单应性变换矩阵;

分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换;以及

分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算,获得变形光流图像。

基于上述装置的另一个实施例中,所述光流处理单元对每相邻的两帧图像进行计算时,具体用于根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。

基于上述装置的另一个实施例中,所述融合单元,具体用于将所述空域分类结果、所述第一时域分类结果和所述第二时域分类结果分别乘以预先设定的权重系数后进行求和,获得所述视频的分类结果。

基于上述装置的另一个实施例中,所述空域分类结果与所述第一时域分类结果及所述第二时域分类结果之间的权重系数比值为1:1:0.5。

基于上述装置的另一个实施例中,还包括:

第一归一化处理单元,用于利用Softmax函数对所述视频的分类结果向量进行归一化处理,得到视频属于各类别的分类概率向量。

基于上述装置的另一个实施例中,还包括:

网络训练单元,用于存储预设初始空域卷积神经网络和初始时域卷积神经网络;以及分别基于各作为样本的视频,采用随机梯度下降法对所述初始空域卷积神经网络进行训练,获得所述空域卷积神经网络;以及采用随机梯度下降法对所述初始时域卷积神经网络进行训练,获得所述时域卷积神经网络。

基于上述装置的另一个实施例中,所述网络训练单元采用随机梯度下降法对所述初始空域卷积神经网络进行训练时,具体用于:

针对一个作为样本的视频,比较所述空域分类处理单元获得的视频的空域分类结果与所述视频的预设标准空域分类结果是否相同;

若不相同,对所述初始空域卷积神经网络的网络参数进行调整;以调整网络参数后的空域卷积神经网络作为初始空域卷积神经网络,再针对下一个作为样本的视频,开始执行所述比较所述空域分类处理单元获得的视频的空域分类结果与所述视频的预设标准空域分类结果是否相同的操作;

若相同,以当前的初始空域卷积神经网络作为所述空域卷积神经网络。

基于上述装置的另一个实施例中,所述网络训练单元采用随机梯度下降法对所述初始时域卷积神经网络进行训练时,具体用于:

针对一个作为样本的视频,比较所述时域分类处理单元获得的视频的时域分类结果与所述视频的预设标准时域分类结果是否相同;

若不相同,对所述初始时域卷积神经网络的网络参数进行调整;以调整网络参数后的时域卷积神经网络作为初始时域卷积神经网络,再针对下一个作为样本的视频,开始执行所述比较所述时域分类处理单元获得的视频的时域分类结果与所述视频的预设标准时域分类结果是否相同的操作;

若相同,以当前的初始时域卷积神经网络作为所述时域卷积神经网络;

所述初始时域卷积神经网络包括第一初始时域卷积神经网络或第二初始时域卷积神经网络,所述时域分类结果相应的包括第一时域分类结果或第二时域分类结果,所述时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。

基于上述装置的另一个实施例中,还包括:

第二归一化处理单元,用于利用Softmax函数对所述视频的空域分类结果进行归一化处理,获得所述视频属于各类别的一个空域分类概率向量;以及利用Softmax函数对所述视频的时域分类结果进行归一化处理,获得所述视频属于各类别的一个时域分类概率向量。

根据本发明实施例的又一个方面,提供一种数据处理装置,包括:上述任一实施例所述的视频类别识别装置。

基于上述数据处理装置的另一个实施例中,所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。

根据本发明实施例的再一个方面,提供的一种电子设备,设置有上述任一实施例所述的数据处理装置。

根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:对视频进行分段,获得多个分段视频的指令;分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像的指令;利用空域卷积神经网络处理各分段视频的原始图像以得到所述视频的空域分类结果的指令;以及利用时域卷积神经网络处理各分段视频的光流图像以得到所述视频的时域分类结果的指令;对所述空域分类结果和所述时域分类结果进行融合处理,获得所述视频的分类结果的指令。

根据本发明实施例的再一个方面,提供一种计算机设备,包括:

存储器,存储可执行指令;

一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的视频类别识别方法对应的操作。

基于本发明上述实施例提供的视频类别识别方法和装置、数据处理装置和电子设备,通过对视频进行分段,获得多个分段视频;并分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;再利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果;以及利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果;最后对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。本发明实施例通过将视频分成多个分段视频,对各分段视频分别采样帧图片和帧间光流,在对卷积神经网络进行训练时,可以实现对长时间动作的建模,使得后续利用训练获得的网络模型对视频分类进行识别时,相对于现有技术提高了视频类别识别的正确率,提升了视频类别识别效果,并且计算代价较小。

附图说明

构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:

图1是本发明实施例视频类别识别方法一个实施例的流程图。

图2是本发明实施例视频类别识别方法另一个实施例的流程图。

图3是本发明实施例视频类别识别方法又一个实施例的流程图。

图4是本发明实施例中对初始空域卷积神经网络进行训练的一个实施例的流程图。

图5是本发明实施例中对初始时域卷积神经网络进行训练的一个实施例的流程图。

图6是本发明实施例视频类别识别装置一个实施例的结构示意图。

图7是本发明实施例视频类别识别装置另一个实施例的结构示意图。

图8是本发明实施例视频类别识别装置又一个实施例的结构示意图。

图9是本发明实施例视频类别识别装置又一个实施例的结构示意图。

图10是本发明实施例视频类别识别装置再一个实施例的结构示意图。

图11是本发明视频类别识别装置一个应用实例的示意图。

图12是本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件的相对布置、数字表达式和数值不限制本发明的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在基于深度学习的动作识别技术中,双流式卷积神经网络(Two-StreamConvolution Neural Network)是具有代表性的一种网络模型。双流式卷积神经网络是使用两个卷积神经网络,即空域卷积神经网络和时域卷积神经网络分别对帧图片和帧间光流进行建模,并通过对两个卷积神经网络的分类结果进行融合,来识别出视频中的动作。

然而,在具体实现过程中,发明人发现,虽然双流式卷积神经网络可以同时对帧图片和帧间光流,即对短时动作信息进行建模,但是却缺乏对长时间动作的建模能力,这导致动作识别的正确率无法获得保证。

图1是本发明实施例视频类别识别方法一个实施例的流程图。如图1所示,本发明实施例视频类别识别方法包括:

102,对视频进行分段,获得多个分段视频。

作为一个具体示例,对视频进行分段时,具体可以对视频进行平均分段,获得长度相同的多个分段视频。例如,将视频平均分成长度相同的3个分段视频或5个分段视频,具体的分段数量视实际效果确定。另外,也可以对视频进行随机分段、或者从视频中提取几段作为多个分段视频。

具体实现中,接收到视频后,可以获取视频的长度,根据视频的长度及预先设定的分段数量确定每一段视频的长度,据此将接收到的视频平均分成长度相同的多个分段视频。

对视频进行平均分段时,得到的各分段视频的长度相同,在基于长时间视频对卷积神经网络的网络模型进行训练时,可以简化网络模型的训练过程;在利用训练好的卷积神经网络进行视频类别识别时,由于对各分段视频识别所需的时间相近,可以提高视频类别识别的整体效率。

104,分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像。

示例性地,获得各分段视频的原始图像时,可以分别从各分段视频中随机抽取一帧图像,作为各分段视频的原始图像。

示例性地,获得各分段视频的光流图像时,可以分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像。

在本发明各实施例的一个具体示例中,光流图像例如可以是基于8位位图、共256个离散的色阶的灰度图像,灰度图像的中值为128。

由于光流场是一个向量场,当使用灰度图像表示光流图像时,需要用两幅标量场图片表示光流图像,即分别对应于光流图像坐标轴的X方向和Y方向幅度的两幅标量场图片。

具体地,分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像,可以通过如下方式实现:分别针对各分段视频:

从每一分段视频中随机抽取连续的N帧图像;其中,N为大于1的整数;以及

分别基于N帧图像中的每相邻的两帧图像进行计算,获得N-1组光流图像,其中N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。

例如,可以分别针对各分段视频:从每一分段视频中随机抽取连续的6帧图像;分别基于6帧图像中的每相邻的两帧图像进行计算,获得5组光流灰度图像,其中5组光流灰度图像中的每一组光流灰度图像分别包括一帧横向光流灰度图像及一帧纵向光流灰度图像,即获得10帧光流灰度图像,这10帧光流灰度图像可以作为一张10通道的图像。

106,利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果;以及利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果。

其中,视频的空域分类结果和视频的时域分类结果分别为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则空域分类结果和时域分类结果分别为维度等于6的分类结果向量。

108,对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。

其中,视频的分类结果为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则视频的分类结果为维度等于6的分类结果向量。

作为一个具体示例,对空域分类结果和时域分类结果进行融合处理具体可以是:将空域分类结果与时域分类结果分别乘以预先设定的权重系数后进行求和,获得视频的分类结果。其中,权重系数是根据对应卷积神经网络的网络模型在验证数据集上的分类正确率确定,分类正确率高的网络模型权重较高,验证数据集是由具有真实类别标注,而未参与网络训练的视频构成。验证数据集可以通过任何可能的方式获得,例如,通过在搜索引擎中搜索相应类别的视频获得。

例如,在一个具体应用中,空域分类结果与时域分类结果之间的权重系数比值可以是1:1.5。

基于本发明上述实施例提供的视频类别识别方法,通过对视频进行分段,获得多个分段视频;并分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;利用空域卷积神经网络处理各分段视频的原始图像以获得视频的空域分类结果;以及利用时域卷积神经网络处理各分段视频的光流图像以获得视频的时域分类结果;最后对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。本发明实施例通过将视频分成多个分段视频,对各分段视频分别采样帧图片和帧间光流,在对卷积神经网络进行训练时,可以实现对长时间动作的建模,使得后续利用训练获得的网络模型对视频分类进行识别时,相对于现有技术提高了视频类别识别的正确率,提升了视频类别识别效果,并且计算代价较小。

图2是本发明实施例视频类别识别方法另一个实施例的流程图。如图2所示,本发明实施例视频类别识别方法包括:

202,对视频进行分段,获得多个分段视频。

作为一个具体示例,对视频进行分段时,具体可以对视频进行平均分段,获得长度相同的多个分段视频,以简化卷积神经网络的网络模型的训练过程,提高视频类别识别的整体效率。例如,将视频平均分成长度相同的3个分段视频或5个分段视频,具体的分段数量视实际效果确定。另外,也可以对视频进行随机分段、或者从视频中提取几段作为多个分段视频。如图11所示,在本发明视频类别识别方法的一个应用实施例中,将视频平均分成3个分段视频。

204,分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像。

例如,可以分别从各分段视频中随机抽取一帧图像,作为各分段视频的原始图像;可以分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像。

如图11所示,在本发明视频类别识别方法的一个应用实施例中,分别对3个分段视频进行采样,得到3个分段视频的一帧原始图像和帧间光流图像。其中原始图像为RGB彩色图像,光流图像为灰度图像。

206,分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果;以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理,获得各分段视频的时域初步分类结果。

其中,空域初步分类结果和时域初步分类结果分别为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则空域初步分类结果和时域初步分类结果分别为维度等于6的分类结果向量。

如图11所示,在本发明视频类别识别方法的一个应用实施例中,分别利用空域卷积神经网络对3个分段视频的原始图像进行处理,得到3个分段视频的3个空域初步分类结果;以及分别利用时域卷积神经网络对3个分段视频的光流图像进行处理,得到3个分段视频的3个时域初步分类结果。具体实现中,空域卷积神经网络和/或时域卷积神经网络,可以先通过卷积层、非线性层、池化层等的组合,获得图像的特征表示,再通过线性分类层,得到属于每一类别的得分,即每个分段视频的初步分类结果。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则每个分段视频的空域初步分类结果和时域初步分类结果分别为包含视频属于这6个类别的分类得分的6维向量。

208,利用空域共识函数对多个分段视频的空域初步分类结果进行综合处理,获得视频的空域分类结果;以及利用时域共识函数对多个分段视频的时域初步分类结果进行综合处理,获得视频的时域分类结果。

其中,视频的空域分类结果和视频的时域分类结果分别为维度等于分类类别数量的分类结果向量。

具体实现中,空域共识函数和/或时域共识函数包括:平均函数、最大值函数或带权平均函数。具体为选取在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数作为空域共识函数;或者选取在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数作为时域共识函数。

具体地,平均函数,具体为对不同分段间同一类别的类别得分取平均值作为输出的该类别的类别得分;最大值函数,具体为对不同分段间同一类别的类别得分,通过函数选取其中的最大值作为输出的类别得分;带权平均函数,具体为对不同分段间同一类别的类别得分取带权的平均值作为输出的该类别的类别得分,其中各个类别使用同一套权值,并在训练时作为网络模型参数优化获得。

例如,在图11所示的应用实施例中,可以选取平均函数作为空域共识函数和时域共识函数,选取平均函数作为空域共识函数和时域共识函数,利用空域共识函数计算3个分段视频的3个空域初步分类结果中属于每一类别的3个得分的平均值,作为该类别的类别得分,这样就得到了一组对所有类别的类别得分,作为视频的空域分类结果;利用时域共识函数计算3个分段视频的3个时域初步类别结果中属于每一类别的3个得分的平均值,作为该类别的类别得分,这样就得到了一组对所有类别的类别得分,作为视频的时域分类结果。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则视频的空域分类结果和时域分类结果分别为包含视频属于这6个类别的类别得分的6维向量。

210,对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。

其中,视频的分类结果为维度等于分类类别数量的分类结果向量。

如图11所示,在本发明视频类别识别方法的一个应用实施例中,将视频空域分类结果与时域分类结果分别乘以1:1.5的权重系数后进行求和,得到视频的分类结果。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则视频的分类结果为包含视频属于这6个类别的分类得分的6维向量。其中,得分最高的类别即为视频所属的类别,在该实施例中得分最高的类别为跳高,则识别出视频的类别为跳高。

基于本发明上述实施例提供的视频类别识别方法,通过在各分段视频间使用共识函数,通过共识函数综合各分段视频的初步分类结果,获得视频的分类结果,由于共识函数不对各分段视频使用的卷积神经网络模型进行限制,因此可以实现多个分段视频共享网络模型的参数,使网络模型的参数更少,从而可以采用具有较少参数的网络模型实现对任意长度的视频的类别的识别,在训练过程中,通过对任意长度的视频分段,并进行分段式网络训练,通过比较整个视频的分类结果与真实标签进行监督学习,可以实现全视频层次的训练监督,不受视频长度的限制。

图3是本发明实施例视频类别识别方法又一个实施例的流程图。如图3所示,本发明实施例视频类别识别方法包括:

302,对视频进行分段,获得多个分段视频。

304,分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及原始光流图像。

306,获取原始光流图像变形后的变形光流图像。

具体实现中,获取原始光流图像变形后的变形光流图像包括:分别对每相邻的两帧图像进行计算,获得每相邻的两帧图像之间的单应性变换矩阵;分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换;分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算,获得变形光流图像。

由于经过上述仿射变换后的后一帧图像上的特征点与作为基准的前一帧图像上对应的特征点之间不存在单应性变换,因此,由前一帧图像及仿射变换后的后一帧图像计算得到的变形光流图像,作为视频类别识别的输入信息可以降低相机移动对视频类别识别效果的影响。

具体地,对每相邻的两帧图像进行计算包括:根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。

308,分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果;分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理,获得各分段视频的第一时域初步分类结果;以及分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理,获得各分段视频的第二时域初步分类结果。

310,利用空域共识函数对多个分段视频的空域初步分类结果进行综合处理,获得视频的空域分类结果;利用第一时域共识函数对多个分段视频的第一时域初步分类结果进行综合处理,获得视频的第一时域分类结果;以及利用第二时域共识函数对多个分段视频的第二时域初步分类结果进行综合处理,获得视频的第二时域分类结果。

312,对空域分类结果、第一时域分类结果和第二时域分类结果进行融合处理,获得视频的分类结果。

作为一个具体示例,对空域分类结果、第一时域分类结果和第二时域分类结果进行融合处理包括:将空域分类结果、第一时域分类结果和第二时域分类结果分别乘以预先设定的权重系数后进行求和,获得视频的分类结果。其中,权重系数是根据对应的网络模型在验证数据集上的分类正确率确定,分类正确率高的网络模型获得较高权重。

例如,在具体应用中,空域分类结果与第一时域分类结果及第二时域分类结果之间的权重系数比值可以是1:1:0.5。

由于目前广泛使用的双流式卷积神经网络采用短时运动信息表示光流图像,在提取光流图像时并未考虑相机的移动,这可能会导致在相机移动较大时无法识别视频中的动作,而影响识别效果。

基于本发明上述实施例提供的视频类别识别方法,除了采用帧图片和帧间光流之外,还使用变形的光流作为附加的短时运动信息表示,将视频类别识别的输入拓展为三种信息,即帧图片、帧间光流和变形光流,由于变形光流去除了相机移动的影响,因此可以降低相机移动视频类别识别效果的影响,在训练过程中,同样采用三种输入信息,即帧图片、帧间光流和变形光流,对网络模型进行训练,可以降低相机移动对网络模型的影响,从而可以使视频类别识别系统对相机移动更加鲁棒。

本发明上述各实施例的视频类别识别方法可应用于卷积神经网络模型的训练阶段,也可应用于卷积神经网络模型的测试阶段和后续具体应用阶段。

在本发明视频类别识别方法的另一个实施例中,上述各实施例的视频类别识别方法应用于卷积神经网络模型的测试阶段和后续具体应用阶段时,可以在操作108、210或312获得视频的分类结果后,利用Softmax函数对融合处理获得的分类结果向量进行归一化处理,得到视频属于各类别的分类概率向量。

在本发明视频类别识别方法的又一个实施例中,上述各实施例的视频类别识别方法应用于卷积神经网络模型的训练阶段时,还可以包括如下操作:

预设初始空域卷积神经网络和初始时域卷积神经网络;

分别基于各作为样本的视频,采用随机梯度下降法(SGD)对初始空域卷积神经网络进行训练,获得上述各实施例中的空域卷积神经网络;以及采用随机梯度下降法对初始时域卷积神经网络进行训练,获得上述各实施例中的时域卷积神经网络。

其中,预先对各作为样本的视频标注标准空域分类结果信息。

随机梯度下降法是通过每个样本来迭代更新一次网络模型,采用随机梯度下降法对初始空域卷积神经网络和初始时域卷积神经网络进行训练,训练速度快,提高了网络训练效率。

图4是本发明实施例中对初始空域卷积神经网络进行训练的一个实施例的流程图。如图4所示,该实施例包括:

402,针对一个作为样本的视频,开始执行本发明上述各实施例所示流程的操作,直到获得视频的空域分类结果。

例如,执行操作102~106、202~208、或302~310中与空域相关的操作,获得视频的空域分类结果。

404,比较视频的空域分类结果相对于该视频的预设标准空域分类结果的偏差是否小于预设范围。

若不小于预设范围,执行操作406。若小于预设范围,结束对初始空域卷积神经网络的训练流程,以当前的初始空域卷积神经网络作为最终的空域卷积神经网络,不执行本实施例的后续流程。

406,对初始空域卷积神经网络的网络参数进行调整。

408,以调整网络参数后的空域卷积神经网络作为新的初始空域卷积神经网络,针对下一个作为样本的视频,开始执行操作402。

图5是本发明实施例中对初始时域卷积神经网络进行训练的一个实施例的流程图。如图5所示,该实施例包括:

502,针对一个作为样本的视频,开始执行对视频进行分段的操作,直到获得视频的时域分类结果。

例如,执行操作102~106、202~208、或302~310中与时域相关的操作,获得视频的时域分类结果。

504,比较视频的时域分类结果相对于视频的预设标准时域分类结果的偏差是否小于预设范围。

若不小于预设范围,执行操作506。若不小于预设范围,结束对初始时域卷积神经网络的训练流程,以当前的初始时域卷积神经网络作为最终的时域卷积神经网络,不执行本实施例的后续流程。

506,对初始时域卷积神经网络的网络参数进行调整。

508,以调整网络参数后的时域卷积神经网络作为新的初始时域卷积神经网络,针对下一个作为样本的视频,开始执行操作502。

具体地,在图5所示的实施例中,初始时域卷积神经网络具体包括第一初始时域卷积神经网络或第二初始时域卷积神经网络,时域分类结果相应的包括第一时域分类结果或第二时域分类结果,时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。即,可以通过图5所示实施例分别实现或同时实现对第一初始时域卷积神经网络、第二初始时域卷积神经网络的训练。

进一步地,通过图4、图5所示实施例对初始空域卷积神经网络和初始时域卷积神经网络进行训练时,还可以包括如下操作:

利用Softmax函数对视频的空域分类结果进行归一化处理,获得视频属于各类别的一个空域分类概率向量;以及利用Softmax函数对视频的时域分类结果进行归一化处理,获得视频属于各类别的一个时域分类概率向量。

相应地,图4、图5所示的空域分类结果、时域分类结果,具体可以是未归一化的分类结果、或者归一化的分类概率向量。

图6是本发明实施例视频类别识别装置一个实施例的结构示意图。该实施例的视频类别识别装置可用于实现本发明上述各实施例的视频类别识别方法。如图6所示,本发明实施例视频类别识别装置包括:分段单元、采样单元、空域分类处理单元、时域分类处理单元和融合单元。其中:

分段单元,用于对视频进行分段,获得多个分段视频。

作为一个具体示例,分段单元,具体可以用于对视频进行平均分段,获得长度相同的多个分段视频。例如,将视频平均分成长度相同的3个分段视频或5个分段视频,具体的分段数量视实际效果确定。另外,也可以对视频进行随机分段、或者从视频中提取几段作为多个分段视频。

具体实现中,接收到视频后,获取视频的长度,根据视频的长度及预先设定的分段数量确定每一段视频的长度,据此将接收到的视频平均分成长度相同的多个分段视频。

采样单元,用于分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像。

示例性地,采样单元具体可以包括:

图像采样模块,用于分别从各分段视频中随机抽取一帧图像,作为各分段视频的原始图像;

光流采样模块,用于分别从各分段视频中随机抽取连续的多帧图像,获得各分段视频的光流图像。

在本发明各实施例的一个具体示例中,光流图像例如可以是基于8位位图、共256个离散的色阶的灰度图像,灰度图像的中值为128。

具体地,光流采样模块,可以具体用于分别针对各分段视频:

从每一分段视频中随机抽取连续的N帧图像;其中,N为大于1的整数;以及

分别基于N帧图像中的每相邻的两帧图像进行计算,获得N-1组光流图像,其中N-1组光流图像中的每一组光流图像分别包括一帧横向光流图像及一帧纵向光流图像。

例如,可以分别针对各分段视频:从每一分段视频中随机抽取连续的6帧图像;分别基于6帧图像中的每相邻的两帧图像进行计算,获得5组光流灰度图像,其中5组光流灰度图像中的每一组光流灰度图像分别包括一帧横向光流灰度图像及一帧纵向光流灰度图像,即获得10帧光流灰度图像,这10帧光流灰度图像可以作为一张10通道的图像。

空域分类处理单元,用于分别利用空域卷积神经网络对各分段视频的原始图像进行处理,以获得各分段视频的空域分类结果。

其中,视频的空域分类结果为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则空域分类结果为维度等于6的分类结果向量。

时域分类处理单元,用于分别利用时域卷积神经网络对各分段视频的光流图像进行处理,以获得各分段视频的时域分类结果。

其中,视频的时域分类结果为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则时域分类结果为维度等于6的分类结果向量。

融合单元,用于对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。

其中,视频的分类结果为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则视频的分类结果为维度等于6的分类结果向量。

作为一个具体示例,对空域分类结果和时域分类结果进行融合处理包括:将空域分类结果与时域分类结果分别乘以预先设定的权重系数后进行求和,获得视频的分类结果。其中,权重系数是根据对应的网络模型在验证数据集上的分类正确率确定,分类正确率高的网络模型获得较高的权重。

例如,在具体应用中,空域分类结果与时域分类结果之间的权重系数比值可以是1:1.5。

基于本发明上述实施例提供的视频类别识别装置,通过对视频进行分段,获得多个分段视频;并分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;再分别利用空域卷积神经网络和时域卷积神经网络对各分段视频的原始图像和光流图像进行处理,以获得各分段视频的空域分类结果和时域分类结果;最后对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。本发明实施例通过将视频分成多个分段视频,对各分段视频分别采样帧图片和帧间光流,在对卷积神经网络进行训练时,可以实现对长时间动作的建模,使得后续利用训练获得的网络模型对视频分类进行识别时,相对于现有技术提高了视频类别识别的正确率,提升了视频类别识别效果,并且计算代价较小。

图7是本发明实施例视频类别识别装置另一个实施例的结构示意图。如图7所示,与图6所示的实施例相比,该实施例中,空域分类处理单元具体包括空域分类处理模块和第一综合处理模块。其中:

空域分类处理模块,用于分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果。

其中,空域初步分类结果为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则视频的空域初步分类结果为维度等于6的分类结果向量。

第一综合处理模块,用于利用空域共识函数对多个分段视频的空域初步分类结果进行综合处理,获得视频的空域分类结果。

具体实现中,空域共识函数包括:平均函数、最大值函数或带权平均函数。空域共识函数具体为在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数。

具体地,平均函数,具体为对不同分段间同一类别的类别得分取平均值作为输出的该类别的类别得分;最大值函数,具体为对不同分段间同一类别的类别得分,通过函数选取其中的最大值作为输出的类别得分;带权平均函数,具体为对不同分段间同一类别的类别得分取带权的平均值作为输出的该类别的类别得分,其中各个类别使用同一套权值,并在训练时作为网络模型参数优化获得。

例如,在具体应用中,可以选取平均函数作为空域共识函数,将视频分为3个分段视频,对空域卷积神经网络而言,其得到3组类别得分,每一类别都有来自3个分段视频的共3个得分,分别对应3个分段视频,使用平均函数对每一类别的3个得分取平均值作为该类别的类别得分,这样就得到了一组对所有类别的类别得分。

再参见图7,在另一实施例中,时域分类处理单元具体包括:第一时域分类处理模块和第二综合处理模块。其中:

第一时域分类处理模块,用于分别利用时域卷积神经网络对各分段视频的光流图像进行处理,获得各分段视频的时域初步分类结果。

其中,时域初步分类结果为维度等于分类类别数量的分类结果向量。例如,分类结果包括:跑步、跳高、竞走、撑杆跳、跳远及三级跳,共6个类别,则视频的时域初步分类结果为维度等于6的分类结果向量。

第二综合处理模块,用于利用时域共识函数对多个分段视频的时域初步分类结果进行综合处理,获得视频的时域分类结果。

具体实现中,时域共识函数包括:平均函数、最大值函数或带权平均函数。时域共识函数具体为在验证数据集上分类正确率最高的平均函数、最大值函数或带权平均函数。

基于本发明上述实施例提供的视频类别识别装置,通过在各分段视频间使用共识函数,通过共识函数综合各分段视频的初步分类结果,获得视频的分类结果,由于共识函数不对各分段视频使用的卷积神经网络模型进行限制,因此可以实现多个分段视频共享网络模型的参数,使网络模型的参数更少,从而可以采用具有较少参数的网络模型实现对任意长度的视频的类别的识别,在训练过程中,通过对任意长度的视频分段,并进行分段式网络训练,通过比较整个视频的分类结果与真实标签进行监督学习,可以实现全视频层次的训练监督,不受视频长度的限制。

图8是本发明实施例视频类别识别装置又一个实施例的结构示意图。如图8所示,与图6及图7所示的实施例相比,本发明实施例中,光流图像为原始光流图像,时域卷积神经网络为第一时域卷积神经网络,该实施例的视频类别识别装置还包括:

光流处理单元,用于获取原始光流图像变形后的变形光流图像。

具体实现中,光流处理单元,具体用于分别对每相邻的两帧图像进行计算,获得每相邻的两帧图像之间的单应性变换矩阵;分别根据每相邻的两帧图像之间的单应性变换矩阵对相应相邻的两帧图像中的后一帧图像进行仿射变换;以及分别对每相邻的两帧图像中的前一帧图像及仿射变换后的后一帧图像进行计算,获得变形光流图像。

具体地,光流处理单元对每相邻的两帧图像进行计算时,具体用于根据加速鲁棒性特征SURF特征点描述子进行帧间特征点匹配。

该实施例的时域分类处理单元包括:第一时域分类处理模块、第二综合处理模块、第二时域分类处理模块和第三综合处理模块。其中:

第一时域分类处理模块,具体用于分别利用第一时域卷积神经网络对各分段视频的原始光流图像进行处理,获得各分段视频的第一时域初步分类结果;

第二综合处理模块,具体用于利用第一时域共识函数对多个分段视频的第一时域初步分类结果进行综合处理,获得视频的第一时域分类结果。

第二时域分类处理模块,用于分别利用第二时域卷积神经网络对各分段视频的变形光流图像进行处理,获得各分段视频的第二时域初步分类结果。

第三综合处理模块,用于利用第二时域共识函数对多个分段视频的第二时域初步分类结果进行综合处理,获得视频的第二时域分类结果。

融合单元,具体用于对空域分类结果、第一时域分类结果和第二时域分类结果进行融合处理,获得视频的分类结果。

作为一个具体示例,融合单元,具体用于将空域分类结果、第一时域分类结果和第二时域分类结果分别乘以预先设定的权重系数后进行求和,获得视频的分类结果。其中,权重系数是根据对应的网络在验证数据集上的分类正确率确定,分类正确率高的网络模型获得较高权重。

例如,在具体应用中,空域分类结果与第一时域分类结果及第二时域分类结果之间的权重系数比值可以是1:1:0.5。

基于本发明上述实施例提供的视频类别识别装置,除了采用帧图片和帧间光流之外,还使用变形的光流作为附加的短时运动信息表示,将视频类别识别的输入拓展为三种信息,即帧图片、帧间光流和变形光流,由于变形光流去除了相机移动的影响,因此可以降低相机移动视频类别识别效果的影响,在训练过程中,同样采用三种输入信息,即帧图片、帧间光流和变形光流,对网络模型进行训练,可以降低相机移动对网络模型的影响,从而可以使视频类别识别系统对相机移动更加鲁棒。

本发明上述各实施例的视频类别识别装置可应用于卷积神经网络模型的训练阶段,也可应用于卷积神经网络模型的测试阶段和后续具体应用阶段。

图9是本发明实施例视频类别识别装置又一个实施例的结构示意图。如图9所示,上述各实施例的视频类别识别装置应用于卷积神经网络模型的测试阶段和后续具体应用阶段时,视频类别识别装置还可以包括:第一归一化处理单元,用于利用Softmax函数对融合处理获得的分类结果向量进行归一化处理,得到视频属于各类别的分类概率向量。

图10是本发明实施例视频类别识别装置再一个实施例的结构示意图。上述各实施例的视频类别识别装置应用于卷积神经网络模型的训练阶段时,还可以包括:网络训练单元,用于存储预设初始空域卷积神经网络和初始时域卷积神经网络;以及分别基于各作为样本的视频,采用随机梯度下降法对初始空域卷积神经网络进行训练,获得最终的空域卷积神经网络;以及采用随机梯度下降法对初始时域卷积神经网络进行训练,获得最终的时域卷积神经网络。

基于图10所示实施例的一个具体示例中,网络训练单元采用随机梯度下降法对初始空域卷积神经网络进行训练时,具体用于:

针对一个作为样本的视频,比较空域分类处理单元获得的视频的空域分类结果相对于视频的预设标准空域分类结果的偏差是否小于预设范围;

若不小于预设范围,对初始空域卷积神经网络的网络参数进行调整;以调整网络参数后的空域卷积神经网络作为新的初始空域卷积神经网络,再针对下一个作为样本的视频,开始执行比较空域分类处理单元获得的视频的空域分类结果与视频的预设标准空域分类结果是否相同的操作;

若小于预设范围,以当前的初始空域卷积神经网络作为最终的空域卷积神经网络。

基于图10所示实施例的另一个具体示例,网络训练单元采用随机梯度下降法对初始时域卷积神经网络进行训练时,具体用于:

针对一个作为样本的视频,比较时域分类处理单元获得的视频的时域分类结果相对于视频的预设标准时域分类结果的偏差是否小于预设范围;

若不小于预设范围,对初始时域卷积神经网络的网络参数进行调整;以调整网络参数后的时域卷积神经网络作为新的初始时域卷积神经网络,再针对下一个作为样本的视频,开始执行比较时域分类处理单元获得的视频的时域分类结果与视频的预设标准时域分类结果是否相同的操作;

若小于预设范围,以当前的初始时域卷积神经网络作为最终的时域卷积神经网络。

其中,上述初始时域卷积神经网络可以包括第一初始时域卷积神经网络或第二初始时域卷积神经网络,时域分类结果相应的包括第一时域分类结果或第二时域分类结果,时域卷积神经网络相应的包括第一时域卷积神经网络和第二时域卷积神经网络。

进一步地,再参见图10,用于对初始空域卷积神经网络和初始时域卷积神经网络进行训练时,上述各实施例的视频类别识别装置还可以包括:第二归一化处理单元,用于利用Softmax函数对视频的空域分类结果进行归一化处理,获得视频属于各类别的一个空域分类概率向量;以及利用Softmax函数对视频的时域分类结果进行归一化处理,获得视频属于各类别的一个时域分类概率向量。

如图11所示,为本发明视频类别识别装置的一个具体应用实例,其中的时域卷积神经网络具体可以是第一时域卷积神经网络,也可以同时包括第一时域卷积神经网络和第二时域卷积神经网络。

另外,本发明实施例还提供了一种数据处理装置,该数据处理装置包括本发明上述任一实施例的视频类别识别装置。

基于本发明上述实施例提供的数据处理装置,设置有上述实施例的物视频类别识别装置,通过将视频分成多个分段视频,对各分段视频分别采样帧图片和帧间光流,在对卷积神经网络进行训练时,可以实现对长时间动作的建模,使得后续利用训练获得的网络模型对视频分类进行识别时,相对于现有技术提高了视频类别识别的正确率,提升了视频类别识别效果,并且计算代价较小。

具体地,本发明实施例的数据处理装置可以是任意具有数据处理功能的装置,例如可以包括但不限于:进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

另外,本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等,该电子设备设置有本发明上述任一实施例的数据处理装置。

基于本发明上述实施例提供的电子设备,设置有上述实施例的数据处理装置,通过将视频分成多个分段视频,对各分段视频分别采样帧图片和帧间光流,在对卷积神经网络进行训练时,可以实现对长时间动作的建模,使得后续利用训练获得的网络模型对视频分类进行识别时,相对于现有技术提高了视频类别识别的正确率,提升了视频类别识别效果,并且计算代价较小。

图12是本发明电子设备一个实施例的结构示意图,如图12所示,用于实现本发明实施例的电子设备包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的视频类别识别方法对应的操作,例如:对视频进行分段,获得多个分段视频;分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像;分别利用空域卷积神经网络对各分段视频的原始图像进行处理,以获得各分段视频的空域分类结果;以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理,以获得各分段视频的时域分类结果;对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果。

此外,在RAM中,还可存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,所述程序代码可包括对应执行本发明实施例提供的任一项视频分类方法步骤对应的指令,例如,对视频进行分段,获得多个分段视频的指令;分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像的指令;分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果指令;以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理,获得各分段视频的时域初步分类结果的指令;对多个分段视频的空域初步分类结果进行综合处理,获得视频的空域分类结果的指令;以及对多个分段视频的时域初步分类结果进行综合处理,获得视频的时域分类结果的指令;对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果的指令。该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明的方法中限定的上述功能。

本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:对视频进行分段,获得多个分段视频的指令;分别对多个分段视频中的各分段视频进行采样,获得各分段视频的原始图像及光流图像的指令;分别利用空域卷积神经网络对各分段视频的原始图像进行处理,获得各分段视频的空域初步分类结果的指令;以及分别利用时域卷积神经网络对各分段视频的光流图像进行处理,获得各分段视频的时域初步分类结果的指令;对多个分段视频的空域初步分类结果进行综合处理,获得视频的空域分类结果的指令;以及对多个分段视频的时域初步分类结果进行综合处理,获得视频的时域分类结果的指令;对空域分类结果和时域分类结果进行融合处理,获得视频的分类结果的指令。

另外,本发明实施例还提供了一种计算机设备,包括:

存储器,存储可执行指令;

一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的视频类别识别方法对应的操作。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号