首页> 中国专利> 一种基于外观保持模块和三维卷积的运动物体分类方法

一种基于外观保持模块和三维卷积的运动物体分类方法

摘要

一种基于外观保持模块和三维卷积的运动物体分类方法,包括获取待检测的视频连续帧和标签并进行预处理;利用跨像素语义相似性重建每帧的相邻特征图;并通过对比注意力机制寻找重建图的不匹配区域以避免误差的传播;使用级联1×3×3的空间域卷积和3×1×1的时间域卷积代替传统3D卷积并将空间保持模块以并联级联混合的方式做残差级联,利用得到的残差网络提取特征;对注意力模块施加正则化约束维持多样性;将得到的特征图经过空间最大池化和时间平均池化得到特征向量输入至全连接网络得到针对待分类的预测分类结果。本发明实现了在视频上对运动的物体进行准确分类。

著录项

  • 公开/公告号CN113111724A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202110291565.X

  • 申请日2021-03-18

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33201 杭州天正专利事务所有限公司;

  • 代理人王兵

  • 地址 310014 浙江省杭州市下城区潮王路18号

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本申请属于目标分类技术领域,具体涉及运动物体分类方法。

背景技术

随着深度学习的发展,图像分类和运动物体分类受到了广泛的关注。分析视频中所包含的物体的语义信息、理解其内容,对视频进行标注、分类和描述。大规模视频分类是继图像分类问题解决后下一个急需解决的关键问题。视频中的运动物体的分类比起静止的图像分类来说是一项非常具有挑战性的任务,如遮挡、模糊、运动轨迹难以捉摸,且包含额外的时间信息等。网络不仅可以访问单个静态图像中存在的外观信息,还可以访问它们复杂的时间演化。同时运动物体分类也更加具有价值,例如监控中的人员识别、无人机的识别扫描检测、自动驾驶汽车的行车记录仪等。

运动物体分类的主要目标是理解视频中包含的运动的物体,确定运动物体的具体类别。运动物体分类将基于视频的语义内容如人类行为和复杂事件等,将视频中的不同物体的连续帧分类至单个或多个类别。运动物体分类不仅仅是要理解视频中的每一帧图像,更重要的是需要识别出能描述视频的少数几个关键目标。受人类注意力机制的启发,在运动物体分类当中应用注意力机制,可以在保持视频外观表示质量的前提下建模时间关系。在与三维卷积结合下可以有效地提取帧之间的时间信息。

发明内容

本发明要克服现有技术的上述缺点,提供基于外观保持模块和三维卷积的运动物体分类方法,通过外观保持模块在像素级对齐相邻的特征图,并使用后续的三维卷积在保持外观表现质量的前提下,对时间信息进行建模,并通过正则化约束增强了注意力机制的多样性,实现了在视频上对运动的物体进行准确分类。

为实现上述目的,本申请所采取的技术方案为:

一种基于外观保持模块和三维卷积的运动物体分类方法,包括以下步骤:

步骤S1、获取待检测的视频连续帧和对应的标签;

步骤S2、将所有的视频帧调整到256×128像素,并使用水平翻转来增加数据;

步骤S3、利用像素语义相似性重建相邻特征图;

步骤S4、利用对比注意对重建的相邻特征图进行外观对齐;

步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差;

步骤S6、对每一个残差单元,添加正则化约束模块实现注意力的多样性;

步骤S7、将得到的特征向量输入至全连接网络得到针对待分类的预测分类结果。

作为优选,所述步骤S3利用像素语义相似性重建相邻特征图,包括:

S31.令获取的T帧的输入张量为T×H×W×C,将每个帧都视作H×W×C的中心帧,其中T代表批处理帧的数量,H、W、C分别代表输入张量的长、宽、通道维度;

S32.对每帧的两个相邻帧进行采样,经过零填充后获得2T个相邻的特征映射;

S33.为节省计算开销,利用将要素映射到低维空间的线性变化函数g将中心特征图C和相邻特征图X变换至

S34.将变换后的中心特征图C'和相邻特征图X'计算协方差矩阵P如下:

其中,I是

S35.对所得协方差矩阵P除以比例因子

S36.将权重系数W乘回原相邻特征图,令大小为H×W×C,即初步重建的相邻特征图Y。

作为优选,所述步骤S4利用对比注意力机制对重建的相邻特征图进行外观对齐,包括:

S41.通过语义映射将Y和C映射到低维语义空间,变为Y',C';

S42.将低维特征图Y',C'进行矩阵点乘得到相似度矩阵Q;

S43.将相似度矩阵Q通过sigmoid激活函数产生H×W×1的注意力掩模ContrastiveAttMASK,具体如下:

其中,i代表特征图上任意空间位置,y

S44.将注意力掩模ContrastiveAttMASK的通道维度扩容后与重建的相邻特征图Y进行矩阵点乘,产生特征图Z为进行对齐后的重建相邻特征图。

作为优选,所述步骤S5中三维卷积由一个1×3×3的空间域卷积和一个3×1×1的时间域卷积组成,采用并联级联混合的方式,先通过空间域卷积,再将输出通过外观保持模块和时间域卷积,作为残差级联。利用上述3D卷积和外观保持快组成的残差单元修改ResNet-50网络中的基本残差单元,由于ResNet-50的阶段1缺少精确的语义信息,阶段4缺少精确的空间信息,因此只替换阶段2和阶段3中的基本残差单元。

作为优选,所述步骤S6利用正则化约束实现注意力多样性如下:

其中β是系数,λ

本申请提供基于外观保持模块和三维卷积的运动物体分类方法,通过外观保持模块在像素级利用像素语义相似性重建相邻特征图,利用对比注意对重建的相邻特征图进行外观对齐,并使用后续的三维卷积在保持外观表现质量的前提下,对时间信息进行建模,显著提高了在视频上对运动的物体进行准确分类。

附图说明

图1为本发明的流程图;

图2为本发明利用像素语义相似性重建相邻特征图的示意图;

图3为本发明用对比注意对重建的相邻特征图进行外观对齐的示意图;

图4为本发明对残差单元添加正则化约束模块的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。

其中一个实施例中,提供了一种基于外观保持模块和三维卷积的运动物体分类方法,该方法通过外观保持模块在像素级对齐相邻的特征图,并使用后续的三维卷积在保持外观表现质量的前提下,对时间信息进行建模,并通过正则化约束增强了注意力机制的多样性,实现了在视频上对运动的物体进行准确分类结果。

具体的,如图1所示,本实施例中的基于外观保持模块和三维卷积的运动物体分类方法,包括以下步骤:

步骤S1、获取待检测的视频连续帧和对应的标签。

对于每个运动物体视频轨迹,以8帧的步幅随机采样4帧以形成视频剪辑。每批包含8个目标,每个目标4个视频剪辑。

步骤S2、将所有的视频帧调整到256×128像素,并使用水平翻转来增加数据。

为了提高数据的处理速度和准确性,首先需要对获取的数据进行预处理,包括图像去噪、尺寸处理和数据增强等以增强模型的泛化能力。

步骤S3、利用像素语义相似性重建相邻特征图。

对于每个中心特征图,这一实施例利用跨像素语义相似性重建相邻特征图的过程如下:

S31.令获取的T帧的输入张量为T×H×W×C,将每个帧都视作H×W×C的中心帧,其中T代表批处理帧的数量,H、W、C分别代表输入张量的长、宽、通道维度;

S32.对每帧的两个相邻帧进行采样,经过零填充后获得2T个相邻的特征映射;

S33.节省计算开销,利用将要素映射到低维空间的线性变化函数g将中心特征图C和相邻特征图X变换至

S34.将变换后的中心特征图C'和相邻特征图X'计算协方差矩阵P如下:

其中,I是

S35.对所得协方差矩阵P除以比例因子

S36.将权重系数W乘回原相邻特征图,令大小为H×W×C,即初步重建的相邻特征图Y。

步骤S4、利用对比注意力机制对重建的相邻特征图进行外观对齐。

对于重构得到的初步相邻特征图,需要保证其和原本的中心特征图在时间上的外观对齐。这样的一个外观对齐过程可以视作两个视频帧之间的特征图配准,利用对比注意可以寻找重建特征图和中心特征图之间的不匹配区域,以两个特征图为输入,施加在重构的特征图上,而空间注意以一个特征图为输入,施加在自身上避免误差的传播。

在一实施例中,提供的外观对齐的过程如下:

S41.通过语义映射将Y和C映射到低维语义空间,变为Y',C';

S42.将低维特征图Y',C'进行矩阵点乘得到相似度矩阵Q;

S43.将相似度矩阵Q通过sigmoid激活函数产生H×W×1的注意力掩模ContrastiveAttMASK,具体如下:

其中,i代表特征图上任意空间位置,y

S44.将注意力掩模ContrastiveAttMASK的通道维扩容后与重建的相邻特征图Y进行矩阵点乘,产生特征图Z为进行对齐后的重建相邻特征图。

步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差。

由于简单的三维卷积网络的性能较差,而复杂的三维卷积网络可能在计算上难以承受。因此在一实施例中三维卷积由一个1×3×3的空间域卷积和一个3×1×1的时间域卷积组成,可以有效的降低计算负荷的同时提高网络的性能。

本实例中采用并联级联混合的方式,先通过空间域卷积,再将输出通过外观保持模块和时间域卷积,作为残差级联。利用上述3D卷积和外观保持快组成的残差单元修改ResNet-50网络中的基本残差单元,由于ResNet-50的阶段1缺少精确的语义信息,阶段4缺少精确的空间信息,因此只替换阶段2和阶段3中的基本残差单元。

步骤S6、对每一个残差单元,添加正则化约束模块实现注意力的多样性。

由于本实施例中利用对比注意力进行外观对齐,而基于注意力的模型不能自然地保证低特征相关性,相反基于注意力的模型更倾向于更高的特征相关性,因为注意力机制倾向于使特征集中在更紧凑的子空间上,更高的特征相关性会导致过拟合,而添加正则化约束能够减少注意力对局部区域的过拟合。

通常使用硬正交约束来执行正则化约束以减少特征相关性,但这是依赖于奇异值分解来将解约束在斯蒂菲尔流形,尽管有效但是计算代价是昂贵的。在一实施例中,利用特征值分解来进行正则化约束,所述利用正则化约束实现注意力多样性如下:

其中β是系数,λ

步骤S7、将得到的特征向量输入至全连接网络得到针对待视频运动物体分类的预测分类结果。

在进行空间最大池化和时间平均池化之后,产生2048维的特征,在输入到分类器之前,进行批量规范化操作用于规范化,最后一个全连接层使用Softmax激活函数输出预测分类结果。

本实施例利用跨像素语义相似性重建相邻特征图,再通过对比注意力机制寻找重建特征图和中心特征图之间的不匹配区域,并将掩模施加在重构的特征图上避免误差的传播;通过使用1×3×3的空间域卷积核和3×1×1的时间域卷积代替传统3D卷积,有效的降低计算负荷的同时提高网络的性能。采用并联级联混合的方式做残差级联,并通过添加正则约束的方式,提高了网络的多样性,显著提高分类的准确性。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号