首页> 中国专利> 基于运动激励聚合和时序差分模型的装配动作识别模型

基于运动激励聚合和时序差分模型的装配动作识别模型

摘要

本发明涉及基于运动激励聚合和时序差分模型的装配动作识别模型,包括依次连接的二维卷积层、4个残差模块、全连接层和全局平均池化层;二维卷积层对输入的数据进行特征提取,并将提取到的数据特征输入第一个残差模块;输入的数据为包含若干帧的视频;各残差模块依次对输入的数据进行特征提取,并传输给下一个残差模块,第四个残差模块将提取到的数据特征输入全连接层;全连接层和全局平均池化层根据输入的数据特征完成平均所有帧的预测结果和装配动作类型的识别,并将识别结果输出。本发明以装配动作视频数据作为网络输入,输出对应装配动作类型,实现了端到端的动作类型识别。

著录项

  • 公开/公告号CN115116135A

    专利类型发明专利

  • 公开/公告日2022-09-27

    原文格式PDF

  • 申请/专利权人 青岛理工大学;

    申请/专利号CN202210736459.2

  • 发明设计人 陈成军;赵希聪;王金磊;史宏思;

    申请日2022-06-27

  • 分类号G06V40/20(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06V10/40(2022.01);G06V10/764(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);

  • 代理机构福州科扬专利事务所(普通合伙) 35001;

  • 代理人魏珊珊

  • 地址 266000 山东省青岛市青岛经济技术开发区嘉陵江路777号

  • 入库时间 2023-06-19 17:07:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-18

    实质审查的生效 IPC(主分类):G06V40/20 专利申请号:2022107364592 申请日:20220627

    实质审查的生效

  • 2022-09-27

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及基于运动激励聚合和时序差分模型的装配动作识别模型,属于计算机视觉和智能制造技术领域。

背景技术

装配动作识别是手动装配监控、人机协作和装配操作人体工程学分析的基础。当前大规模定制已成为制造业的趋势,在大规模定制产品的装配过程中,产品结构复杂且组装步骤多,装配过程中一旦出现漏装、错装甚至工人的不规范操作都会对产品质量产生不利影响。在装配过程中对装配动作识别将有助于获取机械装配过程的动作信息,及时发现其中不规范甚至错误动作,进而实现装配监测,提高机械产品的生产效率,保障机械产品质量水平,对机械装配过程智能监测具有重要研究价值。

目前,根据实现方法来分类,可以将装配动作识别方法划分为基于传感器和基于视觉的。基于传感器的装配动作识别,需要配备相应的传感器,不灵活,操作复杂,可扩展性差,用户体验不能得到有效的保障,因此只能适用于特定的领域。基于视觉的装配动作识别方法又可划分为单帧图像和视频两种。基于单帧图像的装配识别方法中,由于缺乏对动作的连续时间信息的有效提取,往往会导致错误判断;而基于视频的装配识别技术可以有效地提取出视频中的时空信息,提高了识别的准确度。基于视频数据的装配动作识别方法因其具有较强的可扩展性和高灵活性而受到了广泛的研究与应用。

发明内容

为了克服上述问题,本发明提供一种基于运动激励聚合和时序差分模型的装配动作识别模型,该模型以装配动作视频数据作为网络输入,输出对应装配动作类型,实现了端到端的动作类型识别。

本发明的技术方案如下:

基于运动激励聚合和时序差分模型的装配动作识别模型,包括依次连接的二维卷积层、4个残差模块、全连接层和全局平均池化层;

所述二维卷积层对输入的数据进行特征提取,并将提取到的数据特征输入第一个残差模块;所述输入的数据为包含若干帧的视频;

第一个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第二个残差模块;第二个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第三个残差模块;第三个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第四个残差模块;第四个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入全连接层;

所述全连接层和所述全局平均池化层根据输入的数据特征完成平均所有帧的预测结果和装配动作类型的识别,并将识别结果输出。

进一步的,所述残差模块具体为

输入的特征图A依次经过的1×1的二维卷积层、运动激励模块、时间整合模块、1×1的二维卷积层、时序差分模块和1×1的二维卷积层,得到处理后的特征图A

将所述特征图A和所述特征图A

所述运动激励模块在时空特征维度上通过计算时空差异来激发特征通道之间的运动敏感特性;

所述时间整合模块通过多尺度残差架构,对输入的特征图进行子卷积操作,使每一个装配动作视频帧完成多个时间层次上的时间聚合;

所述时序差分模块通过计算跨段序列的时间差异完成对时序特征的增强。

进一步的,所述运动激励模块具体为:

对输入的特征图X进行1×1的卷积处理;

对相邻的两特征图进行时序分离,将时间t+1时的特征图经过3×3卷积处理后与时间t时的特征图相减,得到时间步t的运动级特征M;

通过全局平均池化层总结空间信息;

通过1×1的2D卷积将所述运动级特征M的通道维度扩展为原始通道维度C;

通过sigmoid函数得到运动注意权重A;

通过残差连接将所述特征图X和注意力权重A进行融合,并输出。

进一步的,所述时间聚合模块具体为:

将输入的特征图Y沿通道维度分割成四个形状为[N,T,C,H,W]的子片段X

将所述子片段X

对子片段X

将所述子片段X

将所述子片段X

将所述子片段X

进一步的,所述时序差分模块具体为:

使用卷积操作来对输入的特征图F的通道维度压缩为比率r,

对t和t+1时刻的所述特征图F分别进行卷积处理,得到t和t+1时刻的特征图F

将所述特征图F

将t+1时刻的所述特征图F减去所述特征图F

将所述特征图F

将所述特征图F

将所述特征图F

将所述特征图F

对所述特征图F和所述特征图F

进一步的,训练过程包括以下步骤:

使用疏松时间采样策略对变长视频进行采样;

利用运动激励模块获取增强短程时间特征信息;

利用时间聚合模块对长程时间特征信息进行建模;

通过时序差分模块利用跨段时间结构增强帧级特征表示;

对网络进行迭代,直到达到设定的训练次数,保存训练过程中最优模型参数。

本发明具有如下有益效果:

1.该模型以装配动作视频数据作为网络输入,输出对应装配动作类型,实现了端到端的动作类型识别。

2.该模型的运动激励模块可以将运动编码插入时空特征学习方法中,并增强时空特征中的运动模式。在时间聚合模块中,可以通过将局部卷积变形为一组子卷积来扩大等效的时间感受野,从而建立可靠的长程时间关系。而时序差分模块通过计算运动信息差异增强了原始的运动特征,提高了对于装配任务的识别精度。

附图说明

图1为本发明实施例的模型结构示意图。

图2为本发明实施例的残差模块结构示意图。

图3为本发明实施例的运动激励模块结构示意图。

图4为本发明实施例的时间聚合模块结构示意图。

图5为本发明实施例的时序差分模块结构示意图。

图6本发明实施例的不同网络模型对比图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

参考图1-5,基于运动激励聚合和时序差分模型的装配动作识别模型,包括依次连接的二维卷积层、4个残差模块、全连接层和全局平均池化层;

所述二维卷积层对输入的数据进行特征提取,并将提取到的数据特征输入第一个残差模块;所述输入的数据为包含若干帧的视频;

第一个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第二个残差模块;第二个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第三个残差模块;第三个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第四个残差模块;第四个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入全连接层;

所述全连接层和所述全局平均池化层根据输入的数据特征完成平均所有帧的预测结果和装配动作类型的识别,并将识别结果输出。

实施例二

参考图2,基于运动激励聚合和时序差分模型的装配动作识别模型,在实施例一的基础上,所述残差模块具体为:

输入的特征图A依次经过的1×1的二维卷积层、运动激励模块、时间整合模块、1×1的二维卷积层、时序差分模块和1×1的二维卷积层,得到处理后的特征图A

将所述特征图A和所述特征图A

所述运动激励模块在时空特征维度上通过计算时空差异来激发特征通道之间的运动敏感特性;

所述时间整合模块通过多尺度残差架构,对输入的特征图进行子卷积操作,使每一个装配动作视频帧完成多个时间层次上的时间聚合;

所述时序差分模块通过计算跨段序列的时间差异完成对时序特征的增强。

实施例三

参考图3,基于运动激励聚合和时序差分模型的装配动作识别模型,在实施例二的基础上,所述运动激励模块具体为:

对输入的特征图X进行1×1的卷积处理;

对相邻的两特征图进行时序分离,将时间t+1时的特征图经过3×3卷积处理后与时间t时的特征图相减,得到时间步t的运动级特征M;

通过全局平均池化层总结空间信息;

通过1×1的2D卷积将所述运动级特征M的通道维度扩展为原始通道维度C;

通过sigmoid函数得到运动注意权重A;

通过残差连接将所述特征图X和注意力权重A进行融合,并输出。

实施例四

参考图4,基于运动激励聚合和时序差分模型的装配动作识别模型,在实施例三的基础上,所述时间聚合模块具体为:

将输入的特征图Y沿通道维度分割成四个形状为[N,T,C,H,W]的子片段X

将所述子片段X

对子片段X

将所述子片段X

将所述子片段X

将所述子片段X

实施例五

参考图5,基于运动激励聚合和时序差分模型的装配动作识别模型,在实施例四的基础上,所述时序差分模块具体为:

使用卷积操作来对输入的特征图F的通道维度压缩为比率r,

对t和t+1时刻的所述特征图F分别进行卷积处理,得到t和t+1时刻的特征图F

将所述特征图F

将t+1时刻的所述特征图F减去所述特征图F

将所述特征图F

将所述特征图F

将所述特征图F

将所述特征图F

对所述特征图F和所述特征图F

实施例六

基于运动激励聚合和时序差分模型的装配动作识别模型,在实施例一的基础上,训练过程包括以下步骤:

使用疏松时间采样策略对变长视频进行采样;首先将视频分为T个片段,然后在每个片段中随机选取一个帧组成一个T帧的序列,作为网络模型的输入。变长视频为长度不确定的视频。

利用运动激励模块获取增强短程时间特征信息;具体来说,该模块通过网络的二维卷积层进行低级特征提取,并通过融合时间差异信息使单帧RGB能够感知局部运动。同时通过跳跃连接将局部运动信息与单个RGB帧融合,使得原始帧级表示能够感知运动模式,并能够更好地描述局部时间窗口。

利用时间聚合模块对长程时间特征信息进行建模;时间聚合模块将局部卷积变形为一组子卷积,形成一个层次化的残差结构,对特征进行一系列的子卷积处理,每帧通过邻域完成多个时间聚集。因为不同片段具有不同的接收领域,采用级联策略组合多个输出,所得到的输出特征表示捕获不同的时间范围。最终等效时间维度的接受域被相应地放大,能够模拟远距离帧的长区间时间关系。

通过时序差分模块利用跨段时间结构增强帧级特征表示;时序差分模块将时间差分算子泛化为具有特定设计的高效通用时间模块,显示的计算运动信息差异增强了原始的运动特征表示。

对网络进行迭代,直到达到设定的训练次数,保存训练过程中最优模型参数。

为证明提出的模型在装配动作数据集上的有效性,将本发明设计的网络模型与其他动作识别模型进行比较,结果如图6所示。将本发明设计的模型与三个动作识别模型进行比较:时间分段网络模型(TSN)、时间金字塔网络模型(TPN)、时空和运动编码网络模型(STM)。

以上模型都使用ResNet101作为主干,8帧作为输入。TSN和TPN网络模型在装配动作数据集上的准确率分别为86.5%和86.4%,这低于本发明提出的模型性能。而将本发明提出的网络模型与STM进行比较,可以看到本发明设计的模型获得了比STM更高的准确度(88.6%对87.9%),这验证了所提出的方法优于STM中使用时空和运动编码的方法。当通过引入时间聚合模块和时序差分模块额外考虑长期时间关系时,相比于STM通过时空编码的方式的准确度进一步提高了0.7%。证实了该模型在时间建模方面的卓越能力。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号