首页> 中国专利> 一种基于提名图注意力网络的工作流识别方法

一种基于提名图注意力网络的工作流识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于提名图注意力网络的工作流识别方法。本发明首先应用动作提名方法产生候选视频片段，然后基于这些视频片段表示为节点，构建具体的图模型。为了增强模型的特征表示能力，引入类内和类间两种注意力机制，分别学习用于不断更新图结点矩阵的长时依赖信息和迭代图邻接矩阵的自适应性依赖信息。最后，基于构建的图执行图卷积操作，实现工作流分类和工序操作边界定位回归。本发明可应用于产品生产加工过程中各工序的准确识别和时序定位，进而规范生产操作行为过程，对出现的危险操作或偏离正常操作模式时及时预警，确保生产安全、稳定、有序进行。

著录项

公开/公告号CN114942620A

专利类型发明专利
公开/公告日2022-08-26

原文格式PDF
申请/专利权人杭州电子科技大学上虞科学与工程研究院有限公司;
展开▼

申请/专利号CN202210571876.6
发明设计人胡海洋;张敏;李忠金;
展开▼

申请日2022-05-24
分类号G05B19/418(2006.01);
代理机构杭州求是专利事务所有限公司 33200;杭州求是专利事务所有限公司 33200;
代理人傅朝栋;张法高
地址 312399 浙江省绍兴市上虞区曹娥街道五星西路外五甲村上虞产教融合创新园1期复兴西路77号
入库时间 2023-06-19 16:31:45

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-13

实质审查的生效 IPC(主分类):G05B19/418 专利申请号:2022105718766 申请日:20220524

实质审查的生效

说明书

技术领域

本发明属于工业自动化过程控制中生产流程智能识别技术领域，具体涉及一种基于提名图注意力网络的工作流识别方法。

背景技术

随着深度学习的深入发展，基于视频的工作流技术引起了广泛关注。在工厂生产环境中开展工作流识别，其主要目的是识别场景中正在发生的生产操作行为，监控工作流的顺利进行，检测任何异常事件的发生。偏离正常的生产操作模式都可能导致产品质量的下降，甚至发生安全问题。然而，在工厂环境中开展工作流识别存在着很大的挑战性，这主要是由于生产工作流的复杂多变，一条工作流中可能包含几个时长不一的任务，另外这些工序任务之间的次序也可以发生置换，这些因素都会给工作流识别带来很大难度。

谱图卷积是一种在非欧几里得空间学习数据的特征和结构信息的新技术，Kipf等人首次提出图卷积神经网络(GCNs)，这种网络是一种基于非网格结构学习而成的半监督模型。该模型展示了如何使用基于图的神经网络对图中的结点进行分类。自此，GCNs得到广泛研究，被应用到多种计算机视觉的项目中，如视频分析，基于骨架的动作识别和3D人体姿势回归等，取得较好的效果。GCNs能够基于非网格结构执行卷积操作，聚合邻近点特征，提升当前结点的特征表示，这种特性非常适合建模工作流工序操作之间的内在关系。

现今，传统制造业企业转型升级过程中，安装的大量监控摄像头实时采集了宝贵的视频数据，特别在工厂制造环境中采集到大量生产操作视频，为实现工作流识别提供了丰富的样本数据。然而，这些视频数据并未得到充分使用，从改进工序流程的角度挖掘其中蕴含的生产操作模型，而仅作为安全生产的过程监控，或发生问题后的回放追踪。为了确保车间里的生产操作规范有序，工厂生产线迫切需要开发一个有效的工作流识别系统，该系统可以自动地从未剪辑的长视频中学习出操作行为的特征表示，从而区分出工人、机器的生产行为和他们之间的动作交互。

发明内容

本发明的目的在于解决现有技术中存在的问题，并基于视频提名方法设计出了一个通用的图卷积网络(GCNs)作为整个识别系统的骨干框架，挖掘提名候选视频片段之间的关系开展工作流识别，由此提出了一种基于提名图注意力网络的工作流识别方法。

本发明具体采用的技术方案如下：

一种基于提名图注意力网络的工作流识别方法，用于从生产操作视频中识别出工作流，其包括：

S1、从目标生产操作视频中选取包含完整工作流的工作流视频段，同时获取工作流视频段时长和分辨率；

S2、针对工作流视频段，利用动作提名生成方法从中提取出所有可能包含工序操作的候选提名视频片段集合

S3、采用I3D网络提取出每个原始的候选提名视频片段p

所述图Ω(V,E)包含N个结点，每一个结点对应于一个候选提名视频片段，第j个结点v

S31、对于图Ω(V,E)的结点集合V中任意两个结点v

其中I(·)，U(·)分别表示计算两个候选提名视频片段之间的时序交集和时序并集；

当满足条件c(p

S32、对于图Ω(V,E)中任意两个结点v

当从属于不同工作流的两个候选提名视频片段p

S33、由N个结点中的所有上下文关系边和包围关系边构成边集合E，邻接矩阵A由边集合E中各边的权重系数计算得出，p

S4、将第一工作流提名图

所述工作流识别网络由第一个GAT网络分支和第二个GAT网络分支组成；

第一个GAT网络分支以利用特征向量

式中：

第二个GAT网络分支以利用特征向量y′

式中：

所述第一图注意力网络GAT

S41、首先评估不同提名之间的相似性或注意力权重，得到响应矩阵

其中：φ

S42、初始化A

其中：W

引入类内注意力机制得到网络的第一个输出Y

其中：W

S43、在网络中引入内间注意力机制建模图中每个结点之间的长时依赖信息，响应矩阵

式中：φ

再引入类内注意力机制得到网络的第二个输出Y

其中W

S44、对网络的两个输出Y

S5、根据工作流识别网络中最终输出的每一段候选提名视频片段的工作流类型预测标签

作为优选，所述扩展后的候选提名视频片段p′

作为优选，所述的工作流识别网络需预先训练至网络收敛且预测性能满足要求后，再用于实际的工作流识别。

作为优选，所述的工作流识别网络采用GraghSAGE算法进行训练。

作为优选，所述的工作流识别网络训练过程中，采用的总损失函数为：

其中L

作为优选，所述的α和β均为0.5。

作为优选，所述的第一个GAT网络分支和第二个GAT网络分支各自输入的工作流提名图Ω(V,E)，均包含N个结点，但两个图Ω(V,E)中结点对应的候选提名视频片段不同，结点的初始化特征向量也不同，图Ω(V,E)中的边集合E和邻接矩阵A∈R

作为优选，所述的映射函数φ

相对于现有技术而言，本发明有益效果如下：

本发明首先应用动作提名方法产生候选视频片段，然后基于这些视频片段表示为节点，构建具体的图模型。为了增强模型的特征表示能力，引入类内和类间两种注意力机制，分别学习用于不断更新图结点矩阵的长时依赖信息和迭代图邻接矩阵的自适应性依赖信息。最后，基于构建的图执行图卷积操作，实现工作流分类和工序操作边界定位回归。本发明可应用于产品生产加工过程中各工序的准确识别和时序定位，通过在生产加工车间里部署高清摄像头，监测拍摄生产操作全过程采集工序流程数据，然后对视频数据进行加工和智能化处理，挖掘视频数据中蕴含的生产操作模式关系，从而实现优化生产操作工序流程、更加科学调度生产加工原料，减少设备时延，提高产品质量。另外，规范生产操作行为过程，对出现的危险操作或偏离正常操作模式时及时预警，确保生产安全、稳定、有序进行。

附图说明

图1为图注意力网络识别总体架构。

图2为工作流识别网络结构详细说明。

图3为嵌入的注意力模块中第l层图卷积网络的前向图卷积操作示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明的一个较佳实施例中，提供了一种基于提名图注意力网络的工作流识别方法，用于从生产操作视频中识别出工作流，其包括S1～S5步骤：

S1、从目标生产操作视频中选取包含完整工作流的工作流视频段，同时获取工作流视频段时长和分辨率。

S2、针对总帧数为的M工作流视频段

在本实施例中，扩展后的候选提名视频片段p′

另外，在进行快速候选提名视频段生成时，可利用任意的动作提名生成方法从工厂采集到的视频中生成包含完整工作流发生区间(从一个工序开始到结束)的候选片段。高质量的提名片段应具备两个条件，第一是生成的候选区间能够较好地覆盖工作流区域，能够有完整的时序重叠度和较高的召回率；第二个是准确评估提名分数，以便后续排序检索。为了满足生产过程中实时性识别要求，本发明中可以采用快速提名生成方法，具体来说：

(2.1)应用YOLOv5模型在视频每帧上生成空域边界框(x,y,m,n)，其中(x,y)为边界框的中心，m，n分别为边界框的宽和高；

(2.2)计算相邻帧之间的边界框位置重合度，形成不同的动作管道，并计算各动作管道置信分值；

(2.3)基于各动作管道置信分值，采用最大子路径搜索算法定位置信分值排名前N位的空时路径；并删除重叠度高的动作路径；

(2.4)把动作提名任务转化为最大集合覆盖问题，每一个候选动作路径对应着一个集合；

(2.5)采用贪婪搜索算法解决最大集合覆盖问题，获得最终的提名视频段。

S3、采用I3D网络提取出每个原始的候选提名视频片段p

所述图Ω(V,E)包含N个结点，每一个结点对应于一个候选提名视频片段，第j个结点v

S31、对于图Ω(V,E)的结点集合V中任意两个结点v

其中I(·)，U(·)分别表示计算两个候选提名视频片段之间的时序交集和时序并集，也就是两个视频片段在时间轴上的时间重叠时段和合并覆盖的时长总和；

当满足条件c(p

S32、对于图Ω(V,E)中任意两个结点v

当从属于不同工作流的两个候选提名视频片段p

S33、由N个结点中的所有上下文关系边和包围关系边构成边集合E，邻接矩阵A由边集合E中各边的权重系数计算得出，p

不存在边的邻接矩阵A位置可设为0。

需注意的是，上述第一工作流提名图

S4、将第一工作流提名图

如图1所示，为图注意力网络识别工作流的总体架构，通过图注意力网络对各候选提名视频片段进行工作流分类和工序操作边界定位回归两个任务。图注意力网络构建：充分利用图网络具有的建模图结点之间关系的强大能力，建模提名段之间的关系，构建工作流提名图，实现在生产环境中的工作流识别任务。图结点之间的关系包括两种类型：上下文关系和包围关系，这两种关系适用于学习候选工序视频片段之间的交互信息，能够较好地促进邻近结点之间的信息聚合，从而实现工序操作的分类和时序边界定位。

在工厂生产环境中，对工作流识别，主要完成工作流分类和时序区间定位两个任务，因而在工作流识别网络中设计了双分支。由于生产场景复杂，生产操作行为的上下文信息能够为边界定位提供重要的信息，因此，在定位分支中输入拓展的提名特征。如图2所示，为本实施例中基于图注意力网络构建的工作流识别网络，其由第一个GAT网络分支和第二个GAT网络分支组成，下面分别对两个网络分支进行描述：

第一个GAT网络分支以利用特征向量

式中：

第二个GAT网络分支以利用特征向量y′

式中：

所述第一图注意力网络GAT

S41、首先评估不同提名之间的相似性或注意力权重，得到响应矩阵

其中：φ

S42、初始化A

其中：W

引入类内注意力机制得到网络的第一个输出Y

其中：W

S43、在网络中引入内间注意力机制建模图中每个结点之间的长时依赖信息，响应矩阵

式中：φ

再引入类内注意力机制得到网络的第二个输出Y

其中W

S44、对网络的两个输出Y

另外，在每一图卷积网络后，可以使用非线性激活函数(ReLU)。在图神经网络最后一层，把隐藏层特征与原始输入特征进行拼接，有效地增强特征的表示能力，即：Y

需要说明的是，上述S4中，工作流识别网络需预先训练至网络收敛且预测性能满足要求后，再用于实际的工作流识别。在本发明的一优选做法中，工作流识别网络可采用GraghSAGE算法进行训练。

GraghSAGE算法属于现有技术，应用时采用GraghSAGE算法对图模型以至上而下的方式按层级依次进行采样，减少模型的训练时间，图中各层级结点以至上而下的方式按层级依次进行采样，即：l-1层上的结点取样自l层。基于所有按层级采样出来的结点，信息传播按自下而上的方式进行，前向传播信息表示为：

其中N

上述工作流识别网络训练过程中，总损失函数可根据实际进行调整，在一优选做法中，采用的总损失函数为：

其中L

S5、根据工作流识别网络中最终输出的每一段候选提名视频片段的工作流类型预测标签

综上，本发明的工作流候选提名视频片段主要采用快速动作提名方法生成，与仅依赖于视觉表征的目标区域提名方法不同，动作提名需要同时考虑视觉表征和时序运动信息。然而由于工人操作行为的差异性和多样性，因而从簇拥背景和其它动态运动中学习出能够区分生产动作的置信分值比较困难。另外，候选动作提名的数量远大于目标提名数量。快速动作提名方法聚焦在未分割长视频中生成通用的动作提名视频片段。每一个动作提名段对应着一组时间序列的空域边界框(时序动作管道)，这组边界框中包含着工人的生产操作行为。然后我们使用时序动作管道中帧的表征特征和运动信息评估该动作管道的置信分值。在得到许多高置信分的空时域管道路径后，把动作提名问题转化为最大集合覆盖问题，通过贪婪搜索选取具有最大动作置信分的动作提名片段。快速动作提名方法能够高效地生成工作流候选视频片段，能够满足生产环境中的实时性检测要求。

本发明的图注意力网络构建是基于生成的工作流提名视频片段，用于初始化图中的节点，图中的边由结点之间的关系进行评估，其中包含着根据邻近节点的上下文关系或包围关系两种类型的边。为了增强网络的特征提取能力，本发明嵌入类内和类间两种注意力机制，分别用于学习不断更新图结点矩阵的长时依赖信息和迭代图邻接矩阵的自适应性依赖信息。值得注意的是，为了同时执行工作流分类和回归任务，我们搭建两条并行的图注意力网络分支。此外，为了减轻高昂的计算成本，本发明在网络训练的过程中，使用采样策略，在不影响网络性能的同时，加速模型训练时的收敛速度。

本发明的工作流识别推断阶段完成工作流分类和生产操作动作边界定位任务，同时预测出时序区间包含动作的完整性指标。由于在一些典型的错误定位案例中，不完整的动作提名片段可能获得较高的置信分值，这将直接导致识别性能的降低。本发明在定位过程中，结合了动作的上下文信息，这样更有利于获得精准的动作边界。

因此，本发明提供的图注意力识别技术有效解决了现有工作流识别技术需要解决的两个问题：(1)现有的许多工作流识别技术使用复杂的手工特征，而不是通过深度学习技术提取特征，特别在复杂的生产场景中，从手工特征中设计鲁棒性特征表示相当困难，而且具有局限性，不易推广；(2)现有工作流识别技术通常基于某些假定条件，构建近似模型。然而，在复杂的工厂制造环境中应用时，原本合理的假设条件可能会失去效用，最终导致识别错误。

上述S1～S5描述的基于提名图注意力网络的工作流识别方法，展示了其在实际应用时的识别过程。但需注意的是，由于该方法涉及神经网络，因此在应用之前预先需要进行模型构建和训练，然后再投入实际场景中进行应用。在训练时，可采用制作的工作流视频训练集对图注意力模型进行训练，直至模型收敛。然后在工厂环境中部署训练后的图注意力模型，对生产过程中的工作流进行识别。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 [P] . 中国专利： CN113033669A . 2021-06-25
2. 一种基于多类谱图特征注意力融合网络的说话人识别方法 [P] . 中国专利： CN114038469A . 2022-02-11
3. METHOD AND SYSTEM FOR RECOGNIZING CERTIFICATE ON BASIS OF GRAPH NEURAL NETWORK [P] . WO2022042365A1 . 2022-03-03

机译：基于图神经网络的证书识别方法与系统
4. METHOD AND COMPUTER PROGRAM FOR RECOGNIZING DEFECT PATTERN OF WAFER MAP BASED ON NEURAL NETWORK MODEL [P] . 韩国专利： KR102073361B1 . 2020-02-04

机译：基于神经网络模型的晶圆图缺陷模式识别方法及计算机程序
5. METHOD AND COMPUTER PROGRAM FOR RECOGNIZING DEFECT PATTERN OF WAFER MAP BASED ON NEURAL NETWORK MODEL [P] . 韩国专利： KR20190081708A . 2019-07-09

机译：基于神经网络模型的晶圆图缺陷模式识别方法及计算机程序