首页> 中国专利> 基于跨阶段局部特征融合策略的残差网络模型与模型的训练方法

基于跨阶段局部特征融合策略的残差网络模型与模型的训练方法

摘要

本发明公开了一种基于跨阶段局部特征融合策略的残差网络模型,涉及网络模型领域,包括残差块,残差块中设置有左运算通道、右运算通道与合并单元,合并单元,用于合并输出的残差左特征向量与残差右特征向量以得到残差特征合并向量;还包括局部残差模块,其包括至少一个局部残差块,所述局部残差块用于对合并向量进行拆分以得到右特征向量与左特征向量,并通过局部残差块中的右侧梯度运算通道对右特征向量进行残差运算,通过局部残差块中的左侧梯度运算通道对左特征向量进行特征运算,本发明通过设置局部残差块增加了网络分支的路径,避免了深度残差网络中加深网络层数使网络参数数目增多,所要求的计算也呈指数型增长的问题。

著录项

  • 公开/公告号CN114818794A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 浙大宁波理工学院;

    申请/专利号CN202210382671.3

  • 申请日2022-04-13

  • 分类号G06K9/00(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构宁波市鄞州盛飞专利代理事务所(特殊普通合伙) 33243;

  • 代理人龙洋

  • 地址 315199 浙江省宁波市鄞州区首南街道钱湖南路1号

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06K 9/00 专利申请号:2022103826713 申请日:20220413

    实质审查的生效

说明书

技术领域

本发明涉及残差网络模型领域,尤其涉及基于跨阶段局部特征融合策略的残差网络模型与模型的训练方法。

背景技术

为了通过所采集来的刀具监测信号对数控机床中刀具磨损的状态实现精准预测,需要建立预测刀具磨损状态的神经网络模型。

与传统机器学习方法相比,卷积神经网络基于深度网络将线性不可分的问题转变为线性可分的问题,可以自适应提取最优特征及建立模型,克服了手动提取特征需要先验经验且步骤繁杂的不足。相对于浅层学习来说,深度网络的网络层数更多,数据分析能力更强。但这并不意味着我们可以无限增加网络层数来提高模型的分类准确率。随着网络的不断加深,网络将会发生退化的现象:网络在训练集上的准确率随着层数的增多而提高,然后趋于饱和平稳。此时如果再增加网络深度,准确率反而减小。所以说,冗余的网络层学习造成了网络退化。在实际研究中,一方面要避免因网络层数过高而导致的网络退化现象,另一方面又想要加深网络,充分利用处理器算力,提高网络性能。对此,何恺明团队提出的深度残差网络(Residual Network,ResNet)使用一条跨跃相邻层的恒等映射来连接网络不同层,模型在训练过程中可以自动选择更新参数的路径,很大程度上消除了网络退化问题,简化了网络训练。虽然该深度残差网络的残差思想,很好地解决了深度网络所存在的退化现象,似乎只要设置更深层数的神经网络,就可以解决上述的难题。然而加深网络层数会使网络参数数目增多,所要求的计算也呈指数型增长,因此,我们不能无限制地增加网络深度来提升网络性能。因此本发明提出了一种基于跨阶段局部特征融合策略的残差网络模型与模型的训练方法,本发明基于跨阶段局部特征融合策略的残差网络模型利用网络分支路径数量比网络的深度和宽度对于性能的提升更为关键的原理对残差网络做了进一步的优化,以精准的预测出刀具的磨损状态。

发明内容

在深度残差网络中,虽然使用一条跨跃相邻层的恒等映射来连接网络不同层,使得模型在训练过程中可以自动选择更新参数的路径,能很大程度上消除网络退化的问题,但是加深网络层数会使网络参数数目增多,所要求的计算也呈指数型增长,因此,本发明基于网络分支路径数量比网络的深度和宽度对于性能的提升更为关键的原理提出了一种基于跨阶段局部特征融合策略的残差网络模型,以解决上述技术问题,从而精准的预测出刀具的磨损状态;

一种基于跨阶段局部特征融合策略的残差网络模型,用于预测数控机床中刀具的磨损状态,包括:

信号输入层,用于输入刀具监测信号;

卷积层,用于对刀具监测信号进行卷积计算以获取信号特征向量;

批归一化层,用于对信号特征向量进行批归一化;

激活层,用于对批归一化后的信号特征向量进行非线性运算,以获取信号激活特征向量;

残差层,其包括残差块,残差块中设置有左运算通道、右运算通道与合并单元,其中,左运算通道用于对信号激活特征向量进行特征运算以得到残差左特征向量并输出;右运算通道用于对信号激活特征向量进行下采样以得到残差右特征向量并输出;合并单元,用于合并输出的残差左特征向量与残差右特征向量以得到残差特征合并向量;

局部残差模块,其包括至少一个局部残差块,所述局部残差块用于对合并向量进行拆分以得到右特征向量与左特征向量,并通过局部残差块中的右侧梯度运算通道对右特征向量进行残差运算,通过局部残差块中的左侧梯度运算通道对左特征向量进行特征运算,并将残差运算与特征运算后得到的特征向量进行融合以得到特征融合向量;所述合并向量包括残差特征合并向量与特征融合向量;

Flatten层,用于展开特征融合向量;第二批归一化层,用于对展开后的特征融合向量进行归一化;第二激活层,用于对归一化后的特征融合向量进行激活;全连接层,用于对激活后特征融合向量进行非线性变化以得到模型预测的刀具磨损状态。

进一步地,所述残差层中残差块的左运算通道包括依次连接的:

第一卷积层,用于对信号激活特征向量进行卷积计算以得到特征学习向量;

批归一化层,用于对特征学习向量进行批归一化;

激活层,用于对批归一化后的特征学习向量进行非线性运算以得到重激活特征向量;

第二卷积层,用于对重激活特征向量进行卷积计算以得到残差左特征向量。

进一步地,所述残差层中残差块的右运算通道包括:

最大池化层,用于对信号激活特征向量进行下采样以得到残差右特征向量。

进一步地,所述局部残差模块中局部残差块包括:

拆分层,用于对合并向量进行拆分以得到右特征向量与左特征向量;

左侧梯度运算通道,其包括依次连接的批归一化层、激活层、卷积层与最大池化层,其中:批归一化层,用于对左特征向量进行批归一化;激活层,用于对批归一化后的左特征向量进行非线性运算以得到左激活特征向量;卷积层,用于对左激活特征向量进行卷积计算,以得到左学习特征向量;最大池化层,用于对左学习特征向量进行下采样以得到左梯度特征向量;

右侧梯度运算通道,其包括至少一个基本残差块,用于对右特征向量进行残差运算,以得到右梯度特征向量;

融合层,用于对左梯度特征向量与右梯度特征向量进行融合以得到特征融合向量。

进一步地,所述基本残差块包括:

左运算通道,其包括依次连接的第一批归一化层、第一激活层、第一卷积层、第二批归一化层、第二激活层与第二卷积层,其中:

第一批归一化层,用于对右特征向量进行批归一化;

第一激活层,用于对批归一化后的右特征向量进行非线性运算以得到左通道激活特征向量;

第一卷积层,用于对左通道激活特征向量进行卷积计算,以得到左通道学习特征向量;

第二批归一化层,用于对左通道学习特征向量进行批归一化;

第二激活层,用于对批归一化后的左通道学习特征向量进行非线性运算以得到左通道重激活特征向量;

第二卷积层,用于对左通道重激活特征向量进行卷积计算,以得到左通道重学习特征向量;

右运算通道,其包括最大池化层,用于对右特征向量进行下采样以得到右通道池化特征向量;

合并单元,用于合并左通道重学习特征向量与右通道池化特征向量以得到右梯度特征向量。

本发明还提出了一种用于残差网络模型的训练方法,用于训练如权利要求1至5任意一项所述的基于跨阶段局部特征融合策略的残差网络模型,在利用基于跨阶段局部特征融合策略的残差网络模型预测刀具磨损状态之前还包括训练该模型,所述训练方法包括:

获取训练数据集,所述训练数据集中包括带有训练标签的刀具监测信号,所述训练标签为刀具监测信号对应监测时刻的刀具磨损量;

利用训练数据集训练基于跨阶段局部特征融合策略的残差网络模型。

进一步地,在训练基于跨阶段局部特征融合策略的残差网络模型之后还包括:

获取验证数据集,所述验证数据集中包括带有验证标签的刀具监测信号,所述验证标签为刀具监测信号对应监测时刻的刀具磨损量;

通过验证数据集利用训练后的基于跨阶段局部特征融合策略的残差网络模型获取模型预测的刀具磨损状态;所述刀具磨损状态包含刀具磨损量;

通过预设损失函数利用模型预测得到的刀具磨损量与验证数据集中刀具监测信号对应的刀具磨损量获取模型的训练效果值。

进一步地,所述刀具磨损状态包括初期磨损状态、正常磨损状态与急剧磨损状态,所述预设损失函数的表达式为:

式中,N表示验证数据集中刀具监测信号的总点数;

与现有技术相比,本发明至少含有以下有益效果:

(1)本发明通过在模型中设置残差层,并在残差层后连接至少一个局部残差块,以增加网络分支的路径,解决了网络退化问题的同时,避免了深度残差网络中加深网络层数使网络参数数目增多,所要求的计算也呈指数型增长的问题,从而极大的提升了模型预测刀具磨损状态的精准度;

(2)本发明的局部残差块包括:拆分层、左侧梯度运算通道、右侧梯度运算通道、融合层,而右侧梯度运算通道中又包括有至少一个基本残差块,其极大的扩增了网络的分支路径,其解决了仅通过加深网络深度来提升网络性能而导致网络参数数目增多、计算呈指数型增长的问题,极大的增强了网络的学习能力;

(3)本发明通过以刀具磨损量为训练标签的刀具监测信号作为训练数据集中的训练数据,训练模型,极大的提升了模型的预测准确率;

(4)在深度神经网络中,损失函数是将模型对样本点预测的输出标签与样本真实标签之间的差别进行量化统计,来衡量模型对样本集的学习效果。模型训练损失值大,说明模型预测结果与真实结果的差距大,学习效果不够理想,其值小说明学习效果较好。本发明通过在预设损失函数中对刀具监测信号(样本点)设置不同的权重系数

附图说明

图1为一种基于跨阶段局部特征融合策略的残差网络模型的模型结构图;

图2为局部残差模块的模块结构图;

图3为基本残差块的模块结构图。

具体实施方式

以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。

实施例一

假设针对一个研究任务已经存在一个最优模型,恰好可以使分类任务的准确率达到100%,它的网络层数为10层。当我们进行网络模型的搭建时,这个最优模型存在但不可知,于是我们可能设置了22层的网络层数,那么其实设计的网络结构中有12层是冗余无用的。除非模型训练时这12层变为恒等映射,即经过这12层的输出与输入完全相同,否则我们很难保证22层网络模型性能和最优化的10层网络模型一样好。所以说,冗余的网络层学习造成了网络退化。在实际研究中,一方面要避免因网络层数过高而导致的网络退化现象,另一方面又想要加深网络,充分利用处理器算力,提高网络性能。对此,现有技术中的深度残差网络使用一条跨跃相邻层的恒等映射来连接网络不同层,模型在训练过程中可以自动选择更新参数的路径,很大程度上消除了网络退化问题。然而,残差思想虽然很好地解决了深度网络所存在的退化现象,我们似乎只要设置更深层数的神经网络,就可以解决一切难题,但是加深网络层数会使网络参数数目增多,所要求计算也呈指数型增长,因此我们并不能无限制地增加网络深度来提升网络性能。

基于上述技术问题,如图1所示,本发明提出了一种基于跨阶段局部特征融合策略的残差网络模型,用于预测数控机床中刀具的磨损状态,包括:

信号输入层,用于输入刀具监测信号;

所述刀具监测信号包括径向振动信号、切向振动信号、轴向振动信号与声音信号(该信号可实时获取,无需暂停数控机床的运作,因此提高了数控机床的生产效率,且实现了刀具磨损的实时监测)。在将刀具监测信号输入信号输入层之前还包括对刀具监测信号进行去噪。

卷积层,用于对刀具监测信号进行卷积计算以获取信号特征向量;

批归一化层,用于对信号特征向量进行批归一化;

激活层,用于对批归一化后的信号特征向量进行非线性运算,以获取信号激活特征向量;

残差层,其包括残差块,残差块中设置有左运算通道、右运算通道与合并单元,其中,左运算通道用于对信号激活特征向量进行特征运算以得到残差左特征向量并输出;右运算通道用于对信号激活特征向量进行下采样以得到残差右特征向量并输出;合并单元,用于合并输出的残差左特征向量与残差右特征向量以得到残差特征合并向量;

所述残差层中残差块的左运算通道包括依次连接的:

第一卷积层,用于对信号激活特征向量进行卷积计算以得到特征学习向量;

批归一化层,用于对特征学习向量进行批归一化;

激活层,用于对批归一化后的特征学习向量进行非线性运算以得到重激活特征向量;

第二卷积层,用于对重激活特征向量进行卷积计算以得到残差左特征向量。

所述残差层中残差块的右运算通道包括:

最大池化层,用于对信号激活特征向量进行下采样以得到残差右特征向量。

局部残差模块,其包括至少一个局部残差块,所述局部残差块用于对合并向量进行拆分以得到右特征向量与左特征向量,并通过局部残差块中的右侧梯度运算通道对右特征向量进行残差运算,通过局部残差块中的左侧梯度运算通道对左特征向量进行特征运算,并将残差运算与特征运算后得到的特征向量进行融合以得到特征融合向量;所述合并向量包括残差特征合并向量与特征融合向量;

所述局部残差模块中局部残差块包括:

拆分层,用于对合并向量进行拆分以得到右特征向量与左特征向量;

左侧梯度运算通道,其包括依次连接的批归一化层、激活层、卷积层与最大池化层,其中:批归一化层,用于对左特征向量进行批归一化;激活层,用于对批归一化后的左特征向量进行非线性运算以得到左激活特征向量;卷积层,用于对左激活特征向量进行卷积计算,以得到左学习特征向量;最大池化层,用于对左学习特征向量进行下采样以得到左梯度特征向量;

右侧梯度运算通道,其包括至少一个基本残差块,用于对右特征向量进行残差运算,以得到右梯度特征向量;

本发明的局部残差块包括:拆分层、左侧梯度运算通道、右侧梯度运算通道、融合层,而右侧梯度运算通道中又包括有至少一个基本残差块,其极大的扩增了网络的分支路径,其解决了仅通过加深网络深度来提升网络性能而导致网络参数数目增多、计算呈指数型增长的问题,极大的增强了网络的学习能力。

本实施例中,如图2所示一个局部残差块中包含n个基本残差块。合并向量经过拆分层,拆分成右特征向量与左特征向量。右特征向量进入右侧梯度运算通道,经过n个基本残差块的循环计算,基本残差块的内部结构参照图3,输出向量长度为输入向量长度的1/2n(向上取整)。左特征向量进入左侧梯度运算通道,其中卷积层的卷积核尺寸为1,卷积核个数为64,步长为1,全零填充,输出向量长度与输入向量长度相同;最大池化层的宽度和步长均为2n,以保证输出向量长度可以与经过基本残差块循环后的输出向量长度相匹配。两者在融合层进行concatenate融合运算得到最后的输出向量(特征融合向量),即是下一个局部残差块的输入。

所述基本残差块包括:

左运算通道,其包括依次连接的第一批归一化层、第一激活层、第一卷积层、第二批归一化层、第二激活层与第二卷积层,其中:

第一批归一化层,用于对右特征向量进行批归一化;

第一激活层,用于对批归一化后的右特征向量进行非线性运算以得到左通道激活特征向量;

第一卷积层,用于对左通道激活特征向量进行卷积计算,以得到左通道学习特征向量;

第二批归一化层,用于对左通道学习特征向量进行批归一化;

第二激活层,用于对批归一化后的左通道学习特征向量进行非线性运算以得到左通道重激活特征向量;

第二卷积层,用于对左通道重激活特征向量进行卷积计算,以得到左通道重学习特征向量;

右运算通道,其包括最大池化层,用于对右特征向量进行下采样以得到右通道池化特征向量;

合并单元,用于合并左通道重学习特征向量与右通道池化特征向量以得到右梯度特征向量。

本实施例中所设计的基本残差块内部结构如图3所示,每两个卷积层设置一个shortcut连接(即右运算通道)。其中,左运算通道:第一卷积层的卷积核尺寸为3,卷积核个数为64,步长为1,全零填充,其输出向量长度与输入向量长度相同;第二卷积层的卷积核尺寸为3,卷积核个数为128,步长为2,全零填充,输出向量长度是输入向量长度的一半;第一批归一化层与第二批归一化层用于对特征向量进行批归一化的操作。右运算通道:最大池化层的宽度和步长均为2,输出向量长度是输入向量长度的一半。基本残差块的输入通过左右两条运算通道分别得到两个输出向量,合并后即为该基本残差块的输出,也是下一个基本残差块的输入。特征向量经过一次基本残差块的运算之后,其尺寸减少一半,通道数为128。

融合层,用于对左梯度特征向量与右梯度特征向量进行融合以得到特征融合向量。

Flatten层,用于展开特征融合向量;第二批归一化层,用于对展开后的特征融合向量进行归一化;第二激活层,用于对归一化后的特征融合向量进行激活;全连接层,用于对激活后特征融合向量进行非线性变化以得到模型预测的刀具磨损状态。

如图1所示,刀具监测信号输入后首先经过第一个卷积层,所述第一个卷积层的卷积核尺寸为5,卷积核个数为128,步长为1,无填充,输出向量长度比输入向量长度小4。之后通过批归一化层和激活层,进入一个残差层,进行第一次残差运算,输出向量长度是输入向量长度的一半。接着通过多个局部残差块,输出为128通道的一维向量(特征融合向量)。Flatten层将128通道一维向量展开成单通道128维向量。单通道的128维向量继续通过第二批归一化层和第二激活层,最后由全连接层输出预测结果(刀具磨损状态)。

本发明基于网络分支路径数量比网络的深度和宽度对于性能的提升更为关键的原理,在模型中设置残差层,并在残差层后连接至少一个局部残差块,以增加网络分支的路径,解决了网络退化问题的同时,避免了深度残差网络中加深网络层数使网络参数数目增多,所要求的计算也呈指数型增长的问题,从而极大的提升了模型预测刀具磨损状态的精准度。

实施例二

本发明还提出了一种用于残差网络模型的训练方法,用于训练如权利要求1至5任意一项所述的基于跨阶段局部特征融合策略的残差网络模型,在利用基于跨阶段局部特征融合策略的残差网络模型预测刀具磨损状态之前还包括训练该模型,所述训练方法包括:

获取训练数据集,所述训练数据集中包括带有训练标签的刀具监测信号,所述训练标签为刀具监测信号对应监测时刻的刀具磨损量;

利用训练数据集训练基于跨阶段局部特征融合策略的残差网络模型。

模型最后的输出结果与样本点(刀具监测信号)的训练标签相同。目前常用于刀具磨损监测研究的训练标签是将刀具磨损状态独立编码,作为样本点的训练标签,模型的输出结果也是预测磨损状态的相应编码。但这样降低了样本点所携带的关键信息量,训练得到的模型对刀具磨损的持续变化缺少敏感,导致最后的预测结果不一定理想。

为了保留样本点对应的刀具磨损量信息,本实施例以刀具监测信号对应监测时刻的刀具磨损量作为样本点的标签,那么模型最后的输出结果也是预测的刀具磨损量(刀具磨损量也可以表示为刀具磨损状态),通过预测刀具磨损量判断此时的刀具磨损状态。虽然大部分样本点预测的刀具磨损量与真实磨损量有一定偏差,但该偏差不影响判断其磨损状态的结果,相比于直接以刀具磨损状态作为训练标签的方法而言,模型对刀具磨损持续变化更加敏感,模型预测的准确率更高。

在深度神经网络中,还存在很多超参数。这里的超参数是指比如神经网络的网络层数、优化方法和小批量样本数量等需要在模型开始训练之前就预先设定好的参数,这些参数并不随网络的优化学习而变化。不同的场景应用需要设置不同的超参数,本实施例通过不断调整超参数,将本发明基于跨阶段局部特征融合策略的残差网络模型训练成更适配于刀具磨损状态监测的网络模型。常见的重要超参数如下表所示:

在本实施例中,特别说明一下网络层数的选择,一般来说,网络层数与其性能息息相关,网络层数越大,可以提取更多更加高维的特征,但计算成本也会呈指数型增加。本发明设计的模型主体包括m个局部残差块,一个局部残差块中包含n个基本残差块,因此需要设置不同的(m,n)组合来控制网络层数,以找到适合本发明的最佳组合。适用于残差网络的残差块一般为10、12、15,本实施例将(m,n)设置为(2,5)、(3,4)、(3,5)的组合进行训练损失下降的测试。在测试过程中,虽然(m,n)组合为(2,5)时,在训练前期损失下降较快,但后期收敛较慢。相同训练周期下,(m,n)组合为(3,4)和(3,5)时最后的收敛值均小于组合为(2,5)的收敛值。考虑到计算成本,本文网络层数选择3个局部残差块,1个局部残差块中包含4个基本残差块,作为最适合刀具磨损监测的网络层数,即(m,n)=(3,4)。

在训练基于跨阶段局部特征融合策略的残差网络模型之后还包括:

获取验证数据集,所述验证数据集中包括带有验证标签的刀具监测信号,所述验证标签为刀具监测信号对应监测时刻的刀具磨损量;

通过验证数据集利用训练后的基于跨阶段局部特征融合策略的残差网络模型获取模型预测的刀具磨损状态;所述刀具磨损状态包含刀具磨损量;

通过预设损失函数利用模型预测得到的刀具磨损量与验证数据集中刀具监测信号对应的刀具磨损量获取模型的训练效果值。

所述刀具磨损状态包括初期磨损状态、正常磨损状态与急剧磨损状态,所述预设损失函数的表达式为:

式中,N表示验证数据集中刀具监测信号的总点数;

在深度神经网络中,损失函数是将模型对样本点预测的输出标签与样本真实标签之间的差别进行量化统计,来衡量模型对样本集的学习效果。模型训练损失值大,说明模型预测结果与真实结果的差距大,学习效果不够理想,其值小说明学习效果较好。

常用的有是均方误差损失函数(MSE),该函数的定义如下:

式中y

所以,本发明通过在预设损失函数中对刀具监测信号(样本点)设置不同的权重系数

本实施例中以y

另外,当计算出来的训练效果值不在预设范围内时,将会调整本发明模型对应的训练参数(包括超参数),以重新对模型进行训练。

需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号