公开/公告号CN115115924A
专利类型发明专利
公开/公告日2022-09-27
原文格式PDF
申请/专利号CN202210857092.X
申请日2022-07-20
分类号G06V10/82(2022.01);G06V10/40(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构西安铭泽知识产权代理事务所(普通合伙) 61223;
代理人张举
地址 210000 江苏省南京市鼓楼区西康路1号
入库时间 2023-06-19 17:09:24
法律状态公告日
法律状态信息
法律状态
2022-10-18
实质审查的生效 IPC(主分类):G06V10/82 专利申请号:202210857092X 申请日:20220720
实质审查的生效
2022-09-27
公开
发明专利申请公布
技术领域
本发明涉及基于IR7-EC网络的混凝土图像裂缝类型迅捷智能识别方法技术领域,具体涉及一种基于倒残差结构的IR7-EC网络的混凝土裂缝图像快速识别方法。
背景技术
混凝土建筑,包括桥梁、大坝等民用基础设施,在其运营期间会产生劣损,而影响安全性,对其进行损伤诊断是十分必要的。随着无人机技术和无线传输技术的发展,使大体积混凝土的海量数据高效获取成为了可能,为发展智能识别提供了基础。与传统的结构损伤检测方法相比,采用机器视觉技术的裂缝检测具有高效、高精度、客观性好等优势。
然而,深度学习神经网络最初设计于计算机领域多分类问题,目的设计出是高效、高准确并率适用于各种情景的通用神经网络。在深度学习网络进行混凝土裂缝识别时,裂缝类型不超过十种,通用网络很容易产生参数的冗余、训练时间以及硬件内存的浪费。因此,有必要发展轻量化、网络收敛速度快,识别准确率高混凝土裂缝专用神经网络。
发明内容
为解决上述问题,本发明提供了基于专用于混凝土海量图像裂缝辨识的IR7-EC网络模型的裂缝类型识别方法。
基于IR7-EC网络的混凝土图像裂缝类型迅捷智能识别方法,包括以下步骤:
搭建IR7-EC网络模型;所述IR7-EC网络模型包括依次连接的卷积层、7个InvertedResidual-ECA结构、CBAM注意力机制、池化层和多个全连接层;
其中,所述Inverted Residual-ECA结构为倒残差结构与ECA注意力机制相连接构成;
将实拍的待检测混凝土图像输入到训练好的IR7-EC网络模型中,通过卷积层获得初步特征;
将初步特征依次通过7个Inverted Residual-ECA结构,获得增强的混凝土裂缝特征提取图;
将增强的混凝土裂缝特征提取图输入到CBAM注意力机制,进行通道和空间层面的特征提取,获得蕴含裂缝信息更多的特征提取图;
对特征提取图进行数据降维和二维转一维化处理,将提取到的一维裂缝图像特征信息对输入的混凝土裂缝图像进行识别,输出识别结果。
优选地,所述搭建IR7-EC网络模型,具体包括以下步骤:
建立依次连接的13层网络框架;
第1层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长2,输入通道3,输出通道数16;
第2层到第8层为Inverted Residual-ECA结构,具体包括四部分:
第一部分:卷积核1×1大小的卷积层、Batch normalization归一化层和ReLU6激活函数;
第二部分:卷积核3×3大小的卷积层、Batch normalization归一化层和ReLU6激活函数;
第三部分:ECA注意力机制,其结构包括平均池化层、卷积核1×1大小卷积层和Sigmoid函数;
第四部分:卷积核1×1大小的卷积层、Batch normalization归一化层和线性激活函数;
第9层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长1,输入通道96,输出通道数576;
第10层为CBAM注意力机制,具体包括两部分:
第一部分:通道注意力机制,包括平均池化层、最大池化层、全练接层1、ReLU6激活函数、全练接层2和Sigmoid函数;
第二部分:空间注意力机制,包括平均池化层、最大池化层、卷积核7×7大小的卷积层和Sigmoid函数;
第11层为平均池化层;
第12层为一维卷积层、Hardswish激活函数和稀疏率为0.2的Dropout层;
第13层为一维卷积层。
优选地,所述IR7-EC网络模型的训练,包括以下步骤:
采集裂缝图像,建立不同裂缝类型的图像数据集,并进行前处理;
将前处理后的图像数据集输入第1层,先后通过卷积层、Batch normalization归一化层和Hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
将通过第1层初步提取的特征输入到第2层到第8层,依次通过7个InvertedResidual-ECA结构,输入特征通过Inverted Residual-ECA结构中第一部分处理后使得输入数据通道维数扩增,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过ECA注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,按照相似的操作依次将数据通过所有InvertedResidual-ECA结构;
将通过第2层到第8层的后所得到的数据输入第9层进行特征提取;
将通过第9层特征提取后的数据输入第10层CBAM注意力机制,对数据进行通道和空间层面的进一步特征提取,得到蕴含裂缝信息更多的特征提取图;
将通过第10层得到特征提取图依次输入第11层,第12层与第13层对数据降维和二维转一维化处理,根据提取到的一维裂缝图像特征信息对输入的混凝土裂缝图像进行识别,输出识别结果;
将通过第12层后所得到的识别结果与真实结果对比,通过损失函数计算误差,再通过优化函数更新网络参数,直到网络拟合。
优选地,所述Batch normalization归一化层的归一化处理,具体为:
式中,x
通过ReLU6激活函数的数据进行非线性处理,如下式所示:
f(x
式中,x
通过Hardswish激活函数的数据进行非线性处理,如下式所示:
式中,x为输入Hardswish激活函数前的特征图,f(x)为输出Hardswish激活函数的特征图。
优选地,所述通过ECA注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,包括以下步骤:
利用下式,将各层中通过ECA注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
E
式中,|t|
优选地,所述将通过第9层特征提取后的数据输入第10层CBAM注意力机制,对数据进行通道和空间层面的进一步特征提取,得到蕴含裂缝信息更多的特征提取图,包括以下步骤:
利用平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
M
式中,M
采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
M
式中,M
优选地,还包括:
对各层中通过dropout层的数据进行稀疏化处理以避免网络过拟合:
式中,Bernoulli(p)函数用来生成概率
优选地,所述通过损失函数计算误差,包括以下步骤:
利用下式对网络进行损失计算:
式中,Loss(y
优选地,还包括:
利用下式对网络内部参数进行优化:
f(θ)=Loss(y
m
式中,Loss(y
本发明的有益效果:
本发明的基于倒残差结构与其他机器视觉算法构建了专用于混凝土海量图像裂缝辨识的IR7-EC网络模型,与目前计算机视觉流行的网络相比,IR7-EC网络模型参数量更小,训练时间更短,同时维持了较高的混凝土裂缝识别准确率。
本发明避免了目前通用识别网络alexnet、vgg16、resnet50和Google net和mobilenet_v3_large的参数冗余、长训练时间、硬件内存占用高等弊端,具有网络模型参数量量小,训练收敛速度快,识别混凝土裂缝准确率高等特色和优势,构成从混凝土图像大数据中智能高效裂缝提供了一种专用模型,具有显著的工程应用潜力。
附图说明
图1为本发明实施例1利用IR7-EC网络辨识混凝土裂缝的流程图;
图2为本发明实施例1的七种混凝土裂缝图像的示意图;
图3为本发明实施例1的混凝土横向、纵向和倾斜裂缝类型评判标准
图4为本发明实施例1的传统倒残差结构与倒残差与ECA注意力机相结合对比图;
图5为本发明实施例1的IR7-EC网络结构示意图;
图6为本发明实施例1利用IR7-EC网络识别裂缝结果可视化图;
图7为IR7-EC模型与不同CNN模型的训练结果对比图;
图8为IR7-EC模型与不同CNN模型的测试集结果混淆矩阵对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本发明的一种基于IR7-EC网络的混凝土图像裂缝类型迅捷智能识别方法。利用IR7-EC网络辨识混凝土裂缝的流程图如图1所示。
表1本实施例实现的计算机平台及环境配置。
参阅图1,本发明提供了一种专用于混凝土海量图像裂缝辨识的IR7-EC网络模型,具体包括以下步骤:
步骤1,采集裂缝图像,建立裂缝类型识别图像数据集,其中所述裂缝模式识别图像数据集包括裂缝模式识别图像训练集和验证集;
步骤2,将待输入神经网络模型的图像做数据前处理;
步骤3,以倒残差结构为基础融合机器视觉算法搭建神经网络模型,将图像样本数据输入神经网络模型对神经网络模型进行训练,直至神经网络达到收敛,保存网络模型;
步骤4,将待检测的混凝土裂缝图像输入训练好的神经网络得到混凝土裂缝图像中混凝土裂缝的类型。
具体的,步骤1中采集裂缝图像后,将混凝土裂缝图像进行手动分类,包括:横向裂缝(TransverseCrack)、纵向裂缝(VerticalCrack)、倾斜裂缝(ObliqueCrack)、网状裂缝(MeshCrack)、不规则裂缝(IrregularCrack)、孔洞(Hole)和背景(Background)图像如图2,其中孔洞-数据增强(HOle-Augmentation)是基于数字图像处理技术(添加随机像素、改变色温、透视变换、水平翻转、随机像素点置零、运动模糊、高斯噪声、不等比例缩放等技术随机混合作用于原孔洞裂缝图)对孔洞类混凝土裂缝数据集进行人工扩充后将扩充后的数据并入原孔洞类裂缝分类数据集,以解决其数据量稀少的问题,混凝土横向、纵向和倾斜裂缝类型评判标准如图3,训练集和验证集包含了上述七种类型图像与图像类型对应的类别标签,共一万张图像,每种类型图像数量基本一致,训练集与验证集图像数量比例为7:3。
具体的,步骤2中的训练集前处理操作包括图像随机水平翻转和图像归一化处理,其中归一化所需的均值设置为[0.485,0.456,0.406],方差设置为[0.229,0.224,0.225],验证集前处理操作包括归一化,参数设置为[0.485,0.456,0.406]和[0.229,0.224,0.225]。
在本实施例中,步骤3中搭建的神经网络模型步骤包括:
建立依次连接的13层网络框架,如图5,内部具体参数见表2,其中conv2d代表卷积层,pool代表池化层,NBN代表不使用Batch normalization归一化层,HS代表Hardswish激活函数,RE代表ReLU6激活函数,k代表裂缝类别数;
表2 IR7-EC网络结构及内部具体参数
第1层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长2,输入通道3,输出通道数16;
第2层——第8层为Inverted Residual-ECA结构,Inverted Residual-ECA结构与传统倒残差结构对比见图4,Inverted Residual-ECA结构具体包括三部分,第一部分包括卷积核1×1大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第二部分包括卷积核3×3大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第三部分为ECA注意力机制,结构包括平均池化层、卷积核1×1大小卷积层和Sigmoid函数,第四部分结构包括卷积核1×1大小的卷积层、Batch normalization归一化层和线性激活函数;
第9层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长1,输入通道96,输出通道数576;
第10层为CBAM注意力机制,分为两部分,第一部分为通道注意力机制,包括平均池化层、最大池化层、全练接层1、ReLU6激活函数、全练接层2和Sigmoid函数,第二部分为空间注意力机制,包括平均池化层、最大池化层、卷积核7×7大小的卷积层和Sigmoid函数;
第11层为平均池化层;
第12层为一维卷积层、Hardswish激活函数和稀疏率为0.2的Dropout层;
第13层为一维卷积层
参阅图1,所述将图像样本数据输入神经网络模型对神经网络模型进行训练的步骤包括:
将前处理后的图像样本数据输入第1层,先后通过卷积层、Batch normalization归一化层和Hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
将通过第1层初步提取的特征输入到第2层——第8层,依次通过7个InvertedResidual-ECA结构,输入数据通过Inverted Residual-ECA结构中第一部分处理后使得输入数据通道维数扩增,扩增倍数见表1扩展倍数,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过ECA注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,通道数会降低到表1中输出通道数,当输入通道数等于输出通道数且步长为1时,Inverted Residual-ECA结构将加入shortcut连接,按照相似的操作依次将数据通过所有Inverted Residual-ECA结构;
将通过第2层——第8层的后所得到的数据输入第9层进行特征提取;
将通过第9层特征提取后的数据输入第10层CBAM注意力机制,对数据进行通道和空间层面的进行更进一步的特征提取,得到蕴含裂缝信息更多的特征提取图;
将通过第10层得到蕴含裂缝信息更多特征提取图依次输入第11层,第12层与第13层对数据降维和二维转一维化处理,根据提取到的一维裂缝图像特征信息对输入的混凝土裂缝图像进行识别,输出识别结果;
将通过第12层后所得到的识别结果与真实结果对比,通过损失函数计算误差,再通过优化函数更新网络参数,直到网络拟合。
具体的,为了防止网络梯度消失,利用下式对各层中通过Batch normalization归一化层的归一化处理:
式中,x
具体的,利用下式对各层中通过ReLU6激活函数的数据进行非线性处理:
f(x
式中,x
具体的,利用下式各层中通过Hardswish激活函数的数据进行非线性处理:
式中,x为输入Hardswish激活函数前的特征图,f(x)为输出Hardswish激活函数的特征图。
具体的,利用下式各层中通过ECA注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
E
式中,|t|
具体的,利用下式平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
M
式中,M
具体的,利用下式采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
M
式中,M
具体的,利用下式对各层中通过dropout层的数据进行稀疏化处理以避免网络过拟合:
式中,Bernoulli(p)函数用来生成概率
具体的,利用下式对网络进行损失计算:
式中,Loss(y
具体的,利用下式对网络内部参数进行优化:
f(θ)=Loss(y
m
式中,Loss(y
将实拍混凝土图像作为测试集输入训练好的网络,最后输出混凝土裂缝图像识别结果,如图6为利用tensorboard可视化工具得到的部分裂缝识别结果图。
参照图1,在本实施例中,分别对本专利中提出的IR7-EC网络和目前通用神经网络,包括alexnet、googlenet、vgg16、resnet34和同样包含大量倒残差结构的Mobilenet_v3_large进行训练,并在训练20个周期结束后通过上述网络对混凝土裂缝图像测试集进行裂缝识别,各模型训练集与验证集准确率和损失曲线如图7,各模型训练集、验证集和测试集最终结果见表3,其中训练集准确率和误差代表网络对混凝土裂缝训练后理论上的识别能力,验证集准确率和误差代表其实际识别能力,验证集准确率越高,误差越低网络实际识别能力越强。准确率计算公式如下:
式中,y
损失loss计算公式如下:
式中,Loss(y
表4为IR7-EC网络与其他CNN参数量及运算量,其中Flops(floating points ofoperations)为浮点运算次数,包括网络模型中所有的乘法和加法运算,用来衡量模型的计算复杂度。综合表3、表4和图7结果可知,与其他几个网络相比,本专利提出的IR7-EC网络在混凝土裂缝识别上,识别准确率和误差与Mobilenetv3_large非常接近,超过其他几种对比网络模型,同时参数量、运算量、模型大小、模型训练消耗时间大幅减少,占用内存除了高于Alexnet,远远低于其他对比网络模型,VGG16由于出现了严重的梯度消失问题,accuracy和Loss停止变化。以Resnet34网络为例,本专利提出的IR7-EC网络模型大小仅为4.09MB,比Resnet34网络小了19.88倍,参数量减少20倍,20个周期训练时间缩短5.9倍,浮点运算次数(Flops)降低77.9倍的同时拥有更高的混凝土识别准确率和更低的误差。以同样包含倒残差结构的Mobilenetv3_large对比,本专利提出的IR7-EC网络模型大小缩小了3.95倍,参数量减少4.02倍,20个周期训练时间缩短1.9倍,浮点运算次数(Flops)降低4.8倍的同时拥有相近的混凝土识别准确率和的误差。
测试集(包含每种类别裂缝各100张)识别结果对比见图8与表5,图8为IR7-EC模型与不同CNN模型的测试集识别结果混淆矩阵,矩阵纵坐标为预测值(predicted),横坐标为真实值(true),每一行之和表示该类别的网络预测样本数量,每一列之和表示真实的类别的样本数量,因此矩阵对角线上数值越大代表网络对该类别预测越接近真实值。表5为IR7-EC网络与其他CNN识别网络的测试集精确率(Precision)、召回率(Recall)和特异度(Specificity)。精确率(Precision)为预测所有正样本中判断正确的比例,Precision越高,表示网络误报的可能性越低。Precision计算公式如下:
召回率(Recall,True Positive Rate)为预测正确的所有正样本占实际所有正样本的比例,Recall越高,意味着网络漏报的可能性越低。Recall计算公式如下:
特异度(Specificity,True Negative Rate)为预测正确的所有负样本占实际所有负样本的比例,计算公式如下:
其中TP、TN、FP和FN见表6,第2个字母包括P(Positive)和N(Negative),用来表示预测情况,第一个字母包括T(True)和F(False),用来衡量实际情况。解释如下:
TP:网络判断该样本为正样本,该判断正确(事实上样本为正);
TN:网络判断该样本为负样本,该判断正确(事实上样本为负);
FP:网络判断该样本为正样本,该判断错误(事实上样本为负);
FN:网络判断该样本为负样本,该判断错误(事实上样本为正)。
综合分析表5和图8,各网络模型对测试集的识别结果中,所有CNN均对IrregularCrack类别裂缝识别能力略差,表5中,除了IR7-EC和Mobilenetv3_large外,其他CNN对IrregularCrack类别裂缝的召回率(recall)均不足0.5,综合来看,本专利提出的IR7-EC网络模型在大幅轻量化的同时,在测试集的表现上与Mobilenetv3_large不相上下,强于其他对比CNN。
表3 IR7-EC网络与其他CNN迭代20次的分类准确率和损失值
表4 IR7-EC网络与其他CNN参数量及运算量
表5 IR7-EC网络与其他CNN识别网络的测试集精确率(Precision)、召回率(Recall)和特异度(Specificity)对比
表6 TP、TN、FP和FN含义
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
机译: 基于MAC地址匹配的智能变压器变电站网络设备网络拓扑的动态识别方法。
机译: 基于物联网的物联网和游戏通用互联网智能监测系统及传感器类型识别方法
机译: 发起者类型智能网络服务中到达类型智能网络服务号的处理方法