法律状态公告日
法律状态信息
法律状态
2020-08-18
未缴年费专利权终止 IPC(主分类):G06F19/00 授权公告日:20160914 终止日期:20190901 申请日:20130901
专利权的终止
2016-09-14
授权
授权
2014-02-05
实质审查的生效 IPC(主分类):G06F19/00 申请日:20130901
实质审查的生效
2014-01-01
公开
公开
技术领域
本发明涉及一种改进的支持向量机结合激光诱导击穿光谱对钢铁材料的分类方法,具体来说是基于激光诱导击穿光谱通过改进的支持向量机对钢铁样品分类,属于光谱分析技术领域。
背景技术
钢材作为工业、农业等多个基础行业的重要原材料,有着极大的共需量。其标号种类繁多,不同种类钢材的成分用途千差万别,但规格尺寸大多相似,凭肉眼和经验很难在现场快速识别出不同标号的钢材。在炼钢企业、钢材市场、进出口码头等囤积大量钢材的地方,由于产品数量种类繁多,难免出现混淆。此外,由于不同厂家的生产工艺和原材料来源不同,即使同一标号的产品,其成分、性能也会存在差异。传统分析方法都需要取样后在实验室进行分析化验,步骤非常繁琐,检测时间长,不能完成快速的在线检测任务,此时就需要一种能够快速准确识别钢材种类和成分信息的现场检测技术。
激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)是一种基于原子发射光谱的检测物质组分与含量的分析技术。强激光脉冲聚焦在样品上形成等离子体,在等离子体冷却过程中,样品中处于激发态的原子和离子向低能级或基态跃迁产生特定频率的特征发射谱线。由于发射谱线和特定元素一一对应而且谱线强度与对应元素含量之间具有一定的量化关系,从而可实现对样品化学元素的定性和定量分析,而根据不同种类物质光谱的特性,借助化学计量学方法则能够判别其所属类别从而实现对物质的分类。LIBS分析简便、快速,不需要样品预处理并能同时进行多元素测定,因此钢铁样品的现场检测上有很大的应用潜力。
支持向量机(Support vector machine, SVM)是一种基于统计学习理论的机器学习算法。它以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,因此其推广能力明显优于基于经验风险最小化的传统机器学习方法。支持向量机通过引入核函数把基于内积运算的线性算法非线性化,将输入样本空间非线性映射到新的高维特征空间,在高维空间中进行相应的线性操作,从而实现非线性关系向线性关系的转化,在解决小样本、非线性及高维模式识别中表现出许多特有的优势。
发明内容
本发明的目的是通过一种改进的支持向量机建模分类方法——组合模型——结合激光诱导击穿光谱实现对多种钢材的快速准确判别分类。
本发明实现过程如下:
一种改进的支持向量机结合激光诱导击穿光谱对钢铁材料的分类方法,包括以下步骤:
(1) 利用激光诱导击穿光谱系统对不同牌号的钢材样品分别在不同的测量位点进行光谱数据采集;
(2) 从每种牌号样品的光谱数据中随机挑选占其数据总量2/3的光谱数据作为训练集,其余光谱数据作为测试集;
(3) 本发明中支持向量机使用多项式核函数;
(4) 使用训练集数据通过网格法对多项式参数d在1—10范围内和惩罚因子C在10-5—105范围内进行寻优;
(5) 确定最优参数后利用训练集数据建立支持向量机模型, 建模过程中使用多项式核函数,首先进行一对多建模分类,分别建立针对每一类的二元分类器,然后将测试集数据依次带入各分类器预测,综合各二元分类器的预测值得出一对多模型的预测结果;如果一对多模型判断该数据属于某一类别,则整个预测过程结束;如果一对多模型判断该数据同时属于多个类别,即出现多分类情况,则把数据可能属于的类别作为候选类别,并在这些候选类别范围内进行一对一建模分类;
(6) 一对一建模是将所有候选类别两两组合,每两个候选类别建立一个二元分类器,对于m类候选类别,则需建立m(m-1)/2个二元分类器,然后测试数据被所有二元分类器依次预测,综合所有分类器的预测值以投票方式决定最终预测类别;如果最高得票数的类别不止一种,则将最高得票数的所有类别作为新的候选类别,然后重复迭代上述一对一建模分类方法直至最终确定唯一类别,即为最终预测类别;或者连续两次候选类别完全相同,此时判定该数据“无法分类”。
上述步骤(5)中,建立针对每一类别的二元分类器,对于第i类数据,将训练集数据中属于第i类的数据设为正标签,其他所有类别的数据都设为负标签,总共k类数据则共需建立k个二元分类器。
上述步骤(6)中,在候选类别范围内进行一对一建模分类并按如下方法进行投票:对于i—j类二元分类器,如果该分类器判断测试数据为第i类,则第i类得票数加1,否则第j类得票数加1,所有分类器均按上述方法判断并投票后,统计各类别总得票数,以得票数最高的类别为最终预测结果。
本发明的优点与积极效果:
(1) 本发明将一对多分类和一对一分类串联使用,充分利用二者的优势。测试数据经过模糊分类筛选出候选类别,避免无用类别的干扰,有助于提高一对一分类的预测能力。同时一对多分类的计算成本远小于一对一分类,先通过一对多分类缩小可能所属类别的范围,避免了后续一对一分类时不必要的计算,大大降低了计算成本。
(2)在候选类别范围内进行精细分类,由于没有无用类别的干扰,而且一对一分类考虑到所有候选类别间的差异,通过循环迭代,逐步缩小候选类别,最终确定预测结果,因此预测准确率显著提高。
(3) 经过模糊分类和精细分类两层分析后,如果仍然无法唯一确定所属种类,则判定该数据“无法分类”。由于钢铁样品的成分不均一性,同一样品在不同位置的元素成分可能会有差异,因此在某些测量点获得的光谱数据可能无法充分包含分类所需的信息并容易导致错误分类。引入“无法分类”的判定能够起到报警的作用,提醒测试者该数据无效,避免因测量信息不足导致误判,降低了错误分类率。
附图说明
图1是支持向量机原理示意图;
图2是本发明中激光诱导击穿光谱系统结构图;
图3是一系列不同牌号圆钢的LIBS光谱图;
图4是组合模型的操作流程图。
具体实施方式
一种改进的支持向量机结合激光诱导击穿光谱对钢铁材料的分类方法,包括以下步骤:
(1) 挑选不同牌号的圆钢样品,利用激光诱导击穿光谱系统在样品表面的不同测量位点进行测量,得到不同种类样品的光谱数据。
(2) 从每种牌号样品的光谱数据中随机挑选占其数据总量2/3的光谱数据作为训练集,其余光谱数据作为测试集;
(3) 本发明中支持向量机使用多项式核函数;
(4) 使用训练集数据通过网格法对多项式参数d在1—10范围内和惩罚因子C在10-5—105范围内进行寻优。
(5) 确定最优参数后利用训练集数据建立支持向量机模型,建模算法过程如下:
对于二分类问题,xi是一个光谱数据(i=1、2、3、…、n,n是训练集中光谱数据个数)yi={+1,-1}是光谱数据xi所对应的类别标签。
对于在特征空间线性可分的两类数据,必然存在分隔超平面
其中 w 是垂直于超平面的一个向量,b是截距,因此可以用
通常在两类数据之间会存在多个超平面,但只有一个能够使两类数据间的间隔最大化从而能够更加容易分类。
最优超平面可以通过求解下面的最优化问题得到:
考虑到数据中可能会有异常值存在,为了避免因少数异常值的偏离导致超平面的变形,SVM 通过引入松弛变量
其中C是惩罚因子。
对上述二次优化问题,可通过求解对偶问题得到最优解:
通过给每一个约束条件加上拉格朗日乘值α将约束条件融和到目标函数中:
而求解这个对偶问题,分为两个步骤,先让L(w,b,a) 关于 w 和 b 最小化,
带回上述的 L 得到:
此时只有一个参数,可以容易求解出α,通过α即能导出w,b的解。
经求解最优化问题建立SVM模型后,即可通过如下决策函数对测试数据xtest进行预测:
以上推导过程是针对数据在特征空间是线性可分的情况,当出现线性不可分情况时,可通过引入核函数
组合模型中涉及到的一对多建模和一对一建模都是基于上述算法建模分析。
(6)一对多建模模糊分类:分别建立针对每一类别的二元分类器,对于第i类数据,为第i类中每一个光谱数据都设置一个维数为k,二进制编码的行向量标签矩阵v,其中k是类别总数,v中第i个元素为1,其他为0。利用数据矩阵和标签矩阵建立针对第i类的二元分类器,最后共需建立k个二元分类器。将测试集数据依次带入各分类器预测,预测结果也将是一个维数为k,二进制编码的行向量p。如果p中只有一个元素为1,则1所对应的类别数即为最终预测类别,如果p中有多个元素都为1,则将所有为1的元素所对应的类别做候选类别,如果p中所有元素都为0,则将k个类别都作为候选类别。
(7) 一对一建模精细分类:将所有候选类别两两组合,每两个候选类别建立一个二元分类器,对于m类候选类别,则需建立m(m-1)/2个二元分类器。然后测试数据被所有二元分类器依次预测,每个二元分类器会给出一个预测值,并按如下方式进行投票:对于i—j类二元分类器,如果该分类器判断测试数据为第i类,则第i类得票数加1,否则第j类得票数加1。所有分类器做出判断并投票后,统计各类别总得票数,以得票数最高的类别为最终预测结果。如果最高得票数的类别不止一种,则将最高得票数的所有类别作为新的候选类别,然后重复迭代步骤(7)中一对一建模分类方法直至最终确定唯一类别,即为最终预测类别;或者连续两次候选类别完全相同,此时判定该数据“无法分类”。
实施例1
以下以对九种不同牌号的圆钢样品的建模分类为例,结合附图和实例来进一步说明本发明的操作流程,但本发明不限于此例。
本实例使用的LIBS系统主要由调Q脉冲Nd:YAG激光器,中阶梯光谱仪(ARYELLE-UV-VIS, LTB150, German),可移动样品台和计算机等组成, 如图2所示。激光能量为61mJ, 基频光波长1064nm,脉宽为10 ns,重复频率为10Hz,光谱范围为220nm-800nm。
选择九种不同牌号的圆钢样品:20#(Φ20×900mm), 20Cr(Φ20×900mm), 20CrMnTi(Φ30×900mm),20CrMo(Φ20×900mm),20CrNiMo(Φ20×900mm),35#(Φ20×900mm),35CrMo(Φ20×900mm),40Cr(Φ20×900mm),42CrMo(Φ25×900mm)(西宁特殊钢股份有限公司)。每一类样品在不同位置截取三个6mm高的钢柱,经打磨处理后放置在样品台上,利用激光诱导击穿光谱系统对样品进行测量,得到各类样品的光谱数据,如图3所示。
在每个钢柱的每个截面上随机挑选五十个测量点,在每个测量点经20次连续激光脉冲打击后得到一个测量光谱,每五个测量光谱经平均得到一个分析光谱,最终九类钢材共获得540个分析光谱(一类钢材三个样品,一个样品两个截面,一个截面10个分析光谱)。
考虑到钢材样品具有整体成分不均一,局部成分均匀的特点,如果将所有光谱随机分为训练集和测试集则容易出现过拟合导致预测准确率虚高。
因此每类样品中随机选择4个截面的光谱数据作为训练集,其余为测试集。
选择多项式核函数,使用训练集数据通过网格法对多项式参数d(1—10)和惩罚因子C(10-5—105)进行寻优。
确定最优参数d=1,C=1后,将测试集数据按图4所示流程进行组合模型建模预测。为了对比,将同样的数据分别单独进行一对多建模预测和一对一建模预测,计算最终的预测正确率、预测错误率和无法识别率。
表1A显示一对多建模的预测效果很不稳定,例如20CrMnTi、35#和35CrMo几乎全部被正确识别,但是20CrMo和20CrNiMo的预测结果却又很差,而且对其他大部分种类的预测效果都不太好。
这主要是因为建模时正负标签的数据规模不平衡,当一类数据为正标签时,其他所有类别数据都为负标签,因此忽略了大部分类别间的差异导致过拟合现象严重。
而且钢铁样品的成分不均一性也导致同类数据间的差异较大,使得单纯一对多建模的预测效果并不理想。同时也注意到虽然一对多模型的预测正确率不高,但是错误率也很低,一部分数据被判定为“无法识别”。这也表明引入“无法识别”的判定的确能够显著降低错误率,避免误判。
表1B是一对一建模的分类结果,相对于一对多建模,预测正确率从73.66%提高到83.89% 。
但是提高主要体现在对20CrNiMo和42CrMo的预测上,对20CrMo和40Cr的预测效果仍然不佳。
因为充分考虑到了各个类别间的差异,大部分数据都能够被唯一识别,但也因此导致无法识别率降低,错误率升高。
表1C列出了组合模型的预测结果,与前两种方法相比,预测正确率有了显著提高,对20CrMo和40Cr也表现出较高的预测能力。
说明通过两层分析判别,支持向量机对易混淆数据的预测能力得到了增强。
此外组合模型的错误率和无法识别率都很低,这表明即使某些光谱数据无法获得充分的信息,但通过组合模型仍然能够准确的识别出来。
一对多建模每次训练二元分类器都要使用所有数据,但只需建立9个二元分类器;而一对一建模虽然每次训练二元分类器只使用两类数据,但需要36个分类器,因此训练时间相差不大。
但是一对一模型在预测时需要更多的分类器,因此在训练成本上,一对多建模明显优于一对一建模,但这是通过牺牲预测准确率取得的。
而组合模型的测试时间虽然高于一对多模型,但却比一对一建模降低了很多,考虑到其更高的预测准确率,12.82s测试180个光谱也是可以接受的。
综述所述,组合模型无论是在预测能力还是训练成本上都有着优秀的表现,这也为LIBS技术实现在线实时快速分析奠定了基础。
机译: 基于激光的红外光谱和激光诱导的击穿光谱相结合的材料表征
机译: 基于激光的红外光谱和激光诱导的击穿光谱相结合的材料表征
机译: 基于激光的红外光谱和激光诱导的击穿光谱相结合的材料表征