首页> 中国专利> 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法

一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法

摘要

本发明公开了一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法,包括云服务器平台端和用户平台端。云服务器平台端进行质谱谱图类型分类模型建立、谱图数据特征提取与卷积神经网络训练建模;用户平台端用于上传质谱谱图、实验条件与设备数据,根据质谱谱图类型分类模型或质谱谱图信息库直接筛查比对识别质谱谱图所属类别,基于云服务器平台端训练得到的神经网络模型自动对比判别农药类型与名称,将比对结果反馈给用户。本发明解决了用户购买标准品的限制,并且使用不受地点限制,可自动、快速准确地对农药残留进行鉴定。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-31

    授权

    授权

  • 2019-09-03

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20190326

    实质审查的生效

  • 2019-08-09

    公开

    公开

说明书

技术领域

本发明属于农药检测领域,涉及一种农药及化学污染物谱图自动比对识别系统与方法,尤其是一种基于云平台的农药及化学污染物质谱谱图的智能比对识别系统与方法。

背景技术

农药残留检测技术是保障食品安全方面至关重要的研究内容。世界各国的科学家长期致力于食品中农药残留检测技术的研究。较早的农残检测是基于气相色谱进行的,农药种类相对较少通常为几种或十几种,而气相色谱-质谱(GC-MS)技术的应用,使待测农药的种类增加到了几十种以上。气相色谱-串联质谱(GC-MS/MS)技术的应用,则使食品中农药残留的检测上升到新的台阶,待测农药的种类在200种左右。与此同时,液相色谱-串联质谱(LC-MS/MS)技术由于在检测极性较强和热不稳定性农药方面具有优于GC-MS和GC-MS/MS技术的优势也得到了广泛的应用。作为互补技术,研究人员也常将两者同时用于农药残留的检测。自2001年之后,与GC和LC相关的质谱检测技术已然成为农药多残留检测的主导技术。

据报道,目前世界常用的农药已经超过1000种,而且还在不断增加。面对如此种类繁多,性质各异的农药,以及各种复杂的样品基质,应用低分辨质谱开展目标化合物的常规检测已经不能满足实际需求。高分辨质谱的应用使低分辨质谱遇到的问题迎刃而解,其中具有代表性的是飞行时间质谱(TOF)和轨道离子阱质谱(Orbitrap)。本发明中涉及的高分辨质谱:液相色谱-四极杆-飞行时间质谱(LC-Q-TOFMS)、气相色谱-四极杆-飞行时间质谱(GC-Q-TOFMS)、线性离子阱—电场回旋共振轨道阱组合质谱(LC-LTQ-Orbitrap)、液相色谱-四极杆-静电场轨道阱质谱(LC-Q-Orbitrap)和气相色谱-四极杆-静电场轨道阱质谱(GC-Q-Orbitrap),其在农药多残留检测方面的最大优势就是可以在全扫描模式下提供足够的灵敏度,并获得尽可能多的化合物信息,同时,可以使化合物进一步得到确证。

上述质谱技术的应用,存在两方面需要解决的问题,一是,方法建立过程中需要参考标准品的质谱信息,二是,对于检测结果的确证需要与标准质谱图进行比对,这点对高分辨质谱尤为重要。在实际工作中,要想获得标准的质谱图,要么使用标准品自行采集,要么使用仪器公司提供的商业质谱图,但是这些都需要投入大量的人力、物力或财力,局限性相对较大。这也是一直困扰分析工作者的难题之一。

发明内容

为解决上述问题,本发明应用主流的质谱仪器:液相色谱-串联质谱(LC-MS/MS)、气相色谱-串联质谱(GC-MS/MS)、液相色谱-四极杆-飞行时间质谱(LC-Q-TOFMS)、气相色谱-四极杆-飞行时间质谱(GC-Q-TOFMS)、线性离子阱-电场回旋共振轨道阱组合质谱(LTQ-Orbitrap)、液相色谱-四极杆-静电场轨道阱质谱(LC-Q-Orbitrap)、气相色谱-四极杆-静电场轨道阱质谱(GC-Q-Orbitrap),为每种农药在数据库中建立了一张电子身份证,利用图像处理技术获取谱图信息,应用深度卷积神经网络为已检测的图谱分类建模,将图像模型系统放到后台云服务器端,用户登录系统在浏览器端上传其检测农药残留谱图,利用该智能比对系统和方法可以方便地获知所检测的数据是哪种农药。

本发明提供了一种基于云平台的农药及化学污染物谱图比对识别系统与方法,能够实现农药及化学污染物快速准确的比对识别,所述系统包括云服务器平台端、用户平台端;

其中所述云服务器平台端包括:

谱图获取部,用于获取质谱谱图;

谱图参数获取部,用于获取与质谱谱图对应的实验环境、实验条件、实验参数数据;

谱图设备获取部,用于获取与质谱谱图对应的谱图检测设备信息;

谱图预处理部,用于对所获取的质谱谱图进行纵向拼接、预处理,并提取谱图特征;

谱图分类模型部,用于获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值,建立质谱谱图分类模型;

农药种类分类模型部,用于使用神经网络模型对所提取的谱图特征、谱图检测设备信息、实验参数数据进行训练,得到能够识别农药及化学污染物种类和/或名称的分类模型;

所述用户平台端包括:

谱图数据上传部,用于向系统上传待检测的质谱谱图、谱图说明数据和实验参数数据;

谱图预处理部,用于对待检测的质谱谱图进行纵向拼接、预处理,并提取质谱谱图特征;

谱图类型识别部,用于根据质谱谱图内部最高峰值所在像素点处的拟合角度变化值对质谱谱图进行分类;

谱图识别部,用于将所提取的谱图特征、谱图说明数据和实验参数数据输入所述农药种类分类模型,识别出对应的农药及化学污染物种类和/或名称。

优选地,

所述神经网络模型为逐层细化卷积神经网络模型,其设计或使用方法为:将经过预处理的各类谱图输入逐层细化卷积神经网络中训练谱图分类模型。经过预处理后,输入逐层细化卷积神经网络进行训练的谱图的尺寸为1×1×1626×1626,各参数的含义依次为:在训练集中每次选择一个样本用来更新权值,输入图像的通道数为1(二值图像),输入图像的大小为1626×1626(高×宽)。

第一个卷积层Conv1使用尺寸为11×11×1的卷积核,表示每次卷积运算后,卷积核移动4个像素点,边缘补充像素p为0,表示不对图像边缘进行填充,经过Conv1层的运算后,输出特征图,该特征图反映了谱图的边缘轮廓等信息。使用Relu激活函数对卷积后的结果进行映射,控制数据的范围。接下来,局部响应归一化层LRN1对卷积层conv1输出的特征数据进行归一化,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力,经过该层的计算后,特征图的尺寸不变。之后,池化层Pool1使用尺寸为3×3×64的核对LRN1层输出的特征图进行最大池化,通过采样减少计算量和参数个数。

卷积层Conv2-Conv5分别对其上一层输出的特征图进行相应的卷积运算,卷积核尺寸逐层减小,分别为9×9×64,7×7×128,5×5×256,3×3×512,其中64,128,256,512分别相应卷积层使用的卷积核数量,使用的卷积核数量越多,得到的特征维度越高,经过逐层的卷积运算后,低层特征被抽象成为更高维更细化的卷积激活特征,各个卷积层中的步长以及边缘补充像素大小如图3所示。局部响应归一化层LRN2对卷积层Conv2输出的特征数据进行归一化。池化层Pool2-Pool5分别使用尺寸为3×3×128,3×3×256,3×3×512,3×3×512的核对其上一层输出的特征图进行最大池化。

全连接层Fc6将Conv5输出的局部特征进行连接,Fc6-Fc8三个全连接层在训练过程中通过学习全部的权重来筛选在分类任务中表现好的特征,并将特征送入Softmax-loss层。Dropout层Dop6与Drop7分别用于Fc6与Fc7的计算结果中,随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合。Softmax-loss层相当于一个分类器,计算得到损失函数的值。在训练过程中,使用随机梯度下降算法更新权值并设置初始学习率为0.0001,通过最小化损失函数逐步提高分类效果,并得到分类效果较好的逐层细化卷积神经网络分类模型。

优选地,

所述谱图包括质谱图和/或色谱图。

优选地,

所述谱图包括:液相色谱-串联质谱图、气相色谱-串联质谱图、液相色谱-四极杆-飞行时间质谱图、气相色谱-四极杆-飞行时间质谱图、线性离子阱-电场回旋共振轨道阱组合质谱图、液相色谱-四极杆-静电场轨道阱质谱图、气相色谱-四极杆-静电场轨道阱质谱图的一种或多种。

优选地,

所述质谱谱图分类模型部根据谱图内部最高峰值所在像素点处的角度变化值分类:液相色谱—串联质谱图中的离子流色谱图的拟合角度变化值范围为x11—x12,四个碰撞能量下离子质谱图的拟合角度变化值范围为x13—x14;液相色谱—四极杆—飞行时间质谱中的离子流色谱图的拟合角度变化值范围为x21—x22,四个碰撞能量下离子质谱图的拟合角度值均为x23;线性离子阱—电场回旋共振轨道阱组合质谱图中的离子色谱图的拟合角度变化值为x31—x32,电离模式全扫描质谱图的拟合角度值均为x33;气相色谱—串联质谱图一级质谱图拟合角度变化值为x41,四个碰撞能量下离子质谱图的拟合角度值为x43;液相色谱-四极杆-静电场轨道阱质谱中的离子流色谱图的拟合角度变化值为x51,碎片离子质谱图的拟合角度值为x53;气相色谱—四极杆—飞行时间质谱图中的质谱图的拟合角度值为x61;气相色谱-四极杆-静电场轨道阱质谱总离子色谱图的拟合角度变化值为x71—x72,电离模式全扫描质谱图的拟合角度值均为x73。其中,x11—x73的取值范围为0°—40°。

优选地,

所述质谱谱图分类模型部将质谱谱图灰度图转化为二值图,并将图像值赋予二维矩阵;根据矩阵值,判断图像高峰值(即图谱最高峰值)所在像素点的位置(即矩阵的行和列),以此为中心向左下和右下一定区域范围遍历,获取相对应矩阵值为1的矩阵的行与列,并记忆存储后拟合高峰处图像角度。

优选地,

所述质谱谱图内部最高峰所在像素点处的角度变化值通过梯度矢量计算。在直线或曲线附近,梯度矢量垂直于该直线或曲线,角度可由梯度矢量的方位变化计算得到。曲线上某点的梯度矢量是过该点的曲线片段的垂直线,用该点附近的一小段线段来代替曲线片段,计算出该线段的垂直线作为梯度矢量。该点附近的线段用邻域链长来确定,链长不同,计算出来的梯度矢量也略有差别。梯度矢量的方位就是它的角度大小。

优选地,

设Pn={p1,...,pn}是曲线或直线上的有序点集。Ln={l1,...,ln}是直线或曲线上有序点附近的一小段线段,li(i=1,...,n)表示以点pi为中心,邻域链长为m,即连接点pi-m和pi+m之间的线段。在本系统中,可将m的值设定为1~5之间的数值。Sn={s1,...,sn}表示线段li的垂直线的斜率的集合。An={a1,...,an}表示点pi附近li的垂直线的角度集,ai范围在[0,360°]。

点pi(xi,yi)附近线段li(连接点pi-m(xi-m,yi-m)和点pi+m(xi+m,yi+m))的斜率为:gi=(yi+m-yi-m)/(xi+m-xi-m)

线段li的垂直线的斜率为(-1/gi),即

si=(xi+m-xi-m)/(yi+m-yi-m)

ai的计算方式如表2所示。

表2

优选地,

所述谱图识别部在将待检测质谱谱图输入到所述分类模型前,还根据所述质谱谱图说明数据、实验参数和质谱谱图的数量从现有的质谱谱图库中筛选出可能与待检测质谱谱图类别相同的质谱谱图数据,对每幅待检测质谱谱图提取其Fc7层特征,并与从库中筛选出的所有类别预处理后的质谱谱图的Fc7层特征进行余弦相似度计算,找到与当前待检测质谱谱图相似程度最高的谱图,并判断其相似度是否高于50%,若相似度高于50%,则成功识别出用户输入的质谱谱图。

优选地,

所述余弦相似度计算采用以下方式:

其中,Ai表示谱图A的第i个特征值,Bi表示谱图B的第i个特征值,dn表示特征的总维数。

相应地,本发明还提出了一种基于云平台的农药及化学污染物七类质谱谱图识别方法,其包括:

在云服务器平台端获取质谱谱图,并获取与质谱谱图对应的实验环境、实验条件、实验参数数据;

获取与质谱谱图对应的谱图检测设备信息;

对所获取的质谱谱图进行纵向拼接、预处理,并提取谱图特征;

获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值,建立质谱谱图分类模型;

使用神经网络模型对所提取的质谱谱图特征、谱图检测设备信息、实验参数数据进行训练,得到能够识别农药及化学污染物种类和/或名称的农药种类分类模型;

在用户平台端向系统上传待检测的质谱谱图、质谱谱图说明数据和实验参数数据;

对待检测的质谱谱图进行纵向拼接、预处理并提取质谱谱图特征;

根据质谱谱图内部最高峰值所在像素点处的拟合角度变化值对质谱谱图进行分类;

将所提取的质谱谱图特征、质谱谱图说明数据和实验参数数据输入所述农药种类分类模型,识别出对应的农药及化学污染物种类和/或名称。

本发明所提出的基于云平台的农药及化学污染物谱图比对识别方法,其在云服务器平台端进行谱图分类模型建立、谱图数据特征提取与卷积神经网络训练建模,用户平台端用于用户上传质谱谱图和实验条件与设备数据,并根据云服务器平台端的质谱谱图分类模型识别质谱谱图类型,基于云服务器平台端训练得到的神经网络模型自动对比判别农药类型与名称,并将比对结果反馈给用户。该系统解决了用户购买标准品的限制,并且系统的使用不受地点限制,可快速准确地对农药及化学污染物进行检测。

本发明的有益效果:

1.本发明涵盖了液相色谱-串联质谱LC-MS/MS(605种)、气相色谱-串联质谱GC-MS/MS(619种)、液相色谱-四极杆-飞行时间质谱LC-Q-TOFMS(510种)、气相色谱-四极杆-飞行时间质谱GC-Q-TOFMS(753种)、线性离子阱-电场回旋共振轨道阱组合质谱LC-LTQ-Orbitrap(378种)、液相色谱-四极杆-静电场轨道阱质谱LC-Q-Orbitrap(570种)和气相色谱-四极杆-静电场轨道阱质谱GC-Q-Orbitrap(664种)七类色谱-质谱主流技术,为1200多种农药化学污染物建立了独有的电子身份证信息:质谱信息数据库(精确质量数、同位素分布、同位素丰度)和质谱特征谱图数据库(总离子流色谱图和不同能量碰撞下的碎片离子质谱图)等色谱-质谱分析鉴定的必要参数,为研发高通量农药多残留检测技术奠定了理论和方法基础,具有技术创新性,是当前最精确、灵敏可靠的检测技术,可以实现最大单次农药集群检测的唯一精准侦测技术。

2.本发明可实现世界常用1200多种农药化学污染物质谱谱图智能匹配、比对识别、定性。按照化合物组成成分分类检索,包括有机卤素农药、有机磷农药、拟除虫菊酯农药、氨基甲酸酯农药、有机氮农药、有机硫农药等;可以按照农药功能分类检索,包括杀虫剂、杀菌剂、除草剂、杀螨剂、杀线虫剂、昆虫生长调节剂、植物生长调节剂,以及多氯联苯、多环芳烃等持久性环境污染物;也可以按照农药毒性检索,包括微毒、低毒、中毒、高毒、剧毒,以及违禁农药等。对于已知化合物的鉴定,可通过色谱-质谱图集快速获取该化合物的分子结构及不同条件下的碎片离子等全面的色谱-质谱信息。据此,可以科学、合理、快速建立检测鉴定方法,保障目标物检测鉴定结果的准确可靠。

3.本发明可实现未知化合物的鉴定识别。根据本发明指定色谱-质谱条件下对未知物进行测定,获取其精确质量数、总离子流图和二级碎片离子质谱图等色谱质谱信息;再通过与系统信息比对,即可快速准确定性该未知化合物。

4.本发明可实现对同一化合物在不同仪器上的确证,提高了鉴定确证能力。对复杂基质中农药化学污染物残留的检测,经常受到共萃取基质的干扰,容易出现假阳性结果,有时需要不同类型的仪器进行确证。本发明包含7类不同的色谱-质谱仪器多种条件下的色谱-质谱图,互补扩展了应用范围,与实际工作接轨,参考性强。

5.本发明高分辨质谱标准质谱图,为农药多残留检测结果的确证提供了依据,无需购买大量实物参考标准品自行采集质谱图,实现了谱图检索、对照的智能化、自动化,节省了农药残留分析的成本,也提高了市场化快速检测的能力。同时,为农药及化学污染物的分析检测带来极大地便利,使得分析工作者在建立方法时有了参考依据,在确证结果时有了查询工具,具有非常重要的使用价值和较高的经济效益。

6.本发明实现了谱图数据的电子化和数据检索的自动化,开发了较完整的具有我国完全自主知识产权的世界领先的农药信息与农残检测数据库,不仅是对世界色谱-质谱学的重大贡献,而且对我国的农残分析、食品安全和环境安全检测、进出口检验检疫具有非常重大的科学意义和社会意义。

7.通过本发明色谱-质谱信息库的整合、开发与利用,将快速提高我国农残留实验室的建设,整体提升农药鉴定、农残检测业行水平和检测效率,具有很高的社会意义。检索系统的构建,将大大提升样品的数据分析能力和农药鉴定能力,提升目标农药的筛查侦测能力,具有很好的推广应用前景和经济价值。

8.本发明具有四大功能:农药残留新检测技术研发的指导书、未知化合物鉴定的参考书、技术培训的教科书和日常业务的工具书。当这种世界常用农药化学污染物七类色谱-质谱谱图自动识别系统建立成型后,这四大功能将发挥更大作用。

附图说明

图1为本发明的质谱谱图比对系统的系统结构图;

图2为本发明的逐层细化的卷积神经网络层次结构图;

图3为本发明一实施例的一级质谱图;

图4为本发明一实施例相应碰撞能量下子离子质谱图;

图5为本发明一实施例的总离子流色谱图;

图6为本发明一实施例的相应碰撞能量下子离子质谱图;

图7为本发明一实施例的提取离子色谱图;

图8为本发明一实施例的相应碰撞能量下子离子质谱图;

图9为本发明一实施例的[M+H]+提取离子色谱图;

图10为本发明一实施例的[M+H]+的二级质谱图;

图11为本发明一实施例的提取离子流色谱图;

图12为本发明一实施例的[M+H]+、[M+NH4]+和[M+Na]+典型的一级质谱图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示出了本发明基于云平台的农药及化学污染物谱图比对系统的示意图;所述系统包括云服务器平台端和用户平台端,其中用户平台端包括用户注册模块、用户登录模块、用户检索模块、谱图数据上传模块、质谱谱图预处理模块、质谱谱图类型识别和质谱谱图识别模块;云服务器平台端包括谱图设备信息获取模块、谱图参数获取模块、质谱谱图获取模块、质谱谱图信息库、质谱谱图预处理模块、质谱谱图分类模型模块和农药种类分类模块。

在云服务器平台端,质谱谱图获取模块接收用户上传的质谱谱图,谱图设备获取模块接收用户上传的谱图设备信息,谱图参数获取模块接收用户上传的实验环境、实验条件、实验参数等信息;其中用户上传的谱图可以是质谱图或提取离子流色谱图;图3至图12示出了本发明能够处理的谱图的多个示例,本领域技术人员应当理解,该些谱图仅是对本发明谱图对比系统所能处理的谱图类型的示意性举例,本发明所能处理的谱图包括但不限于此。

优选地,本发明实施例中的原始谱图包括7类质谱谱图,包括液相色谱-串联质谱图、气相色谱-串联质谱图、液相色谱-四极杆-飞行时间质谱图、气相色谱-四极杆-飞行时间质谱图、线性离子阱-电场回旋共振轨道阱组合质谱图、液相色谱-四极杆-静电场轨道阱质谱图、气相色谱-四极杆-静电场轨道阱质谱图。

质谱谱图预处理模块可对接收的质谱谱图进行预处理以符合处理要求,具体地,所述谱图预处理包括对质谱谱图进行竖向拼接、对数变换、伽玛校正、直方图均衡化、以及对谱图进行旋转、平移、缩放等几何变换,并对预处理后的质谱谱图进行特征提取;

优选地,所述质谱谱图分类模型模块根据质谱谱图内部最高峰值所在像素点处的角度变化值分类:液相色谱—串联质谱图中的离子流色谱图的拟合角度变化值范围为x11—x12,四个碰撞能量下离子质谱图的拟合角度变化值范围为x13—x14;液相色谱—四极杆—飞行时间质谱中的离子流色谱图的拟合角度变化值范围为x21—x22,四个碰撞能量下离子质谱图的拟合角度值均为x23;线性离子阱—电场回旋共振轨道阱组合质谱图中的离子色谱图的拟合角度变化值为x31—x32,电离模式全扫描质谱图的拟合角度值均为x33;气相色谱—串联质谱图一级质谱图拟合角度变化值为x41,四个碰撞能量下离子质谱图的拟合角度值为x43;液相色谱-四极杆-静电场轨道阱质谱中的离子流色谱图的拟合角度变化值为x51,碎片离子质谱图的拟合角度值为x53;气相色谱—四极杆—飞行时间质谱图中的质谱图的拟合角度值为x61;气相色谱-四极杆-静电场轨道阱质谱总离子色谱图的拟合角度变化值为x71—x72,电离模式全扫描质谱图的拟合角度值均为x73。其中,x11—x73的取值范围为0°—40°。

质谱谱图分类模型模块将质谱谱图灰度图转化为二值图,并将图像值赋予二维矩阵;根据矩阵值,判断图像高峰值(即图谱最高峰值)所在像素点的位置(即矩阵的行和列),以此为中心向左下和右下一定区域范围遍历,获取相对应矩阵值为1的矩阵的行与列,并记忆存储后拟合高峰处图像角度。

农药种类分类模型模块对农药种类、检测设备类别、实验参数、质谱谱图特征及农药名称等进行分类模型训练,得到逐层细化卷积神经网络训练模型以用于用户平台端的农药及化学污染物谱图比对和农药检测。云服务器平台端还包括一质谱谱图信息库,其存储有谱图类型、农药名称、农药种类及其相对应的谱图谱图等数据,可供用户平台端根据谱图类型和/或农药名称、和/或农药种类进行相应的质谱谱图的查询。

在用户平台端,用户通过用户注册模块和用户登录模块进行系统注册并登录系统;其中,用户注册功能提供不同权限的注册,用户可注册为具有上传信息(例如上传训练样本等)权限的用户,也可注册为仅具有查询权限的用户;用户注册后系统管理员对用户注册信息进行审核,审核通过后方可登录系统使用。

当用户注册、登录成功后,为获得所检测农药物质的信息,利用谱图数据上传模块向系统上传待检测的质谱谱图、谱图说明数据和实验参数数据;其中,谱图说明数据包括实验设备信息、谱图类型等,实验参数数据包括实验环境、实验条件、实验参数等信息。具体地,用户在上传待检测的质谱谱图时可单张谱图上传,也可多张谱图同时上传,上传的谱图可以是本技术领域中常用的任意的谱图格式。

在用户上传待检测的质谱谱图后,质谱谱图预处理模块对所述质谱谱图进行预处理,包括对质谱谱图进行竖向拼接、对数变换、伽玛校正,直方图均衡化、以及旋转、平移、缩放等几何变换,并对预处理后的谱图进行特征提取。

质谱谱图类型识别模块将质谱谱图预处理模块提取的谱图输入质谱谱图分类模型进行匹配识别。

质谱谱图识别模块读取云服务器平台端存储的已训练好的逐层细化卷积神经网络模型,并将质谱谱图预处理模块提取的谱图特征、谱图说明数据和实验参数数据等输入上述卷积神经网络模型进行匹配识别,从而得到与待检测质谱谱图对应的农药种类和农药名称。

根据本发明的又一优选方式,所述质谱谱图识别模块在将待检测质谱谱图输入到所述分类模型前,还根据所述质谱谱图说明数据、实验参数和质谱谱图的数量从现有的质谱谱图库中筛选出可能与待检测质谱谱图类别相同的质谱谱图数据,减少相似度比较的次数,进一步降低分类模型的运算量。具体地,对每幅待检测质谱谱图提取其Fc7层特征,并与从库中筛选出的所有类别预处理后的质谱谱图的Fc7层特征进行余弦相似度计算,找到与当前待检测质谱谱图相似程度最高的谱图,并判断其相似度是否高于50%,若相似度高于50%,则成功识别出用户输入的质谱谱图的类别。其中,所述余弦相似度计算采用以下方式:

其中,Ai表示谱图A的第i个特征值,Bi表示谱图B的第i个特征值,dn表示特征的总维数。

根据本发明提供的上述基于云平台的农药及化学污染物谱图比对系统,其在云服务器平台端利用样本数据训练逐层细化卷积神经网络模型,用户平台端接收用户上传的质谱谱图和实验参数信息,并利用上述神经网络模型识别与用户上传的质谱谱图对应的农药种类和名称,该系统能够自动地对待检测质谱谱图进行识别,无需人工在大量的谱图标准图中进行查找比对,可快速地获取与待检测谱图对应的农药及化学污染物种类和名称,提高了农药残留检测的效率和准确性。

图2示出了本发明的逐层细化卷积神经网络(Layer-by-Layer RefinementNetwork,LbLReNet)的网络结构。农药的质谱图以及离子质谱图都是内容比较稀疏的谱图,而对于稀疏的数据,当使用比较小的卷积核时,局部感受域比较小,卷积操作无法表示其特征,若采用较大的卷积核则会导致复杂度极大的增加。因此本发明设计了“逐层细化网络”的卷积神经网络结构。具体地,本发明的逐层细化卷积神经网络结构共包含5个卷积层以及ReLU激活函数层、局部响应归一化层、Pool层、全连接层;其中,低层的卷积层关注谱图的轮廓边缘信息,随着层数增高,卷积核尺寸逐层减小,卷积层将低层特征抽象成为更高维更细化的卷积激活特征。此外,局部响应归一化层(Local Response Norm,LRN)对卷积后的结果进行归一化,归一化之后,变量的方差相同,所以会对于模型的训练起到加速的作用。Pool层通过采样减少了计算量和参数个数,改变了输出的维度。全连接(FC)层将以前的局部特征进行连接,并将这些特征送入softmax分类器中,用于训练分类器。Dropout随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合。

根据本发明所提出的上述逐层细化卷积神经网络结构,其根据农药检测谱图的特点,为该神经网络结构设计5层卷积层及其对应的ReLU激活函数,结合LRN层、Pool层、FC层加速模型的训练速度,具有模型训练速度快、准确性高的特点,可用于准确快速地对农药残留种类进行识别。

表1示出了本发明的逐层细化卷积神经网络的参数图。其中,将经过预处理的谱图图像输入逐层细化卷积神经网络中,输入谱图图像的尺寸为1×1×1626×1626,各参数的含义依次为:在训练集中每次选择一个样本用来更新权值,输入图像的通道数为1(二值图像),输入图像的大小为1626×1626(高×宽)。第一个卷积层Conv1使用尺寸为11×11×1的卷积核,表示每次卷积运算后,卷积核移动4个像素点,边缘补充像素p为0,表示不对图像边缘进行填充,经过Conv1层的运算后,输出特征图,该特征图反映了谱图的边缘轮廓等信息。使用Relu激活函数对卷积后的结果进行映射,控制数据的范围。接下来,局部响应归一化层LRN1对卷积层conv1输出的特征数据进行归一化,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力,经过该层的计算后,特征图的尺寸不变。之后,池化层Pool1使用尺寸为3×3×64的核对LRN1层输出的特征图进行最大池化,通过采样减少计算量和参数个数。卷积层Conv2-Conv5分别对其上一层输出的特征图进行相应的卷积运算,卷积核尺寸逐层减小,分别为9×9×64,7×7×128,5×5×256,3×3×512,其中64,128,256,512分别相应卷积层使用的卷积核数量,使用的卷积核数量越多,得到的特征维度越高,经过逐层的卷积运算后,低层特征被抽象成为更高维更细化的卷积激活特征,各个卷积层中的步长以及边缘补充像素大小如附图3所示。局部响应归一化层LRN2对卷积层Conv2输出的特征数据进行归一化。池化层Pool2-Pool5分别使用尺寸为3×3×128,3×3×256,3×3×512,3×3×512的核对其上一层输出的特征图进行最大池化。全连接层Fc6将Conv5输出的局部特征进行连接,Fc6-Fc8三个全连接层在训练过程中通过学习全部的权重来筛选在分类任务中表现好的特征,并将特征送入Softmax-loss层。Dropout层Dop6与Drop7分别用于Fc6与Fc7的计算结果中,随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合。Softmax-loss层相当于一个分类器,计算得到损失函数的值。在训练过程中,使用随机梯度下降算法更新权值并设置初始学习率为0.0001,通过最小化损失函数逐步提高分类效果,得到分类效果较好的逐层细化卷积神经网络分类模型。本领域技术人员可以理解,上述谱图尺寸、卷积核尺寸等参数仅是示例性的,可以根据系统实际的需要进行适应性改变。

表1

以上所描述的系统和方法的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助前台和后台两种方式来实现。上述描述前台部分仅包含图谱对比识别软件、图谱类型识别方法;后台部分仅包含训练识别谱图模型和建立谱图类型判别方法。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法,若使系统能够识别更多的谱图,还需要获取更多的谱图类型和谱图数量进行分类和建模。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号