首页> 中国专利> 拉曼光谱下基于相似度的混合物组分识别方法

拉曼光谱下基于相似度的混合物组分识别方法

摘要

本发明公开了一种拉曼光谱下基于相似度的混合物组分识别方法,涉及成分分析技术领域,该混合物组分识别方法采集纯净物和待识别混合物的拉曼光谱,针对纯净物和待识别混合物的不同特征,采用以不同小波作为母小波函数的连续小波变换寻找特征峰,识别准确;从寻找到的特征峰中提取特征向量组,从而进行纯净物和待识别混合物的相似度计算初步筛选出候选纯净物,对候选纯净物的光谱数据进行位移校正后,利用非负最小二乘得到最终的组分识别结果,整个流程无需人工参与,能快速且有效地应用于混合物组分识别,在一定程度上提高混合物识别的查准率和查全率,具有快速且无损、实现过程简单和识别结果准确等特点。

著录项

  • 公开/公告号CN110243806A

    专利类型发明专利

  • 公开/公告日2019-09-17

    原文格式PDF

  • 申请/专利权人 江南大学;

    申请/专利号CN201910694243.2

  • 发明设计人 朱启兵;刘财政;黄敏;郭亚;

    申请日2019-07-30

  • 分类号G01N21/65(20060101);G06K9/00(20060101);

  • 代理机构32228 无锡华源专利商标事务所(普通合伙);

  • 代理人聂启新

  • 地址 214122 江苏省无锡市蠡湖大道1800号

  • 入库时间 2024-02-19 13:40:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-22

    授权

    授权

  • 2019-10-15

    实质审查的生效 IPC(主分类):G01N21/65 申请日:20190730

    实质审查的生效

  • 2019-09-17

    公开

    公开

说明书

技术领域

本发明涉及成分分析技术领域,尤其是一种拉曼光谱下基于相似度的混合物组分识别方法。

背景技术

拉曼光谱技术是一种光谱分析技术,在对样品组成及含量分析领域具有广泛应用。拉曼光谱分析技术对与入射光频率不同的散射光谱进行分析以得到分子振动、转动方面信息,常被应用于物质成分(定性分析)和浓度(定量分析)的分析方法。拉曼光谱分析技术分析的是化学键或功能团的特征信息,不同物质有着不尽相同的化学键或功能团,表现在拉曼光谱上为不同的特征峰。在拉曼光谱数据中,获取其中隐藏的有用的信息用于混合物组分的识别是关键步骤。一般情况下,混合物的光谱比较复杂、谱峰重叠严重,以及不同组分之间的相互影响对混合物组分的识别提出了挑战。

基于以上,混合物拉曼光谱有用信息的提取和分析是组分识别的前提和基础。在拉曼光谱分析中,对于混合物组分的识别方法通常有特征峰对比法、子空间重叠法、神经网络法。其中,特征峰对比法主要对比混合物和纯净物的特征峰,纯净物的特征峰能在混合物特征峰里找到,则判断混合物中存在该纯净物。子空间重叠法将待定性混合物光谱信息视为向量,通过计算混合物光谱与标准库光谱的子空间夹角,并根据其变化,排列筛选出混合物的组分。神经网络法,如卷积神经网络,通过训练模型调整参数,达到组分识别的目的。但上述几种方法都存在一定的缺陷:特征峰对比法在一些特定场合能有效识别混合物中的成分,但大部分情况下混合物的拉曼光谱谱峰众多,会出现重叠和覆盖的现象,同时由于检测环境复杂、仪器精度较低,拉曼谱峰可能会有偏移,并且特征峰对比法依赖于人眼的判定,较为费时费力。子空间重叠法要求待识别混合物中的所有组分应包含在已知的标准数据库中,当混合物中的待识别成分不在已知数据库中时,算法将无法给出识别结果。神经网络法在训练模型时需要大量的训练样本,同时也较为耗时。

发明内容

本发明人针对上述问题及技术需求,提出了一种拉曼光谱下基于相似度的混合物组分识别方法,该混合物组分识别方法可以实现快速且无损的组分识别,实现过程简单、识别结果准确。

本发明的技术方案如下:

一种拉曼光谱下基于相似度的混合物组分识别方法,该混合物组分识别方法包括:

采集N种纯净物的拉曼光谱,对于每一种纯净物,利用以第一小波为母小波函数的连续小波变换寻找纯净物的拉曼光谱的特征峰并根据特征峰得到纯净物的特征向量组,N为正整数;

采集待识别混合物的拉曼光谱,利用以第二小波为母小波函数的连续小波变换寻找待识别混合物的拉曼光谱的特征峰并根据特征峰得到待识别混合物的特征向量组;

分别根据待识别混合物的特征向量组和每一种纯净物的特征向量组计算得到待识别混合物和纯净物的相似度,将N个相似度由大到小排序并根据σ准则筛选出M种候选纯净物;

对M种候选纯净物的光谱数据作校正处理,利用非负最小二乘拟合待识别混合物的光谱数据和校正后的M种候选纯净物的光谱数据得到各个候选纯净物的拟合系数,选取拟合系数最大的P种候选纯净物作为待识别混合物的组分识别结果。

其进一步的技术方案为,第一小波为墨西哥帽小波形式为:

第二小波定义为:

其进一步的技术方案为,包括m个拉曼光谱的特征峰的纯净物的特征向量组包括m个特征向量,表示为每个特征向量分别对应纯净物的拉曼光谱的一个特征峰,对应于纯净物的第i个特征峰的第i个特征向量包括第i个特征峰的拉曼位移拉曼强度和半高宽i为参数;

包括n个拉曼光谱的特征峰的待识别混合物的特征向量组包括n个特征向量,表示为每个特征向量分别对应待识别混合物的拉曼光谱的一个特征峰,对应于待识别混合物的第j个特征峰的第j个特征向量包括第j个特征峰的拉曼位移拉曼强度和半高宽j为参数。

其进一步的技术方案为,根据特征峰得到特征向量组,包括:

利用斜率比较法对特征峰进行重叠峰的判断,得到单峰和重叠峰的区间,利用Voigt函数对特征峰进行拟合,对单峰区间的特征峰表示如下:

对重叠峰区间的特征峰表示为Voigt函数的线性叠加,表示如下:

其中,I(λ)表示拉曼位移为λ处的拉曼强度,λc表示谱峰的拉曼位移,Ic表示谱峰的拉曼强度,w表示谱峰的半高宽,θ表示谱峰的高斯-洛伦兹系数,l为重叠峰区间里重叠峰的个数;

采用基于Levenberg-Marquardt算法的曲线拟合方法进行谱峰拟合,得到每个特征峰的特征向量,包括特征峰的拉曼位移、拉曼强度和半高宽;

将各个特征峰的特征向量按照拉曼位移由小到大的顺序组成特征向量组。

其进一步的技术方案为,分别根据待识别混合物的特征向量组和每一种纯净物的特征向量组计算得到待识别混合物和纯净物的相似度,包括对于每一种纯净物:

根据纯净物的每一个特征峰的拉曼位移和待识别混合物的每一个特征峰的拉曼位移对纯净物的各个特征峰和待识别混合物的各个特征峰进行峰位匹配,得到k对匹配成功的纯净物特征峰和待识别混合物特征峰;

根据每一对匹配成功的纯净物特征峰和待识别混合物特征峰各自的拉曼位移和半高宽计算纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度和半高宽的相似度;

根据第a个匹配成功的纯净物特征峰的拉曼强度计算第a个匹配成功的纯净物特征峰的权重,a为参数;

其中,a和b为参数,表示第a个匹配成功的纯净物特征峰的拉曼强度,表示第a个匹配成功的纯净物特征峰的权重;

根据每一对匹配成功的纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度和半高宽的相似度以及纯净物特征峰的权重计算纯净物和待识别混合物的相似度:

其中,S表示纯净物和待识别混合物的相似度,Fa(xa)表示第a对匹配成功的纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度,Fb(ya)表示第a对匹配成功的纯净物特征峰和待识别混合物特征峰的半高宽的相似度。

其进一步的技术方案为,根据纯净物的每一个特征峰的拉曼位移和待识别混合物的每一个特征峰的拉曼位移对纯净物的各个特征峰和待识别混合物的各个特征峰进行峰位匹配,包括:

对于纯净物的第i个特征峰,检测待识别混合物的各个特征峰中是否存在拉曼位移与第i个特征峰的拉曼位移的差值在谱峰偏移范围内的特征峰,若存在,则确定检测得到的待识别混合物的特征峰和纯净物的第i个特征峰匹配成功;

令i=i+1并再次执行检测待识别混合物的各个特征峰中是否存在拉曼位移与第i个特征峰的拉曼位移的差值在谱峰偏移范围内的特征峰的步骤。

其进一步的技术方案为,根据每一对匹配成功的纯净物特征峰和待识别混合物特征峰各自的拉曼位移和半高宽计算纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度和半高宽的相似度,包括对于第a对匹配成功的纯净物特征峰和待识别混合物特征峰:

计算纯净物特征峰和待识别混合物特征峰的拉曼位移差值,并利用模糊隶属度函数基于拉曼位移差值计算得到纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度:

计算纯净物特征峰和待识别混合物特征峰的半高宽差值,并利用模糊隶属度函数基于半高宽差值计算得到纯净物特征峰和待识别混合物特征峰的半高宽的相似度:

其中,xa表示第a对匹配成功的纯净物特征峰和待识别混合物特征峰的拉曼位移差值,ya表示第a对匹配成功的纯净物特征峰和待识别混合物特征峰的半高宽差值。

其进一步的技术方案为,对M种候选纯净物的光谱数据作校正处理,包括对于每一种候选纯净物:

根据候选纯净物的每一个特征峰的拉曼位移和待识别混合物的每一个特征峰的拉曼位移对候选纯净物的各个特征峰和待识别混合物的各个特征峰进行峰位匹配,得到s对匹配成功的候选纯净物特征峰和待识别混合物特征峰;

计算每一对匹配成功的候选纯净物特征峰和待识别混合物特征峰的拉曼位移差值,并根据各个拉曼位移差值按照如下公式计算得到候选纯净物和待识别混合物的平均谱峰偏移量:

其中,表示候选纯净物和待识别混合物的平均谱峰偏移量,xp表示第p对匹配成功的候选纯净物特征峰和待识别混合物特征峰,p为参数;

对平均谱峰偏移量进行四舍五入取整处理,若取整后的平均谱峰偏移量小于0,则将候选纯净物的光谱数据向后平移平均谱峰偏移量的距离,反之将候选纯净物的光谱数据向前平移平均谱峰偏移量的距离,空缺点补零完成对候选纯净物的光谱数据的校正处理。

其进一步的技术方案为,利用非负最小二乘拟合待识别混合物的光谱数据和校正后的M种候选纯净物的光谱数据得到各个候选纯净物的拟合系数,包括采用如下非负最小二乘表达式拟合:

其中,y为待识别混合物的光谱数据,X是校正后的M种候选纯净物的光谱数据组成的矩阵,矩阵X的每一列为一种候选纯净物的光谱数据,B为系数向量,||||2表示二范数,Bu为对应于矩阵每一列的候选纯净物的拟合系数。

本发明的有益技术效果是:

本申请公开了一种拉曼光谱下基于相似度的混合物组分识别方法,该混合物组分识别方法采集纯净物和待识别混合物的拉曼光谱,针对纯净物和待识别混合物的不同特征,采用以不同小波作为母小波函数的连续小波变换寻找特征峰,识别准确;从寻找到的特征峰中提取特征向量组,从而进行纯净物和待识别混合物的相似度计算初步筛选出候选纯净物,对候选纯净物的光谱数据进行位移校正后,利用非负最小二乘得到最终的组分识别结果,整个流程无需人工参与,能快速且有效地应用于混合物组分识别,在数据库较大的情况下仍有较好的识别结果,适用于简单和复杂的混合物组分识别问题,可以克服在拉曼光谱下混合物组分识别方法中现有的应用范围局限,可能存在错误识别等现象,在一定程度上提高混合物识别的查准率和查全率,具有快速且无损、实现过程简单和识别结果准确等特点。

附图说明

图1是本申请公开的混合物组分识别方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本申请公开了一种拉曼光谱下基于相似度的混合物组分识别方法,请参考图1所示的方法流程图,该混合物组分识别方法包括:

步骤1,采集N种纯净物的拉曼光谱,N为正整数。对采集到的拉曼光谱进行预处理操作,包括但不限于波段选择、背景校正、噪声去除以及最大值归一化等,本申请后续使用到的纯净物的拉曼光谱即为预处理后的纯净物的拉曼光谱。在完成预处理操作后,利用N种纯净物的拉曼光谱构建标准拉曼光谱数据库,后续可以直接调用标准拉曼光谱数据库中的数据进行使用。

步骤2,对于每一种纯净物,利用连续小波变换寻找纯净物的拉曼光谱的特征峰并根据特征峰得到纯净物的特征向量组。本申请在利用连续小波变换寻找纯净物的拉曼光谱的特征峰时,利用墨西哥帽小波作为母小波函数,形式为:

根据特征峰得到纯净物的特征向量组,具体包括:

(1)利用斜率比较法对特征峰进行重叠峰的判断,得到单峰和重叠峰的区间,利用Voigt函数对特征峰进行拟合,对单峰区间的特征峰表示如下:

对重叠峰区间的特征峰表示为Voigt函数的线性叠加,表示如下:

其中,I(λ)表示拉曼位移为λ处的拉曼强度,λc表示谱峰的拉曼位移,Ic表示谱峰的拉曼强度,w表示谱峰的半高宽,θ表示谱峰的高斯-洛伦兹系数,l为重叠峰区间里重叠峰的个数。

(2)采用基于Levenberg-Marquardt算法的曲线拟合方法进行谱峰拟合,从而得到每个特征峰的特征向量,特征向量包括该特征峰的拉曼位移、拉曼强度和半高宽。

(3)将各个特征峰的特征向量按照拉曼位移由小到大的顺序组成特征向量组,也即对于包括m个拉曼光谱的特征峰的纯净物来说,其特征向量组包括m个特征向量,每个特征向量分别对应纯净物的拉曼光谱的一个特征峰,特征向量组表示为其中,即表示一个特征向量,且在该特征向量组中,依次增大。对应于纯净物的第i个特征峰的第i个特征向量,也即包括第i个特征峰的拉曼位移拉曼强度和半高宽i为参数。

步骤3,采集待识别混合物的拉曼光谱,同样的,对采集到的拉曼光谱进行包括但不限于波段选择、背景校正、噪声去除以及最大值归一化等的预处理操作,本申请后续使用到的待识别混合物的拉曼光谱即为预处理后的待识别混合物的拉曼光谱。

利用连续小波变换寻找待识别混合物的拉曼光谱的特征峰并根据特征峰得到待识别混合物的特征向量组,不同于纯净物,由于待识别混合物中组分较多,会存在较为严重的谱峰重叠现象,因此在利用连续小波变换寻找待识别混合物的拉曼光谱的特征峰时,本申请利用一个较小线宽的小波作为母小波函数,从而能够有效地识别因极度重叠而隐藏的特征峰,作为母小波函数的小波定义为:

根据待识别混合物的拉曼光谱的特征峰得到待识别混合物的特征向量组的方法与上述步骤2中对纯净物的处理方法相同,本申请不再赘述,对于包括n个拉曼光谱的特征峰的待识别混合物来说,其通过上述方法得到的特征向量组包括n个特征向量,每个特征向量分别对应待识别混合物的拉曼光谱的一个特征峰,特征向量组表示为其中,即表示一个特征向量,且在该特征向量组中,依次增大。对应于待识别混合物的第j个特征峰的第j个特征向量包括第j个特征峰的拉曼位移拉曼强度和半高宽j为参数。

步骤4,分别根据待识别混合物的特征向量组和每一种纯净物的特征向量组计算得到待识别混合物和纯净物的相似度。在计算待识别混合物和每一种纯净物的相似度时,包括如下步骤:

(1)根据纯净物的每一个特征峰的拉曼位移和待识别混合物的每一个特征峰的拉曼位移对纯净物的各个特征峰和待识别混合物的各个特征峰进行峰位匹配,具体的:

假设某个纯净物的特征向量组为待识别混合物的特征向量组为m即为该纯净物的拉曼光谱的特征峰的个数,n即为该待识别混合物的拉曼光谱的特征峰的个数。利用纯净物的拉曼光谱的特征峰的拉曼位移这一特征进行峰位匹配,同时考虑到拉曼谱峰偏移现象,因此在一定阈值范围内进行峰位匹配,也即:对于纯净物的第i个特征峰,检测待识别混合物的各个特征峰中是否存在拉曼位移与第i个特征峰的拉曼位移的差值在谱峰偏移范围内的特征峰,i为参数且通常设置为起始值为1。若存在,则确定检测得到的待识别混合物的特征峰和纯净物的第i个特征峰匹配成功,即为一对匹配成功的纯净物特征峰和待识别混合物特征峰。谱峰偏移范围为预设值,比如设定为12cm-1。举例为,对于纯净物的第1个特征峰的拉曼位移判断待识别混合物的n组特征向量中的是否有在的谱峰偏移范围内的,假设待识别混合物的第3个特征峰的拉曼位移的谱峰偏移范围内,则确定纯净物的第1个特征峰和待识别混合物的第3个特征峰匹配成功。令i=i+1并再次执行检测待识别混合物的各个特征峰中是否存在拉曼位移与第i个特征峰的拉曼位移的差值在谱峰偏移范围内的特征峰的步骤,也即对纯净物的下一个特征峰进行匹配。

由此,共匹配得到k对匹配成功的纯净物特征峰和待识别混合物特征峰,k个匹配成功的纯净物特征峰的特征向量按照拉曼位移由小到大的顺序构成的向量组表示为k个匹配成功的待识别混合物特征峰的特征向量按照拉曼位移由小到大的顺序构成的向量组表示为其中a均为参数,为第a个匹配成功的纯净物特征峰的特征向量,为第a个匹配成功的纯净物特征峰的特征向量,第a个匹配成功的纯净物特征峰和第a个匹配成功的纯净物特征峰为第a对匹配成功的特征峰。若没有特征峰匹配成功,也即k=0,则直接确定混合物和该纯净物的相似度为0。

(2)根据每一对匹配成功的纯净物特征峰和待识别混合物特征峰各自的拉曼位移和半高宽计算纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度和半高宽的相似度。匹配成功的两个特征峰的拉曼位移和半高宽越接近,则待识别混合物对应的特征峰来源于纯净物的概率越大。由于待识别混合物的拉曼光谱中特征峰可能会是其组分中不同纯净物特征峰叠加而成,拉曼强度也可能有较大偏差,故不计入考虑。对于第a对匹配成功的纯净物特征峰和待识别混合物特征峰:

计算纯净物特征峰和待识别混合物特征峰的拉曼位移差值xa,并利用模糊隶属度函数基于拉曼位移差值xa计算得到第a对匹配成功的纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度Fa(xa):

计算纯净物特征峰和待识别混合物特征峰的半高宽差值ya,并利用模糊隶属度函数基于半高宽差值ya计算得到第a对匹配成功的纯净物特征峰和待识别混合物特征峰的半高宽的相似度Fb(ya):

(3)根据第a个匹配成功的纯净物特征峰的拉曼强度计算第a个匹配成功的纯净物特征峰的权重;

其中,a和b为参数,表示第a个匹配成功的纯净物特征峰的拉曼强度,表示第a个匹配成功的纯净物特征峰的权重,m为该纯净物的拉曼光谱的特征峰的总个数。

(4)根据每一对匹配成功的纯净物特征峰和待识别混合物特征峰的拉曼位移的相似度和半高宽的相似度以及纯净物特征峰的权重计算纯净物和待识别混合物的相似度S为:

步骤5,将N个相似度由大到小排序并根据σ准则筛选出M种候选纯净物,在本申请中,求出N个相似度的平均值以及标准差σ,选择相似度大于的纯净物作为候选纯净物。

步骤6,对M种候选纯净物的光谱数据作校正处理。具体包括:

(1)根据候选纯净物的每一个特征峰的拉曼位移和待识别混合物的每一个特征峰的拉曼位移对候选纯净物的各个特征峰和待识别混合物的各个特征峰进行峰位匹配,得到s对匹配成功的候选纯净物特征峰和待识别混合物特征峰。该步骤的具体做法与上述步骤4中的峰位匹配方法相同,而且候选纯净物是包含在N种纯净物中的,因此在实际操作时,在上述步骤4已经进行峰位匹配的基础上,实际已经得到了每一种候选纯净物与待识别混合物之间匹配成功的纯净物特征峰和待识别混合物特征峰,因此该步骤可以省略,直接使用上述步骤4得到的结果。那么对于每一个候选纯净物来说,其得到的s对匹配成功的候选纯净物特征峰和待识别混合物特征峰实际即为该种候选纯净物在步骤4得到的k对匹配成功的纯净物特征峰和待识别混合物特征峰。

(2)计算每一对匹配成功的候选纯净物特征峰和待识别混合物特征峰的拉曼位移差值,并根据各个拉曼位移差值按照如下公式计算得到候选纯净物和待识别混合物的平均谱峰偏移量为:

其中,xp表示第p对匹配成功的候选纯净物特征峰和待识别混合物特征峰,p为参数。

(3)对平均谱峰偏移量进行四舍五入取整处理,若取整后的平均谱峰偏移量小于0,则将候选纯净物的光谱数据向后平移平均谱峰偏移量的距离,反之将候选纯净物的光谱数据向前平移平均谱峰偏移量的距离,空缺点补零完成对候选纯净物的光谱数据的校正处理。

步骤7,利用非负最小二乘拟合待识别混合物的光谱数据和校正后的M种候选纯净物的光谱数据得到各个候选纯净物的拟合系数。包括采用如下非负最小二乘表达式拟合:

其中,y为待识别混合物的光谱数据,X是校正后的M种候选纯净物的光谱数据组成的矩阵,矩阵X的每一列为一种候选纯净物的光谱数据,B为系数向量,||||2表示二范数,Bu为对应于矩阵每一列的候选纯净物的拟合系数。在得到各个候选纯净物的拟合系数后,选取对应的拟合系数最大的P种候选纯净物作为待识别混合物的组分识别结果,比如选择对应的拟合系数最大的七种候选纯净物作为待识别混合物的组分识别结果。

以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号