首页> 中国专利> 一种用于消除光谱乘性随机误差的角度化多变量分析方法

一种用于消除光谱乘性随机误差的角度化多变量分析方法

摘要

本发明公开了一种用于消除光谱乘性随机误差的角度化多变量分析方法。本方法它包括以下步骤分为建模和预测两大部分。本发明利用角度化多变量转换方法,替代直接的采用光谱强度信号进行处理,以消除信号的乘性误差,避免体系信号强度扰动的干扰。

著录项

  • 公开/公告号CN103837484A

    专利类型发明专利

  • 公开/公告日2014-06-04

    原文格式PDF

  • 申请/专利权人 广西科技大学;

    申请/专利号CN201410061616.X

  • 发明设计人 姚志湘;粟晖;

    申请日2014-02-24

  • 分类号G01N21/31(20060101);

  • 代理机构北京科亿知识产权代理事务所(普通合伙);

  • 代理人汤东凤

  • 地址 545006 广西壮族自治区柳州市城中区东环大道268号

  • 入库时间 2024-02-19 23:58:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-02-08

    未缴年费专利权终止 IPC(主分类):G01N21/31 专利号:ZL201410061616X 申请日:20140224 授权公告日:20160817

    专利权的终止

  • 2016-08-17

    授权

    授权

  • 2014-07-02

    实质审查的生效 IPC(主分类):G01N21/31 申请日:20140224

    实质审查的生效

  • 2014-06-04

    公开

    公开

说明书

技术领域:

本发明涉及的是一种用于消除光谱乘性随机误差的角度化多变量分 析方法。

背景技术:

光谱分析中,获取的光谱信号受到多种随机误差的干扰,尤其是拉曼和 近红外中常采用的反射测量方法,不仅受到常见的噪声和基线漂移等叠加 误差,而且还受到散射和反射光程等乘性误差的干扰。

在被测量值(x)与响应信号(y)存在线性关系的体系中,加性(ea)和乘 性(em)两类误差可以表示为:

y=em·a·x+ea    (1)

加性误差导致整体信号起伏和偏转,但不影响信号的幅度,采用背景扣 除或微分(差分)方法可以较好地消除。而乘性误差导致信号幅度的变化, 在等方差分布的前提下,通常采用标准正态变量校正(SNV)和多元散射校正 (MSC)方法校正;信号方差不同的情况下,可采用扩展多元散射校正(EMSC) 方法校正,但是需要先验知识支持。

多数情况下信号方差随强度变化,无法满足SNV和MSC的限定条件, 往往也由于缺乏足够或准确的先验知识,而使得EMSC方法不可行。在光 谱的实时和现场测定中,强度扰动和颗粒散射扰动很常见,导致的乘性误 差直接对定量的准确造成干扰。

发明内容:

本发明的目的在于克服现有技术的不足,提供一种用于消除光谱乘性 随机误差的角度化多变量分析方法。

为了解决背景技术所存在的问题,本发明采用以下技术方案:

一种用于消除光谱乘性随机误差的角度化多变量分析方法,其特征在 于,它包括以下步骤:

建模:确定空间描述所需的变量数,即确定空间维数ND后,从建模数据 集中均匀挑选出ND个坐标向量CoV,依次计算每一个建模样本与坐标向 量的夹角余弦值构成角度余弦值矩阵DOSp,并对角度矩阵线性化得到非线 性调整参数t。建立包含ND、CoV、t以及经过线性化后的角度余弦值的多 变量回归系数的角度余弦多变量校正模型。

预测:将被预测的原始光谱数据OSp中m组光谱与ND个坐标向量CoV 逐一计算夹角向量值,存储为m×ND个元素的矩阵M;求矩阵M中的每个 元素的t次幂得到非线性校正的测量数据;应用建立的多变量校正模型获取 所需的预测值。

进一步的,在建模步骤中,包括以下步骤:

步骤一.确定空间描述所需的变量数,即空间维数:

按照现有的多元统计方法采用的潜在变量数判断方法确定空间维数 ND,ND数可以从建模数据集中获得,也可以从包含建模数据集和预测 集的样本整体中求取,而从整体样本中求取的ND会更具有代表性;

步骤二.选择描述空间的向量,即坐标向量:

根据含量的分布情况,从建模数据集中均匀挑选出ND个数据,作为坐 标向量CoV,来描述样本构成的空间;

步骤三.强度描述转为角度描述,即角度化:

按照式将每一个建模样本作为向量,依次计算与挑选出来 的ND个坐标向量CoV的夹角余弦值;

如果样本集中包含p个样本,则经过角度余弦化后,构成了p×ND个元 素的角度余弦值矩阵DOSp;

步骤四.角度矩阵的线性化,即余弦值的指数调整

(1)定义步长st,逐步增加k,设定指数t=k*st,指数t值范围为[-2,2], t≠0,计算DOSp的t次幂PCDt

(2)将PCDt对样本中的系列含量C作多变量回归,得到回归值Ct;

(3)计算Ct和C的相关系数Cor;

(4)回到(1),不断调整t,找出Cor最大值所对应的t值,作为非线性调 整参数

步骤五.输出模型

记录ND、CoV、t值,以及经过线性化后的角度余弦值的多变量回归系 数,作为完整的角度余弦多变量校正模型。

进一步的,在预测步骤中,包括以下步骤:

步骤一.数据角度化

被预测的原始光谱数据OSp中如果含有m组光谱,将m组数据与建模 部分选出的ND个坐标向量CoV逐一计算夹角向量值,存储为m×ND 个元素的矩阵M;

步骤二.非线性校正

求矩阵M中的每个元素的t次幂,校正后的M可满足与建模步骤得到的 多变量模型的近似线性响应;

步骤三.多变量校正

对经过角度化和非线性校正的测量数据应用多变量模型校正,获取所需 的预测值。

本发明对比现有技术,有如下的有益效果:本发明利用角度化多变量 转换方法,替代直接的采用光谱强度信号进行处理,以消除信号的乘性误 差,避免体系信号强度扰动的干扰。

附图说明:

图1是本发明原理图。

图2是本发明建模流程图。

图3是本发明预测流程图。

图4是实施例中的系列样本的拉曼光谱信号。

图5是本发明方法与直接PLS建模的预测结果图。

具体实施方式:

下面结合附图和具体实施方式对本发明作进一步描述:

图1是本发明原理图。

多变量体系中的混合信号是各个源信号的叠加,多变量统计分析方法通 常简化为线性加和关系,也就是将源信号看做空间中固定的向量,多变量 混合信号对应的向量为不同强度源向量的和。

如图1所示,混合向量Y是源向量X1、X2、X3的和,其强度来自于各个 源向量的和,而混合向量的方向则决定于源向量强度的比例关系。

如果仅考虑乘性误差,式(1)表示为:

Y=em·A·X    (2)

其中Y是一个数组,或代表空间中的一个混合向量,X是一系列源信号 数组或系列的源向量{X1,X2,X3,…},em是乘性扰动系数。

计算Y与X中任一向量Xi的夹角:

cosα=Y·Xi|Y|·|Xi|---(3)

对于同一状态响应,Y是不受乘性干扰,而Y1受到乘性干扰,则有:

Y1=em·Y    (4)

将(4)带入式(3)中,则有:

cosα=Y·Xi|Y|·|Xi|=em·Y·Xiem·|Y|·|Xi|=Y1·Xi|Y1|·|Xi|---(5)

即:对于同一状态,混合向量与源向量的夹角不受乘性干扰的影响。

图1是一个三维示意,混合信号与3个源信号的夹角可以确定地描述 混合信号的方向,而混合向量的方向只取决源信号组成的比例关系(相对 强度关系),与源信号的绝对强度无关。也就是说,对于光谱信号而言,可 用混合光谱与多个源光谱的夹角确定描述体系的混合组成,夹角的个数等 于源信号的数量,或体系的秩。

进一步的,体系可用源光谱来确定描述,也可用同样个数的非线性相关 的组合源信号确定描述;因此,只要从系列测量信号中选择出与体系秩数 相等个数的测量信号作为“坐标向量”,计算混合信号与这些“坐标向量”的夹 角,也能对体系的组成作确定的描述。

虽然夹角值与体系组成值存在确定的函数关系,但是函数关系是非线性 的。如果要准确地实现预测,还需要进行非线性校准,本发明提出采用夹 角余弦值的幂可以有效校正函数的非线性,得到近似线性,实现多变量线 性回归模型,完成有效预测。

步骤分为建模和预测两大部分。方法所需数据与常规的多变量统计分析 要求相同,即包括建模数据集和预测集,无额外要求,无需先验知识。

建模:

建模部分包括角度转化、非线性校正和多变量回归等步骤,所需数据 为建模数据集,即用于建模的系列样本光谱和样本所对应被分析物的系列 含量。图2是本发明建模流程图。

1.确定空间描述所需的变量数(空间维数):

按照现有的多元统计方法采用的潜在变量数判断方法确定空间维数 (ND)。ND数可以从建模数据集中获得,也可以从包含建模数据集和预测 集的样本整体中求取,而从整体样本中求取的ND会更具有代表性。

2.选择描述空间的向量(坐标向量):

根据含量的分布情况,从建模数据集中均匀挑选出ND个数据,作为坐 标向量(CoV),来描述样本构成的空间。

3.强度描述转为角度描述(角度化):

按照式(3),将每一个建模样本作为向量,依次计算与挑选出来的ND 个坐标向量(CoV)的夹角余弦值。

如果样本集中包含p个样本,则经过角度余弦化后,构成了p×ND个元 素的角度(余弦值)矩阵DOSp。

4.角度矩阵的线性化(余弦值的指数调整)

直接得到的角度矩阵与体系含量存在不同程度的非线性关系,需要在 多变量建模中消除,得到近似线性关系,以满足定量要求。

(1)定义步长st,逐步增加k,设定指数t=k*st,指数t值范围为[-2,2](t≠0), 计算DOSp的t次幂(PCDt)。例如st=0.01,k从-200增加到200(注 意,k值不能为0)。

(2)将PCDt对样本中的系列含量C作多变量回归,得到回归值Ct;

(3)计算Ct和C的相关系数Cor;

(4)回到(1),不断调整t,找出Cor最大值所对应的t值,作为非线性调 整参数;

5.输出模型

记录ND、CoV、t值,以及经过线性化后的角度余弦值的多变量回归系 数,作为完整的角度余弦多变量校正模型。

预测:

图3是本发明预测流程图。

1.数据角度化

被预测的原始光谱数据(OSp)中如果含有m组光谱,将m组数据与建 模部分选出的ND个坐标向量(CoV)逐一计算夹角向量值,存储为m×ND 个元素的矩阵M;

2.非线性校正

求矩阵M中的每个元素的t次幂,校正后的M可满足与建模步骤得到的 多变量模型的近似线性响应。

3.多变量校正

对经过角度化和非线性校正的测量数据应用多变量模型校正,获取所需 的预测值。

实施例一:

选取拉曼光谱仪测量混合物中的四氯化碳含量作为实施例。

1)光谱信号采集

在多组分混合物中按照含量2.5%~25%,十等分间隔添加四氯化碳,配 制得5组共50个系列样本,其中每组包含10个样本,含量为2.5%~25%, 样本中的其他组分浓度不相关。

通过不确定每个样品的测量距离和积分时间,来构成测量信号中的乘性 扰动,采集到系列样本的拉曼光谱信号如图4所示。

2)直接PLS建模

从50个样本中,从每组随机选择3个浓度的样本共15个作为建模校正 集,直接进行偏最小二乘建模。确定体系的隐含变量数为4,对50个样本 整体预测,结果预测均方根差(RMSEP)为:6.57%,预测浓度与真实浓度 相关系数为0.7289,预测效果不理想,无法有效准确预测。

3)角度化转换后PLS建模

从建模样本中选择2.5%、10%、17.5%、25%每个浓度中的1个光谱, 共4个作为“坐标向量”,依次计算50个光谱与这4个光谱的夹角余弦值, 构成了50×4的矩阵。按照建模流程,经过非线性校正,得到t值为1.71, 并建立多变量校正模型。

经过角度化的数据,对50个样本的整体预测,结果表明预测均方根差 (RMSEP)为0.26%,预测浓度与真实浓度相关系数为0.9994。

两种计算方法的结果如图5所示。从图5看出,光谱信号经过角度化 转换后,可有效消除了乘性扰动的影响,实现了准确预测。也就是说,测 量的预测值不受光谱积分时间和测量距离的影响。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在 本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号