首页> 中国专利> 一种基于模式识别与谱图映射的油品多类性质的检测方法

一种基于模式识别与谱图映射的油品多类性质的检测方法

摘要

本发明是一种基于模式识别与谱图映射的油品多类性质的检测方法包括:步骤S1:采集未知油品样本的近红外光谱,并按照主成份分析法将近红外光谱图映射投影到训练集样本确定的特征平面上;步骤S2:根据未知油品样本落在训练集样本的特征平面的区域位置,通过朴素贝叶斯分类器将未知油品样本点归到训练集样本的某类样本中;步骤S3:在未知油品样本点所在类样本点中,选择并在搜索半径范围内,搜索并找到未知油品样本点的邻近点;步骤S4:计算未知油品样本点的邻近点与该未知油品样本点的马氏距离,并将马氏距离归一化后作为权值,利用未知油品样本点邻近点的性质加权求和计算未知油品样本点的油品性质,从而得到未知油品样本点的多类性质。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-29

    授权

    授权

  • 2014-12-17

    实质审查的生效 IPC(主分类):G01N21/25 申请日:20140731

    实质审查的生效

  • 2014-11-19

    公开

    公开

说明书

技术领域

本发明属于石油石化领域,涉及一种基于模式识别与谱图映射的油品 多类性质的检测方法。

背景技术

汽油、柴油、原油的近红外谱图包括了丰富的油品族组成信息,油品 的性质如辛烷值、蒸汽压、十六烷值、凝点、冷滤点、闪点、馏程等是其 族组成综合作用的结果,每个油品对应的谱图是唯一确定的。因此,传统 方法一般把近红外谱图特征化后与油品各个性质直接关联,采用多元线性 回归(MLR)、逐步回归(SMR)、主成分分析(PCA)、主成分回归(PCR)、 偏最小二乘法(PLS)、人工神经网络(ANN)等方法建立油品性质的检测 模型。其所建立的模型适应范围窄、误差较大,而且对各个性质单独建立 模型,导致建立和维护模型工作量大,很难满足工业现场长期、稳定运行 的要求。

发明内容

(一)要解决的技术问题

为了解决现有技术单独建立油品每个性质的模型适应范围窄、误差较 大,而且导致建立和维护模型工作量大,很难满足工业现场长期,不能满 足稳定运行的要求的石油石化众多先进控制实施的瓶颈问题,为此本发明 的目的是提供一种油品性质准确、快速检测、基于模式识别与谱图映射的 油品多类性质的检测方法。

(二)技术方案

本发明是一种基于模式识别与谱图映射的油品多类性质的检测方法, 实现该方法的步骤包括:

步骤S1:采集某一未知油品样本的近红外光谱,并按照主成份分析 法将近红外光谱图映射投影到训练集样本确定的特征平面上;

步骤S2:根据未知油品样本落在训练集样本的特征平面的区域位置, 通过朴素贝叶斯分类器将未知油品样本点归到训练集样本的某类样本中;

步骤S3:在未知油品样本点所在类样本点中,选择并在搜索半径范 围内,搜索并找到未知油品样本点的邻近点;

步骤S4:计算未知油品样本点的邻近点与该未知油品样本点的马氏 距离,并将马氏距离归一化后作为权值,利用未知油品样本点邻近点的性 质加权求和计算未知油品样本点的油品性质,从而得到未知油品样本点的 多类性质。

(三)有益效果

本发明的方法只需建模一次,就能对模型包含的各类油品的所有性质 同时检测,速度快。现有技术的油品性质检测的主流方法是偏最小二乘法, 为保证一定的准确度,它需要对各个油品、各个性质单独建模,这带来了 浩大的建模工作量与繁杂的模型维护工作量。另外,本发明是基于局部样 本点对未知油品样本点进行检测,准确度也比传统偏最小二乘方法高很 多。传统偏最小二乘方法没有考虑到模型的实时扩充,本发明在对未知油 品样本进行检测时,针对界外点的情况进行了相应考虑和处理,便于对模 型进行实时扩充,使得模型在应用中更进一步的完善,进一步提高模型的 检测精度。

附图说明

图1示出本发明基于模式识别与谱图映射的油品多类性质的检测方 法流程图。

图1a示出图1中步骤S2的具体实施例中。

图2示出了本发明中未知油品样本点落入特征平面上的情况。

图3示出对图2中界外点的处理情况。

图4a示出本发明中对落入某类中的未知油品样本点寻找邻近点,是 直接在所在类中寻找邻近点的示意图。

图4b示出本发明中对落入某类中的未知油品样本点寻找邻近点,是 先对未知油品样本所在的类进行致密化,然后再寻找邻近点的示意图;

图5示出本发明与传统偏最小二乘模型对凝点性质检测效果的比较。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应 指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何 限定作用。

油品性质准确、快速检测一直是石油石化众多先进控制实施的瓶颈, 针对该问题本发明公开一种基于模式识别与谱图映射的油品各个性质检 测方法包括谱图映射、判别分析、寻找未知油品样本点的邻近点、对未知 油品样本性质进行检测过程,步骤如下:首先,对未知油品样本性质检测 时,先对未知油品样本采集近红外光谱,并投影到训练集样本按主成份分 析法、聚类法确定的特征平面上,然后根据未知油品样本在投影平面上所 在的位置确定属于哪个类样本,并在所属类样本中找到邻近点,按照邻近 点与未知油品样本点不同大小的马氏距离用邻近点的性质计算未知油品 样本的性质。

图1示出基于模式识别与谱图映射的油品多类性质的检测方法流程 图,实现该方法的步骤包括:

步骤S1:采集某一未知油品样本的近红外光谱,并按照主成份分析 法将近红外光谱图映射投影到训练集样本确定的特征平面上;

训练集样本特征平面的确定用到了K-means聚类方法和评价聚类效 果的统计量-轮廓系数值。具体实施确定所述特征平面的步骤如下:

步骤S11:首先,对训练集样本做主成分分析后,选择前5个载荷向 量两两组合分别作为平面的X轴和Y轴,依次将训练集样本投影到每个平 面上;步骤S12:依次在在每个平面上应用K-means方法对样本聚类。 K-means聚类步骤如下:

1、根据样本在平面的分散情况随机选取q个样本点作为初始聚类重 心m1,m2,...,mq,q是样本点的种类数;

2、对每个样本点xj,计算该样本点与各个重心的距离d(xj,mi),找出 最小距离,如果d(xj,ml)=min(d(xj,mi)),i=1,2,...,q,1≤l≤q,j=1,2,...,n,则把 样本点xj归入第l类,n是训练集样本点个数,i是样本点,mi是初始聚类 重心,j是训练集样本点,l是样本点的类别;

3、重新计算每个聚类的重心;

4、重复步骤2,3,知道所有重心都不再变化。

步骤S13:依次对步骤S12训练集样本点聚类完成之后的样本,根据 下边的公式(1)计算每个点的轮廓系数值sj

sj=bj-ajmax(bj,aj),j=1,2,...,n,---(1)

公式(1)中,aj是样本点xj与所在类中其他点的距离的平均值,bj是 xj与其他类距离的最小值,xj与某个非所属类的距离用xj与该非所属类中 所有的点的距离的平均值计算出。轮廓系数值在-1到1之间,值越大说 明样本点的归属类选择的越合理。步骤S14:依次根据步骤S13计算出的 每个点的轮廓系数值计算出每个聚类平面上所有样本集的平均轮廓系数 值;步骤S15:选择平均轮廓系数值最大的平面作为训练集的特征平面。

图1a示出图1中步骤S2的实施例:根据未知油品样本落在训练集样 本的特征平面的区域位置,通过朴素贝叶斯分类器将未知油品样本点归到 训练集样本的某类样本中;具体的实施是将未知油品样本点归到训练集样 本的某类样本包括如下步骤:步骤S21:如果未知油品样本点落入某类样 本中,直接根据朴素贝叶斯分类器判断未知油品样本点的所属类别;如果 未知油品样本点落在所有类样本之外,进入步骤S22;步骤S22:对未知 油品样本点进行计算,得到未知油品样本的光谱残差,用光谱残差的F 检验判断未知油品样本是异常点还是正常点,如果是异常点,则剔除异常 点,如果是正常点,进入步骤S23;步骤S23:根据朴素贝叶斯分类器判 断未知油品样本点的所属类别。

图2示出了未知油品样本点落入特征平面的情况,实心点代表训练集 样本点,方框代表未知油品样本点。从图2中可以看出,大部分未知油品 样本点落入某个类样本中,但也出现了几个界外点。其中有两个界外点距 离特征平面上所有的类样本都比较“远”,另一个界外点离某个类样本更 “近”一些。界外点的处理包括光谱残差的F检验和根据朴素贝叶斯分类 器的判别分析两个过程,光谱残差的F检验用于判断未知油品样本点是正 常点还是异常点,朴素贝叶斯分类器是把正常点判别到某类样本中,是对 肉眼观察到的“近”的概念的量化。

首先说明一下光谱残差的F检验。光谱残差是表示实际光谱与重构光 谱之间差值的一个统计量,未知油品样本在特征平面的投影是根据未知油 品样本的光谱数据与训练集样本在特征平面的二维载荷向量计算出来的; 另一方面,用未知油品样本的投影与这个二维载荷向量也可以计算出一个 重构光谱。实际光谱与重构光谱有一个小的误差,正常采集的样本在测量 条件相同的条件下得到的这个误差是近似的。一个油品的光谱残差Rs可 以用公式(2)表示:

Rs=Σk=1p(Aorigk-Apredk)2---(2)

公式(2)中,p是光谱的波长(数据点)的数量,Aorigk是实际的光 谱在波长点k处的吸收度,Apredk是重构光谱在波长点k处的吸收度。

比起训练集中其他样本,具有显著的更大的光谱残差的样本就是异常 样本,光谱残差的F检验是用数学的方式来精确的确定一个样本相对于训 练集其他样本的光谱残差的统计显著性。未知油品样本光谱残差的平方是 一个服从自由度为1的卡方分布的独立变量,训练集样本光谱残差的平方 是一个服从自由度为训练集样本的数量的卡方分布的独立变量,这两个独 立的卡方分布先除以各自的自由度再做比值之后的比率是一个服从第一 自由度为1,第二自由度为训练集样本的数量的F分布。

F检验包括F-Ratio(F比率)和F-Test(F测试)两部分,F-Ratio 是一个符合F分布的统计量,需要知道分子、分母的自由度,将训练集模 型或未知油品样本值代入该统计量公式,得出符合F分布的统计量 F-Ratio的值;F-Test是根据分子、分母自由度和算出的F-Ratio计算F 分布中大于该F-Ratio的概率,并将该概率与预先设定的置信水平比较, 得出最终的判断结果,一般设定的置信水平是0.99,大于该值时可以判 定为异常样本。光谱残差的符合F分布的统计量F-Ratio公式(3)如下:

Fratio=Rs2(Σj=1nRsj2)/n=n*Rs2Σj=1nRsj2---(3)

公式(3)中,n是训练集样本的数量,是要测试的未未知油品样 本的光谱残差的平方,是训练集中第j个样本的光谱残差的平方。

再说明一下朴素贝叶斯分类器。

贝叶斯分类器是一种对样本属性(本例中是光谱投影)和类别(本例 中是油品类别)的概率关系建模的方法。用XS表示样本属性集,C表示 类变量。如果类变量和属性之间的关系不确定,那么把XS和C看作随机 变量,用P(C|XS)(C的后验概率,即已知某个样本属性,判断它属于某 个类的概率,P(C)称为C的先验概率)捕捉二者之间的关系。

根据从训练集中收集的信息,对样本属性集XS和类变量C的每一种 组合学习后验概率,通过找出使后验概率最大的类可以对未知油品样本进 行分类。

准确估计类标号和属性的每一种可能组合的后验概率非常困难,所以 根据贝叶斯定理,可以用类变量的先验概率P(C),类条件概率P(XS|C), 属性的先验概率P(XS)来表示类变量的后验概率。P(C)是一个值,它表达 了样本空间中某个类C的样本所占样本总量的比例,类条件概率P(XS|C)、 属性的先验概率P(XS)都是以某种形式分布的概率密度函数,需要根据训 练集中样本特征的分布情况进行估计。后验概率P(C|XS)如下公式(4) 表示:

P(C|XS)=P(XS|C)P(C)P(XS)---(4)

本发明中,假定各类油品组成的样本总体、各个类别的油品集都符合 正态分布,即P(XS)、P(XS|C)都符合正态分布,各个分布的参数值用训练 集样本估计。P(C|XS)是已知一个油品的投影XS,计算这个油品属于某类 油品C的概率;P(C)是指某个油品类别C出现的概率,如0#柴油出现的概 率;P(XS)是指给定一个油品的得分向量XS,根据样本整体分布计算出的 这个油品出现的概率;P(XS|C)是指根据油品类别C中样本的分布,计算 一个得分向量为XS的油品出现的概率。

在实际中,根据实际情况往往假设样本属性之间条件独立,这样对于 给定的类别C,不必计算XS的每一个组合的类条件概率,只需计算每一 个样本属性XSi的条件概率,这样对于有m个属性的样本属性集XS,估计 属于类C的公式(5)如下:

P(XS|C)=P(XS1=xs1,XS2=xs2,...,XSm=xsm|C)=Πi=1mP(XSi=xsi|C)---(5)

这就是朴素贝叶斯分类器,它在估计条件概率时不需要很大的训练集 就能获得较好的概率估计。

本发明中,样本的属性集是指油品在特征平面的投影,是二维的,m 等于2,P(XS|C)可以写成P(XS|C)=P((XS1,XS2)|C),XS1、XS2分别是油品 在特征平面第一主成分轴、第二主成分轴(X轴、Y轴)上的投影值,假 设这两个变量是独立分布的,所以在某类油品C中,得分向量为(xs1,xs2)的 油品出现的概率公式(6)表示为:

P(XS1=xs1,XS2=xs2)|C)=P(XS1=xs1|C)*P(XS2=xs2|C)   (6)

图3给出了对图2中界外点的处理情况,通过光谱残差的F检验,发现 那两个距离所有油品类都“远”的离散的点是异常的,进行剔除;用朴素 贝叶斯分类器把另一个正常界外点归入了图中最左边样本代表的类中。

通过将采样正常的界外点用下边算法检测出性质或条件允许得到其 化验性质,并纳入模型中,能解决模型的实时扩充问题,进一步提高模型 的适应范围和准确度。

图4a给出了对落入某类样本中的未知油品样本点寻找邻近点的情 况,是直接在所在类中寻找邻近点的示意图,实心点是训练集样本,方框 是未知油品样本,椭圆框中变成颜色加深的点是找到的未知油品样本的邻 近点;图4b给出了对落入某类样本中的未知油品样本点寻找邻近点的情 况,是先对未知油品样本所在的类进行致密化,然后再寻找邻近点的示意 图,实心点表示的训练集中的样本点,三角是通过致密化算法添加的样本 点,方框是未知油品样本点,椭圆框中颜色加深的点是找到的未知油品样 本的邻近点。

寻找邻近点时要确定椭圆的长轴半径和短轴半径,最优半径的确定可 以参照所属类的样本在特征平面上的分布情况和覆盖范围,按照覆盖范围 的一定的比例确定,由上述步骤S3在未知油品样本点所在类样本点中, 选择并在搜索半径范围内,搜索并找到未知油品样本点的邻近点;具体搜 索并找到未知油品样本点的邻近点的步骤如下:步骤S31:如果未知油品 样本点所在类样本点,具有多个类样本点,进入步骤S32,如果未知油品 样本点所在类样本点,具有稀疏的类样本点,则对类样本点进行谱图致密 化处理,再进入步骤S32;步骤S32:以未知油品样本点位置为中心,以 一条长轴和一条短轴为半径确定一个椭圆,找到落入椭圆中的点作为未知 油品样本点的邻近点。

对未知油品样本找到邻近点后,提出如下的模型检测算法:

Property X=f(Prop[S1,S2...Si])   (7)

公式(7)中,X表示未知油品样本点,S1,S2...Si表示未知油品样本点 的i个邻近点,Property X是未知油品样本的性质,Prop[S1,S2...Si]是未知油 品样本点的邻近油品点的性质,f表示未知油品样本的性质与邻近点油品 的性质之间的函数关系。f的选择有两种方法:一种是计算未知油品样本 点与邻近点的马氏距离,通过归一化处理后,对邻近油品点的性质加权求 和,即可得到未知油品样本的各性质。第二种方法是,通过邻近点对应的 性质,应用偏最小二乘的方法,求得未知油品样本各个性质。本发明中采 用第一种方法即步骤S4:计算未知油品样本点的邻近点与该未知油品样 本点的马氏距离,并将马氏距离归一化后作为权值,利用未知油品样本点 邻近点的性质加权求和计算未知油品样本点的油品性质,从而得到未知油 品样本点的多类性质。

图5给出了本发明与传统偏最小二乘检测效果的比较。二者选择同样 的数据作为训练集建立模型,选择相同的数据作为验证集进行测试。图5 画出的是对验证集样本凝点性质的检测效果,检测点的分布越接近45度 线,表明检测值与实际值越接近。可以看出,实心圆点表示的本发明比十 字叉表示的偏最小二乘模型准确度高出很多。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想 到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保 护范围应该以权利要求书的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号