首页> 中国专利> 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法

自适应提升法和非相关判别分析的猪肉贮藏时间判定方法

摘要

本发明公开一种自适应提升法和非相关判别分析的猪肉贮藏时间判定方法,采集待测试的近红外样本,将样本数据分为训练集和测试集,初始化所有训练集权值;利用获得的初始训练集进行自适应提升法迭代计算,每一次迭代过程中,将产生的训练子集映射到非相关判别分析的特征子空间,其弱分类器由非相关判别分析特征子空间的最近邻分类器得到,根据弱分类器产生的加权分类误差更新训练样本集,产生新一轮特征投影向量;通过投票方式产生联合特征子空间,构造强分类器;用强分类器进行猪肉贮藏时间的判定;将自适应提升法和非相关判别分析相结合,有效解决非相关判别分析的小样本问题和特征选择问题,具有检测速度快,判定准确率高等优点。

著录项

  • 公开/公告号CN102999765A

    专利类型发明专利

  • 公开/公告日2013-03-27

    原文格式PDF

  • 申请/专利权人 江苏大学;

    申请/专利号CN201210444082.X

  • 发明设计人 武小红;孙俊;唐凯;武斌;

    申请日2012-11-09

  • 分类号G06K9/62;

  • 代理机构南京经纬专利商标代理有限公司;

  • 代理人楼高潮

  • 地址 212013 江苏省镇江市京口区学府路301号

  • 入库时间 2024-02-19 18:23:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-22

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20160302 终止日期:20161109 申请日:20121109

    专利权的终止

  • 2016-03-02

    授权

    授权

  • 2013-04-24

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20121109

    实质审查的生效

  • 2013-03-27

    公开

    公开

说明书

技术领域

本发明涉及一种特征提取方法,具体涉及采用自适应提升法和非相关判别分析相结合的特征提取方法,用于判定猪肉贮藏时间。

 

背景技术

目前国内的猪肉检查手段主要依靠感官和理化分析相结合的方法,这些方法需要对样本进行粉碎,肉浸液提取等操作,其检测过程不仅繁琐,而且耗时较长,难以满足大批量的检测需求。同时其感官评价结果受人为因素较大,难以保证其检测结果的准确性。

近红外光谱分析技术作为最近几年发展起来的一种快速无损检测手段,因其简单,非破坏性等优点,已经被广泛应用于农产品检测领域。对近红外光谱数据采用主成分分析法统计(PCA),对主成分进行加权求和得最终评价值,权数为每个主成分的方差贡献率。

线性判别分析(LDA)是一种经典的分类特征提取方法,目前已经在近红外光谱数据分析领域得到了广泛应用,其基本思想为寻找一组最优鉴别矢量,使投影后的特征向量能够获得最佳的分离表示。在LDA基础上,为了进一步获得非相关的特征向量,Jin Zhong等提出了非相关判别分析(ULDA)。然而,不管是经典LDA还是ULDA特征提取方法,在实际应用中都会面临小样本问题。另外,非相关判别分析(ULDA)可以提取近红外光谱数据的特征,但是,存在这些特征如何选择的问题,而这个问题ULDA是无法解决的。

Kearns和Valiant引入了弱学习和强学习的概念。对于一个弱学习模型,它降低了学习者能够取得随机高准确度的要求,一个弱学习算法只需要提出一个比随机猜测性能略好的假设即可。在学习概念时,只需找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。

1990年,Schapire通过一个构造性方法证明多个弱分类器可以集成为一个强分类器,集成学习的理论基础形成。此后,Freund在1991年又提出了更有效的“boost by majority”算法。两个算法都是通过多次调用给定的弱学习算法,每次提供给它一个不同的分布,最后把提出的所有假设合并成一个单一的假设。但是这两个算法在解决实际问题时都存在一个重大的缺陷,就是都必须事先知道弱学习算法学习正确率的下限,这在实际中很难做到。随后,Freund和Schapire提出了自适应提升(AdaBoost)算法,自适应提升算法最后结果的准确度依赖于弱学习算法返回的所有假设,而不是只依赖于准确率最低的那个假设,因此可以全面开发弱学习的能力。自适应提升算法提出后在机器学习领域得到极大的关注,试验结果显示自适应提升算法能显著提高学习精度。但是最近的研究也表明,自适应提升算法存在某些缺陷,例如它对噪声非常敏感。

 

发明内容

本发明的目的是提供一种将自适应提升法(Adaboost)和非相关判别分析(ULDA)相结合,利用自适应提升法能解决小样本问题和非相关判别分析能解决特征选择问题,用自适应提升法进行多轮迭代训练,从而得到多个非相关判别分析特征提取器,最终采用加权投票方式重新构造了一个强分类器,用该强分类器实现猪肉贮藏时间的判定。

本发明采用的技术方案包括以下步骤:

(1)采集待测试的近红外样本,将样本数据分为训练集和测试集,初始化所有训练集权值;

(2)利用获得的初始训练集,进行自适应提升法迭代计算,自适应提升法的每一次迭代过程中,将产生的训练子集映射到非相关判别分析的特征子空间,其弱分类器由非相关判别分析特征子空间的最近邻分类器得到,根据弱分类器产生的加权分类误差更新训练样本集,从而产生新一轮特征投影向量;               

(3)对新一轮特征投影向量通过投票方式产生一个联合特征子空间,构造强分类器;

(4)用强分类器进行猪肉贮藏时间的判定。

本发明方法简单,对噪声不敏感,能有效解决非相关判别分析的小样本问题和特征选择问题,具有检测速度快,判定准确率高等优点,不仅适用于猪肉贮藏时间的判定,也适用于其他农产品和食品近红外光谱的定性分析。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1 是67块猪肉样品6天的近红外光谱; 

图2 是采用PCA+LDA、ULDA、Adaboost+ULDA、Adaboost+LDA四种特征提取方法的猪肉贮藏时间的识别率。

具体实施方式

本发明具体实施步骤如下:

步骤一,采集待测试的近红外样本集,初始化每个样本的权值。

用保鲜袋将67块猪肉样品包装保存于0~ 4℃的冰箱内,在之后的6天时间里,每隔24小时进行一次近红外光谱采集,采集过程尽量保持室内的温度和湿度基本一致。采用反射积分球模式采集近红外光谱,近红外光谱分析仪扫描每个样品32次以获取样品的漫反射光谱均值。光谱扫描的波数为10000~4000cm-1,扫描间隔为3.856cm-1,采集到每块猪肉样品的光谱是1557维的数据。67块猪肉样品6天的近红外光谱如图1所示。为减少误差,在6天的采集过程中,每块猪肉样本每天采样三次,然后取其平均值作为最终猪肉近红外数据,则每天可获得67个光谱样本数据作为1个类别的样本数据,这样,可得到6个类别总共402个样本数据。将6个类别的样本数据拆分为训练集和测试集,其中训练集样本数为270个猪肉近红外数据,即每天45个样本;测试集样本数为132个猪肉近红外数据,即每天22个样本。

2)初始化所有样本训练集(训练集样本数为270个猪肉近红外数据)权值                                                ,其中n = 270为样本集数量。

步骤二,利用获得的初始训练集,将结合Adaboost进行自适应的ULDA特征提取过程。定义弱分类器为ULDA投影向量和最近邻分类器的结合。也就是说,对于每个训练样本,将其投影到ULDA特征向量对于的特征子空间中,然后根据其最近邻训练样本的类别来确定其分类结果。因此,每一轮得到的ULDA投影向量可以作为候选弱分类器输入AdaBoost算法。对于AdBoost算法的每一轮迭代,每个弱分类器的分类误差等于被其错分的样本权重之和。算法将根据分类误差更新新一轮样本的权重,产生新的子集S,并构造新的ULDA特征子空间。

(1)通过自举获得一个新的样本数量为=270的子训练集。对予给定的尺寸n的初始训练样本集,为了获得一个尺寸为n的自举训练集,我们进行n次随机采样。每次随机采样中将根据n个样本的权值分布产生一个随机样本,然后将该样本加入到子训练集中。 

(2)对于一组子训练集,令样本矩阵A={A1,A2…..Ak},Ai是第i类子训练样本集,k为类别数,k = 6。,,分别为子训练样本集的类内方差矩阵,类间方差矩阵和总体方差矩阵:

, ,式中,x为某个随机样本,c为子训练样本集的总体样本均值,c(i)为子训练样本集中第i类样本的样本均值。n为子训练样本集的样本总数,=270。为子训练样本集的第i类样本数。

 (3)构造矩阵Hw,Hb,Ht:

,                  

满足,,,其中:,,,,,c(k)为子训练样本集中第k类样本的样本均值,表示n维的实数空间,表示维的实数空间,表示维的实数空间。                   

(4)计算的奇异值分解,即,其中:U,V分别为正交矩阵,,为对角矩阵,对角上的元素为t个奇异值,,。同时可将正交矩阵U分解:,其中,,m为样本维数,表示维的实数空间。

5)令,计算B的奇异值分解,即;。

6)令。矩阵X满足同时对角化,即:

  。

(7)取,则得到ULDA的特征投影矩阵。

8)定义弱分类器为ULDA特征子空间与最近邻分类器的结合。也就是说,对于子训练集s中的每个训练样本,将其投影到这个投影到ULDA特征子空间中,然后根据其最近邻训练样本的类别来确定其分类结果。

9)计算加权分类误差为,如果或,令T=t-1,并终止算法。

10)计算本轮训练基于ULDA的弱分类器的权重:。

11)更新初始样本训练集权重,其中。

步骤三,通过投票方式产生一个联合特征子空间,构造强分类器。将T个基于ULDA特征提取的弱分类器组合产生最终的决策函数:

 ,                    

算法迭代T轮后,便得到了T个不同的ULDA特征提取器。最后,用作为成员分类器的投票权值得到联合分类器。

步骤四,用Adaboost和ULDA组成的强分类器进行猪肉贮藏时间的判定。

分别将Adaboost结合ULDA和PCA+LDA特征提取算法(分别表示为Adaboost+ULDA和Adaboost+LDA)进行特征提取。对于传统的PCA+LDA特征提取算法,首先将所有数据样本进行主成分分析,并提取前n–k个主成分,以此消除矩阵的奇异性问题,其中n为样本总数,k为样本的类别数,其次将降维后的样本投影到LDA特征子空间。结合Adaboost的PCA+LDA特征提取算法将在每一轮迭代的过程利用PCA+LDA提取的特征空间进行分类,其分类器采用最近邻分类。

由图2可以看出,结合了Adaboost的特征提取算法在分类性能上已经大大优于传统的PCA+LDA和ULDA特征提取方法。Adaboost+ULDA和Adaboost+LDA的分类正确率在10轮迭代后分别达到了100%和97.7%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号