首页> 中文学位 >PLS回归算法的改进及其应用研究
【6h】

PLS回归算法的改进及其应用研究

代理获取

目录

第一个书签之前

PLS回归算法的改进及其应用研究

摘要

ABSTRACT

插图清单

表格清单

注释表

第一章 绪论

1.1 引言

1.1.1 研究背景

1.1.2 应用背景-多组分分析

1.1.3 应用背景-小分子和生物大分子的交互作用

1.2 常用回归建模方法

1.2.1 最小二乘回归

1.2.2 主成分回归

1.2.3 偏最小二乘回归及其优点

1.3 本文的主要研究思路

1.4 本文的主要研究工作

1.4.1 稳健回归

1.4.2 非线性处理

1.4.3 二阶数据处理

1.5 本文主要内容与组织

第二章 偏最小二乘相关基本理论

2.1 偏最小二乘基础

2.1.1 偏最小二乘的基本思想

2.1.2 偏最小二乘回归的数学表达

2.1.3 偏最小二乘回归的具体求解算法

2.2 偏最小二乘扩展

2.2.1 稳健偏最小二乘

2.2.2 核偏最小二乘

2.2.3 二阶偏最小二乘

2.3 特征选择方法

2.3.1 过滤器模式-Filter

2.3.2 封装器模式-Wrapper

2.3.3 嵌入式模式-Embeded

2.4 集成学习

2.4.1 集成学习理论

2.4.2 集成学习方法

2.4.3 Boosting-PLS

2.5 蒙特卡洛交叉验证方法

第三章 稳健偏最小二乘改进算法

3.1 引言

3.1.1 稀疏矩阵变换——SMT

3.1.2 主成分空间奇异点识别——PCOUT

3.2 偏最小二乘稳健改进算法

3.2.1 稀疏矩阵变换偏最小二乘法——SMT-PLS

3.2.2 结合SGB和SMT的偏最小二乘法——SGB-SMT-PLS

3.2.3 主成分空间奇异点识别偏最小二乘法——PCOUT-PLS

3.2.4 结合SGB和PCOUT的偏最小二乘法——SGB-PCOUT-PLS

3.3 算法应用于多种氨基酸的同时测定

3.4 算法参数选择与性能分析

3.4.1 SMT-PLS算法参数选择

3.4.2 PCOUT-PLS算法参数选择

3.4.3 实验结果分析

3.4.4 测试样本下模型预测结果

3.5 本章小结

第四章 核偏最小二乘改进算法

4.1 引言

4.1.1 净分析物预处理——NAP

4.2 核偏最小二乘改进算法

4.2.1 核化的特征选择算法——KNAP

4.2.2 基于核化特征选择的核偏最小二乘法——KNAP-KPLS

4.2.3 随机提升核偏最小二乘法——SGB-KPLS

4.2.4 结合SGB和NAP的核偏最小二乘法——SGB-NAP-KPLS

4.2.5 结合SGB和KNAP的核偏最小二乘法——SGB-KNAP-KPLS

4.3 算法应用于重金属离子的同时测定

4.4 算法参数选择与性能分析

4.4.1 算法参数选择

4.4.2 实验结果分析

4.4.3 测试样本的模型预测结果

4.5 本章小结

第五章 二阶偏最小二乘改进算法

5.1 引言

5.1.1 三线性模型

5.1.2 二阶校正算法分类

5.1.3 二阶NPLS校正算法和预测算法

5.1.4正则化稀疏模型求解算法

5.2 二阶偏最小二乘改进算法

5.2.1 稀疏NPLS——Sparse-NPLS

5.2.2 随机梯度提升NPLS——SGB-NPLS

5.2.3 随机梯度提升稀疏NPLS——SGB-Sparse-NPLS

5.3 算法应用于小分子与大分子的相互作用研究

5.4 算法参数选择与性能分析

5.4.1算法参数选择

5.4.2 实验结果分析

5.5 本章小结

第六章 总结与展望

6.1 总结

6.2 未来需要进一步的工作

致谢

参考文献

在学校期间的研究成果及发表的学术论文

展开▼

摘要

现代仪器科学的快速发展提供了大量高维或者高阶的分析数据,但是依据传统的化学、物理或者生物的分析手段难以从这些现代仪器采集的高阶或者高维数据中提取有用的化学信息。为更好地对先进分析仪器获得的校正样本的高维或高阶数据进行分析建模,并用来指导对未知样本进行的预测,化学计量学应运而生。化学计量学包含了分析量测的全过程,包括采样理论与方法、实验设计与优化、数据信号处理、多元校正与分辨、化学定量构效关系和智能专家系统等。它是一门计算机、化学等综合的交叉学科,利用了最优化方法、统计学、机器学习或数据挖掘以及其他相关学科的知识,选择出最优试验设计和测量方法,并从实验数据中最大限度地挖掘与研究被分析物的的性质、结构形态等方面的信息。因此,化学计量学已成为数据挖掘的一个重要的应用研究领域。 目前,偏最小二乘(PLS)算法已经在化学计量学、生物信息学以及图像处理等很多领域中得到了广泛的应用。PLS是一类基于隐变量的学习方法,能有效地将多元线性回归、主成分回归以及典型相关分析等方法进行结合,能够进行多响应变量的输出。基于传统的PLS算法已经发展了稳健偏最小二乘、核偏小二乘和二阶偏最小二乘等改进算法。本论文主要研究了几个PLS回归算法的改进算法,并将这些改进算法应用在多组分分析和小分子与生物大分子的相互作用中,对未来的相关应用研究有着很好的指导意义。 本文的主要创新点如下: (1)针对PLS性能容易受到共线性和奇异点干扰进而造成模型过拟合的问题,提出将基于稀疏矩阵变化的稳健协方差估计方法应用到PLS中。该方法能够消除自变量之间的共线性关系;同时还提出基于主成分空间奇异点检测的PLS方法,该方法能够有效发现高维空间中的奇异点。两种方法均从数据预处理的角度实现了样本协方差矩阵的稳健估计,都能使得最终模型更加稳健。将所提出的算法用在荧光光谱对苯基丙氨酸、色氨酸和酪氨酸的同时测定实验中,实验结果验证了所提出的算法的有效性。 (2)针对核PLS中存在的过拟合问题,提出将净分析物预处理的方法进行核化,得到基于核的净分析物预处理的特征选择方法,再将该方法应用于核PLS,去除了高维特征空间中与因变量无关的特征,该方法能有效去除自变量中的无关特征,达到了降维的效果,提升了模型的准确度。将改进得到的算法用于样本中多种金属离子浓度同时测定的实验中,实验结果表明该算法能够取得比较理想的计算结果。 (3)针对二阶PLS中存在的过拟合问题,提出加入了L1范数正则化约束的稀疏NPLS,使得NPLS在各个阶方向上出现在最终模型的特征个数减少,从而避免了过拟合问题,提高了模型的泛化能力,同时也增强了模型的可解释性。算法被应用在吲哚乙酸与过氧化氢酶的相互作用机理研究的实验中,得到了与化学实验相吻合的结果。 (4)将随机梯度提升学习方法应用在前面的各个改进算法,进一步避免了模型的过拟合问题,进一步增强了模型的泛化能力。同时随机梯度提升学习还可以解决NPLS中高阶数据存储量过大不可计算的问题。相关的改进算法被用于溶液中多组分浓度的同时测定实验中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号