首页> 中文学位 >基于互信息的变量选择方法研究
【6h】

基于互信息的变量选择方法研究

代理获取

目录

声明

摘要

1 绪论

1.1 引言

1.2 多变量建模方法

1.2.1 最小二乘法

1.2.2 偏最小二乘法

1.3 变量选择方法

1.3.1 子集选择法

1.3.2 系数压缩法

1.4 判别分析法

1.5 模型评价方法

1.5.1 独立测试集法

1.5.2 交互检验法

1.6 本文的主要研究内容

2 基于互信息的模型集群分析变量选择方法

2.1 引言

2.2 原理和算法

2.2.1 熵与互信息

2.2.2 基于互信息的变量选择方法回顾

2.2.3 本文提出的MPA-MMIFS算法

2.3 MPA-MMIFS计算软件

2.4 实验数据

2.4.1 基因组学数据(乳腺癌)

2.4.2 代谢组学数据(Ⅱ型糖尿病)

2.4.3 近红外数据(食用醋)

2.5 数据处理

2.6 结果与讨论

2.6.1 Estrogen数据

2.6.2 T2DM数据

2.6.3 Vinegar数据

2.7 本章小结

3 变量选择方法之间的比较

3.1 引言

3.2 其他变量选择方法

3.2.1 遗传算法(GA)

3.2.2 间隔影响分析法(MIA)

3.2.3 随机青蛙算法(RF)

3.2.4 子窗口重排分析法(SPA)

3.2.5 变量互补信息网(VCN)

3.2.6 竞争性自适应重加权采样法(CARS)

3.3 不同方法的计算结果比较

3.3.1 Estrogen数据

3.3.2 T2DM数据

3.3.3 Vinegar数据

3.4 本章小结

4 MPA-MMIFS算法的参数优化

4.1 引言

4.2 k值与Q值的优化

4.2 β值的优化

4.3 N的取值对MPA-MMIFS算法的影响

4.4 本章小结

结论与展望

参考文献

攻读学位期间主要的研究成果

致谢

展开▼

摘要

现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(如基因芯片,质谱的质荷比和近红外光谱、拉曼光谱等的波长)的仪器来获取实验样本的相关数据。然而,这也意味着我们将要面临一个新的难题,如何从这些庞大的数据集里挑选出有信息的变量,并建立起相应的分析识别模型?
  为此,本文提出了一个新的变量选择方法,即MPA-MMIFS,它以交互信息为基础并结合了模型集群分析(Model Population Analysis,MPA)的概念,使得样本集中待选变量与样本类型的互信息最大,且与已选变量的互信息最小。此外,我们还引入了偏最小二乘线性判别分析(Partial Least Squares Linear Discriminant Analysis, PLS-LDA)的回归系数来调整变量的重要性。为了对我们提出的方法进行测试,我们选取了3个实际生活中的数据集(Estrogen基因表达数据,Ⅱ型糖尿病代谢数据与近红外数据食用醋分类数据)来进行变量筛选和样本建模,并同时采用了交叉验证法(Cross Validation,CV)和双交叉验证法(Double Cross Validation,DCV)来对模型进行评价。
  通过与其他变量选择方法(MIFS、MMIFS和GA)的比较,其结果表明,我们提出的基于模型集群分析方法在这三个具有不同性质的数据上均表现出不同程度的优势。以Estrogen数据为例,其留一交互检验预测准确率为100%,且利用其选出的仅5个基因做主成分分析,就能得到两类样本非常明显的分类趋势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号