首页> 中文学位 >基于变量选择偏差的变量选择过程
【6h】

基于变量选择偏差的变量选择过程

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 变量选择算法的意义

1.2 变量选择算法国内外研究现状

1.3 研究内容与论文结构

第二章 变量选择算法的理论基础

2.1基于罚函数的线性回归

2.2基于信息准则的模型选择

第三章 高维回归中的变量选择诊断

3.1 模型选择过程中的不稳定性

3.2变量选择偏差(Variable Selection Deviation)

3.3 规约候选模型数量

3.4 候选模型加权

3.5 本章小结

第四章 基于变量选择偏差的变量选择算法

4.1 Lasso、MCP、SCAD算法性能分析

4.2 算法动机和基础

4.3 基于变量选择偏差的变量选择算法

4.4 基于变量选择偏差的变量排序算法

4.5 VS包对VS-Based-On-VSD和VR-Based-On-VSD的实现

4.6 本章小结

第五章 数值实验分析

5.1 仿真数据集

5.2 仿真数据结果分析

5.3 VS-Based-On-VSD应用于手写数字识别

5.4 VS-Based-On-VSD应用于乳腺癌诊断

5.5 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

随着大数据时代的到来,数据的维度越来越高而且数据中的冗余信息越来越多,统计学习和机器学习从包含大量的冗余信息的数据中学习或发现有用的信息越来越困难,因此在对数据建模前需要进行变量选择。若假设潜在真实模型为线性模型时,常见的变量选择算法有Lasso、MCP、SCAD等算法。但是Lasso算法所选择的模型趋向于包含了大量的冗余变量;MCP算法所选择的模型趋向于选择更少的变量但丢失了部分重要的变量;SCAD算法所选择的模型与潜在真实模型或真实模型的距离较大。因此,这三种变量选择算法都存在它们自身的固有缺点。
  本文使用了变量选择偏差的概念(变量选择偏差可以有效的删除冗余变量的同时尽可能的保留重要变量),使用它度量选择的模型与潜在真实模型的之间的距离。因而,本文提出了基于变量选择偏差的变量选择过程(下文称为基于变量选择偏差的变量选择算法),同时基于此提出了基于变量选择偏差的变量排序算法。基于变量选择偏差的变量选择算法是选择拥有最小的变量选择偏差值的变量子集为最优变量子集,其最优变量子集与潜在的真实模型之间的对称差最小,在拥有最少的冗余信息的同时尽可能地包含了有用的、隐藏在数据中的结构信息。文中给出了求解最小变量选择偏差值的最优变量子集的过程和方法,并用数学方法证明了该方法的解是全局最优的。基于变量选择的偏差的变量排序,是使用变量选择偏差对变量进行加权,选择变量权大于某个阀值的变量作为最优的变量子集。该算法所得到的变量子集与阀值大小有关。当阀值为0.5时,基于变量选择的变量选择偏差的变量选择算法和该算法所得到的变量子集是一样的。因此,使阀值小于0.5,那么基于变量选择偏差的变量排序算法所得到变量子集会包含有用信息会更多一些,将有助于对未知样本的预测和区分。
  本文将两个新的算法和三种传统的变量选择算法(Lasso、MCP、SC-AD)应用于仿真数据和真实数据上,将它们的在未知数据上表现出的性能进行了全面的对比。在噪声水平不是很高的情况下,基于变量选择偏差的变量选择算法在模型预测能力上与Lasso相当,强于MCP和SCAD算法,但是选择的冗余变量远少于Lasso算法。因此基于变量选择偏差的变量选择算法所选择的变量子集中与潜在真实模型之间的距离相对于Lasso、MCP、SCAD的更近,更加可以有效的刻画和描述数据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号