首页> 中文学位 >基于最短描述长度的高维特征选择方法研究
【6h】

基于最短描述长度的高维特征选择方法研究

代理获取

摘要

高维特征选择问题也称为稀疏建模问题,是当前机器学习研究领域的热点研究问题之一,目标是解决现有的特征建模方法在高维特征空间普遍失效的问题。主要的研究方法是基于模型参数的1-范数或零一范数约束的正则化方法。当前流行的1-范数方法存在的主要问题是缺乏对相关特征的组选能力和特征选择能力受样本容量限制。而传统的零-范数方法则在稀疏建模实践中普遍存在过拟合问题,主要原因是对模型复杂度的约束条件不合理。最近的理论研究揭示出基于零-范数约束的逐步回归法在理论上能够获得比1-范数方法更好的稀疏建模性能。据此本文从最短描述长度原则出发,通过理论推导建立了三种新型的基于零-范数约束的高维特征选择方法模型,分别是:
   ⑴通过向随机复杂度模型中引入模型参数的高斯分布假设,对模型复杂度下界的费舍尔信息近似公式进行推导求解得到一个易于计算的特征选择判据,据此构造出一种基于随机复杂度约束的特征选择方法模型,并通过仿真实验和真实基因数据集上的实验,验证了该方法在稀疏建模任务中的性能优于当前主流的1-范数方法和文献报道的最新相关理论成果;
   ⑵通过向基于风险膨胀判据(RIC)的特征选择模型中引入2-范数约束条件,解决了RIC模型从低维特征空间向高维特征空间的推广问题,据此构造出一种基于有偏风险约束的特征选择方法模型,并同样通过仿真实验和基因选择实验验证了该方法在稀疏建模任务中相对于当前主流方法的性能优越性;
   ⑶为尝试建立推广性更好的零-范数高维特征选择方法模型,本文在吸收借鉴前述方法的优点的基础上,通过向随机复杂度模型引入一个Tikhonov类型的正则化因子,削弱了该模型的理论限制条件,据此构造出一个基于有偏最短描述长度的特征选择方法。仿真实验,基因选择及图像分类实验的数据表明,该方法能够有效处理稀疏建模任务,且性能优于当前主流的1-范数方法和和文献报道的最新相关理论成果,在本文提出的三个模型中性能表现最优。
   ⑷研究成果证明了基于零-范数的正则化特征选择方法不仅适用于高维特征空间,而且能够获得比1-范数方法更好的稀疏建模性能。同时本文提出的方法模型为解决高维特征选择问题提供了新的研究思路和有希望的解决方案。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号