首页> 中文学位 >基于高维数据的特征选择方法及其稳定性研究
【6h】

基于高维数据的特征选择方法及其稳定性研究

代理获取

目录

摘要

Abstract

目录

第1章 绪论

1.1 研究背景

1.2 国内外现状

1.3 主要工作

1.4 内容安排

第2章 高维数据的特征选择方法

2.1 特征选择方法的稳定性

2.2 稳定的特征选择方法

2.2.1 集成的特征选择方法

2.2.2 基于先验特征相关性的方法

2.2.3 Group特征选择方法

2.2.4 样本注入的方法

2.3 特征选择方法的稳定性评价准则

2.4 本章小结

第3章 基于改进的SVM评价准则的单特征选择算法

3.1 引言

3.2 基于SVM的评价准则简介

3.3 算法思想

3.4 实验结果与分析

3.4.1 实验数据

3.4.2 实验设置

3.4.3 实验结果与分析

3.5 本章小结

第4章 基于改进的SVM评价准则的集成特征选择算法

4.1 引言

4.2 算法思想

4.3 实验结果与分析

4.3.1 实验数据

4.3.2 实验设置

4.3.3 实验结果与分析

4.4 本章小结

第5章 基于L_1SVM的集成特征选择算法

5.1 引言

5.2 L_1SVM算法

5.3 算法思想

5.4 实验结果与分析

5.4.1 实验数据

5.4.2 实验设置

5.4.3 实验结果与分析

5.5 本章小结

第6章 结束语

参考文献

附录

致谢

展开▼

摘要

特征选择是机器学习和模式识别领域的关键问题之一,随着机器学习与模式识别的深入,研究对象越来越复杂,对象的特征维数也越来越高。高维数据,即具有成百上千特征的数据集,会包含大量的无关信息和冗余信息,这些信息可能会极大地降低学习算法的性能。因此,当面临高维数据的时候,特征选择就显得尤为重要。针对高维数据的特征选择问题,国内外学者已做了大量的研究工作,并且在文本分类、风险管理、Web分类、医疗诊断、生物数据分析、基因组工程等领域得到了广泛的应用。现有的研究侧重关注特征选择的分类性能而忽略了它的稳定性,即分类结果对训练样本变化的不敏感性。而在发现自然模型的真实变量过程中,特征选择的稳定性尤为重要,已广泛应用到生物标记中。为了提高特征选择算法的稳定性,研究者提出了集成、先验特征相关性、Group以及样本注入等方法。
  本文在高维数据的特征选择方法及其稳定性上进行了研究,围绕“如何得到特征子集”、“如何评价特征子集的好坏”、“如何使特征选择的结果趋于稳定”三个问题,借鉴已有的研究成果,用1-范数SVM,集成等方法对原有的特征选择方法以及特征子集的度量准则进行改进,主要工作如下:1.提出了基于改进的SVM评价准则的单特征选择算法SFS-tSVMo对已有的基于SVM的评价准则进行改进,引入阈值,结合单特征选择器,用数据扰动的方法对其结果进行集成。同时,还设计了一种针对高维数据的稳定性度量策略。实验表明,SFS-tSVM算法能够有效提高特征选择算法的稳定性。2.提出了基于改进的SVM评价准则的多特征选择混合算法MFS-tSVM,用功能扰动的方法对多个特征选择器的结果进行集成。实验表明,该算法能够有效提高特征选择算法的稳定性,并具有良好的分类精度。3.提出了一种基于L1SVM的集成特征选择算法L1SVM-EFS,运用稀疏化SVM进行高维数据特征选择,并与数据扰动的集成方法相结合。实验表明,该算法在不牺牲分类精度的前提下,能够有效提高特征选择算法的稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号