基于高维数据的特征选择方法及其稳定性研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

特征选择是机器学习和模式识别领域的关键问题之一,随着机器学习与模式识别的深入,研究对象越来越复杂,对象的特征维数也越来越高。高维数据,即具有成百上千特征的数据集,会包含大量的无关信息和冗余信息,这些信息可能会极大地降低学习算法的性能。因此,当面临高维数据的时候,特征选择就显得尤为重要。针对高维数据的特征选择问题,国内外学者已做了大量的研究工作,并且在文本分类、风险管理、Web分类、医疗诊断、生物数据分析、基因组工程等领域得到了广泛的应用。现有的研究侧重关注特征选择的分类性能而忽略了它的稳定性,即分类结果对训练样本变化的不敏感性。而在发现自然模型的真实变量过程中,特征选择的稳定性尤为重要,已广泛应用到生物标记中。为了提高特征选择算法的稳定性,研究者提出了集成、先验特征相关性、Group以及样本注入等方法。
　　本文在高维数据的特征选择方法及其稳定性上进行了研究,围绕“如何得到特征子集”、“如何评价特征子集的好坏”、“如何使特征选择的结果趋于稳定”三个问题,借鉴已有的研究成果,用1-范数SVM,集成等方法对原有的特征选择方法以及特征子集的度量准则进行改进,主要工作如下:1.提出了基于改进的SVM评价准则的单特征选择算法SFS-tSVMo对已有的基于SVM的评价准则进行改进,引入阈值,结合单特征选择器,用数据扰动的方法对其结果进行集成。同时,还设计了一种针对高维数据的稳定性度量策略。实验表明,SFS-tSVM算法能够有效提高特征选择算法的稳定性。2.提出了基于改进的SVM评价准则的多特征选择混合算法MFS-tSVM,用功能扰动的方法对多个特征选择器的结果进行集成。实验表明,该算法能够有效提高特征选择算法的稳定性,并具有良好的分类精度。3.提出了一种基于L1SVM的集成特征选择算法L1SVM-EFS,运用稀疏化SVM进行高维数据特征选择,并与数据扰动的集成方法相结合。实验表明,该算法在不牺牲分类精度的前提下,能够有效提高特征选择算法的稳定性。

著录项

作者
鲍捷;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科计算机应用技术
授予学位硕士
导师姓名杨明;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
高维数据; 特征选择; 机器学习; 支持向量机;

相似文献

中文文献
外文文献
专利

1. 基于随机矩阵理论的高维数据特征选择方法 [J] . 王妍 ,杨钧 ,孙凌峰 . 计算机应用 . 2017,第012期
2. 面向高维数据的凹型自表示特征选择方法 [J] . 朱国荣 ,冯昊 ,叶玲节 . 浙江电力 . 2017,第012期
3. 基于non-local先验的贝叶斯变量选择方法及其在高维数据分析中的应用 [J] . 马金沙 ,董晓强 ,高倩 . 中国卫生统计 . 2020,第003期
4. 基于Logistic回归模型的高维数据变量选择方法比较研究 [J] . 廖丹1 . 统计学与应用 . 2019,第003期
5. 基于特征选择的高维数据集成学习方法研究 [J] . 周钢 ,郭福亮 . 计算机科学 . 2021,第0z1期
6. 基于特征参与模式优化的特征选择方法 [C] . Junfang Wu ,吴俊芳 ,Xida Li . 2018粤港澳大湾区智能检测与协同创新青年论坛 . 2018
7. 基于最大化相关信息的高维数据特征选择方法研究 [A] . 袁明顺 . 2017

基于高维数据的特征选择方法及其稳定性研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅