基于互信息和随机森林的混合特征选择算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随着信息时代的到来，各行各业产生的数据铺天盖地般涌现，其中高维数据的出现和增长给数据处理带来了极大的挑战．一方面，高维数据容易使数据处理陷入维数灾难的陷阱；另一方面，高维数据中的冗余特征和不相关特征会对数据描述和应用产生干扰．特征选择技术通过对数据进行降维和滤噪，能够为后续的数据处理奠定基础．互信息属于信息准则中的典型度量，它不需要预先知道原始数据的分布，并且原始数据经过变换后仍然保持信息熵的不变性．随机森林可以有效地识别信息特征，并且很好地处理特征与分类器间的关系．本文结合两者的优势，研究基于互信息和随机森林的混合特征选择算法．
　　论文针对Hapfelmeier等提出的随机森林特征选择算法中存在的不足进行改进．改进后的算法基于置换理论框架，使用随机森林进行特征选择．首先分别置换每个特征的数据，每置换一次需要重新构造随机森林并计算特征的重要性值，经过多次置换后会产生一个特征重要性的经验分布．然后使用置换重要性算法对特征重要性的经验分布拟合一个合适的概率分布，再从该概率分布中使用统计方法评价每个特征的p值．如果置换重要性算法找不到合适的概率分布，仍然使用原算法中的p值估计方法．最后根据每个特征的p值筛选特征．通过与七个算法的对比分析表明，改进后的算法在分类精度、泛化能力和运行时间上具有一定的优势．
　　将基于互信息的特征选择算法与上述改进后的算法相结合，提出了一种新的基于互信息和随机森林的混合算法．该混合算法分为两个阶段：首先通过贪婪搜索的方式寻找特征，使用互信息评价特征与类变量间的关系，快速过滤掉一部分冗余特征和不相关特征，从而降低样本空间的维数；其次将第一阶段选出的特征输入到改进后的算法中,基于置换理论框架使用随机森林精选出最终的特征子集．从UCI数据库中选取六个真实数据集,将混合算法与七个现有的算法进行对比分析．实验结果显示，混合算法在分类精度和泛化能力上有一定的提高．

著录项

作者
赵伟卫;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科数学
授予学位硕士
导师姓名杨有龙;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类随机微分方程;
关键词
高维数据; 特征选择技术; 随机森林; 互信息; 混合算法; 数据处理;

相似文献

中文文献
外文文献
专利

1. 基于二次TF*IDF的互信息文本特征选择算法研究 [J] . 王园 ,龚尚福 . 计算机应用与软件 . 2011,第004期
2. 基于特征选择的极限随机森林算法研究 [J] . 杨丰瑞 ,罗思烦 ,李前洋 . 计算机应用研究 . 2020,第009期
3. 基于互信息和随机森林的混合变量选择算法 [J] . 赵伟卫 ,李艳颖 ,赵风芹 . 吉林大学学报（理学版） . 2017,第004期
4. 基于交互信息的混合特征选择算法 [J] . 姜文煊 ,段友祥 ,孙歧峰 . 应用科学学报 . 2021,第004期
5. 基于混合遗传算法与互信息分析的高维小样本特征选择 [J] . 姚树春 ,刘正 ,张强 . 计算机应用与软件 . 2020,第001期
6. 基于高维k近邻互信息的出水总磷特征选择 [C] . ZHOU Hong-biao ,周红标 ,QIAO Jun-fei . 2016年第27届中国过程控制会议 . 2016
7. 基于互信息的动态特征选择算法研究 [A] . 温婧 . 2020

基于互信息和随机森林的混合特征选择算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅