首页> 中文学位 >基于互信息和随机森林的混合特征选择算法研究
【6h】

基于互信息和随机森林的混合特征选择算法研究

代理获取

目录

声明

插图索引

表格索引

符号对照表

缩略语对照表

第一章 绪论

1.1研究背景和意义

1.2特征选择算法概述

1.3国内外研究现状

1.4本文主要工作和结构安排

第二章 特征选择基础

2.1基础知识

2.2特征选择

2.3本章小结

第三章 基于随机森林的特征选择算法

3.1随机森林

3.2 HAP算法

3.3 IHAP算法

3.4实验分析

3.5本章小结

第四章 混合特征选择算法

4.1基于互信息的特征选择算法

4.2基于互信息和随机森林的混合算法

4.3实验分析

4.4本章小结

第五章 总结与展望

5.1工作总结

5.2工作展望

参考文献

致谢

作者简介

展开▼

摘要

伴随着信息时代的到来,各行各业产生的数据铺天盖地般涌现,其中高维数据的出现和增长给数据处理带来了极大的挑战.一方面,高维数据容易使数据处理陷入维数灾难的陷阱;另一方面,高维数据中的冗余特征和不相关特征会对数据描述和应用产生干扰.特征选择技术通过对数据进行降维和滤噪,能够为后续的数据处理奠定基础.互信息属于信息准则中的典型度量,它不需要预先知道原始数据的分布,并且原始数据经过变换后仍然保持信息熵的不变性.随机森林可以有效地识别信息特征,并且很好地处理特征与分类器间的关系.本文结合两者的优势,研究基于互信息和随机森林的混合特征选择算法.
  论文针对Hapfelmeier等提出的随机森林特征选择算法中存在的不足进行改进.改进后的算法基于置换理论框架,使用随机森林进行特征选择.首先分别置换每个特征的数据,每置换一次需要重新构造随机森林并计算特征的重要性值,经过多次置换后会产生一个特征重要性的经验分布.然后使用置换重要性算法对特征重要性的经验分布拟合一个合适的概率分布,再从该概率分布中使用统计方法评价每个特征的p值.如果置换重要性算法找不到合适的概率分布,仍然使用原算法中的p值估计方法.最后根据每个特征的p值筛选特征.通过与七个算法的对比分析表明,改进后的算法在分类精度、泛化能力和运行时间上具有一定的优势.
  将基于互信息的特征选择算法与上述改进后的算法相结合,提出了一种新的基于互信息和随机森林的混合算法.该混合算法分为两个阶段:首先通过贪婪搜索的方式寻找特征,使用互信息评价特征与类变量间的关系,快速过滤掉一部分冗余特征和不相关特征,从而降低样本空间的维数;其次将第一阶段选出的特征输入到改进后的算法中,基于置换理论框架使用随机森林精选出最终的特征子集.从UCI数据库中选取六个真实数据集,将混合算法与七个现有的算法进行对比分析.实验结果显示,混合算法在分类精度和泛化能力上有一定的提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号