首页> 中文学位 >基于最小联合互信息亏损的最优特征选择算法研究
【6h】

基于最小联合互信息亏损的最优特征选择算法研究

代理获取

目录

文摘

英文文摘

声明

1 绪论

2 Filter型特征选择算法研究综述

3 基于最小联合互信息亏损的最优特征选择算法

4 实验及结果分析

5 结论与展望

致谢

参考文献

附录1 攻读学位期间发表论文目录

展开▼

摘要

随着社会经济与计算机技术的快速发展,研究一种能够有效地提高分类学习算法性能和效率的Filter型特征选择算法有着重要的理论价值与广泛的应用前景。
   提出了一种基于最小联合互信息亏损的最优特征选择算法。该算法将以联合互信息作为评价准则的特征选择问题分解为两个子问题,采用最大条件互信息原则进行搜索直到获得一个无差异特征子集,并采用一种最小联合互信息亏损原则对所得无差异特征子集进行冗余特征的判断与删减。从条件互信息估计可靠性的角度上来看,最小联合互信息亏损原则减小了因样本不足而引起的条件互信息估计的偏差。从而能够获得一个较好地表达原始数据集且规模较小的特征子集。
   为解决特征子集规模较大时条件互信息估计所面临的维数瓶颈问题,提出了一种快速条件互信息估计方法,并将其用于所提算法的实现。首先引入局部互信息的概念,并揭示了局部互信息与条件互信息之间的关系,进而通过对局部互信息的逐一求解来实现对条件互信息的估计。
   选择了10种常用的基准数据集与挑战性数据集对所提算法和快速条件互信息估计方法进行了详细的性能实验。所选数据集训练样本跨度为2000~72626,特征维数跨度为22~139351,有利于全面检验算法的性能。实验结果表明了所提算法的优越性。同时,实验结果还表明了所提快速条件互信息估计方法的有效性,特别是对于含有139351个特征的Thrombin数据集而言,所提快速估计方法无论是在运行时间还是在存储空间上都有显著的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号