首页> 中文学位 >决策森林的子空间选择和集成优化
【6h】

决策森林的子空间选择和集成优化

代理获取

目录

决策森林的子空间选择和集成优化

RESEARCH ON FEATURE SUBSPACESELECTION AND ENSEMBLEOPTIMIZATION OF DECISION FOREST

摘 要

Abstract

目 录

第1章 绪论

1.1 研究背景和意义

1.2 国内外相关研究和综述

1.3 本文的主要工作

1.4 本文的组织结构

第2章 决策森林基本理论

2.1 决策森林基本思想

2.2 决策森林相关概念和理论

2.3 决策森林的优缺点分析

第3章 决策森林的子空间选择

3.1 基于窗口的子空间选择基本思想

3.2 特征度量函数

3.2.1 定义

3.2.2 信息增益(Information Gain)

3.2.3 增益率(Gain Ratio)

3.2.4 卡方(Chi-square)

3.2.5 互信息(mutual information)

3.3 特征窗口

3.3.1 基于计数的特征窗口

3.3.2 基于累积的特征窗口

3.4 基于子空间选择的决策森林算法

3.4.1 算法流程

3.4.2 算法复杂度分析

3.5 实验与分析

3.5.1 实验数据

3.5.2 评估函数

3.5.3 实验结果对比分析

3.5.4 选出特征分析

3.6 结论

第4章 决策森林集成优化

4.1 模型选择集成原理

4.2 双向投票的模型选择原理

4.3 基于模型选择的决策森林算法

4.3.1 算法流程

4.3.2 算法复杂度分析

4.4 实验与分析

4.4.1 算法结果比较

4.4.2 算法结果分析

第5章 决策森林算法研究总结和展望

5.1 决策森林算法总体优化框架

5.2 本文的主要贡献

5.3 进一步研究的问题

5.4 本章小结

结 论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

集成学习(Ensemble Learning)是一种较新的机器学习范式,它使用多个学习器来解决同一问题,它能够显著地提高学习系统的泛化能力。决策森林作为一种优秀的集成学习方法,在实际中得到了广泛的应用。然而利用决策森林对高维复杂数据进行挖掘过程中,当数据含噪音较多或有用信息所占比例较小时,决策森林算法所产生的决策树质量将严重下降,最终将导致分类精度大大降低。
  为了有效地解决该问题,本文从特征子空间选择和模型优化两方面入手来改进现有决策森林算法,主要做了以下几个部分的工作:
  1)给出了决策森林特征子空间选择度量函数。本文针对决策森林分类算法,给出了特征子空间选择度量函数的定义。在此基础上,研究了满足这一定义的四种特征分类信息度量函数,分别是信息增益,增益率,卡方和互信息。
  2)提出了基于计数的特征窗口决策森林算法。首先给出了一个基于计数的特征子空间选择的决策森林算法的框架,在特征度量部分,选取不同的特征度量方法来进行特征提取。本文选取了四种度量函数在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法的有效性。
  3)提出了基于累积的特征窗口决策森林算法。由于在对实际数据进行分类时,往往事先不知道数据的分布特点,所以很难给出一个合理的特征计数阈值,即应该选取多少个特征参与建树。这也成为基于计数的特征窗口决策森林算法有效发挥作用的一个瓶颈。而基于累积的特征窗口决策森林算法却有效地解决了该问题,其只需给出要求参与建树的特征总共所具有的分类信息量是多少即可。这样的机制便会使算法根据数据本身特征分布自动地计算应该选取多少个特征和决定哪些特征参与建树。在这一部分,本文选取了四种度量函数在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法较原始的随机森林算法有显著的提高。
  4)提出了双向投票模型选择的决策森林算法。由于数据的高维,海量和含噪音等复杂性将导致所生成决策树质量好坏不一。如果让大量的噪音树来参与分类,势必影响决策森林算法的整体质量。为了取得更好的分类效果,本文提出了基于双向投票进行模型选择的决策森林算法。该算法主要思想是不仅使决策树对数据有投票权,而且反过来数据元组对决策树也有投票权,以进行模型选择。然后在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法的分类准确度要明显地优于原始随机森林算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号