声明
摘要
第1章 绪论
1.1 研究背景及意义
1.2 医学数据的特点
1.2.1 多样性和异质性
1.2.2 样本类别不平衡和内容不完整
1.2.3 特征高维性、冗余性和高度相关性
1.3 国内外研究现状
1.3.1 医学数据挖掘研究现状
1.3.2 特征选择技术研究现状
1.3.3 类别不平衡数据分类研究现状
1.3.4 随机森林算法研究现状
1.4 论文研究思路及主要研究内容
1.5 论文组织结构
第2章 面向类别不平衡数据集的RF分类算法研究
2.1 引言
2.2 概念定义
2.3 随机森林模型
2.3.1 随机森林的定义
2.3.2 随机森林的收敛性
2.3.3 随机森林的泛化误差上界
2.3.4 随机重采样技术
2.3.5 训练决策树
2.3.6 随机森林算法
2.4 面向类别不平衡数据集的RF分类算法BRF
2.4.1 BRF算法设计
2.4.2 算法分析
2.5 实验及结果分析
2.5.1 实验设计
2.5.2 实验数据与参数设置
2.5.3 实验一结果及分析
2.5.4 实验二结果及分析
2.5.5 参数设置讨论
2.6 本章小结
第3章 基于RF的Filter式特征选择算法研究
3.1 引言
3.2 算法基础及相关工作
3.2.1 特征选择的概念
3.2.2 特征选择的分类
3.2.3 特征相关性度量
3.2.4 变量重要性分数
3.2.5 多元自适应回归样条MARS
3.3 基于RF的Filter式特征选择算法
3.3.1 算法设计
3.3.2 算法分析
3.4 仿真实验及结果分析
3.4.1 实验数据及参数设定
3.4.2 特征选择与分类性能分析
3.4.3 参数设置分析
3.4.4 在糖尿病临床数据集上的结果分析
3.5 本章小结
第4章 基于RF的Wrapper式特征选择算法研究
4.1 引言
4.2 基于RF和GSBS的Wrapper式特征算法
4.2.1 算法设计
4.2.2 时间复杂度分析
4.3 RF-GSBS算法实验分析
4.3.1 实验数据与环境
4.3.2 评价函数的性能分析
4.3.3 特征选择过程分析
4.3.4 算法的有效性分析
4.3.5 参数L的设置讨论
4.4 基于RF的序列联合特征搜索策略
4.4.1 算法设计
4.4.2 时间复杂度分析
4.5 仿真实验及结果分析
4.5.1 实验数据集
4.5.2 UCI数据集和HYDD数据集上的实验
4.5.3 ALLb数据集上的实验
4.6 本章小结
第5章 面向微阵列表达数据的RF特征选择算法研究
5.1 引言
5.2 相关工作
5.3 面向微阵列表达数据的RF特征选择算法
5.3.1 基因过滤
5.3.2 分层特征搜索策略
5.3.3 特征子集评价函数
5.3.4 基于分层特征搜索策略的RF特征选择算法
5.3.5 算法的时间复杂度分析
5.4 实验分析
5.4.1 实验数据集
5.4.2 参数设置讨论
5.4.3 基因过滤结果
5.4.4 特征选择算法的性能比较
5.4.5 分层特征搜索策略的性能分析
5.4.6 特征子集评价算法研究
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文和取得的科研成果
致谢
个人简历