首页> 中文学位 >面向医学数据的随机森林特征选择及分类方法研究
【6h】

面向医学数据的随机森林特征选择及分类方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 医学数据的特点

1.2.1 多样性和异质性

1.2.2 样本类别不平衡和内容不完整

1.2.3 特征高维性、冗余性和高度相关性

1.3 国内外研究现状

1.3.1 医学数据挖掘研究现状

1.3.2 特征选择技术研究现状

1.3.3 类别不平衡数据分类研究现状

1.3.4 随机森林算法研究现状

1.4 论文研究思路及主要研究内容

1.5 论文组织结构

第2章 面向类别不平衡数据集的RF分类算法研究

2.1 引言

2.2 概念定义

2.3 随机森林模型

2.3.1 随机森林的定义

2.3.2 随机森林的收敛性

2.3.3 随机森林的泛化误差上界

2.3.4 随机重采样技术

2.3.5 训练决策树

2.3.6 随机森林算法

2.4 面向类别不平衡数据集的RF分类算法BRF

2.4.1 BRF算法设计

2.4.2 算法分析

2.5 实验及结果分析

2.5.1 实验设计

2.5.2 实验数据与参数设置

2.5.3 实验一结果及分析

2.5.4 实验二结果及分析

2.5.5 参数设置讨论

2.6 本章小结

第3章 基于RF的Filter式特征选择算法研究

3.1 引言

3.2 算法基础及相关工作

3.2.1 特征选择的概念

3.2.2 特征选择的分类

3.2.3 特征相关性度量

3.2.4 变量重要性分数

3.2.5 多元自适应回归样条MARS

3.3 基于RF的Filter式特征选择算法

3.3.1 算法设计

3.3.2 算法分析

3.4 仿真实验及结果分析

3.4.1 实验数据及参数设定

3.4.2 特征选择与分类性能分析

3.4.3 参数设置分析

3.4.4 在糖尿病临床数据集上的结果分析

3.5 本章小结

第4章 基于RF的Wrapper式特征选择算法研究

4.1 引言

4.2 基于RF和GSBS的Wrapper式特征算法

4.2.1 算法设计

4.2.2 时间复杂度分析

4.3 RF-GSBS算法实验分析

4.3.1 实验数据与环境

4.3.2 评价函数的性能分析

4.3.3 特征选择过程分析

4.3.4 算法的有效性分析

4.3.5 参数L的设置讨论

4.4 基于RF的序列联合特征搜索策略

4.4.1 算法设计

4.4.2 时间复杂度分析

4.5 仿真实验及结果分析

4.5.1 实验数据集

4.5.2 UCI数据集和HYDD数据集上的实验

4.5.3 ALLb数据集上的实验

4.6 本章小结

第5章 面向微阵列表达数据的RF特征选择算法研究

5.1 引言

5.2 相关工作

5.3 面向微阵列表达数据的RF特征选择算法

5.3.1 基因过滤

5.3.2 分层特征搜索策略

5.3.3 特征子集评价函数

5.3.4 基于分层特征搜索策略的RF特征选择算法

5.3.5 算法的时间复杂度分析

5.4 实验分析

5.4.1 实验数据集

5.4.2 参数设置讨论

5.4.3 基因过滤结果

5.4.4 特征选择算法的性能比较

5.4.5 分层特征搜索策略的性能分析

5.4.6 特征子集评价算法研究

5.5 本章小结

结论

参考文献

攻读博士学位期间发表的论文和取得的科研成果

致谢

个人简历

展开▼

摘要

医学数据挖掘是数据挖掘技术的重要研究方向,多年来始终是计算机科学和医学领域的研究热点。近年来,医学数据挖掘对象正逐渐由临床诊断数据转变到基因芯片数据。目前,许多优秀的数据挖掘算法被应用于各种医学研究工作中,如决策树、支持向量机和人工神经网络等。然而,医学数据所固有的高维特征空间、高度特征冗余、特征高度相关、样本类别不平衡等特点以及医学研究对于数据挖掘结果的可理解性要求,使得传统的数据挖掘算法难以直接应用于医学数据挖掘任务中。
  随机森林算法是一种基于决策树的集成机器学习算法。一方面,随机森林因为具有分类精度高、运算速度快、能够从具有小边际效应和复杂相互作用的特征中识别主相关特征的优点,在医学数据分析中得到广泛应用;另一方面,有研究表明随机森林在类别不平衡数据集和高维数据集上,其分类能力和稳定性会受到削弱。针对医学数据集的特征高维性、冗余性、相关性以及样本类别不平衡等问题,本文以UCI标准数据集、糖尿病临床诊断数据集和基因芯片数据集为对象,研究了基于随机森林的特征选择和数据分类方法,主要开展了以下几个方面的工作。
  首先,针对医学数据集的样本类别不平衡问题,提出了一种基于有放回地随机重采样技术和集成机器学习思想的随机森林改进算法。该算法首先从原始训练数据集中利用有放回地随机重采样技术构建样本类别平衡的数据集,然后在每一个采样数据集上训练随机森林分类器,最后所有采样数据集上生成的随机森林分类器通过多数投票方式确定未知样本的分类类别。在UCI数据集上的实验结果表明,与传统的基于随机降采样和基于代价敏感的方法相比,本文提出的算法能够有效提高分类器的分类性能尤其是少数类样本的查全率。
  其次,针对医学临床数据集的高维特征空间和特征间高度相关问题,提出了一种基于随机森林的Filter式特征选择算法。该算法首先基于随机森林变量重要性分数对数据集中的特征进行排序,然后通过迭代实验确定特征选择的阈值,选取重要性分数最大的前若干个特征构成特征子集,最后在选出的特征子集上训练分类器。在UCI数据集和糖尿病临床数据集上的实验结果表明,基于随机森林变量重要性分数的算法的分类性能明显高于现有的基于特征子集区分度和特征相关性等度量的算法。
  再次,针对医学数据集特征之间高度相关和高度冗余的问题,提出了一种基于随机森林和序列联合搜索策略的Wrapper式特征选择算法。该算法利用随机森林善于从具有小边际效应和复杂相互作用的特征中识别主相关特征的能力,以随机森林变量重要性分数作为特征重要性度量,采用序列后向和序列前向相结合的序列联合特征搜索策略选择特征子集,以特征子集上分类器的分类正确率评价特征子集的质量,最后选择分类正确率最高的特征子集作为最优特征子集。在UCI数据集、糖尿病临床数据集和微阵列表达数据集上的仿真实验表明,本文提出的算法的分类正确率和特征子集质量均优于基于过滤式的方法和基于其它度量的方法。
  最后,针对微阵列表达数据集存在大量不相关特征、噪声特征和冗余特征的问题,提出了一种基于Filter和Wrapper相结合的随机森林特征选择算法。该算法首先采用Filter特征选择算法过滤掉与目标变量明显不相关的基因,然后采用基于随机森林的Wrapper特征选择算法选择最优特征子集。在Wrapper特征选择过程中,针对微阵列表达数据的特点,基于随机森林变量重要性分数,提出了序列前向特征选择和序列后向特征选择相结合、分层剔除冗余特征和不相关特征的特征搜索策略。在微阵列表达数据集上的仿真实验表明,本文提出的算法在分类正确率上优于现有的算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号