面向医学数据的随机森林特征选择及分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

医学数据挖掘是数据挖掘技术的重要研究方向，多年来始终是计算机科学和医学领域的研究热点。近年来，医学数据挖掘对象正逐渐由临床诊断数据转变到基因芯片数据。目前，许多优秀的数据挖掘算法被应用于各种医学研究工作中，如决策树、支持向量机和人工神经网络等。然而，医学数据所固有的高维特征空间、高度特征冗余、特征高度相关、样本类别不平衡等特点以及医学研究对于数据挖掘结果的可理解性要求，使得传统的数据挖掘算法难以直接应用于医学数据挖掘任务中。
　　随机森林算法是一种基于决策树的集成机器学习算法。一方面，随机森林因为具有分类精度高、运算速度快、能够从具有小边际效应和复杂相互作用的特征中识别主相关特征的优点，在医学数据分析中得到广泛应用;另一方面，有研究表明随机森林在类别不平衡数据集和高维数据集上，其分类能力和稳定性会受到削弱。针对医学数据集的特征高维性、冗余性、相关性以及样本类别不平衡等问题，本文以UCI标准数据集、糖尿病临床诊断数据集和基因芯片数据集为对象，研究了基于随机森林的特征选择和数据分类方法，主要开展了以下几个方面的工作。
　　首先，针对医学数据集的样本类别不平衡问题，提出了一种基于有放回地随机重采样技术和集成机器学习思想的随机森林改进算法。该算法首先从原始训练数据集中利用有放回地随机重采样技术构建样本类别平衡的数据集，然后在每一个采样数据集上训练随机森林分类器，最后所有采样数据集上生成的随机森林分类器通过多数投票方式确定未知样本的分类类别。在UCI数据集上的实验结果表明，与传统的基于随机降采样和基于代价敏感的方法相比，本文提出的算法能够有效提高分类器的分类性能尤其是少数类样本的查全率。
　　其次，针对医学临床数据集的高维特征空间和特征间高度相关问题，提出了一种基于随机森林的Filter式特征选择算法。该算法首先基于随机森林变量重要性分数对数据集中的特征进行排序，然后通过迭代实验确定特征选择的阈值，选取重要性分数最大的前若干个特征构成特征子集，最后在选出的特征子集上训练分类器。在UCI数据集和糖尿病临床数据集上的实验结果表明，基于随机森林变量重要性分数的算法的分类性能明显高于现有的基于特征子集区分度和特征相关性等度量的算法。
　　再次，针对医学数据集特征之间高度相关和高度冗余的问题，提出了一种基于随机森林和序列联合搜索策略的Wrapper式特征选择算法。该算法利用随机森林善于从具有小边际效应和复杂相互作用的特征中识别主相关特征的能力，以随机森林变量重要性分数作为特征重要性度量，采用序列后向和序列前向相结合的序列联合特征搜索策略选择特征子集，以特征子集上分类器的分类正确率评价特征子集的质量，最后选择分类正确率最高的特征子集作为最优特征子集。在UCI数据集、糖尿病临床数据集和微阵列表达数据集上的仿真实验表明，本文提出的算法的分类正确率和特征子集质量均优于基于过滤式的方法和基于其它度量的方法。
　　最后，针对微阵列表达数据集存在大量不相关特征、噪声特征和冗余特征的问题，提出了一种基于Filter和Wrapper相结合的随机森林特征选择算法。该算法首先采用Filter特征选择算法过滤掉与目标变量明显不相关的基因，然后采用基于随机森林的Wrapper特征选择算法选择最优特征子集。在Wrapper特征选择过程中，针对微阵列表达数据的特点，基于随机森林变量重要性分数，提出了序列前向特征选择和序列后向特征选择相结合、分层剔除冗余特征和不相关特征的特征搜索策略。在微阵列表达数据集上的仿真实验表明，本文提出的算法在分类正确率上优于现有的算法。

著录项

作者
姚登举;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机应用技术
授予学位博士
导师姓名杨静;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
医学数据; 信息挖掘; 特征选择; 数据分类; 随机森林算法;

相似文献

中文文献
外文文献
专利

1. 基于多目标遗传随机森林特征选择的面向对象湿地分类 [J] . 刘舒 ,姜琦刚 ,马玥 . 农业机械学报 . 2017,第001期
2. 基于随机森林的全国第三次土地调查面向对象分类方法研究 [J] . 王舒 ,李岩 . 甘肃科技 . 2019,第003期
3. 面向对象最优特征选择分类提取方法研究 [J] . 郑云云 ,胡勇 ,李婷婷 . 农村经济与科技 . 2017,第018期
4. 面向半监督情感分类的特征选择方法研究 [J] . 王志昊 ,王中卿 ,李寿山 . 中文信息学报 . 2013,第006期
5. 融合分类信息的随机森林特征选择算法及应用 [J] . 武炜杰 ,张景祥 . 计算机工程与应用 . 2021,第017期
6. 随机森林在振动信号特征选择及状态分类中的应用 [C] . 冯辅周 ,刘菁 ,江鹏程 . 全国高校机械工程测试技术研究会振动工程学会动态测绘专业委员会2008代表大会暨学术年会 . 2008
7. 非均衡医学数据的特征选择与分类 [A] . 李硕 . 2018

面向医学数据的随机森林特征选择及分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅