首页> 中文学位 >基于相关性的癌症特征选择及分类算法研究
【6h】

基于相关性的癌症特征选择及分类算法研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 国内研究现状

1.2.2 国外研究现状

1.3 研究内容

1.4 本文组织安排

第2章 本课题相关研究知识

2.1 数据挖掘

2.1.1 数据挖掘的概念

2.1.2 数据挖掘功能

2.2 基因表达数据

2.2.1 基因表达数据的获取

2.2.2 基因表达数据预处理

2.3 特征选取方法

2.3.1 特征选取的概况

2.3.2 过滤器模式(Filter)

2.3.3 封装器模式(Wrapper)

2.4 分类方法以及评估

2.4.1 常见分类方法

2.4.2 分类评估方法

2.5 小结

第3章 基于CFS的分层特征选择方法

3.1 基于CFS的分层特征选择方法(CFS-SS)

3.1.1 相关特征选择(CFS)

3.1.2 分层抽样(SS)

3.1.3 基于组合CFS与SS的特征选择(CFS-SS)

3.2 实验结果及比较分析

3.2.1 实验数据集

3.2.2 实验评价标准

3.2.3 实验结果与分析

3.3 小结

第4章 基于CFS-SS的癌症集成分类算法

4.1 基于CFS-SS的癌症集成分类算法(Bag-CFS-SS)

4.1.1 集成分类

4.1.2 Bag-CFS-SS的基本思想与算法描述

4.2 实验结果与比较分析

4.2.1 数据集的处理与生成

4.2.2 实验结果与分析

4.3 小结

结论

参考文献

附录A 读研期间发表学术论文和参与科研项目

致谢

展开▼

摘要

微阵列技术的发展为生物学研究领域提供了大量的基因表达数据,为基因功能研究提供了一种强有力的工具,使得同时分析成千上万个基因成为可能。癌症的分类以及与癌症相关的关键基因的识别已经成为当前癌症研究中的重要组成部分。由于微阵列数据维数高、样本数少的特点,普通的数据挖掘方法并不能取得很好的效果。
   本文主要针对微阵列数据特征选取方法和分类算法进行了深入的分析与探讨,并提出了改进的特征选择方法和癌症分类算法,以提高分类准确率和数据泛化能力。主要工作概括如下:
   针对特征基因选择问题,提出了一种基于相关性特征选择的分层抽样基因选择方法(CFS-SS)。由于微阵列数据具有高维度、样本少、多噪声的特点,对基因表达数据进行预处理。首先对微阵列数据进行缺失值补齐,归一化等操作。其次删除各样本基因方差值过小对分类意义不大的基因,降低维度,降低时间复杂度。然后应用相关性特征选择选择出具有局部最大相关性特征集,在其所有非空特征子集上进行分层抽样,在抽样后的特征集上进行分类性能测试,找到分类准确率最高的特征子集。在三个基因表达数据集上进行仿真实验,该方法能有效提升分类准确率。
   由CFS-SS提取出的特征子集作为具有差异的训练样本对基分类器进行训练,由具有差异的基分类器进行相对多数投票集成,得到一种集成分类方法(Bag-CFS-SS)。在基因表达数据集上进行实验,验证该方法的可行性和可靠性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号