首页> 中文学位 >基因表达谱数据的特征选择方法应用策略研究
【6h】

基因表达谱数据的特征选择方法应用策略研究

代理获取

目录

声明

缩略词表

摘要

第一章 前言

1.1 研究背景

1.2 研究意义

1.3 研究内容

1.4 研究技术路线图

第二章 高维基因表达谱特性分析

2.1 基因表达谱的数据结构

2.2 基因表达谱的数据特点

2.3 基于肿瘤基因表达谱数据的分类研究

第三章 特征选择与分类方法理论研究

3.1 特征选择

3.2 特征选择方法分类

3.3 常用特征选择方法

3.4 分类器

3.5 k-折交叉验证

第四章 高维数据特征选择方法比较研究

4.1 模拟数据比较研究

4.2 真实数据比较研究

4.3 讨论

第五章 高维数据特征选择方法的应用策略构建

5.1 特征选择方法应用策略构建原则

5.2 特征选择方法应用策略构建

5.3 特征选择方法策略应用

第六章 全文总结与展望

6.1 全文总结

6.2 展望

参考文献

文献综述 基于基因表达谱数据的特征选择方法研究综述

附录

在读期间发表文章

致谢

展开▼

摘要

目的:随着分子生物学技术和基因微阵列的不断发展,通过定量测量可以很容易获取大量的基因表达谱数据,而且得到的数据质量也越来越高。基因表达谱数据具有维数高,样本小,且存在大量噪声的特点。有研究学者针对基因表达谱数据的特点,利用统计学习和模式识别的方法来对数据进行有效的挖掘。目前最为常用的方法是对表达谱数据进行降维,选择出具有代表性的信息基因,在保证具有较高分类精度的前提下同时提高学习算法的性能和效率。特征选择通过剔除不相关和冗余的特征,而达到降低特征个数,提高模型精确性,减少运行时间的目的。目前虽已有了大量的特征选择算法,但如何针对基因表达谱数据结构自身特点来选择最优的算法还存在着一定困难。因此本研究结合生物学和模式识别的相关知识,通过对一些常用的特征选择算法进行比较,最终提出一种可供参考的选择标准。
  方法:本研究中通过模拟不同特征数、样本量、分类情况以及噪声大小的数据集,选用了8个特征选择算法,并在3种分类器中进行测试,以分类精确度和计算复杂度作为衡量指标来对每一种方法的优劣性进行评价。最后将其应用到真实数据集中,并对每种方法的结果进行分析和比较,选择出最佳的特征选择方法。
  结果:对于不同特点的表达谱数据集分别使用三种类别的特征选择方法来分析都能有效的降低特征维度,通过比较分析后我们发现:SVM-RFE算法在特征数较少和样本量较小的时候有很好的分类结果;Wrapper SVM算法在较少样本量和较多PCR特征基因情况下的分类效果较好;Wrapper k-NN算法对具有较少特征数和较多的FCR特征基因数据集有较好的实用性;ReliefF算法能很快的从高维数据集中获得特征子集,该算法在特征数较多和样本量较大的情况下效果好;mRMR算法同样适合特征数较多的情况,并在信噪比较高的情况也有也有很好的效果。
  结论:对肿瘤的类别进行划分并从中挖掘有生物学含义的知识时,信息基因的筛选是非常重要的步骤。对分类无关基因的排除可以进一步降低数据量或减少数据的维数,从而提高分类器的性能。本文从已有的大量特征选择算法中,选取了一些常用的方法并针对表达谱数据的不同特点来进行对比研究,最终建立方法应用策略,为基因表达谱数据的分析提供了方法学上的指导。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号