首页> 中文学位 >基因微阵列数据的特征提取和特征优化在癌症诊断中的应用
【6h】

基因微阵列数据的特征提取和特征优化在癌症诊断中的应用

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题研究背景

1.2基因芯片的数据分析

1.2.1基因微阵列数据的应用

1.2.2基因数据分析的方法

1.3本文的主要工作

第2章基因微阵列数据

2.1基因芯片技术

2.2基因微阵列数据

2.3基于基因微阵列数据的癌症诊断

第3章支持向量机

3.1统计学习理论

3.1.1经验风险最小化

3.1.2结构风险最小化

3.1.3 VC维

3.2支持向量机

3.2.1线性可分支持向量机

3.2.2非线性可分支持向量机

第4章遗传算法

4.1编码方法

4.2个体的适应度函数

4.3选择算子

4.4交叉算子

4.5变异算子

第5章本文所提出的方法

5.1 DNA微阵列数据的预处理

5.1.1实验数据及来源

5.1.2特征选取的方法

5.1.3特征基因的评估方法

5.2方法一:基于支持向量机方法

5.2.1分类模型

5.2.2数据的预处理

5.2.3基因微阵列数据的特征选取

5.2.4分类结果及方法稳定性评价

5.3方法二:基于遗传算法

5.3.1实验设计

5.3.2数据的预处理

5.3.4结果的判定及评价

5.3.5结果分析

5.4本章小结

第6章结束语

参考文献

致谢

攻读硕士学位期间取得的科研成果

展开▼

摘要

由于在缺乏启发性的知识的情况下,遗传算法对于高维的数据的特征提取非常有效,所以遗传算法是基因数据研究中非常重要的算法。而支持向量机是在统计学习理论的基础上发展起来的新的模式识别方法,它不仅考虑了对推广性的要求,而且能够在现有的有限信息的条件下得到最优结果,在解决样本少、高维数、非线性等问题中有许多特有的优势。本实验正是基于这两种理论的优势而提出的。 对基因微阵列数据的分析,通常包括以下的内容:对基因数据的预处理;对处理过的数据选取有用的信息或者特征基因;对基因数据进行分析并对结果进行评价。其中在对基因数据进行分析之前,基因数据的预处理非常重要,而数据分析的关键则是对特征基因的选择和提取,因而对数据分析的质量不仅取决于所用算法的有效性,而且也取决于处理过程中所产生的特征基因的数量和质量。同样,最后对基因数据的分析及结果评价也同样重要。 本文中对于基因数据的分析,实验采用两种方法进行,并且为了验证方法的有效性,实验利用白血病数据集和结肠癌数据集进行验证。具体的实现方法如下: 实验第一种方法是基于支持向量机分类的分析方法。为了获得较好的实验结果,按照如下步骤进行:首先对基因数据进行预处理,将白血病数据集分为训练集和测试集两部分,然后分别利用t-test检验方法和Wilconxon检验方法选取白血病训练数据集的特征基因,减少数据的维数和无关的数据信息。然后利用选取的特征基因训练支持向量机,并利用白血病的测试数据集合进行检验,通过利用样本划分法对学习的结果进行评估。为了进一步验证所提方法的有效性,实验又利用结肠癌数据集按照同样的步骤进行验证,实验结果进一步证明了所提方法的有效性。 为了能够得到选取的优化特征基因,实验采用的第二种方法是基于遗传算法对特征基因进行优化的方法,在对数据进行标准化和降低维数后,利用遗传算法选取特征基因,最后利用判别分析方法对数据进行学习,通过在白血病数据集中的应用,对学习的结果进行分析和评估,判断所用方法具有良好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号