首页> 中文学位 >基于基因表达数据的多类癌症特征选择方法的研究
【6h】

基于基因表达数据的多类癌症特征选择方法的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究意义与背景

1.2 研究内容

1.3 本文组织安排

第二章 本课题相关研究知识

2.1 特征选择

2.1.1 特征选择的概念

2.1.2 特征选择产生过程

2.2 典型特征选择算法分析

2.2.1 信息增益与信息增益率

2.2.2 Relief算法

第三章 weka平台

3.1 背景

3.2 评价方法与搜索方法

3.3 相关分类器

3.3.1 朴素贝叶斯分类器

3.3.2 简单逻辑回归分类器

3.3.3 K近邻分类器

第四章 基于多类别特征选择算法的研究

4.1 基于多类别特征选择算法的研究思想

4.1.1 基于简单合并的子类问题算法

4.1.2 基于排序合并的子类问题算法

4.2 实验数据集

4.3 实验结果分析

4.3.1 基于ReliefF的实验结果分析

4.3.2 基于Gain-Ratio的实验结果分析

4.3.3 基于IG的实验结果分析

4.3.4 结果分析总结

第五章 总结与展望

参考文献

致谢

展开▼

摘要

信息技术和DNA微阵列技术的日益成熟为人们带来了大量的癌症基因数据。而通过对基因特征数据的研究分析,研究人员可以获得很多有用的信息,从而为疾病的判断、诊治以及研究提供有效的依据。但是由于此类型数据具有高维度、高噪声、高冗余和分布不均的特点,这就使得对其的研究变得不易,从而增加了发现和诊断癌症的困难度。所以,特征选择经常被作为癌症基因分类过程中的重要组成部分,以达到降低维度的目的。
  在传统多类问题特征选择方法中,是将多类问题划分为多个一类对其它所有类的两类问题,这样的做法就忽略了不同类别样本间的差异。本文将针对这一问题提出基于子类问题的特征选择方法,也就是将多类别的问题划分为多个一对一的两类问题,然后针对每个子类问题评估所有特征对其的分类能力,并产生一个特征排序序列,再使用Round Robin算法对结果进行简单合并,这就是本文提出的第一种方法,即基于简单合并的子类问题算法。由于第一种算法未考虑每一轮的调度顺序,所以本文提出第二种方法,即基于排序合并的子类问题算法,就是在每次调度前,先将每一轮的特征按照其对所有子问题的分类能力的加权平均值进行降序排序,这样使得结果更加可靠。本次实验将这两种算法分别运用于InforGain、Gain-Ratio和ReliefF这三个原有特征选择算法,并在多个癌症基因表达数据集上进行仿真实验,分别获得三个特征降序序列,然后使用朴素贝叶斯、简单逻辑回归和K近邻分类器进行分类预测。为了验证提出算法的有效性,与原有算法进行比较。从实验结果可以看出本文提出的算法相较于原算法,分类的准确率有了明显地提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号