首页> 中文学位 >基于属性分类能力结构互补性的基因选择方法
【6h】

基于属性分类能力结构互补性的基因选择方法

代理获取

目录

声明

摘要

第一章 绪论

第一节 研究背景

第二节 本文主要研究内容

第三节 论文组织结构

第二章 相关背景理论综述

第一节 当前微阵列数据研究进展

第二节 传统特征选择方法介绍

第三节 贝叶斯决策以及朴素贝叶斯分类器

2.3.1 贝叶斯决策理论

2.3.2 未知概率密度估计

2.3.3 朴素贝叶斯分类器

第四节 其他相关分类器介绍

2.4.1 TSP与k-TSP

2.4.2 支持向量机(SVM)

2.4.3 PAM

2.4.4 随机森林

2.4.5 CART树

第三章 基于分类能力结构互补性的基因选择方法

第一节 微阵列数据介绍

第二节 贝叶斯方法

第三节 基于分类能力结构互补性的基因选择方法

3.3.1 计算所有基因的分类能力结构

3.3.2 将所有基因按照分类能力结构分簇并化简

3.3.3 搜索最优分类能力结构组合

3.3.4 形成特征子集

3.3.5 基因的分类能力互补性

第四章 实验结果以及分析

第一节 实验介绍

第二节 实验结果及分析

4.2.1 正确率比较

4.2.2 基因子集规模比较

4.2.3 基因选择算法的有效性

4.2.3 基因子集中特征之间的组合效果

4.2.4 基因选择后样本的空间分布

4.2.5 关于阈值N取值的进一步研究

第三节 集成分类器以提高正确率

第四节 结果分析

第五章 总结与展望

参考文献

致谢

个人简历

展开▼

摘要

眼下,机器学习、数据挖掘等技术已经普遍运用于医疗、生命科学、经济学等社会各行各业。
  本文的主要内容是机器学习方法在生物数据上的一个应用,使用DNA微阵列数据作为主要研究对象,通过对基因表达数据的分析,并运用机器学习中的特征选择方法,能够迅速找到癌症基因,并在医学上提供诊断依据。
  本文首先介绍了微阵列数据的相关背景知识,以及研究意义。之后,针对微阵列数据的特点,分析了现有特征选择方法在处理该数据上所存在的不足,进而提出新的方法来弥补和克服现有问题。
  本文的核心内容在于,提出一种新颖的特征选择方法用于处理微阵列数据。基因表达数据具有大属性集,小样本集的特点。为处理这种类型的数据,我们将不同的基因按照分类能力结构分为不同组。考虑到微阵列数据分类问题多为多类问题,我们将多类问题拆分为多个两类问题,针对其小样本大属性集的特点,采用贝叶斯错误率来衡量每一条特征(基因)对于不同两类问题的区分能力,进而获得单一特征对于不同两类问题的分类能力,使用某一特征是否可将一个或几个两类问题分开,并用分类能力结构向量来表示每个特征的分类能力。通过组合具有不同分类能力结构的属性来使得这些属性之间能够在分类能力上互相弥补,从而获得理想的分类结果,达到特征选择的目的。
  实验证明对比已有的一些特征选择方法,本文提出的方法在分类预测的准确率上,能够维持较高水平,与此同时,并大幅削减了特征子集中特征的数量。另外,通过设计实验,对比现已存在的特征选择方法,我们的方法可以挖掘出在传统特征选择方法中不被看好的特征,并通过考虑这些特征之间的搭配组合,减少特征之间的冗余信息,达到使用较少特征获得较高正确率的目的。
  最后,基于已选特征,从分类器预测角度考虑,为进一步发挥已选特征的预测能力,提升分类器预测正确率,本文引入分类器集成的思想。将已选特征进行组合,训练分类器进行投票,最终得到预测结果。实验证明此方法行之有效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号