首页> 中文学位 >基于邻域粗糙集的肿瘤基因表达谱数据分析
【6h】

基于邻域粗糙集的肿瘤基因表达谱数据分析

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§1.1 研究背景及意义

§1.2 研究现状

§1.3 文章主体结构

第二章 基因表达谱数据和邻域粗糙集相关理论

§2.1 基因表达谱数据

§2.1.1 基因表达谱数据的概述

§2.1.2 基因表达谱数据的特点

§2.2 邻域粗糙集相关理论

§2.2.1 邻域粗糙集

§2.2.2 邻域互信息和邻域条件互信息

§2.2.3 邻域粗糙集属性分类效率

§2.3 支持向量机和KNN分类器

§2.4 本章小结

第三章 基于邻域粗糙集的信息基因选择算法

§3.1 算法设计

§3.2 实验数据描述

§3.3 实验结果与分析

§3.4 模型的稳健性分析

§3.5 本章小结

第四章 结论与展望

参考文献

致谢

展开▼

摘要

基于肿瘤不同的亚型的精确识别对于良性肿瘤的预防和癌症的治疗都非常关键,肿瘤不同的亚型分类研究获取了重大的关注度,而肿瘤基因表达谱数据为研究提供了重要的资源。针对基因表达谱数据中包含的特征,目前出现了多种信息基因选取的方法。邻域粗糙集理论在各个应用领域的日益成熟,为分析这类数据提供了另一种有用的研究工具。
  在邻域互信息信息基因选择算法及扩展的邻域条件互信息信息基因选择算法中,计算基因属性与决策属性之间的互信息值是复杂的。根据每个基因属性计算出的互信息值对基因进行排序,选取前 K个基因,设定一个合适的判别函数进行降维处理。整个过程的计算量大时间长,而且选取合适的K值需要多次实验测试。针对这些考虑,本文提出了邻域粗糙集属性分类效率算法(NRSACE)。一般可知对于肿瘤分类来说有效的基因数目并不多,分类效率太低的基因我们可以设置最低分类效率控制值对其进行直接删除,基于这些想法,NRSACE算法直接计算基因属性的分类效率,对基因边排序边选择,获取所需的相对约简信息基因集。最后采用支持向量机分类器和K最近邻分类器对选取的信息基因集的分类能力进行验证,说明本文提出的邻域粗糙集属性分类效率信息基因选择算法的有效性。
  本文选了4组通用的肿瘤基因表达谱数据对提出的NRSACE算法进行了实验分析,4组数据分别是DLBCL、Leukemia1、Leukemia2和SRBCT肿瘤基因表达谱数据。数据实验分析结果显示,根据调节模型邻域参数δ的取值,4类肿瘤亚型的分类精度的平均值都可达到百分之九十八以上,而且实验分类精度的波动范围很小。SRBCT数据集的分析结果显示其平均分类准确率提高接近14%。本文对模型的稳健性进行了测试,随机删除原始数据集中5%的样本数,对剩余样本利用NRSACE算法进行分析,选取的信息基因集的元素个数协同选择的基因集具体元素相差不大,同时平均分类准确率相对稳定。所有分析表明,我们的研究具有一定的意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号