首页> 中文学位 >机器学习算法在肺腺癌患者吸烟史分类中的应用
【6h】

机器学习算法在肺腺癌患者吸烟史分类中的应用

代理获取

目录

声明

第一章 绪论

1.1课题的研究背景及意义

1.2研究现状

1.3本文的主要工作

第二章 机器学习算法及其在不同领域的应用

2.1机器学习算法应用简介

2.2机器学习算法在生物信息学中的应用

2.3机器学习算法概述

第三章 肺腺癌吸烟相关模式识别分类及特征基因识别

3.1引言

3.2数据与预处理

3.3基于多重迭代优化的特征基因识别与模式识别分类

3.4模式识别模型评价方法

3.5结果与讨论

3.6代谢通路与基因功能分析

3.7本章小结

第四章 探索基于拷贝数变异数据模式识别分类与特征基因识别

4.1引言

4.2数据与预处理

4.3结果与讨论

4.4代谢通路与基因功能分析

4.5本章小结

第五章 工作总结与展望

5.1工作总结

5.2展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

随着大数据时代的来临,海量数据的处理问题已成为一个热点话题,而机器学习算法的不断发展与完善,为迎接大数据时代的来临奠定了基础。目前,机器学习算法在多个领域都得到了广泛的应用,涉及到的领域包括化工过程控制、气象数据分析、垃圾邮件的识别与过滤以及生物医学领域的分析研究等等。
  面对如此多的海量数据,尤其是高通量技术下产生的海量生物医学数据,如何排除噪声信息的干扰,找出关键信息,提高机器学习算法在癌症相关研究领域应用的精度和效率是大数据时代面临的一个主要问题之一。
  吸烟虽然是已知的最主要的肺癌致病因素,但统计数据表明,肺腺癌患者中不吸烟患者的比例呈现逐年上升的趋势。针对吸烟与不吸烟肺腺癌患者发病机理等差异性的研究逐渐成为世界范围广泛关注的热点问题。
  本文基于吸烟相关肺腺癌患者全基因组基因表达数据、甲基化数据,以TCGA数据为训练集,EDRN数据为独立测试集,创新性地结合了多种降维和变量筛选的方法,分别从基因表达差异性、生物相关性以及差异分类重要性等多方面综合筛选候选基因集,并通过偏最小二乘(PLS)的多重迭代优化分类当前吸烟/从不吸烟样本,识别出真正的关键特征基因,从而为揭示吸烟与肺腺癌发生之间的关系以及不吸烟肺腺癌的患病机理奠定基础,为从基因组水平和分子生物学水平揭示吸烟与不吸烟肺腺癌患者的差异提供依据。
  最终应用本文所提出的方法,共确定43个基因表达特征基因以及48个甲基化特征基因,达到了较高的分类精度,训练集精度分别为79.2%以及87.5%,独立测试集精度分别为86.3%以及76.4%。同时,特征基因代谢通路分析表明,这些特征基因大多数与癌症的发生发展以及生物功能、细胞发育等都有着密切的联系,更为重要的是,部分特征基因对肺癌/肺腺癌的重要影响已被实验所验证。与已有的研究成果相比,本文所提出的方法在模式识别的精度上更具有优势,显示了独特的优越性。
  本文还对拷贝数变异数据的上述应用进行了研究,取得了初步成绩。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号