首页> 中文学位 >基于机器学习的肿瘤基因表达谱数据分析方法研究
【6h】

基于机器学习的肿瘤基因表达谱数据分析方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

近年来,国内外研究人员将机器学习理论和方法引入到生物信息学领域,通过对基因表达谱数据的综合分析来发现蕴含在生物学中的重要信息。本文针对肿瘤基因表达谱数据,以机器学习为理论基础,通过对特征基因选择、肿瘤分类和肿瘤聚类等问题展开研究与探索,提出了一系列基于机器学习的肿瘤基因表达谱数据分析方法。主要研究内容如下: 1.基于深度学习及矩阵分解的肿瘤特征基因选择。首先,针对深度学习模型无法很好地进行肿瘤特征基因选择的问题,提出一种基于样本学习及深度稀疏滤波的肿瘤特征基因选择方法;其次,基于最优均值算法和分块优化理论,提出一种基于最优均值的分块鲁棒特征基因选择方法,并对TCGA中的融合数据进行分析;最后,利用散度矩阵将基因表达谱数据中已知类别标签引入无监督算法中,提出一种监督型惩罚矩阵分解算法,从而对特征基因进行选择。 2.基于样本扩充及深度学习的肿瘤样本分类。针对深度学习模型在进行肿瘤基因表达谱数据分类时训练样本严重不足的问题,提出一种基于降噪自动编码器的样本扩充方法,以获得大量的辅助样本。进一步,针对肿瘤样本分类问题,将所提样本扩充方法分别与两种深度学习模型相结合,设计了基于样本扩充的栈式自动编码器和基于样本扩充的1维卷积神经网络。 3.基于低秩子空间分割的肿瘤样本聚类。传统子空间分割方法依赖谱聚类进行肿瘤基因表达数据聚类,针对此问题,利用离散约束来直接学习子空间的样本标签,提出了两种基于离散约束的低秩子空间肿瘤样本聚类方法。首先,考虑肿瘤基因表达谱数据内部的流形结构,提出一种基于离散约束及超图正则化的低秩子空间聚类算法;其次,为了消除肿瘤数据中极端离群值对聚类结果的影响,使用封顶范数来提高算法的鲁棒性,提出基于离散约束及封顶范数的鲁棒低秩子空间聚类算法。 4.基于双超图正则化主成分分析的肿瘤双聚类。同时考虑肿瘤数据中的样本流形结构和基因流形结构,分别构建样本超图和基因超图来获取数据的局部几何信息,并将双超图作为主成分分析的正则项进行样本聚类和基因聚类,提出基于双超图正则化主成分分析的双聚类算法。

著录项

  • 作者

    刘健;

  • 作者单位

    中国矿业大学;

  • 授予单位 中国矿业大学;
  • 学科 控制理论与控制工程
  • 授予学位 博士
  • 导师姓名 程玉虎;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    机器学习; 肿瘤; 基因表达谱; 数据分析;

  • 入库时间 2022-08-17 10:55:56

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号