首页> 中文学位 >基于组学数据的模拟空间环境健康监测及其应用研究
【6h】

基于组学数据的模拟空间环境健康监测及其应用研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1研究背景,目的及意义

1.2研究现状

1.3论文的主要内容及技术路线

第2章 高通量组学数据的处理与建模算法研究

2.1引言

2.2高通量组学数据标准化算法

2.3 多机器学习预警模型库

2.4 功能分析方法

2.5高通量组学数据处理与建模软件CAPM开发

2.6本章小结

第3章 基于CAPM研究模拟空间环境下受试者的血糖变化

3.1引言

3.2“火星500”实验人体表观遗传、生化水平的变化规律研究

3.3基于DNA甲基化水平的血糖预测建模研究

3.4本章小结

第4章 基于CAPM研究模拟空间环境下受试者的应激表型变化

4.1引言

4.2模拟空间环境-睡眠剥夺实验数据分析

4.3模拟空间环境-睡眠剥夺应激指标预测模型

4.4本章小结

第5章 CAPM应用于癌症预后和分类的建模研究

5.1引言

5.2癌症多组学数据挖掘

5.3基于CAPM方法的多组学预后建模研究

5.4 基于基因组突变的多原发肺癌分类研究

5.5本章小结

结论

参考文献

攻读博士学位期间发表的一作论文及其它成果

声明

致谢

个人简历

展开▼

摘要

在模拟空间实验中,受试者由于受到特殊的环境因素刺激会产生一系列的病理,生理等应激表型变化(例如内分泌功能异常,应激表型紊乱,失眠,焦虑等),多层次的高通量组学分子在其中扮演重要的角色。如何有效的运用数据挖掘方法从千万级的组学数据信号中识别与病理、生理表型变化关联的组学标记物并构建预警模型应用于受试者健康风险监测与评估,对于深入理解空间环境下受试者的表型风险和组学分子之间的调控关系、发现航天医学新知识具有重要意义。本论文以模拟空间环境下受试者健康表型预警研究为核心,围绕多类组学数据开发新算法,通过识别表型/疾病特异性的生物标记物,进行航天医学受试者的病理、生理表型的建模预测,并进一步应用于肿瘤的预后和分类研究中。本论文共开展了如下四部分相关研究:
  首先,本论文基于模拟空间环境下的健康预警研究需求,建立了多种高通量组学数据的标准化算法,包括:针对基因组捕获测序数据开发了基于极大似然估计的拷贝数变异检测算法,该算法相对于传统的二元分割合并算法增加了读段间隔校正,解决了捕获测序分析假阳性率高的问题;针对转录组RNAseq数据开发了质控标准化算法(低质量读段过滤算法,基于随机抽样的饱和度估计算法,转录本注释与表达丰度估计算法,基于Pearson相关的可变剪切分割算法);针对表观遗传组甲基化芯片数据开发了基于子集校正理论的定量标准化分析算法。进一步,本论文开发了整合多种分类算法和特征筛选策略的预警模型库,用于对不同实验背景的组学数据进行预警模型建模和最优标记物筛选,并提出一种基于遍历策略的组合模型算法,该算法最大限度的根据特征分布特点进行遍历式的最优化建模,有效的提高了预警模型的建模效率和预测精度。最后,基于生存分析检验和文献检索算法开发功能分析模块,用于揭示预警模型中的组学标记物的功能机制和文献证实情况。本论文利用R语言实现上述算法和生物信息学方法,并编译为R语言软件包CAPM,有效的解决了高通量组学数据的标准化分析和适宜建模决策算法组合问题,对发现模拟空间环境下受试者潜在的疾病风险,提供理论防护依据和决策支持具有重要意义。
  其次,本论文基于CAPM开展了模拟空间环境-“火星500”实验受试者血糖变化的建模研究。通过分析人体在长期隔离过程表观遗传水平的时序变化规律,根据各个时期DNA甲基化和血糖整体变化趋势将长期飞行划分不同的阶段,筛选出各个阶段显著变化的DNA甲基化位点作为特征构建血糖预测模型。通过特征筛选算法挖掘出151个血糖相关甲基化标记物,功能富集显示这些最优标记物显著富集在胰腺,酶联受体蛋白等糖尿病相关的组织和信号途径。后续,基于血糖模型挖掘的DNA甲基化特征集展开对二型糖尿病和正常人群的分类建模研究。实验发现18.7%的二型糖尿病差异甲基化探针都出现在血糖最优探针集中,表明血糖相关的DNA甲基化标记物与二型糖尿病的发生关系密切。通过文献检索发现血糖模型筛选的最优靶基因HDAC7是抑制胰岛素分泌的关键靶点,暗示模拟空间环境下健康表型预测有望扩展应用于二型糖尿病等复杂疾病的建模研究中。
  再次,在模拟空间环境下血糖预测研究的基础上,本论文基于CAPM方法展开对模拟空间环境受试者应激表型的建模研究。通过采集受试者外周血样本进行转录组microRNA芯片数据测量,利用“维度简约”、“属性构造”等技术构造受试者不同表型的类别标签,基于CAPM预警模型库构造生理-心理应激表型的预测模型,识别出表征睡眠剥夺应激表型变化的microRNA标记物;富集分析发现这些microRNA标记物的靶基因显著富集在大脑和血小板组织。其中,GSK3beta和SLC6A4等血小板特异性表达基因同时参与多个生理、心理应激表型的代谢调控过程;实验初步提出“microRNAs-血小板”理论揭示了模拟空间环境下受试者应激表型个体差异的形成原因。
  最后,基于模拟空间环境下受试者应激表型与复杂疾病的密切关联基础上,本论文进一步展开CAPM方法对肿瘤预后和分类的建模研究。实验首先从TCGA数据库中整合五类癌症(非小细胞肺癌,结肠癌,卵巢癌,乳腺癌和子宫癌)的四类组学标记物(lncRNA,microRNA,mRNA,DNAmethylation)共3197例样本。通过开发“预后风险打分策略”筛选预后风险标记物(Pre-biomarker),并基于CAPM“组合模型算法”构建多组学-癌症预后建模流程(IDFO),对五种癌症的四类组学标记物构造了20组单组学的癌症预后模型和20组不同类型组学数据整合的“组合”预后模型。比较发现,lncRNA和DNA甲基化特征相比于mRNA和microRNA具有更好的预后预测能力,80%(n=16)的多组学“组合”预后模型未发现性能的提升,临床表型特征在多类癌症预后模型中均表现出较高的贡献性。后续,本论文基于独立数据集对空间辐射相关的多原发肺癌进行深入研究,发现了肺癌双原发病灶的特异性突变EGFR-L858R和MYCL。这些发现为肿瘤标记物筛选、候选药物靶点的研发及早期动态监测提供了有价值的参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号