首页> 中文学位 >高维组学研究中的贝叶斯多位点模型
【6h】

高维组学研究中的贝叶斯多位点模型

代理获取

目录

第一个书签之前

展开▼

摘要

在数十年的全基因组关联研究热潮中,大量与人类复杂性状相关联的单核苷酸多态性位点被成功挖掘。然而,这些关联位点仅能解释性状的很少一部分遗传度,我们称之为“遗传度缺失”(missing heritability)现象。该现象的一个合理解释是通用的单位点检验方法较难发现弱效应位点。多位点模型通常具有较高的统计学效能,而大规模高维组学数据下构建多位点模型则面临挑战。 第一部分,在适应性条件双指数先验的框架下,构建基于变分推断算法的贝叶斯多位点模型(BAL-VI)。通过适应性条件双指数先验达到对位点效应适应性惩罚的目的;通过变分推断算法达到高维数据下快速、准确进行贝叶斯后验计算的目的。模拟试验中评价了模型在变量选择、参数估计和结局预测方面的表现,并就几个重要问题作探讨:模型区间估计宽度、高相关结构下变分算法与MCMC算法的估计性质以及超参数敏感性分析。实例分析将模型应用于肺癌GWAS数据。 模拟试验结果表明,①BAL-VI的95%贝叶斯可信区间狭窄,基于该指标的变量选择产生大量的假阳性,借助于额外的遗传度阈值可以有效控制假阳性;②综合变量选择、参数估计和预测结果,BAL-VI表现最佳;③在高相关结构下,BAL-VI可以避免效应被“稀释”的风险,更有利于阳性位点及其所在区域的识别;④模型对超参数取值敏感。实例分析结果表明,⑤模型能够应用于全基因组尺度的数据,并识别多个与肺癌发生风险相关联的位点;⑥模型的速度优势明显,BAL-VI完成分析大约需要半天时间,而对应的MCMC算法则需要5天。 第二部分讨论如何将线性EMVS(EM algorithm for Bayesian variable selection)模型推广到Weibull参数生存模型(SurvEMVS)。通过对效应参数施加连续性spike-and-slab先验,促进贝叶斯模型的变量选择;采用EM算法进行快速准确的后验空间探索和参数估计;针对高维下无闭型解( closed-form solution)的问题,算法中嵌套一个改进的循环坐标下降方法来快速更新效应估计值;应用EBIC(extended Bayesianinformation criterion)指标来选择高维模型下的最佳超参数。通过模拟试验评价模型的变量选择、效应估计和预测准确度,以及不同τ参数下 EBIC指标对模型拟合的影响,此外还就不满足 Weibull分布假设情形做了分析和讨论。实例分析将模型应用于带有生存结局的肺癌GWAS数据和胃癌基因表达数据。 模拟试验结果表明,①综合变量选择、参数估计和生存预测的结果,EBIC(τ=0.5)指标下的 SurvEMVS优于其它模型;②τ越大,越容易产生稀释模型;③SurvEMVS在适度偏离分布假设的情况下依然表现稳健。实例分析结果表明,④SurvEMVS发现了多个影响癌症预后的潜在位点,其中数个位点通过外部数据验证,表明该模型可以应用于基因组和转录组学数据;⑤模型的EM算法收敛速度快,仅需要几十次到数百次迭代。 第三部分对现有研究进行总结,并对未来的研究方向作展望。

著录项

  • 作者

    段巍巍;

  • 作者单位

    南京医科大学;

  • 授予单位 南京医科大学;
  • 学科 流行病与卫生统计学
  • 授予学位 博士
  • 导师姓名 陈峰;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 概率论与数理统计;
  • 关键词

    高维; 组学研究; 贝叶斯;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号