首页> 中文学位 >复杂疾病致病机制研究中数据分析算法的开发与应用
【6h】

复杂疾病致病机制研究中数据分析算法的开发与应用

代理获取

目录

第一个书签之前

展开▼

摘要

复杂疾病的致病不是由于单个基因位点的显性或隐性的遗传所引起的,遗传因素在复杂疾病的发展中起着重要的作用,且其病因由多种因素组成,包括常见变异以及基因-基因、基因-环境相互作用等。目前我们对于大多数复杂疾病的病因的了解仍然有限,有很大比例的遗传风险因素还有待探索。开展复杂疾病的遗传学研究将有助于我们了解疾病发生发展中的生化机制和发病机制,从而为疾病的早期预防、早期诊断、药物筛选和使用提供理论依据和生物靶标,最终提高复杂疾病的防治水平。因此,开展复杂疾病的遗传学研究有着重要的意义。
  当前,复杂疾病遗传机制的研究思路主要分为以下几步:(1)开展高通量实验得到位点的基因型。(2)对原始数据进行质量控制、人群结构分析。(3)进行功能变异位点分析,即单位点分析策略。(4)进行基因相互作用分析,即多位点分析策略。(5)构建复杂疾病遗传机制的分子网络。
  复杂疾病的遗传学研究的成果能够为遗传诊断和疾病预防提供大量的信息,这些信息将能够为临床决策提供重要的依据并使得个性化医疗成为可能。二代测序技术的发展为遗传疾病的诊断和预防奠定了坚实的基础。
  本研究论文的前三个课题将围绕复杂疾病遗传机制的研究思路中的(2)、(3)、(4)展开。第四个课题则提出了一种新的基于二代测序的无创产前诊断方法。
  课题I:人群层化是指不同人群之间等位基因频率存在系统性差异的现象。在全基因组关联分析研究中,人群层化的存在会增加关联分析结果的假阳性率。主成分分析是目前使用最广泛的检测人群层化的方法之一。然而,随着基因芯片技术的发展,其通量也越来越大,传统的基于CPU的算法的效率已经无法满足日益增长的数据量的需求。为此,我们实现了一种基于G P U的主成分分析的算法:SHEsisPCA,其运算效率远远高于传统的基于CPU的算法,最高加速比超过了100倍。同时,我们也实现了一种基于X-means的聚类分析算法,它可以根据样本的遗传背景计算出匹配的病例和对照样本,从而降低人群层化对于全基因组关联分析的影响。我们使用SHEsisPCA对非洲人种进行了人群结构分析,结果表明样本的聚类结果和样本的实际人群分类是高度相关的。且我们的研究表明,使用SHEsisPCA得到匹配的病例对照样本后再进行关联分析能很大程度上降低关联分析的假阳性率。研究者们也可以使用SHEsisPCA来匹配公共数据库里(如dbGaP,Illumina iControlDB)的对照样本,从而扩充研究样本的数据量,增加全基因组关联分析的统计效能。
  课题 II:关联分析是遗传学研究的重要手段。目前,已有很多适用于二倍体二等位基因物种的关联分析算法和软件被提出,而适用于多倍体多等位基因物种的算法和软件却十分有限。多倍体在植物中是十分常见的,且多等位基因的遗传标记位点,如小卫星位点,拷贝数多态性等,也常常被研究者使用。本课题提出了一个用于多倍体多等位基因物种的关联分析的在线分析平台SHEsisPlus,其操作简单、用户友好,主要功能包括:病例-对照以及数量性状位点的关联分析、哈温平衡检验、连锁不平衡分析、单倍型分析以及高维的基因相互作用分析。同时,我们也提出了两种新的算法。一种是适用于多倍体多等位基因物种的高效的单倍型推断算法,该算法的准确度以及效率远远超过了现有的算法。另一种是适用于数量性状的高维基因相互作用分析算法,我们应用了信息论中的互作信息来定量位点之间的相互作用,研究结果表明该方法的统计效能远远高于传统的方法,且不受单个位点的边际效应的影响。SHEsisPlus是目前第一个支持多倍体多等位基因物种关联分析的在线平台。
  课题 m:前列腺癌是发生于男性的最常见的恶性肿瘤之一。前列腺癌是一种复杂疾病,目前认为复杂疾病的致病机制受遗传因素和环境因素的交互影响。虽然现已发现了多个前列腺癌的易感基因位点,然而这些发现仅能解释13%的遗传度。为了进一步寻找前列腺癌致病因素中缺失的遗传度,我们在四个人种(非洲裔美国人、欧洲人、拉丁美洲人、日本人)中开展了大规模的全基因组基因相互作用研究,共包含5,269个病例及5,289个对照。在我们的结果中,有一对相互作用的区域(7p21.3和18p11.2,p=1.4x10_14)达到了经 Bonferroni矫正后的全局阳性阈值(p<2.28x10_13),且这两个区域间的相互作用在四个人种中均为阳性。18p11.22位于基因以R4附近,研究表明,在前列腺癌的发生发展中,是基因 P T E N的ceRNAs(competing endogenous R N A),而P T E N则是一个重要的肿瘤抑制基因,该基因在多种肿瘤中均存在变异,包括前列腺癌。以往的研究已在7p21区域内发现了多个前列腺癌的易感位点。药物富集分析的结果表明,呈现强阳性的相互作用的基因与经FDA批准的用于治疗前列腺癌的药物的靶标基因显著重叠。之前的研究认为全基因组关联分析的结果可以为新药的开发提供非常宝贵的信息。这里我们证明了全基因组基因相互作用分析的结果也能够为药物研发提供重要的证据和指导。这表明人类遗传数据可以有效地和其他生物学信息相结合以发现新的生物学证据并指导药物的开发。
  课题 W:高通量测序技术已被广泛应用于无创产前诊断领域,相比于传统的有创产前诊断,无创产前诊断不仅安全性高,其准确度和灵敏度也很高。无创产前诊断主要用于检测胎儿的染色体非整倍性疾病,如21-三体综合征、18-三体综合征以及13-三体综合征等。目前,使用高通量测序技术进行无创产前诊断的方法主要是Z-score法。该方法首先使用怀有正常胎儿的孕妇的相应染色体含量建立一个正常分布,然后将待测样本的相应染色体的含量与该分布进行比较,最后得出诊断结果。由于该方法需要使用大量的正常样本建立正常分布,这不仅耗时长,且成本高。除此以外,每次测序的实验环境(如实验室的温度、湿度等)无法保证一致,因此可能会引入噪声,对结果造成一定的影响。针对这些问题,我们提出了一种新的分析方法,该方法只需一个已知正常的样本即可判断待测样本是否患病,且参考样本和受试样本的DNA信息都在同一次测序中得到。这样不仅减少了测序的成本、节约时间,且能够尽可能地避免引入噪声。我们使用该方法检测了44个已知核型的样本(共计13次测序实验),其对于13-三体综合征的检测的特异性和灵敏性分别为100%和95.181%,对于18-三体综合征的检测的特异性和灵敏性分别为100%和100%,对于21-三体综合征的检测的特异性和灵敏性分别为90%和100%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号