首页> 中国专利> 基于微生物与宿主互作的阿尔兹海默症标志物识别方法

基于微生物与宿主互作的阿尔兹海默症标志物识别方法

摘要

本发明公开了基于微生物与宿主互作的阿尔兹海默症标志物识别方法,属于医学检验技术领域,具体包括:提取患者的微生物‑宿主基因组,对二者进行质检并作为发现集;识别微生物基因组中与AD表型关联的子社团结构,将子社团结构与宿主基因组进行关联,对显著关联的宿主基因变异位点进行基因注释和富集分析;对子社团结构进行单双样本孟德尔随机化,识别子社团结构与AD表型间的因果关系;利用子社团结构涉及的微生物丰度建立AD预测模型并验证,采集到AD风险基因涉及的SNP与单菌进行关联分析,将通过AD差异物种富集检验的显著关联物种标记为AD标志物;本发明利用子社团结构的概念,使用较少的物种特征提升对AD表型预测模型的泛化能力。

著录项

  • 公开/公告号CN116052767A

    专利类型发明专利

  • 公开/公告日2023-05-02

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN202310098268.2

  • 发明设计人 赵兴明;刘金鑫;

    申请日2023-02-10

  • 分类号G16B20/20(2019.01);G16B50/10(2019.01);G16B5/00(2019.01);G16H50/30(2018.01);C12Q1/6883(2018.01);

  • 代理机构合肥正则元起专利代理事务所(普通合伙) 34160;

  • 代理人刘念

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2023-06-19 19:32:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-02

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及医学检验技术领域,具体涉及基于微生物与宿主互作的阿尔兹海默症标志物识别方法。

背景技术

至今对阿尔兹海默病(Alzheimer disease,AD)的早期诊断依旧是一大难题。即使在症状前几年已呈现出各种病理改变,如大脑中β-淀粉样蛋白的过度产生和积累、tau蛋白的过度磷酸化,但这些生物标志物的检测需要正电子发射断层扫描或腰椎穿刺,当没有或只有轻微症状时,很少有人能接受这些放射性或侵入性检查。除此之外,一些遗传因素也可能加剧AD的发病,如APOEε4等位基因是公认的AD重要风险基因。因此,宿主基因相关研究识别更多新的风险基因位点,进一步揭示AD的发病机制,为治疗提供新的方向,具有巨大的临床应用价值。

研究表明,AD患者肠道微生物失调的特征是促炎菌增多,抗炎菌减少,及其微生物衍生的代谢物共同影响着肠道通透性和血脑屏障完整性。如厚壁菌门与炎症反应和代谢功能的调节有关,而代谢功能又会影响行为和认知功能。但目前单靠宏基因组学数据构建的AD预测模型大多效果不理想,尤其是用于跨队列的交叉验证上,因此如何得到队列间更一致的AD标志物尤为重要,也是一大挑战。

对阿尔兹海默症(AD)的病例-对照队列研究中,微生物组、宿主全基因组的单一组学与AD的关联研究已较多。目前关于微生物和宿主互作模式的探索主要涉及微生物组学与宿主全基因组的联合分析,但现有研究大多基于健康队列,进而挖掘微生物特征(以物种组成、功能通路为主)与宿主免疫、代谢相关性状的关联,较少研究同时纳入病例-对照队列。

发明内容

本发明的目的在于提供基于微生物与宿主互作的阿尔兹海默症标志物识别方法,解决以下技术问题:

如何利用先验信息,结合微生物组学和宿主基因组学的整合分析,共同揭示AD的疾病标志物。

本发明的目的可以通过以下技术方案实现:

基于微生物与宿主互作的阿尔兹海默症标志物识别方法,包括以下步骤:

采集患者的粪便样本和血液样本,分别提取微生物基因组和宿主基因组并进行质检,将通过质检的微生物-宿主基因组配对样本标记为发现集;

使用主题模型识别微生物基因组中与阿尔兹海默症表型关联的子社团结构,将所述子社团结构与宿主基因组进行关联,对显著关联的宿主基因变异位点进行基因注释和富集分析;

将显著关联的基因变异位点作为工具变量,对子社团结构进行单样本孟德尔随机化和双样本孟德尔随机化,识别子社团结构特征与阿尔兹海默症表型及现存人体疾病表型间的因果关系;

采集与阿尔兹海默症相关的风险基因所覆盖的SNP,将该SNP与微生物单菌丰度进行关联分析,并提取出有在疾病-健康组间存在显著差异的微生物物种作为差异物种集,检验与疾病风险基因显著关联的候选关键微生物物种集是否富集到阿尔兹海默症的差异物种上,将检验通过的微生物特征标记为阿尔兹海默症标志物。

作为本发明进一步的方案:对所述微生物基因组进行质检的过程为:

提取所述粪便样本中微生物的宏基因组测序样本,对宏基因组测序样本的原始基因序列采用Trimmomatic和Bowtie2进行质检,并通过MetaPhlAn3进行物种注释,获得界至种水平的相对丰度表,将通过质检的宏基因组测序样本标记为微生物基因组。

作为本发明进一步的方案:对所述宿主基因组进行质检的过程为:

提取血液样本中的全基因组测序数据,将全基因组测序数据与参考基因序列进行对比,得到SNP变异信息,借助plink工具对样本和SNP进行质检,将满足预设条件的有效SNP标记为宿主基因组。

作为本发明进一步的方案:对SNP的预设条件为:

选取同时满足漏检率missingrate低于2%、最小等位基因频率MAF大于等于5%且HWE的P值小于1*10

作为本发明进一步的方案:所述双样本孟德尔随机推断子社团结构可能关联表型基于Biobank Japan的GWAS数据库。

作为本发明进一步的方案:判断所述子社团结构与疾病表型间因果关系的过程为:

利用现有AD风险基因变异位点,对所述子社团结构进行单样本孟德尔随机化,推断子社团结构特征与AD间的因果关系;采集Biobank Japan的GWAS summary data,利用双样本孟德尔随机推断所述子社团结构与现有疾病表型间的因果关系。

作为本发明进一步的方案:单样本孟德尔随机化直接使用两阶段逻辑回归实现,双样本孟德尔随机化通过TwoSampleMR R package标准流程实现。

作为本发明进一步的方案:在检验候选风险SNP关联物种富集分析前,使用LinDAR package对单菌进行组间差异分析,选取各亚组p<0.05且|log2(Foldchange)|>1的物种作为差异物;在疾病预测模型构建中,使用3次5折的嵌套式随机森林分类器,模型AUC、F1score作为分类精度指标。

本发明的有益效果:

本发明展示了如何利用多组学信息挖掘疾病关联信号,并首次在微生物组-宿主基因组关联研究中利用子社团结构的概念,不仅能够使用较少的物种特征提升对AD表型预测模型的泛化能力,而且联合基因组验证了因果关系,整合了微生物-宿主基因组的多组学数据,挖掘出AD的微生物疾病标志物,既具有微生物意义,又能从宿主遗传上解释,并能构建泛化能力较好的疾病预测模型;比较了两种思路、且可拓展探索多界(真菌-细菌等)特征对AD队列的疾病预测模型精度的贡献度;可通过宿主基因组学数据推断主题模型挖掘的子社团结构与疾病表型间的因果关系。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1所示,本发明为基于微生物与宿主互作的阿尔兹海默症标志物识别方法,包括以下步骤:

S1.微生物组学数据质检:对粪便取样的宏基因组测序样本质检后,进行物种注释。

S2.宿主基因组数据质检:对血液取样的全基因组测序数据通过比对参考基因序列,得到SNP变异信息,在进行关联分析前需要质控。

S3.发现集与测试集:将经过质检后的微生物组-宿主基因组配套样本作为训练集,用于下游分析。将来自NCBI上质量高的AD队列公共数据作为验证集,用于刻画两个方案训练的疾病预测模型的泛化能力。

S4.从微生物-表型角度:将细菌属水平的丰度数据利用主题模型,挖掘出与AD表型显著关联的子社团结构。

S5.子社团特征在遗传变异上的解释:将S4筛选出的子社团结构联合宿主基因组学数据进行关联,将显著关联的SNP集合进一步基因注释,用于富集分析,揭示AD的潜在发病机制。

S6.子社团特征与表型间的因果推断:利用现有数据进行单样本孟德尔随机化,推断该结构特征与AD的因果关系。同时收集到同种族Biobank Japan的GWAS summary data,利用双样本孟德尔随机推断该社团结构与其余表型间的因果关系,挖掘不同疾病、性状间相似的微生物变化结构。

S7.从基因-表型角度:将收集到与AD相关的候选风险基因集合所覆盖的SNP与单菌进行关联分析,提取显著关联的微生物特征进行组间差异分析,检验该关联特征集合是否显著富集到AD的差异物种上。最终将该特征集用于构建疾病预测模型。

S8.真菌数据集将重复S4-S7的分析流程,比较真菌、细菌对构建疾病预测模型的相对贡献度。同时本发明借助与风险基因的关联构建细菌-真菌互作网络,比较联合两类数据对预测模型精度的影响。

S9.最优预测模型特征集的选择:分别比较两种出发点得到的微生物特征集合用于模型构建的分类精度,并结合在独立验证集上的分类精度,选择最优的模型,并对贡献度较高的特征进一步解释。

具体地,利用子社团结构涉及的微生物丰度建立AD预测模型,并在AD公共数据上外部验证,同理将与AD风险基因显著关联的候选关键微生物物种集建立疾病预测模型,比较两者的预测精度和泛化能力。

在本实施例的一种优选的情况中,步骤S1中,对宏基因组测序样本用Trimmomatic、Bowtie2对原始序列进行过滤,MetaPhlAn3进行物种注释,得到界至种水平的相对丰度表。

在本实施例的另一种优选的情况中,步骤S2中,用比对参考基因序列后储存变异的vcf文件,借助plink工具对样本和SNP进行质检,最终保留满足条件的SNP用于下游关联分析:(1)missing rate<2%;(2)MAF≥5%;(3)Hardy-Weinberg equilibriumP-values>1e-06。

在本实施例的另一种优选的情况中,步骤S4中,使用Latent DirichletAllocation(LDA)主题模型识别子社团结构,并用Dirichlet回归进行成分数据组间差异分析。

在本实施例的另一种优选的情况中,步骤S5中,plink将与AD表型显著相关的社团成分数据与宿主SNP进行关联,position mapping显著关联的SNP(p<1e-05)在其250kb窗口下覆盖的gene,借助FUMA在线平台进行含GWAS catalog geneset、GO、KEGG的富集分析。

在本实施例的另一种优选的情况中,步骤S6中,单样本孟德尔随机化直接使用两阶段逻辑回归实现,两样本孟德尔随机化通过TwoSampleMR R package标准流程实现。

在本实施例的另一种优选的情况中,步骤S7中,从现有文献中收集到与AD相关的候选风险基因出发,plink将其基因区域扩展20kb窗口所覆盖的SNP与微生物单菌丰度进行关联。在检查候选SNP关联物种富集分析前,使用LinDA R package对单菌进行组间差异分析,选取各亚组p<0.05,|log

以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号