首页> 中国专利> 确定从怀孕母体分离的循环胎儿细胞来自当前妊娠或过往妊娠的方法

确定从怀孕母体分离的循环胎儿细胞来自当前妊娠或过往妊娠的方法

摘要

本申请公开了用于确定获自当前妊娠中孕育胎儿的怀孕母体的胎儿细胞DNA的遗传来源的方法。本申请还公开了使用胎儿细胞DNA和胎儿游离DNA(cfDNA)来确定胎儿遗传状态(如拷贝数变异)的方法。本申请公开的方法使用概率模型,基于在胎儿细胞DNA的信息遗传标志物处观察到的等位基因来确定胎儿细胞DNA来源。本申请还公开了用于执行所述方法的系统和计算机程序产品。

著录项

  • 公开/公告号CN112955960A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 ILLUMINA公司;伊鲁米纳剑桥有限公司;

    申请/专利号CN201980070708.5

  • 发明设计人 安德鲁·克雷格;菲奥娜·卡帕;

    申请日2019-09-06

  • 分类号G16B20/20(20060101);C12Q1/6827(20060101);

  • 代理机构11204 北京英赛嘉华知识产权代理有限责任公司;

  • 代理人王达佐;洪欣

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 11:21:00

说明书

PCT请求书与本说明书同时提交作为本申请的一部分。将同时提交的PCT请求书中所指定的本申请要求优先权的每个申请通过援引加入的方式整体并入本文,用于所有目的。

背景技术

遗传状态(如胎儿中的拷贝数变异)的确定具有重要的诊断价值。以前,关于胎儿的拷贝数、拷贝数变异(CNV)、接合性和其它遗传状态的大多数信息由能够识别结构异常的细胞遗传学解析提供。用于遗传筛查和生物剂量测定的常规方法已经利用侵入性方法,例如羊膜刺穿、脐刺穿或绒毛采样(CVS),以获得用于核型分析的胎儿细胞。现已认识到需要不需要细胞培养的更快速的测试方法,荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列比较基因组杂交(阵列-CGH)已经被开发为用于分析拷贝数变异的分子细胞遗传学方法。允许在相对短的时间内对整个基因组进行测序的技术的出现,以及怀孕母体血液中含有母体和胎儿DNA的循环游离DNA(cfDNA)的发现已经提供了分析胎儿遗传物质而不产生侵入性取样方法相关的风险的机会,这提供了诊断各种拷贝数变异(CNV)和目标遗传序列的其它特性的工具。

在一些应用中,使用cfDNA诊断胎儿遗传状态面临更大的技术挑战。通常,胎儿cfDNA相对于母体cfDNA以低比例存在,通常小于20%。当母体是隐性遗传疾病的携带者时,如果父亲也是携带者,则胎儿有25%的机会发生遗传疾病。在这种情况下,母体对于疾病相关基因是杂合型,具有一个致病等位基因和一个正常等位基因;胎儿对于该疾病相关基因是纯合型,具有两个拷贝的致病等位基因。使用母体血浆cfDNA以非侵入方式从两个亲本确定胎儿是否遗传了引起遗传疾病的突变等位基因是希望的。然而,当母体是杂合型时,使用常规的非侵入性产前诊断(NIPD)方法难以区分胎儿是纯合型还是杂合型,因为这两种情景具有映射到双等位基因的两个等位基因的类似序列标签。这样的挑战造就了对将在各种临床情景中可靠地诊断拷贝数的非侵入性方法的持续需要。

由于将cfDNA用于非侵入性产前测试(NIPT)的技术困难,已经开发了各种技术和方法来增加基于cfDNA的测试的灵敏度、选择性或信噪比。改进测试的一种方法是将来自胎儿cfDNA和胎儿细胞DNA的信息组合以改进测试。在NIPT中,胎儿细胞DNA可以从循环胎儿细胞(cFC)获得,循环胎儿细胞是来源于胎儿并在孕育胎儿的怀孕母体中循环的胎儿细胞。通常,cFC在诸如外周血、宫颈样品、唾液、痰等的母体体液中循环。在获得胎儿细胞DNA后,可以将其与胎儿cfDNA组合以确定胎儿的遗传状态。

然而,胎儿细胞可能在妊娠结束后在母体血液和其它体液中持续很长时间。这意味着从怀孕母体中分离的任何胎儿细胞不能可靠地被认为来自当前妊娠。如果产前测试的结果是基于源自过往妊娠的细胞,则这可能导致严重的误诊。

本申请公开的实施方案满足上述需要中的一部分,特别是提供了确定胎儿细胞DNA或cFC的遗传来源的方法。利用已知的遗传来源,胎儿细胞DNA则可以与cfDNA组合以提供一种可应用于非侵入性产前诊断的实践的可靠方法。

发明内容

在一些实施方案中,本申请提供了用于确定获自当前妊娠中孕育胎儿的怀孕母体的胎儿细胞DNA的遗传来源的方法和系统。所述方法在包括一个或多个处理器和系统存储器的计算机系统上实现。

本申请的一个方面涉及用于确定获自当前妊娠中孕育胎儿的怀孕母体的胎儿细胞DNA的遗传来源的方法。该方法包括:(a)接收当前妊娠中的胎儿的基因型,其中当前妊娠中的胎儿的基因型包括多个遗传标志物中每个遗传标志物的一个或多个等位基因,其中每个遗传标志物代表独特基因组位点(例如,参考基因组上的独特基因座)处的多态性;(b)接收所述怀孕母体的基因型,其中所述怀孕母体的基因型包括所述多个遗传标志物中每一个遗传标志物的一个或多个等位基因;(c)由怀孕母体的基因型和当前妊娠的胎儿的基因型,鉴定一组信息遗传标志物,其中该组信息遗传标志物中的每一个信息遗传标志物在怀孕母体中是纯合型并且在当前妊娠的胎儿中是杂合型;(d)对于获自怀孕母体的胎儿细胞DNA,确定所述一组信息遗传标志物中每个信息遗传标志物处一个或多个等位基因,其中所述胎儿细胞DNA源自当前妊娠的胎儿或过往妊娠的胎儿;(e)提供获自怀孕母体的胎儿细胞DNA的每个信息遗传标志物处的一个或多个等位基因,作为概率模型的输入;(f)作为概率模型的输出,获得三种情景的概率:获自怀孕母体的胎儿细胞DNA源自(1)当前妊娠中的胎儿,(2)过往妊娠的胎儿并且与当前妊娠中的胎儿具有相同父亲,和(3)过往妊娠的胎儿并且与当前妊娠中的胎儿具有不同父亲;和(g)由概率模型的输出,确定胎儿细胞DNA是否来自(1)当前妊娠中的胎儿。至少(e)和(f)由包括处理器和存储器的计算机执行。

在一些实施方案中,(f)包括:作为概率模型的输出,获得三种情景的概率:获自怀孕母体的胎儿细胞DNA源自(1)当前妊娠的胎儿,(2)过往妊娠的胎儿并且与当前妊娠的胎儿具有相同的父亲,(3)过往妊娠的胎儿并且与当前妊娠的胎儿具有不同的父亲。

在一些实施方案中,(g)包括:确定胎儿细胞DNA源自(1)当前妊娠的胎儿,(2)过往妊娠的胎儿并与当前妊娠中的胎儿具有相同的父亲,或(3)过往妊娠的胎儿并与当前妊娠中的胎儿具有不同的父亲。

在一些实施方案中,(e)包括提供共有遗传标志物的数量作为概率模型的输入,其中共有遗传标志物是信息遗传标志物中获自怀孕母体的胎儿细胞DNA和当前妊娠的胎儿具有相同的等位基因的遗传标志物。

在一些实施方案中,在给定所述共有遗传标志物的数量的情况下,基于给定三个情景的共有遗传标志物的数量的概率,概率模型计算所述三个情景的概率。

在一些实施方案中,在给定所述共有遗传标志物的数量的情况下,所述概率模型按照以下方式计算所述三个情景的概率:

其中,p(s

在一些实施方案中,对于每个情景,所述概率模型模拟给定情景i的情况下共有遗传标志物的数量(k|s

在一些实施方案中,所述概率模型模拟给定情景i的情况下共有遗传标志物的数量(k|s

在一些实施方案中,在给定情景i的情况下,共有遗传标志物的数量的概率由以下似然函数计算:

其中n是信息遗传标志物的数量,k是共有遗传标志物的数量,β()是β函数,a

在一些实施方案中,

a

b

其中w是表示伪计数或观测值的数量的参数。

在一些实施方案中,μ

在一些实施方案中,所述概率模型如下计算情景(1)的共有遗传标志物的预期比例μ

其中n是信息遗传标志物的数量。

在一些实施方案中,所述概率模型如下计算情景(2)的共有遗传标志物的预期比例μ

其中p

在一些实施方案中,所述概率模型如下计算情景(3)的共有遗传标志物的预期比例μ

其中p

在一些实施方案中,该方法还包括将所述三个情景的在先概率提供给所述概率模型,其中所述概率模型基于所述三个情景的在先概率以及所述一个或多个标志物处的等位基因来提供所述三个情景的在后概率。

在一些实施方案中,所述方法还包括:从所述怀孕母体获得游离DNA(cfDNA);以及对来自所述怀孕母体的cfDNA进行基因分型,以产生(i)当前妊娠中胎儿的基因型和(ii)所述怀孕母体的基因型。

在一些实施方案中,所述方法还包括:获取所述怀孕母体的至少一个细胞;对从所述怀孕母体的至少一个细胞获得的细胞DNA进行基因分型,以产生所述怀孕母体的基因型;从所述怀孕母体获取cfDNA;和对所述怀孕母体的cfDNA进行基因分型,以产生当前妊娠中胎儿的基因型。

在一些实施方案中,所述胎儿细胞DNA来自在所述怀孕母体中循环的循环胎儿细胞(cFC)。

在一些实施方案中,该方法还包括确定所述cFC的遗传来源。

在一些实施方案中,所述胎儿细胞DNA被确定为源自当前妊娠中的胎儿,并且所述方法还包括分析所述胎儿细胞DNA,以确定当前妊娠中的胎儿是否具有遗传异常。

在一些实施方案中,遗传异常是非整倍性。

在一些实施方案中,分析胎儿细胞DNA包括使用来自胎儿细胞DNA的信息和获自当前妊娠期间的怀孕母体的胎儿cfDNA的信息来确定当前妊娠中的胎儿是否具有遗传异常。

在一些实施方案中,每个信息遗传标志物是双等位的。

本申请的另一方面涉及计算机程序产品,包括存储程序代码的非暂时性机器可读介质,所述程序代码在由计算机系统的一个或多个处理器执行时,使所述计算机系统实施确定获自当前妊娠中孕育胎儿的怀孕母体的胎儿细胞DNA的遗传来源的方法。程序代码包括:(a)用于对获自所述怀孕母体的胎儿细胞DNA确定一组信息遗传标志物的每个信息遗传标志物处的一个或多个等位基因的代码,其中每个信息遗传标志物代表在独特的基因组位点的多态性,每个信息遗传标志物在所述怀孕母体中是纯合型并且在当前妊娠中的胎儿中是杂合型,所述胎儿细胞DNA来源于当前妊娠的胎儿或过往妊娠的胎儿。程序代码还包括:(b)用于提供获自所述怀孕母体的胎儿细胞DNA的每个信息遗传标志物处一个或多个等位基因作为概率模型的输入的代码;(c)用于获得作为概率模型的输出的三种情景概率的代码:获自所述怀孕母体的胎儿细胞DNA源自(1)当前妊娠的胎儿,(2)过往妊娠的胎儿并与当前妊娠的胎儿具有相同的父亲,(3)过往妊娠的胎儿并与当前妊娠的胎儿具有不同的父亲;以及(d)用于由概率模型的输出确定胎儿细胞DNA是否源自(1)当前妊娠中的胎儿的代码。

本申请的另一方面涉及计算机系统,包括:一个或多个处理器;系统存储器;以及一种或多种存储有计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由所述一个或多个处理器执行时,使所述计算机系统实施确定获自当前妊娠中孕育胎儿的怀孕母体的胎儿细胞DNA的遗传来源的方法。该方法包括:(a)对获自所述怀孕母体的胎儿细胞DNA确定一组信息遗传标志物的每个信息遗传标志物处的一个或多个等位基因,其中每个信息遗传标志物代表在独特的基因组位点的多态性,每个信息遗传标志物在所述怀孕母体中是纯合型并且在当前妊娠中的胎儿中是杂合型,所述胎儿细胞DNA来源于当前妊娠的胎儿或过往妊娠的胎儿;(b)提供获自所述怀孕母体的胎儿细胞DNA的每个信息遗传标志物处一个或多个等位基因作为概率模型的输入;(c)获得作为概率模型的输出的三种情景概率:获自所述怀孕母体的胎儿细胞DNA源自(1)当前妊娠的胎儿,(2)过往妊娠的胎儿并与当前妊娠的胎儿具有相同的父亲,(3)过往妊娠的胎儿并与当前妊娠的胎儿具有不同的父亲;以及(d)由概率模型的输出确定胎儿细胞DNA是否源自(1)当前妊娠中的胎儿。

本申请的另一方面涉及使用概率建模和计算机模拟来匹配字符串配对的方法,其中任意配对中的两个字符串具有相同的字符数量,所述方法包括:(a)接收第一字符串配对;(b)接收第五字符串配对;(c)鉴定所述第一字符串配对和所述第五字符串配对中的一组信息性字符位置,其中所述一组信息性字符位置中的每个信息性字符位置(i)表示每个字符串中的独特位置,(ii)在任何字符串配对中具有两个不同字符中的一个或两个,(iii)在第五字符串配对中仅具有所述两个不同字符中的一个字符,以及(iv)在第一字符串配对中具有所述两个不同字符的两个字符;(d)对于第四字符串配对,确定所述一组信息性字符位置处的字符;(e)接收包括字符串配对的训练数据集并利用训练数据集训练概率模型;(f)提供所述第四字符串配对的所述一组信息性字符位置处的字符作为概率模型的输入;(g)作为所述概率模型的输出,获得三种情景的概率:所述第四字符串配对与所述第一、第二和第三字符串配对匹配,其中每个字符串配对中的两个不同的字符串具有相同的长度,每个信息性字符位置在每个字符串上具有对应的位置,所述第一字符串配对可通过将所述第五字符串配对与第六字符串配对重新组合来获得,所述第二字符串配对也可通过将所述第五字符串配对与所述第六字符串配对重新组合获得,所述第三字符串配对可通过将所述第五字符串配对与第七字符串配对重新组合来获得;和(h)由所述概率模型的输出,确定所述第四字符串配对是否与所述第一、第二或第三字符串配对匹配。至少(e)、(f)和(g)由包括处理器和存储器的计算机系统执行。。

在一些实施方案中,其中(f)包括:获得三种情景的概率:所述第四字符串配对与所述第一、第二和第三字符串配对匹配,其中所述第二字符串配对可通过将所述第五字符串配对与所述第六字符串配对重新组合获得,所述第三字符串配对可通过将所述第五字符串配对与第七字符串配对重新组合来获得。

在一些实施方案中,其中(g)包括由所述概率模型的输出,确定所述第四字符串配对是否与所述第一、第二或第三字符串配对匹配。

在一些实施方案中,包括一个或多个处理器和系统存储器的计算机系统被配置为实施上述任何方法。

本申请的另一方面涉及一种计算机程序产品,其包括存储有计算机可执行指令的一个或多个计算机可读非暂时性存储介质,所述计算机可执行指令在由计算机系统的一个或多个处理器执行时使所述计算机系统实施上述任何方法。

尽管本文给出的例子涉及人类,并且语言主要针对人类,但本文所述的构思可应用于来自任何植物或动物的基因组。本申请的这些和其它目的和特征将从以下描述和所附权利要求中变得更加清晰,或者可以通过如下文所述的本申请的实践来获知。

本文引用的所有专利、专利申请和其它出版物,包括在这些参考文献中公开的所有序列,在此通过援引加入的方式明确地并入本文,如同每个单独的出版物、专利或专利申请被具体地和单独地指出援引加入。出于本文引用文献的上下文所指示的目的,在相关部分中引用的所有文献以援引加入的方式全文并入本文。然而,任何文献的引用不应被解释为承认它是相对于本申请的现有技术。

图1显示了确定循环胎儿细胞的来源的方法。

图2显示了确定胎儿细胞DNA的来源的方法。

图3显示了使用源自当前妊娠胎儿的胎儿细胞DNA和来自所述胎儿的胎儿cfDNA来确定拷贝数变异的方法。

图4显示了概率模型的分量。

图5显示了使用概率建模和计算机模拟来匹配字符串配对的方法。

图6显示了确定胎儿的目标序列的方法的方法流程。

图7显示了使用获自怀孕母体的固定化全血样品,获得母体和胎儿cfDNA和胎儿细胞DNA的方法的流程图。

图8显示了从分离自母体细胞的胎儿NRBC获得胎儿细胞DNA的示例性方法。

图9显示了从母体血液样品中分离胎儿NRBC的方法的流程图。

图10显示了可以用作根据某些实施方案的计算设备的典型计算机系统。

图11显示了用于从测试样品产生判定或诊断的分散系统的实施方案。

图12显示了根据本申请的一些实施方案在不同位置执行各种操作的选项。

图13显示了三种不同情景下共有遗传标志物的预期比例(μ)的β分布。

图14显示了共有/匹配遗传标志物数量的函数的对数概率。

除非另有说明,本文公开的方法和系统的实践涉及在分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序和重组DNA领域中常用的常规技术和装置,这些常规技术和装置在本领域的技术范围内。这样的技术和装置是本领域技术人员已知的,并且在大量的教科书和文献中进行了描述(参见,例如,Sambrook et al.,“Molecular Cloning:ALaboratory Manual,”Third Edition(Cold Spring Harbor),[2001]);和Ausubel etal.,“Current Protocols in Molecular Biology”[1987])。

数字范围包括定义该范围的数字。在本说明书全文中给出的每个最大数值限包括每个更低的数值限,如同这些更低的数值限在本文中被明确地写出。在本说明书全文中给出的每个最小数值限包括每个更高的数值限,如同这些更高的数值限在本文中被清楚地写出。在本说明书全文中给出的每个数值范围包括落在这样的较宽的数值范围内的每个更窄的数值范围,如同这样的更窄的数值范围在本文中都明确地写出。

当术语“约”用于修饰量时,其是指量减10%至量加10%的范围。

本文提供的标题不意图限制本申请的内容。

除非本文另有定义,本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同的含义。包括本文中术语的各种科学词典是本领域技术人员公知的和可得到的。本文描述了一些方法和材料,但是与本文描述的方法和材料类似或等同的任何方法和材料可用于本文公开的实施方案的实践或测试。

接下来定义的术语通过整体参考说明书来更充分地描述。应当理解,本申请不限于所描述的特定方法、方案和试剂,因为这些可以根据本领域技术人员所使用的场景而变化。本文所用单数术语“a”、“an”和“the”包括复数,除非上下文另外清楚地指示。

除非另有说明,核酸以5′至3′方向从左至右书写,氨基酸序列以氨基至羧基方向从左至右书写。

循环游离DNA或简写为游离DNA(cfDNA)是不被限制于细胞内并且在血流或其它体液中自由循环的DNA片段。已知cfDNA具有不同的来源,在一些情况下来自在供体血液中循环的供体组织DNA,在一些情况下来自肿瘤细胞或受肿瘤影响的细胞,在其它情况下来自母体血液中循环的胎儿DNA。通常,cfDNA是片段化的,并且仅包括一小部分基因组,其可能与获得cfDNA的个体的基因组不同。

术语“非循环基因组DNA(gDNA)或细胞DNA”用于指被限制在细胞中并且经常包括完整基因组的DNA分子。

广义而言,名词“基因型”是指生物体或细胞的遗传构成。更具体地,基因型可以指一个或多个目标遗传标志物的等位基因。例如,目标表型的基因型可以包括多个基因或遗传标志物的等位基因。基因型也可以指单个基因或单个遗传标志物的等位基因。例如,基因可以具有三种不同的基因型,AA、aa和aA。作为动词,“基因分型”是指确定生物体、细胞或一个或多个遗传标志物的遗传构成的行为或方法。

β分布是在区间[0,1]上定义的连续概率分布家族,其由两个正的形状参数(例如,α和β(或a和b)表示)来参数化,其表现为随机变量的指数并控制分布的形状。β分布已被应用于在多种学科中模拟限于有限长度区间的随机变量的行为。在贝叶斯推理中,β分布是伯努利、二项式、负二项式和几何分布的共轭在先概率分布。例如,在贝叶斯分析中可以使用β分布来描述关于成功概率的初始知识。如果随机变量X遵循β分布,则随机变量X可以表示为X~β(α,β)或X~β(a,b)。

二项式分布是n个独立实验的序列中的成功数量的离散概率分布,每个独立实验询问是/否问题,并且每个独立实验具有自己的布尔值结果:包含单一信息位的随机变量:正(具有概率p)或负(具有概率q=1-p)。对于单次试验,即n=1,二项式分布是伯努利分布。二项式分布常用于模拟一个大小为n的样本中从一个大小为N的群体中代换得到的成功的数量。如果一个随机变量X遵循参数为

β-二项式分布是二项式分布BN(n,p),其中成功率p是来自β分布Beta(a,b)的随机变量。随机变量X可以表示为X~BB(n,a,b)。

多态性和遗传多态性在本文中可互换使用,是指在同一群体中在一个基因组基因座出现两个或多个等位基因,每一个具有可评估的频率。

多态性位点和多态位点在本文中可互换使用,是指基因组上存在两个或更多个等位基因的基因座。在一些实施方案中,其用于指具有不同碱基的两个等位基因的单个核苷酸变异。

术语“等位基因计数”是指具体等位基因的序列读数的计数或数量。在一些实施方案中,可以通过将读数映射到参考基因组中的位置并对包括等位基因序列并映射到参考基因组的读数进行计数来确定等位基因计数。

等位基因频率或基因频率是基因(或基因的变体)的等位基因相对于基因的其它等位基因的频率,其可以表示为分数或百分比。等位基因频率通常与具体基因组基因座相关,因为基因通常位于一个或多个基因座。然而,本文所用的等位基因频率也可以与DNA片段的基于尺寸的箱相关。在这种意义上,DNA片段(如含有等位基因的cfDNA)被分配到不同的基于尺寸的箱中。等位基因在基于尺寸的箱中的频率相对于其他等位基因的频率是等位基因频率。

术语“读数”是指从核酸样品的一部分获得的序列。通常(但不是必然),读数代表样品中连续碱基对的短序列。读数可以由样品部分的碱基对序列(A、T、C或G中)符号表示。读数可以被存储在存储器设备中,并且被适当地处理以确定其是否匹配参考序列或满足其它标准。读数可以直接从测序装置获得,或者间接从存储的关于样品的序列信息获得。在一些情况下,读数是足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可与染色体或基因组区域或基因进行比对和特异性指定。

术语“基因组读数”用于指个体的整个基因组中的任何区段的读数。

本文使用的术语“参数”表示物质特征,它的值或其它特征对诸如拷贝数变异的相关状态有影响。在一些情况下,术语参数在关于影响数学关系或模型的输出的变量中使用,变量可以是独立变量(即,模型的输入)或基于一个或多个独立变量的中间变量。根据模型的范围,一个模型的输出可以成为另一个模型的输入,从而成为另一个模型的参数。

本文中的术语“拷贝数变异”是指与参考样品中存在的核酸序列的拷贝数相比,测试样品中存在的核酸序列的拷贝数的变异。在某些实施方案中,核酸序列是1kb或更大。在一些情况下,核酸序列是完整的染色体或其重要部分。“拷贝数变体”是指这样的核酸序列,其中通过将测试样品中目的核酸序列与目的核酸序列的预期水平进行比较发现拷贝数差异。例如,将测试样品中目标核酸序列的水平与合格样品中存在的目标核酸序列的水平进行比较。拷贝数变体/变异包括缺失(包括微缺失)、插入(包括微插入)、二倍、多倍和易位。CNV包括染色体非整倍性和部分非整倍性。

本文中的术语“非整倍性”是指由整个染色体或染色体的一部分的丢失或增加引起的遗传物质失衡。

术语“染色体非整倍性”和“完全染色体非整倍性”在本文中是指由整个染色体的丢失或增加引起的遗传物质失衡,并且包括种系(germline)非整倍性和嵌合(mosaic)非整倍性。

术语“多个”是指大于一个元件。例如,该术语在本文中用在使用本文公开的方法足以鉴定测试样品和合格样品中拷贝数变异的显著差异的核酸分子或序列标签的数量。在一些实施方案中,为每个测试样品获得至少约3×10

术语“配对末端读数”是指从配对末端测序获得的读数,配对末端测序从核酸片段的每个末端获得一个读数。配对末端测序可包括将多核苷酸的链片段化为称为插入片段的短序列。对于相对较短的多核苷酸(如游离DNA分子),片段化是任选的或不必要的。

术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指共价连接的核苷酸序列(即,对于RNA而言为核糖核苷酸,对于DNA而言为脱氧核糖核苷酸),其中一个核苷酸的戊糖的3’位通过磷酸二酯基团连接到下一个核苷酸的戊糖的5’位。核苷酸包括任何形式的核酸序列,包括但不限于RNA和DNA分子,如cfDNA分子。术语“多核苷酸”包括但不限于单链和双链多核苷酸。

本文中的术语“测试样品”是指通常来源于生物流体、细胞、组织、器官或生物体的样品,其包含含有至少一个用于筛选拷贝数变异的核酸序列的核酸或核酸的混合物。在某些实施方案中,样品包含至少一种拷贝数被怀疑经历变异的核酸序列。这样的样品包括但不限于,痰/口液,羊水,血液,血液级分或细针活检样品(例如,外科活检,细针活检等),尿液,腹膜液,胸膜液等。尽管样品通常取自人类个体(例如,患者),但是测定可用于来自任何哺乳动物的样品中的拷贝数变异(CNV),哺乳动物包括但不限于狗,猫,马,山羊,绵羊,牛,猪等。样品可以直接从生物来源获得或在预处理后改变样品的特征。例如,这种预处理可以包括从血液制备血浆,稀释粘性流体等。预处理的方法还可以包括但不限于过滤,沉淀,稀释,蒸馏,混合,离心,冷冻,冻干,浓缩,扩增,核酸片段化,干扰组分的失活,试剂的添加,裂解等。如果对样品采用这种预处理方法,则这种预处理方法通常使得目标核酸保留在测试样品中,有时其浓度与未处理的测试样品(即,不进行任何这种预处理方法的样品)中的浓度成比例。这种“经处理的”或“经加工的”样品也被认为是关于本文所述方法的生物学“测试”样品。

本文中的术语“训练集”是指一组训练样品,其可以包括受影响的和/或未受影响的样品,并且用于开发用于分析测试样品的模型。在一些实施方案中,训练集包括未受影响的样品。在这些实施方案中,用于确定CNV的阈值是使用对于目标拷贝数变异未受影响的样品的训练集来建立的。训练集中的未受影响的样品可用作合格样品以鉴定标准化序列,例如标准化染色体,并且未受影响的样品的染色体量用于为每个目标序列(例如染色体)设置阈值。在一些实施方案中,训练集包括受影响的样品。训练集中的受影响的样品可用于验证受影响的测试样品可容易地与未受影响的样品区分开。

训练集也是目标群体中的统计样品,该统计样品不与生物样品混淆。统计样品通常包括多个个体,这些个体的数据被用于确定可概括至群体的一个或多个目标定量值。统计样品是目标群体中个体的子集。个体可以是人,动物,组织,细胞,其它生物样品(即,统计样品可以包括多个生物样品),以及提供用于统计分析的数据点的其它个体实体。

通常,训练集与验证集结合使用。术语“验证集”用于指统计样品中的一个个体集合,个体的数据用于验证或评估使用训练集合确定的目标定量值。例如,在一些实施方案中,训练集提供用于计算参考序列的掩码(mask)的数据,而验证集提供用于评估掩码的正确性或有效性的数据。

“拷贝数评估”在本文中是指与序列的拷贝数相关的基因序列的状态的统计学评估。例如,在一些实施方案中,评估包括确定基因序列存在或不存在。在一些实施方案中,评估包括确定基因序列的部分或完全非整倍性。在其它实施方案中,评估包括基于基因序列的拷贝数在两个或多个样品之间进行区分。在一些实施方案中,评估包括基于基因序列的拷贝数的统计分析,例如标准化和比较。

本文中的术语“目的序列”或“目的核酸序列”是指与健康个体和患病个体之间序列表现的差异相关的核酸序列。目标序列可以是在疾病或遗传病状中错误表现(即,过度表现或低表现)的染色体上的序列。目标序列可以是染色体的一部分,即染色体片段,或整个染色体。例如,目标序列可以是在非整倍性状态下过度表现的染色体,或编码在癌症中低表现的肿瘤抑制基因的基因。目标序列包括在个体的总细胞群或细胞亚群中过度表现或低表现的序列。“合格目标序列”是合格样品中的目标序列。“测试目标序列”是测试样品中目标序列。

本文中的术语“标准化序列”是指用于将映射到与标准化序列相关的目标序列的序列标签的数量标准化的序列。在一些实施方案中,标准化序列包括稳定(robust)染色体。“稳定染色体”是不易发生非整倍体的染色体。在一些涉及人染色体的情况下,稳定染色体是除X染色体、Y染色体、13号染色体、18号染色体和21号染色体以外的任何染色体。在一些实施方案中,标准化序列显示了在样品和测序运行中映射到它的序列标签的数量的可变性,近似于将其用作标准化参数的目标序列的可变性。标准化序列可以将受影响的样品与一个或多个未受影响的样品区分开。在一些实施方案中,当与其它潜在的标准化序列(如其它染色体)相比时,标准化序列最好地或有效地将受影响的样品与一个或多个未受影响的样品区分开。在一些实施方案中,标准化序列的变异性被计算为在样品和测序运行中目标序列的染色体量的变异性。在一些实施方案中,在一组未受影响的样品中鉴定标准化序列。

“标准化染色体”、“标准化分母染色体”或“标准化染色体序列”是“标准化序列”的实例。“标准化染色体序列”可以由单个染色体或一组染色体组成。在一些实施方案中,标准化序列包含两个或更多个稳定染色体。在某些实施方案中,稳定染色体是除X、Y、13号、18号和21号染色体之外的所有常染色体。“标准化区段”是“标准化序列”的另一个例子。“标准化区段序列”可以由染色体的单个区段组成,或者可以由相同或不同染色体的两个或多个区段组成。在某些实施方案中,标准化序列旨在标准化变异性,例如与方法相关的变异性,染色体间变异性(运行内变异性)和测序间变异性(运行间变异性)。

术语“覆盖度”是指映射到限定序列的序列标签的丰度。可以通过序列标签密度(或序列标签计数)、序列标签密度比、标准化覆盖量、调整的覆盖值等来定量地指示覆盖度。

本文中的术语“二代测序(NGS)”是指允许克隆扩增分子和单个核酸分子的大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成测序和连接测序。

本文中的术语“参数”是指表征系统性质的数值。通常,参数以数字方式表征定量数据集和/或定量数据集之间的数字关系。例如,映射到染色体的序列标签的数量与标签映射到的染色体的长度之间的比率(或比率的函数)是参数。

本文中的术语“阈值”和“合格阈值”是指用作表征样品(例如含有来自怀疑患有医学病症的生物体的核酸的测试样品)的截止点的任何数值。可以将阈值与参数值进行比较,以确定引起这种参数值的样品是否表明有机体患有医学病症。在某些实施方案中,使用合格数据集计算合格阈值,并用作生物体中的拷贝数变异(例如非整倍性)的诊断限。如果通过本文公开的方法获得的结果超过阈值,则可诊断个体具有拷贝数变异,例如21三体性。通过分析对于样品训练集计算的标准化值(例如染色体量,NCV或NSV),可以鉴定用于本文所述方法的适当阈值。可使用训练集中的合格(即,未受影响)样品来鉴定阈值,训练集包括合格(即,未受影响)样品和受影响样品两者。已知具有染色体非整倍性的训练集中的样品(即,受影响的样品)可用于确认所选择的阈值能否用于区分测试集中的未受影响的样品(参见本文的实施例)。阈值的选择取决于用户希望进行分类的置信度水平。在一些实施方案中,用于鉴定适当阈值的训练集包含至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800。至少900、至少1000、至少2000、至少3000、至少4000或更多个合格样品。使用更大的合格样品集以提高阈值的诊断效用可能是有利的。

术语“箱(bin)”是指序列的区段或基因组的区段。在一些实施方案中,箱在基因组或染色体内彼此连续。每个箱可以定义参考序列(例如参考基因组)中的核苷酸序列。箱的大小可以是1kb、100kb、1Mb等,这取决于具体应用所需的分析和序列标签密度。除了它们在参考序列内的位置之外,箱还可以具有其它特性,例如样品覆盖度和序列结构特性,例如G-C分数。

术语“读数”是指从核酸样品的一部分获得的序列。通常(但不是必然),读数代表样品中连续碱基对的短序列。读数可以由样品部分的碱基对序列(A、T、C或G中)符号表示。读数可以被存储在存储器设备中,并且被适当地处理以确定其是否匹配参考序列或满足其它标准。读数可以直接从测序装置获得,或者间接从存储的关于样品的序列信息获得。在一些情况下,读数是足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可与染色体或基因组区域或基因进行比对和特异性指定。

术语“基因组读数”用于指个体的整个基因组中的任何区段的读数。

术语“序列标签”在本文中可与术语“映射序列标签”互换使用,指通过比对被特异性分配(即,映射)到较大序列(例如,参考基因组)的序列读数。映射序列标签被唯一地映射到参考基因组,即它们被分配到参考基因组的单个位置。除非另有说明,映射到参考序列上的相同序列的标签被计数一次。标签可以作为数据结构或其它数据集合来提供。在某些实施方案中,标签包含读数序列和该读数的相关信息,例如该序列在基因组中的位置,例如染色体上的位置。在某些实施方案中,以正链方向指定位置。可以定义标签以允许与参考基因组比对中的限量错配。在一些实施方案中,可以被映射到参考基因组上多个位置的标签(即,不是唯一映射的标签)可以不被包括在分析中。

术语“位点”是指参考基因组上的独特位置(即,染色体ID,染色体位置和方向)。在一些实施方案中,位点可以提供序列上的残基、序列标签或区段的位置。

本文所用术语“比对”是指将读数或标签与参考序列进行比较并由此确定参考序列是否包含读数序列的过程。如果参考序列包含读数,则读数可以映射到参考序列,或者在某些实施方案中,映射到参考序列中的具体位置。在一些情况下,比对简单地告知读数是否是具体参考序列的成员(即,读数是否存在于参考序列中)。例如,将读数与人13号染色体的参考序列进行比对,将会判断该读数是否存在于13号染色体的参考序列中。提供该信息的工具可以被称为集合成员资格检验器。在一些情况下,比对还能指示读数或标签映射到的参考序列中的位置。例如,如果参考序列是完整的人类基因组序列,则比对可以指示在13号染色体上存在读数,并且可以进一步指示该读数在13号染色体的具体链和/或位点上。

比对的读数或标签是一个或多个序列,根据它们的核酸分子与来自参考基因组的已知序列的顺序被鉴定为匹配。比对虽然可以手动完成,但是比对通常由计算机算法实现,因为不大可能在实施本文公开的方法的合理时间周期内比对读数。来自比对序列的算法的一个实例是作为Illumina Genomics Analysis流程的一部分发布的Efficient LocalAlignment of Nucleotide Data(ELAND)计算机程序。或者,可以使用Bloom过滤器或类似的集合成员资格检验器将读数与参考基因组比对。参见2011年10月27日提交的美国专利申请61/552,374号,通过援引加入方式将其全部内容并入本文。比对中读数的序列的匹配可以是100%序列匹配或小于100%(非完美匹配)。

本文所用的术语“映射”是指通过比对将序列读数特异地分配到较大序列,例如参考基因组。

在本文中当在核酸或核酸的混合物的语境下使用时,术语“源自”是指从核酸获自它们的来源的方式。例如,在一个实施方案中,源自两个不同基因组的核酸混合物意味着核酸(例如cfDNA)通过天然存在的过程(例如坏死或细胞凋亡)被细胞天然释放。在另一个实施方案中,源自两个不同基因组的核酸混合物意味着从来自个体的两种不同类型的细胞中提取核酸。

在本文中,术语“基于”当用于获得具体定量值的语境中时,是指使用另一个量作为输入以计算作为具体定量值作为输出。

本文中的术语“患者样品”是指从患者(即医学关注、护理或治疗的接受者)获得的生物样品。患者样品可以是本文所述的任何样品。在某些实施方案中,患者样品通过非侵入性操作获得,例如外周血样品或粪便样品。本文所述的方法不必限于人。因此,考虑了各种兽医应用,在这种情况下,患者样品可以是来自非人哺乳动物(例如,猫,猪,马,牛等)的样品。

本文中的术语“混合样品”是指含有源自不同基因组的核酸混合物的样品。

本文中的术语“母体样品”是指从妊娠个体(例如,女性)获得的生物样品。

本文中的术语“生物流体”是指取自生物来源的液体,包括例如血液,血清,血浆,痰,灌洗液,脑脊液,尿液,精液,汗液,泪液,唾液等。本文所用术语“血液”、“血浆”和“血清”明确地包括它们的级分或加工部分。类似地,当样品取自活组织检查,拭子,涂片等时,“样品”明确地包括来自活组织检查,拭子,涂片等的经处理的级分或部分。

术语“母体核酸”和“胎儿核酸”在本文中分别指怀孕母体个体的核酸和怀孕母体孕育的胎儿的核酸。

如本文所用,术语“胎儿分数”是指存在于包含胎儿和母体核酸的样品中的胎儿核酸的分数。胎儿分数经常用于表征母体血液中的cfDNA。

如本文所用,术语“染色体”是指活细胞的带有遗传功能的基因载体,其源自包含DNA和蛋白质组分(特别是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。

本文所用的术语“灵敏度”是指当目标状态存在时,测试结果将为正的概率。它可以计算为真阳性数除以真阳性数和假阴性数之和。

本文所用的术语“特异性”是指当目标状态不存在时,测试结果将为阴性的概率。它可以被计算为真阴性数除以真阴性数和假阳性数之和。

怀孕母体的血液包括循环游离DNA,其中一些来自母体孕育的胎儿,一些来自母体。对于NITP,可以从怀孕母体的外周血的血浆中提取包括母体和胎儿DNA的cfDNA。cfDNA然后可用于确定胎儿的遗传状态,例如拷贝数变异(CNVs)。

母体血浆样品代表母体和胎儿cfDNA的混合物,胎儿cfDNA比母体cfDNA具有更低的分数。用于检测胎儿状态的任何给定NIPT方法的成功取决于其对检测低胎儿分数样品中的变化的灵敏性。对于基于计数的方法,它们的灵敏度由(a)测序深度和(b)数据标准化减少技术变异的能力来确定。本申请提供了通过组合胎儿cfDNA和胎儿细胞DNA以提高NIPT的分析灵敏度的用于NIPT和其它应用的方法。提高的分析灵敏度提供了在降低的覆盖度(例如,降低的测序深度)下应用NIPT方法的能力,这使得能够使用该技术来较低成本地测试平均风险妊娠。

由于将cfDNA用于NIPT存在技术困难,已经开发了各种技术和方法来增加基于cfDNA的测试的灵敏度、选择性或信噪比。改进测试的一种方法是结合来自胎儿cfDNA和胎儿细胞DNA的信息以改进测试。在NIPT中,胎儿细胞DNA可以从循环胎儿细胞(cFC)获得,循环胎儿细胞是源自胎儿并在母体血液中循环的胎儿细胞。下文描述了可用于从循环胎儿细胞获得胎儿细胞DNA的示例性技术。在获得胎儿细胞DNA后,可以将其与胎儿cfDNA组合以确定胎儿的遗传状态。例如,美国专利申请14/802,873号描述了结合胎儿cfDNA和胎儿细胞DNA以提高NIPT的灵敏性,选择性或准确性的各种技术。

通常,cFC,例如胎儿有核红细胞(胎儿NRBC),以非常低的浓度存在于母体血液中。因此,从cFC获得的胎儿细胞DNA需要与胎儿cfDNA组合以提供可靠的NIPT测试结果。如美国专利申请公开2013/0122492号中所估计的,在1毫升母体血液中仅存在约1至2个胎儿NRBC。考虑到低cFC浓度,难以从母体外周血获得或分离cFC。有时只能从母体外周血样品中分离单个细胞或少量细胞。

这一问题更复杂的一点在于,与妊娠后在母体外周血中快速清除的胎儿cfDNA不同,妊娠结束后胎儿细胞可能在母体血中存留很长时间。这意味着从怀孕母体中分离的任何胎儿细胞不能可靠地被认为来源于当前妊娠。如果产前测试的结果是基于源自过往妊娠的细胞,则这可能导致严重的误诊。

与cFC相比,胎儿cfDNA具有非常短的血浆半衰期,并且在妊娠分娩后迅速从母体循环中清除。因此,从母体外周血样品中获得的cfDNA可以被可靠地归结为怀孕母体或正在进行的妊娠的胎儿。

本申请的一些实施方案提供了一种高置信度地确定从怀孕母体外周血获得的cFC(或胎儿细胞DNA)是源自当前妊娠的胎儿还是过往妊娠的胎儿的方法。该方法包括将获自胎儿细胞DNA的遗传信息与获自胎儿cfDNA的遗传信息进行比较。该方法还利用母体DNA(母体cfDNA或母体细胞DNA)。

一些实施方案包括使用cfDNA确定怀孕母体和当前胎儿在信息基因座的基因型,即母体是纯合型而胎儿是杂合型的基因座。在一些实施方案中,信息基因座包括双等位基因座。在一些实施方案中,信息基因座包括SNP基因座。该方法还包括计数信息基因座的数量,其中胎儿cfDNA和胎儿细胞DNA都是杂合型并共有相同的等位基因。这些基因座称为共有基因座或匹配基因座,这些基因座上的遗传标志物称为共有遗传标志物或匹配遗传标志物。将共有遗传标志物(或共有基因座)的数量提供给贝叶斯框架中的概率模型。该模型将共有遗传标志物(或共有基因座)的数量模拟为从β-二项式分布中抽取的随机样品。该模型提供胎儿细胞DNA的不同来源的各种情景的输出概率。基于概率,可以确定胎儿细胞DNA的来源。

在一些实施方案中,可以确定循环胎儿细胞的不同来源。在这样的实施方案中,确定cFC(除了来自cFC的DNA之外)的身份。通常对于这些实施方案,从母体样品中分离循环胎儿细胞。这与将循环胎儿细胞和循环母体细胞(例如,循环有核红细胞)一起处理并且从循环胎儿细胞和循环母体细胞获得细胞DNA的方法是不同的。然后可以从细胞DNA中分离或鉴定胎儿细胞DNA。在前一种方法中,可以鉴定出cFC和胎儿细胞DNA。参见,例如,图8。在后一种方法中,可以鉴定胎儿细胞DNA(而不是cFC)。参见,例如,图7。

图1示出了用于确定循环胎儿细胞的不同来源的方法100。方法100包括获得包括母体cfDNA和胎儿cfDNA的cfDNA样品。例如,cfDNA样品可以是母体外周血样品。如下文在样品章节中所解释的,可以使用其它样品。这样的样品包括但不限于痰/口液,羊水,血液,血液级分或细针活检样品(例如,外科活检,细针活检等),尿液,腹膜液,胸膜液等。

本文公开的方法假定孕育胎儿的母体是所讨论的胎儿的遗传学母体,而不是没有贡献一半胎儿基因组的代孕者。可以使用各种技术从母体外周血样品的血浆组分提取cfDNA。下文在样品章节中描述了一些用于提取cfDNA的示例性技术。

方法100还包括确定母体cfDNA的一组遗传标志物的基因型和胎儿cfDNA的一组遗传标志物的基因型。参见框103。该组遗传标志物的基因型包括在具体遗传基因座的等位基因。在一些实施方案中,遗传标志物包括多态性基因座的等位基因。在一些实施方案中,多态性基因座是双等位基因的。方法100还包括鉴定一组信息遗传标志物(在上文所述的一组遗传标志物中),其中母体cfDNA是纯合型,胎儿cfDNA是杂合型。参见框104。

方法100还包括获得至少一个循环胎儿细胞(cFC)。参见框106。下文将进一步描述用于获得cFC的各种方法,例如图8中所描绘的方法。

方法100还包括确定cFC中上文所述的一组信息遗传标志物的基因型。参见框108。方法100还包括计数共有遗传标志物的数量(k)。共有遗传标志物是信息遗传标志物,其中cFC的基因型与胎儿cfDNA的基因型匹配(cFC和胎儿cfDNA都是杂合型)。参见框110。

方法100还包括将共有遗传标志物的数量(k)提供给概率模型。参见框112。概率模型可以根据图3和4来实现。在一些实施方案中,可以使用训练数据和机器学习技术来训练概率模型。

然后,作为概率模型的输出,方法100获得三种情景的概率:(1)cFC和cfDNA来自当前妊娠中的相同胎儿,(2)cfDNA和cFC来自具有相同父亲的两个不同胎儿,以及(3)cFC和cfDNA来自具有两个不同父亲的两个不同胎儿。参见框114。

图2示出了用于确定胎儿细胞DNA的遗传来源或胎儿细胞DNA的来源的方法200。胎儿细胞DNA的根源或来源可以是当前妊娠的胎儿或过往妊娠的胎儿。对于过往妊娠的胎儿,它可能与当前妊娠中的胎儿具有相同或不同的父亲。方法200与方法100的不同之处在于,不必使用从母体血液样品获得的cfDNA来确定当前妊娠中胎儿的基因型和怀孕母体的基因型。此外,在方法200中使用的胎儿细胞DNA可以从与母体细胞混合或与母体细胞分离的循环胎儿细胞中获得。相比之下,方法100通常使用已经从母体细胞分离的循环胎儿细胞。

方法200包括接收当前妊娠中胎儿的基因型。参见框202。在一些实施方案中,当前妊娠中胎儿的基因型由从母体外周血样品获得的循环cfDNA获得。在其它实施方案中,当前妊娠中胎儿的基因型可以从其它基因样品获得,例如痰/口腔液,羊水,血液,血液级分,或细针活检样品(例如外科活检,细针活检等),尿液,腹膜液,胸膜液等。该方法中的基因型被定义为基因组中一个或多个基因座上的一个或多个等位基因。在一些实施方案中,一个或多个基因座是多态性基因座。在一些实施方案中,多态性基因座是双等位基因基因座,其中每个基因座具有两个不同的等位基因。

方法200继续接收孕育胎儿的怀孕母体的基因型。参见框204。在一些实施方案中,怀孕母体的基因型由从母体外周血样品提取的cfDNA获得。在一些实施方案中,怀孕母体的cfDNA和胎儿的cfDNA都是从母体外周血样品中提取的。可以使用各种技术来确定一段cfDNA来自胎儿或母体。在一些实施方案中,怀孕母体的基因型可以由从母体细胞提取的细胞DNA获得。

方法200还包括从当前妊娠的胎儿基因型和怀孕母体基因型鉴定一组信息遗传标志物。参见框206。每个信息遗传标志物在怀孕母体中是纯合型,而在当前妊娠的胎儿中是杂合型。

方法200还包括在获自怀孕母体的胎儿细胞DNA的每个信息遗传标志物处确定一个或多个等位基因。参见框208。在一些实施方案中,胎儿细胞DNA是从怀孕母体血液中存在的一个或多个cFC中提取的。在一些实施方案中,cFC已经与母体细胞分离。例如,从母体细胞中分离胎儿有核红细胞(NRBC),分离的胎儿NRBC用于提取胎儿细胞DNA。图8说明了从已经分离自母体细胞的胎儿NRBC获得胎儿细胞DNA的一个示例性方法。在其它实施方案中,胎儿来源的细胞DNA和母体来源的细胞DNA可以从混合在一起的胎儿细胞和母体细胞获得。然后可以从母体细胞DNA中分出或分离胎儿细胞DNA。图7说明了通过从母体细胞DNA中分离胎儿细胞DNA来获得胎儿细胞DNA的一个示例性方法。

方法200还包括提供获自怀孕母体的胎儿细胞DNA的每个信息遗传标志物的一个或多个等位基因作为概率模型的输入。参见框210。在一些实施方案中,将胎儿细胞DNA的每个信息遗传标志物处的一个或多个等位基因与当前妊娠中胎儿的每个信息遗传标志物处的一个或多个等位基因进行比较。然后计数循环胎儿细胞DNA和当前妊娠中胎儿共有相同的两个不同等位基因(当前妊娠的胎儿在每个信息遗传标志物处是杂合型)的基因座的数量(k),并作为概率模型的输入。在一些实施方案中,对概率模型的输入如图3中的框310所示被实施。图4进一步描述了概率模型。

方法200还包括作为概率模型的输出,获得三种情景的概率,即,获自怀孕母体的胎儿细胞DNA来源于(1)当前妊娠的胎儿,(2)过往妊娠的胎儿并与当前妊娠的胎儿具有相同的父亲,以及(3)过往妊娠的胎儿并与当前妊娠的胎儿具有不同的父亲。参见框212。

在一些实施方案中,模型可以被扩展以覆盖另外的情景,其中两个胎儿的父亲不同,但相关,例如亲兄弟,表/堂兄弟等。在一些实施方案中,用于不同父亲间关系的共有等位基因的预期数量可以通过具有不同参数的不同β分布来建模。在其它实施方案中,通过组合根据共有父本基因的程度加权的两个情景的混合来建模不同的父亲间关系(例如亲兄弟,表/堂兄弟等),这两个情景是(a)过往胎儿具有与当前胎儿相同父亲和(b)过往胎儿具有与当前胎儿的父亲无关的父亲。

然后,方法200基于由模型提供的三种情景的概率来确定胎儿细胞DNA是否源自当前妊娠中的胎儿。具有最高概率的情景被确定为胎儿细胞DNA的情景。当胎儿细胞DNA被确定为来自当前妊娠的胎儿时,胎儿细胞DNA的遗传信息可以与胎儿cfDNA的遗传信息组合以检测各种遗传状态,例如拷贝数变异,非整倍性和简单的核苷酸变异。

图3说明了使用源自当前妊娠胎儿的胎儿细胞DNA和来自所述胎儿的胎儿cfDNA来确定拷贝数变异的方法300。方法300可以使用方法200中描述的方法来确定胎儿细胞DNA源自当前妊娠中的胎儿。该方法包括提供共有遗传标志物的数量(k)作为概率模型的输入。如上所述,共有遗传标志物是一种信息遗传标志物,胎儿细胞DNA和当前妊娠中的胎儿具有相同的等位基因。参见框310。框310中所示的操作可以按照图2的框210中的操作实施。

方法300还包括在给定共有遗传标志物标志物的数量的情况下获得作为模型输出的三个情景的概率。这三种情景是:获自怀孕母体的胎儿细胞DNA来源于(1)当前妊娠的胎儿,(2)过往妊娠的胎儿并与当前妊娠的胎儿具有相同的父亲,和(3)过往妊娠的胎儿并与当前妊娠的胎儿具有不同的父亲。参见框312。当情景(1)的概率高于其它情景的概率时,方法300还包括确定胎儿细胞DNA源自当前妊娠中的胎儿。参见框314。

在方法200和方法300中描述的方法不需要直接知晓父本基因型。如果选择标志物以避免缺乏杂合性的区域,则该方法可应用于血缘关系。在一些实施方案中,可以扩展所述方法以区分父亲(例如亲兄弟,表/堂兄弟等)之间的不同程度的关系。

方法300还包括使用获自当前妊娠中的胎儿的胎儿细胞DNA来确定胎儿的拷贝数变异。在一些实施方案中,胎儿的cfDNA的遗传信息与胎儿细胞DNA的遗传信息结合,以在非侵入性产前测试中确定胎儿的CNV。美国专利申请14/802,873号描述了组合来自胎儿细胞DNA的遗传信息和来自胎儿cfDNA的遗传信息以检测CNV和其它遗传状态的各种方法。通过组合两种类型的遗传信息,可以提高NIPT的灵敏度、选择性和信噪比。

图4示出了可以在方法200和方法300中实施的概率模型的组成。以下符号用于描述模型。

S

k是匹配遗传标志物的数量

n是信息遗传标志物的数量

μ

a

w是权重参数

BN()表示二项式分布

Beta(β)表示β分布

BB()表示β二项式分布

β()表示β函数

如图4所示,概率模型将共有遗传标志物的数量(k)作为输入。共有遗传标志物是信息遗传标志物中的遗传标志物,获自怀孕母体的胎儿细胞DNA和当前妊娠的胎儿具有相同的等位基因。给定共有遗传标志物的数量的情况下,概率模型提供三个情景的概率作为输出,p(s

其中,p(s

在一些实施方案中,概率模型模拟给定情景i的情况下共有遗传标志物的数量(k|s

k|s

此处,n是信息遗传标志物的数量;μ

在一些实施方案中,μ

u

此处,a

在这些实施方案中,概率模型为每个情景模拟给定情景i的情况下共有遗传标志物的数量(k|s

k|S

此处,n是信息遗传标志物的数量。

在一些实施方案中,给定情景i的情况下匹配遗传标志物的数量k的概率从以下方程5的似然函数计算。

此处,n是信息遗传标志物的数量,k是共有遗传标志物的数量,β()是β函数,a

在一些实施方案中,根据方程6计算超参数a

a

b

从情景i的二项式分布的成功率μ

在一些实施方案中,使用机器学习方法来获得或细化权重参数w。机器学习方法提供训练数据集,训练数据集包括在三个不同情景下从样品获得的数据的三个子集。将具有不同权重参数w值的概率模型应用于训练数据。然后将提供与训练数据的最佳拟合的权重参数值用作权重参数值以测试cFC或从cFC获得的胎儿细胞DNA的遗传来源。

在一些实施方案中,概率模型根据方程8计算情景(1)的共有遗传标志物的预期比例μ

概率模型根据方程9计算情景(2)的共有遗传标志物的预期比例。情景(2)是获自怀孕母体的胎儿细胞DNA来自过往妊娠的胎儿,并且过往妊娠的胎儿与当前妊娠的胎儿具有相同的父亲。

此处,p

概率模型根据方程10计算情景(3)的共有遗传标志物的预期比例μ

在一些实施方案中,基于已知先验信息,三个情景的在先概率p(s

在一些实施方案中,当测试个体的在先情况是未知的时,可以基于一般群体来应用默认值。在一些实施方案中,当先前妊娠信息都不可获得时,一些实施方案将情景的概率设置为相同。

观察到共有遗传标志物的数量的概率p(k)是方程1的标准化常数,并且可以根据方程11来计算。

p(k)=∑

图5示出了使用概率建模和计算机模拟来匹配字符串配对的方法500。任何配对中的两个字符串具有相同数量的字符。匹配字符串配对的方法的一些实施方案可应用于基因序列对或遗传标志物串配对。在一些实施方案中,字符串包括不同组的信息遗传标志物。可以实施方法500以确定一组遗传标志物(例如,获自怀孕母体的循环胎儿细胞的一组遗传标志物)是否与另一组标志物(例如,从母体血液样品获得的胎儿的循环cfDNA的一组遗传标志物)匹配。这种实施方案对应于图2所示的方法200和图3所示的方法300。在一些实施方案中,字符串包含生物分子的序列,例如多核苷酸,多肽,多糖和其它聚合物。

方法500从接收第一字符串配对开始。参见框522。方法500还包括接收第五字符串配对。每个配对的两个字符串具有相同的字符串大小。参见框524。方法500还包括鉴定第一字符串配对和第五字符串配对中的一组信息性字符位置。参见框526。所述一组信息性字符位置的每个信息性字符位置(a)表示每个字符串中的唯一位置,(b)在任何字符串配对中具有两个不同字符中的一个或两个,(c)在第五字符串配对中仅具有所述两个不同字符中的一个字符,以及(d)在第一字符串配对中具有所述两个不同字符中的二者。

方法500还包括对于第四字符串配对确定在所述一组信息性字符位置处的字符。参见框528。

方法500还包括接收包括字符串配对的训练数据集,并使用该训练数据集训练概率模型。参见框530。

方法500还包括提供第四字符串配对的所述一组信息性字符位置的字符作为概率模型的输入。参见框532。

方法500还包括作为概率模型的输出,获得三个情景的概率:第四字符串配对与第一、第二和第三字符串配对相匹配。参见框534。每个信息性字符位置在每个字符串上具有对应的位置。通过将第五字符串配对与第六字符串配对重新组合,可以获得第一字符串配对。还可以通过将第五字符串配对与第六字符串配对重新组合来获得第二字符串配对。通过将第五字符串配对与第七字符串配对重新组合,可以获得第三字符串配对。字符串重新组合涉及使用反映双链DNA生物重组的基因算法和技术,双链DNA生物重组包括但不限于片段化、交换和突变。

在一些实施方案中,字符串配对对应于来自亲本和后代的一组遗传标志物的等位基因配对。在一些实施方案中,第一对字符串配对应于一组信息遗传标志物的当前妊娠中胎儿的等位基因。第二对字符串配对应于过往妊娠中的胎儿的等位基因,其中过往妊娠中的胎儿与当前妊娠中的胎儿具有相同父亲。第三对字符串配对应于过往妊娠的胎儿的等位基因,其中过往妊娠中的胎儿与当前妊娠中的胎儿具有不同父亲。第四对字符串配对应于从母体血液样品中的循环胎儿细胞获得的胎儿细胞DNA的等位基因。第五对字符串配对应于孕育胎儿的怀孕母体的等位基因。第六对字符串配对应于当前妊娠胎儿父亲的等位基因。第七对字符串配对应于不是当前妊娠的胎儿的父亲的男性的等位基因。

方法500还包括基于从概率模型获得的三个概率来确定第四字符串配对与第一、第二或第三字符串配对匹配。参见框536。

在一些实施方案中,操作532包括将匹配的字符位置的数量作为输入提供给概率模型,其中匹配的字符位置是第四字符串配对和第一字符串配对具有相同字符的信息性字符位置中的字符位置。在一些实施方案中,在给定匹配字符位置的数量的情况下,概率模型基于给定三个情景情况下的概率来计算三个情景的概率。

在一些实施方案中,在给定匹配字符位置的数量的情况下,概率模型按照

在一些实施方案中,对于每个情景,概率模型将给定情景i情况下的匹配字符位置的数量(k)模拟为从β二项式分布中提取的随机变量。

在一些实施方案中,概率模型模拟给定情景i情况下的匹配字符位置的数量(k|s

在一些实施方案中,给定情景i情况下的匹配字符位置的数量的概率是从似然函数

在一些实施方案中,a

本章节描述了从怀孕母体获得生物样品以提取胎儿细胞DNA和胎儿+母体cfDNA的示例性工作流程,然后用于制备提供DNA的文库以获得用于确定胎儿的目标序列的信息。在该方法中,重要的是确定胎儿细胞DNA的来源是来自当前妊娠的胎儿还是过往妊娠的胎儿。在胎儿细胞DNA的来源被确定为来自当前妊娠的胎儿之后,来自包括当前妊娠的胎儿的DNA的cfDNA的信息可以与来自当前妊娠的胎儿的细胞DNA的信息组合。然后可以使用组合信息来确定胎儿的遗传状态。与单独使用cfDNA相比,使用组合信息可以提高诊断的准确性、灵敏性和/或选择性。

在一些实施方案中,目标序列包括与医学病症或生物学特性相关的单核苷酸多态性。在涉及染色体或染色体区段的实施方案中,本文公开的方法可用于鉴定单体性或三体性,例如引起唐氏综合征的21三体性。

在一些实施方案中,胎儿细胞DNA可以从母体血液中循环的胎儿有核红细胞获得,胎儿+母体混合cfDNA可以从母体血液的血浆获得。然后将两个来源的DNA组合在一起并进一步处理,在一些实施方案中,得到具有鉴定DNA来源的索引的两个测序文库。如果胎儿细胞DNA来自当前妊娠的胎儿(与胎儿cfDNA相同),则可以将从两个文库获得的测序信息组合以确定目标序列。下文的一些实例描述了如何将胎儿cfDNA和胎儿细胞DNA组合以确定目标序列。例如,在一些实施方案中,来自胎儿细胞DNA的序列信息可用于验证从cfDNA分析获得的嵌合现象(mosaicism)判定。另外,来自胎儿细胞DNA和cfDNA的序列信息的组合可以提供更高的置信区间和/或减少拷贝数变异、胎儿分数和/或胎儿接合性判定中的噪音。例如,来自胎儿细胞DNA的信息可用于降低数据中的噪声,从而有助于将纯合型胎儿与杂合型胎儿区分开(当母体是杂合型时)。

在一些实施方案中,可以使用靶向扩增和测序方法。在其它实施方案中,可在测序之前应用全基因组扩增。为了减少处理偏倚和允许可靠地比较游离核酸序列和细胞核酸序列,在一些实施方案中,类似地处理两个核酸样品。例如,它们可以通过多重技术在来自两个样品的核酸的混合物中进行测序。在一些实施方案中,细胞核酸和游离核酸得自相同的样品,但然后在分离的级分中分离和索引(或以其它方式唯一鉴定),然后合并级分用于扩增,测序等。在一些实施方案中,在与胎儿+母体游离核酸级分组合之前,胎儿细胞核酸级分被增强,使得单独索引的细胞核酸和游离核酸在尺寸和浓度方面是类似的,然后合并用于测序和其它下游处理。

图6示出了根据本申请的一些实施方案的用于确定胎儿的目标序列的方法600的方法流程。图7-9是图6所示的方法流程的各种组成部分的具体实施方案。在一些实施方案中,方法600包括从怀孕母体的母体血液样品中获得细胞DNA。参见框602。在一些实施方案中,细胞DNA包括母体细胞DNA和胎儿细胞DNA。在一些实施方案中,胎儿细胞DNA在进一步下游处理之前从母体细胞DNA中分离。胎儿细胞DNA包括至少一个与目的序列映射的序列。在一些实施方案中,目标序列包括疾病相关基因的多态性序列。在一些实施方案中,目标序列包含与疾病相关的等位基因的位点。在一些实施方案中,目标序列包含以下一种或多种:单核苷酸多态性、串联重复、缺失、插入、染色体或染色体区段。

在一些实施方案中,胎儿细胞DNA获自母体血液样品中循环的胎儿有核红细胞(NRBC)。胎儿细胞DNA和胎儿NRBC可以如本文所述从母体外周血中获得。在一些实施方案中,胎儿NRBC获自母体血液样品的红细胞组分。在一些实施方案中,胎儿细胞DNA可以从母体血液中循环的其它胎儿细胞类型获得。

在一些实施方案中,该方法还包括从怀孕母体获得母体+胎儿混合cfDNA。参见框606。cfDNA包括至少一个与至少一个目的序列映射的序列。在一些实施方案中,cfDNA获自来自母体的血液样品的血浆。在一些实施方案中,相同的血液样品也提供胎儿NRBC作为胎儿细胞DNA的来源。当然,细胞DNA和cfDNA也可以从同一母体的不同样品中获得。

在一些实施方案中,该方法应用来自胎儿细胞DNA或来自cfDNA的DNA来源的指示符。在一些实施方案中,指示符包括第一文库标识符和第二文库标识符。在一些实施方案中,所述方法包括制备从操作602获得的胎儿细胞DNA的第一测序文库,其中所述第一测序文库可通过第一文库标识符来鉴定。参见框604。在一些实施方案中,第一文库标识符是在下游测序步骤中可鉴定的第一索引序列。在一些实施方案中,DNA来源的指示符还包括可通过第二文库标识符鉴定的cfDNA的第二测序文库。参见框608。在制备序列库时,该方法可包括将索引并入所述序列库中的每一个,其中并入所述第一文库的索引与并入所述第二文库的索引不同。索引包含在下游测序步骤中可鉴定的独特序列(例如条形码),从而提供核酸来源的指示符。

在一些实施方案中,DNA源的指示符可以通过其它方法提供,例如大小分离。

在一些实施方案中,该方法通过组合第一测序文库的胎儿细胞DNA的至少一部分和第二测序文库的cfDNA的至少一部分来进行,以提供第一和第二测序文库的混合文库。参见框610。

在图6中,第一测序文库和第二测序文库的准备被示为工作流程的两个单独的分支,并且所准备的文库被组合以获得第一和第二测序文库的混合文库。然而,在一些实施方案中,两个文库在开始时被单独索引,然后在组合样品中被进一步处理。在一些实施方案中,该方法包括进一步处理组合的样品以制备或修饰测序文库。在一些实施方案中,进一步的处理包括并入用于大规模平行测序的测序衔接子(例如配对末端引物)。

在一些实施方案中,该方法然后对第一和第二测序文库的混合文库的至少一部分进行测序,以提供可由第一文库标识符鉴定的第一多个序列标签和可由第二文库标识符鉴定的第二多个序列标签。参见框612。在一些实施方案中,序列读数然后被映射到包含目标序列的参考序列,从而提供映射到目标序列的序列标签。在一些实施方案中,目标序列可以鉴定等位基因的存在。在一些实施方案中,已经选择性地富集了样品的目标序列。

在一些实施方案中,在测序之前代替选择性富集目的序列或除了选择性富集目的序列之外,可以通过全基因组扩增扩增样品。在这些实施方案中的一些中,序列读数与包含目标序列(例如染色体,染色体区段)的参考基因组比对,与具有靶向较短目标序列(例如SNP、STR和尺寸达到kb的序列)的选择性富集的实施方案相比,这些实施方案中的目标序列通常更长。序列读数与目的序列的映射为目的序列提供序列标签,其可用于确定与目的序列相关的遗传状态,例如非整倍性。

在一些实施方案中,方法应用大规模平行测序。可以使用各种测序技术,包括但不限于合成测序和连接测序。在一些实施方案中,合成测序使用可逆染料终止子。在一些实施方案中,使用单分子测序。

在一些实施方案中,方法还包括分析第一和第二多个序列标签,以确定至少一个目标序列。参见框614。多个序列标签的至少一部分映射到至少一个目标序列。在一些实施方案中,方法确定映射到目标序列的序列标签的存在或丰度。这可以包括确定CNV(例如非整倍性)和非NCV异常。特别地,该方法可以测定cfDNA和细胞DNA的每一个中两个等位基因的相对量。在一些实施方案中,该方法可以通过确定胎儿与疾病相关基因的致病等位基因是纯合型来检测胎儿具有遗传病症,其中母体对于该等位基因是杂合型。

在一些实施方案中,方法以单独反应环境(例如试管)中的细胞DNA和cfDNA开始。在一些实施方案中,所述方法包括使用靶向疾病相关基因的两个等位基因并具有不同的细胞DNA和cfDNA索引的探针富集野生型和突变型区域,所述索引被整合到单独反应环境中的靶向序列中。该方法还包括将具有富集的靶区域的细胞DNA和cfDNA混合,并使用通用PCR引物扩增DNA。在一些实施方案中,应用全基因组扩增代替靶序列扩增。扩增产物将是胎儿细胞DNA和母体和胎儿的cfDNA的待测序文库。然后可以使用测序结果来确定胎儿的目标序列。在一些实施方案中,确定目的序列提供了用于检测涉及目的序列的CNV或非CNV染色体异常的信息。在一些实施方案中,该方法可以测定胎儿的接合性(zygosity)和/或cfDNA的胎儿分数。

在一些实施方案中,该方法还包括从cfDNA和细胞DNA确定多个训练序列,其可用于确定涉及目标序列的CNV或非CNV染色体异常。一些实施方案进一步使用从细胞DNA获得的序列信息来确定cfDNA的胎儿分数。在图6中举例说明的和上面关于DNA阐述的方法也可以对其它核酸(例如mRNA)进行。

在各种实施方案中,从母体外周血液中获得母体+胎儿混合cfDNA和胎儿细胞DNA以提供遗传物质,分别如图6的框602和框606所示。遗传物质用于产生两个可鉴定的文库,分别如图6的框604和框608所示。然后将两个文库组合用于进一步的下游处理和分析。可以使用各种方法获得cfDNA和胎儿细胞DNA。下面描述了两种方法作为实例以说明获得用于下游处理和分析的cfDNA和胎儿细胞DNA的适用方法。

胎儿细胞DNA和混合cfDNA可以从固定化或非固定化血液样品中获得。可使用多种不同技术中的任一种来收集母体外周血样品。适用于各样品类型的技术对于本领域技术人员来说是清楚的。例如,在某些实施方案中,血液被收集在专门设计的血液收集管或其它容器中。这种管可以包括抗凝剂,例如乙二胺四乙酸(EDTA)或柠檬酸右旋糖(ACD)。在一些情况下,管包括固定剂。在一些实施方案中,将血液收集在柔和固定细胞并灭活核酸酶的管中(例如,Streck游离DNA BCT管)。参见2010年2月11日提交的美国专利申请公开2010/0209930号和2010年1月19日提交的美国专利申请公开2010/0184069号,其各自先前通过援引加入方式并入本文。

图7显示了使用获自怀孕母体的固定化全血样品获得母体+胎儿cfDNA和胎儿细胞DNA的方法700的流程图。当然,该方法可以修改成使用来自同一怀孕母体的两个样品,其中一个样品提供cfDNA,一个样品提供细胞DNA。方法700开始于将柔和固定剂与包括细胞DNA和cfDNA的母体血液样品混合。参见框702。细胞DNA可以来源于母体细胞和/或胎儿细胞。血液样品可以通过许多可用技术中的任何一种来收集。这种技术应收集足够量的样品以提供足够的cfDNA以满足测序技术的要求,并考虑到在处理方法中导致测序的损失。

在某些实施方案中,血液被收集在专门设计的血液收集管或其它容器中。这种管可以包括抗凝剂,例如乙二胺四乙酸(EDTA)或柠檬酸右旋糖(ACD)。在一些情况下,管包含固定剂。在一些实施方案中,将血液收集在柔和固定细胞并灭活核酸酶的管中(例如,Streck游离DNA BCT管)。参见2010年2月11日提交的美国专利申请公开2010/0209930号和2010年1月19日提交的美国专利申请公开2010/0184069号,其各自先前通过援引加入方式并入本文。

通常,需要收集和处理未被来自其它来源(如白细胞)的DNA污染的cfDNA。因此,可以从样品中移除白细胞和/或以降低白细胞将释放DNA的可能性的方式处理白细胞。

然后,方法700从固定化血液样品的红细胞组分中分离血浆组分。在一些实施方案中,为了将血浆组分与红细胞组分分离,该方法以低速离心血液样品,然后抽吸并分别保存血浆、白细胞层和红细胞组分。参见框704。

在一些实施方案中,将血液样品离心,有时离心多次。第一离心步骤施加低速以产生三个部分:顶部的血浆组分,含有白细胞的白细胞层和底部的红细胞组分。该第一次离心过程在相对低g的力下进行,以避免将血细胞(例如白细胞,有核红细胞和血小板)破坏到它们的核分裂并将DNA释放到血浆组分中的程度。通常使用密度梯度离心。如果该第一次离心步骤在太高的加速度下进行,来自白细胞的一些DNA可能污染血浆组分。在该离心步骤完成后,将血浆组分和红细胞组分彼此分离,并可进一步处理。

血浆组分可以进行第二次较高速度的离心以对DNA进行尺寸分离,从血浆中除去较大的颗粒,在血浆中留下cfDNA。参见框706。在该步骤中,将来自血浆的另外的颗粒物质沉淀为固相并除去。这种另外的固体物质可以包括一些另外的细胞,这些另外的细胞还含有会污染待分析的游离DNA的DNA。在一些实施方案中,第一次离心在约1600g的加速度下进行,第二次离心在约16000g的加速度下进行。

尽管从正常血液中单次离心过程可以获得cfDNA,但是已经发现这种做法有时会产生被白细胞污染的血浆。从这样的血浆中分离的任何DNA将包括一些细胞DNA。因此,为了从正常血液中分离cfDNA,可以对血浆进行高速第二次离心以沉淀出任何污染细胞。

在通过尺寸分离从血浆中去除较大尺寸的颗粒之后,方法700从血浆中分离/纯化cfDNA。参见框708。在一些实施方案中,可以通过以下操作来执行分离。

A.变性和/或降解血浆中的蛋白质(例如,与蛋白酶接触),并向溶液中加入盐酸胍或其它离液试剂(以促进将cfDNA驱离溶液)

B.在柱中使经处理的血浆与支持基质(例如珠)接触。cfDNA从溶液中出来并结合到基质上。

C.洗涤支持基质。

D.从基质中释放cfDNA并回收cfDNA用于下游处理(例如,加索引的文库制备)和统计分析。

如所述收集血浆组分后,提取cfDNA。提取实际上是一种多步骤过程,其涉及在柱或其它固相结合基质中从血浆中分离DNA。提取的cfDNA通常包括母体和胎儿cfDNA。根据母体和胎儿的妊娠阶段和生理条件,在一些实例中,cfDNA可以包括高至10%的胎儿DNA。

这种cfDNA分离方法的第一部分涉及变性或降解核小体蛋白,并采取步骤将DNA从核小体中释放出来。用于完成这种分离的典型试剂混合物包括去污剂、蛋白酶和离液剂,如鸟嘌呤盐酸盐。蛋白酶用于降解核小体蛋白,以及血浆中的背景蛋白,例如白蛋白和免疫球蛋白。离液剂通过干扰由非共价键(例如氢键)介导的分子内相互作用而破坏大分子的结构。离液剂还使血浆组分(如蛋白质)带负电荷。负电荷使介质与带负电荷的DNA有些能量上不相容。Boom et al.,“Rapid and Simple Method for Purification of NucleicAcids”,J.Clin.Microbiology,v.28,No.3,1990描述了使用离液剂促进DNA纯化。

在该蛋白降解处理后,其至少部分地从核小体蛋白中释放DNA螺旋,将所得溶液通过柱或以其它方式暴露于支持基质。经处理的血浆中的cfDNA选择性地粘附到支持基质上。血浆的剩余成分流过结合基质并被除去。赋予介质组分的负电荷促进DNA在支持基质孔中的吸附。

在经过处理的血浆通过支持基质后,洗涤具有结合的cfDNA的支持基质,以除去样品中另外的蛋白质和其它不需要的组分。洗涤后,从基质中释放并回收cfDNA。值得注意的是,该方法损失了血浆中可获得的DNA的显著部分。通常,支持基质对cfDNA具有高容量,这限制了可容易地从基质中分离的cfDNA的量。因此,cfDNA提取步骤的产率可能相当低。通常,效率远低于50%(例如,已经发现cfDNA的典型产率是4-12ng/ml血浆,实际存在的约30ng/ml血浆)。

可以使用其它方法以较高的产率从母体血液样品中获得cfDNA。本文进一步描述了一个例子。例如,在一个实施方案中,可以使用装置收集2-4滴患者血液(100-200μl),然后使用专门的膜将血浆与血细胞比容分离。该装置可用于产生NGS文库制备所需的50-100μl血浆。一旦血浆被膜分离,它就可以被吸收到预处理过的医用海绵中。在某些实施方案中,海绵用防腐剂、蛋白酶和盐的组合预处理,从而(a)抑制核酸酶和/或(b)稳定血浆DNA直到下游处理。可以使用产品,如Vivid Plasma Separation Membrane(Pall Life Sciences,Ann Arbor,Ml)和Medisponge 50PW(Filtrona technologies,St.Charles,Ml)。医用海绵中的血浆DNA可以以多种方式用于产生NGS文库。(a)从海绵中重构和提取该血浆,并分离DNA用于下游处理。当然,这种方法可能具有有限的DNA回收效率。(b)利用医用海绵聚合物的DNA结合特性来分离DNA。(c)使用与海绵结合的DNA进行基于直接PCR的文库制备。这可以使用本文所述的任何cfDNA文库制备技术进行。

从操作708获得的纯化的cfDNA可用于制备用于测序的文库。为了使用大规模平行测序系统对双链DNA片段群体进行测序,DNA片段的侧翼必须设置已知的衔接子序列。在任一端具有衔接子的这种DNA片段的集合被称为测序文库。用于从纯化的DNA产生测序文库的合适方法的两个实例是(1)将已知的衔接子连接到片段化DNA的任一端,和(2)转座酶介导的衔接子序列的插入。有许多合适的大规模平行测序技术。下面将描述其中的一些。

注意,至此针对图7中所示方法700所描述的操作702-708大体上与下文所描述的图8的方法800中的操作802-808重叠。

方法700还提供来自母体血液样品的胎儿细胞DNA,其利用从操作704的低速离心获得的红细胞组分。在一些实施方案中,该方法包括裂解红细胞组分DNA中的红细胞,产物包括cfDNA和细胞DNA。参见框710。接下来,方法700通过离心样品对DNA进行尺寸分离,从而允许分离cfDNA和细胞DNA,因为cfDNA的尺寸比细胞DNA小得多,如上所述。参见框712。在一些实施方案中,该离心操作可以类似于操作706的在16,000g下进行的离心。在一些实施方案中,从红细胞组分获得的cfDNA可以任选地与从血浆组分获得的cfDNA组合用于下游处理。参见框708。

方法700允许从红细胞组分获得细胞DNA。参见框714。从红细胞组分获得的细胞DNA主要来源于NRBC。在妊娠期间,存在于母体血流中的大部分NRBC是由母体自身产生的。参见Wachtel,et al.,Prenat.Diagn.18:455-463(1998)。在一些情况下,细胞DNA包括高达50%的胎儿细胞DNA。例如,细胞DNA可包括70%的母体DNA和30%的胎儿DNA,如Wachtel,etal.所示。

在一些实施方案中,方法700从母体细胞DNA中分离胎儿细胞DNA。参见框706。通过利用两种DNA来源的不同特征,可以应用各种方法来分离两种细胞DNA来源。参见框716。例如,已经证实胎儿DNA倾向于具有比母体DNA更高的甲基化状态。因此,区分甲基化的机制可用于从母体细胞DNA中分离胎儿细胞DNA。参见例如Kim et al.,Am J ReprodImmunol.2012 Jul;68(1):8-27,用于母体细胞与胎儿细胞的不同甲基化特征。

另外,FISH可用于检测和定位来自胎儿细胞的特异性DNA或RNA靶标。一些实施方案可以通过鉴定胎儿特异性DNA标志物的FISH来确定胎儿来源。因此,方法700允许获得胎儿细胞DNA,其随后可被进一步处理和分析。参见框718。

本申请还提供了使用非固定化血液样品获得胎儿细胞DNA和混合cfDNA的方法。图8是示出这种方法的流程图。图8所示的获得cfDNA的操作与图7所示的方法中的操作大部分重叠。因此,框704、706和708镜像于框804、806和808。

简言之,方法800通过将抗凝剂(例如EDTA或ACD)与母体血液样品混合,而不使用固定剂。参见框802。方法800通过离心从血液样品中分离血浆组分和红细胞组分。参见框804。如在框804中,可以以较低的速度,例如1600g进行离心。然后抽吸样品,并分别保存血浆、白细胞层和红细胞组分。从操作804获得的血浆组分然后以较高的速度(如16,000g)进行第二次离心以对DNA进行尺寸分离,离心出较大的颗粒并在血浆中留下较小的cfDNA。参见框806。方法800提供了从血浆中获得cfDNA的方法,其可用于进一步的处理和分析。参见框808。

方法800的操作810-818允许从红细胞组分分离胎儿NRBC,并从分离的胎儿NRBC获得胎儿细胞DNA。操作810包括向红细胞组分添加等张缓冲液。然后通过离心以沉淀完整的红细胞。参见框814。在一些实施方案中,以比操作806中的速度更低的速度进行离心以避免红细胞破裂。来自该离心的上清液包括cfDNA,可以与从血浆组分获得的cfDNA组合用于下游处理和分析。参见框808。细胞团或压缩沉淀物包括来自母体和胎儿的完整红细胞,其中来自母体的红细胞包括大部分无核RBC和少量NRBC。

在一些实施方案中,方法800用等张缓冲液洗涤红细胞沉淀,然后离心收集母体无核RBC和NRBC。NRBC包括母体和胎儿NRBC,在如上所述的一些实施方案中有高至30%的胎儿细胞。然后,方法800从母体细胞中分离胎儿NRBC。参见框818。然后可以从分离的胎儿NRBC获得胎儿细胞DNA。参见框820。

在各种实施方案中,例如图8所示的方法800的操作818和820,从母体细胞中分离胎儿NRBC,并从分离的胎儿NRBC中获得胎儿细胞DNA。可以应用各种方法的组合从母体细胞中分离NRBC。在一些实施方案中,方法可包括细胞分选与磁性颗粒或流式细胞术、密度梯度离心、基于尺寸的分离、选择性细胞裂解或耗尽不希望的细胞群的各种组合。通常,这些方法单独是无效的,因为每种方法可能能够除去一部分不需要的细胞,但不能全部除去。因此,可以使用方法的组合来分离所需的胎儿NRBC。

在一些实施方案中,通过一种或多种本领域已知或本文所述的方法,胎儿NRBC的分离与胎儿NRBC的富集相结合。富集增加样品中稀有细胞的浓度或稀有细胞与非稀有细胞的比率。在一些实施方案中,当从母体外周静脉血液样品中富集胎儿细胞时,胎儿细胞的初始浓度可以是约1∶50000000,并且可以增加到至少1∶5000或1∶500。富集可以通过本文或现有技术中所述的一种或多种类型的分离模块来实现。关于富集胎儿细胞的一些技术可以参见,例如,美国专利号8,137,912,将其全部内容通过援引加入方式并入本文。多个分离模块可以系列连接以提高性能。

在一些实施方案中,用于下游处理的胎儿细胞DNA从怀孕母体的血液中的一个或多个胎儿NRBC获得。在一些实施方案中,该方法从怀孕母体的血液样品的细胞组分中的母体红细胞中分离胎儿NRBC。在一些实施方案中,将胎儿NRBC与母体红细胞分离包括差异性裂解母体红细胞。在一些实施方案中,从母体红细胞中分离胎儿NRBC包括基于尺寸的分离和/或基于捕获的分离。基于捕获的分离可以包括通过结合由胎儿NRBC表达的一种或多种细胞标志物来捕获胎儿NRBC。优选地,所述一种或多种细胞标志物包括由胎儿NRBC表达的表面标志物,但是母体NRBC不表达或表达程度较低。在一些实施方案中,基于捕获的分离包括将磁响应颗粒结合到胎儿NRBC,其中磁响应颗粒对胎儿NRBC表达的一种或多种细胞标志物具有亲和力。在一些实施方案中,基于捕获的分离通过自动免疫磁分离装置进行,例如,如美国专利第8,071,395号所述,将其以援引加入的方式并入本文中。在一些实施方案中,基于捕获的分离包括将荧光标签结合至胎儿NRBC,其中荧光标签对胎儿NRBC表达的一种或多种细胞标志物具有亲和力。

在各种实施方案中,在胎儿NRBC上表达的细胞表面标志物用于基于亲和力的分离。例如,一些实施方案可以使用抗CD71将磁性或荧光探针附着到转铁蛋白受体上,所述探针提供了用于磁性活化细胞分选(MACS)或荧光活化细胞分选(FACS)的机制。来自非常早期发育阶段的细胞可以使用CD34从脐带血分离。为了从后期发育阶段富集和鉴定红细胞,可以使用表面标志物,如CD71、血型糖蛋白A、CD36、抗原i和细胞内表达的血红蛋白。大豆凝集素(SBA)可用于从怀孕母体的血液中分离胎儿NRBC。

许多上述表面标志物不是胎儿NRBC的唯一标志物。相反,它们也在母体细胞上不同程度地表达。最近,已经鉴定出单克隆抗体对胎儿NRBC具有亲和力,而对母体血液没有。例如,Zimmermann等鉴定了对胎儿NRBC具有特异性亲和力的单克隆抗体克隆4B8和4B9。Experimental Cell Research,319(2013),2700-2707。单克隆抗体4B8、4B9和其它类似的单克隆抗体可用于提供MACS或FACS的结合机制以分离胎儿NRBC。基于磁性的细胞分离可以由MagSweeper装置来实现,MagSweeper装置是如美国专利号8,071,395中所公开的自动免疫磁性分离技术,将其整体内容通过援引加入的方式并入本文。在一些实施方案中,MagSweeper可以富集循环稀有细胞,例如母体血液中的胎儿NRBC,使浓度增加10

分离细胞的胎儿来源可以通过Y染色体特异性序列的PCR扩增、荧光原位杂交(FISH)、检测ε-球蛋白和γ-球蛋白或比较来自母体和胎儿的DNA-多态性与STR标志物来指示。一些实施方案可以使用这些指示物将胎儿NRBC与其它细胞分离,例如通过可视化指示物实施为基于成像的分离机制,或通过与指示物杂交实施为基于亲和力的分离机制。

图9是示出根据本申请的一些实施方案的用于从母体血液样品中分离胎儿NRBC的方法900的流程图。方法900涉及方法800,其中方法900提供了如何实现图8中的操作818的一个示例。方法900开始于从母体血液样品中获得RBC,参见框902,例如使用一次或多次密度梯度离心,如在通向步骤816的步骤中所描述的。

然后,方法通过使用乙酰唑胺和含有NH4

在一个实施方案中,可以如以下实例所述进行差异裂解。将RBC离心(例如,300g,10分钟),重悬于含有乙酰唑胺的磷酸盐缓冲盐水(PBS)中,并在室温下孵育5分钟。加入2.5毫升裂解缓冲液(10mM NaHCO

在选择性裂解母体RBC后,可以通过离心除去裂解的细胞。在一些实施方案中,所述方法用包被有抗体的磁珠标记胎儿NRBC,所述抗体结合胎儿NRBC上表达的细胞表面标志物。参见框906。上文所述的胎儿NRBC上表达的一个或多个表面标志物可以是结合的靶标。在一些实施方案中,单克隆抗体4B8,、单克隆抗体4B9或抗CD71可用作结合胎儿NRBC表面的抗体。磁珠为磁分离机制提供了捕获胎儿NRBC的手段,胎儿NRBC然后被选择性地富集。在一些实施方案中,所述方法以用荧光标签标记胎儿NRBC,所述荧光标签例如与荧光素或若丹明结合的寡核苷酸(“寡聚物”),所述寡聚物与胎儿NRBC的标志物的mRNA结合。在一些实施方案中,荧光标签结合胎儿血红蛋白的mRNA,例如,ε-球蛋白和γ-球蛋白。

方法900使用磁分离装置(例如上述MagSweeper)富集胎儿NRBC,所述磁分离装置通过选择性地连接到NRBC的磁珠捕获NRBC。参见框910。最后,在操作908中,方法900使用对附着到胎儿NRBC的荧光标签敏感的图像引导细胞分离装置(例如FACS)实现胎儿NRBC的分离。参见框912。分离的胎儿NRBC然后可用于制备带索引的胎儿细胞DNA文库。下面进一步描述制备带索引文库的一些实施方案。

在许多实施方案中,胎儿NRBC首先从母体RBC和其它细胞类型中分离。然后从分离的胎儿NRBC获得胎儿细胞DNA。然而,在一些实施方案中,胎儿细胞DNA可以通过选择性裂解胎儿NRBC(与裂解母体细胞相对而言)获得。例如,当包括胎儿细胞的血液样品与去离子水结合时,胎儿细胞可以选择性地裂解释放它们的核。胎儿细胞的这种选择性裂解允许随后使用例如基于尺寸或亲和力的分离来富集胎儿DNA。

本文所用的样品含有“游离”(例如cfDNA)或细胞结合(例如细胞DNA)的核酸。游离核酸,包括游离DNA,可以通过本领域已知的各种方法从生物样品获得,所述生物样品包括但不限于血浆,血清和尿液(参见,例如,Fan et al.,Proc Natl Acad Sci 105∶16266-16271[2008];Koide et al.,Prenatal Diagnosis 25:604-607[2005];Chen et al.,Nature Med.2:1033-1035[1996];Lo et al.,Lancet 350:485-487[1997];Botezatu etal.,Clin Chem.46:1078-1084,2000;and Su et al.,J Mol.Diagn.6:101-107[2004])。为了从样品中的细胞中分离游离DNA,可以使用各种方法,包括但不限于分级分离,离心(例如密度梯度离心),DNA特异性沉淀,或高通量细胞分选和/或其它分离方法。用于手动和自动分离cfDNA的市售试剂盒是可获得的(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样品已经用于测定中以通过测序测定来确定染色体异常(例如21三体性)的存在与否,所述测序测定可检测染色体非整倍性和/或各种多态性。

在各种实施方案中,样品中存在的DNA可以在使用之前(例如,在制备测序文库之前)特异性或非特异性地富集。样品DNA的非特异性富集是指样品的基因组DNA片段的全基因组扩增,其可用于在制备DNA测序文库之前提高样品DNA的水平。非特异性富集可以是存在于包含多于一个基因组的样品中的两个基因组之一的选择性富集。例如,非特异性富集可以对于血浆样品中的癌症基因组是选择性的,其可以通过已知的方法获得,以增加样品中癌症DNA与正常DNA的相对比例。或者,非特异性富集可以是样品中存在的两种基因组的非选择性扩增。例如,非特异性扩增可以是包含来自癌症和正常基因组的DNA混合物的样品中癌症DNA和正常DNA的扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP),引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中,包含来自不同基因组的cfDNA的混合物的样品对于混合物中存在的基因组的cfDNA是未富集的。在其它实施方案中,包含来自不同基因组的cfDNA混合物的样品对于样品中存在的任何一种基因组是非特异性富集的。

包含应用本文所述方法的核酸的样品通常包括生物样品(“测试样品”),例如,如上所述。在一些实施方案中,待分析的核酸通过许多熟知方法中的任一种纯化或分离。

因此,在某些实施方案中,样品包含纯化的或分离的多核苷酸或由纯化的或分离的多核苷酸组成,或者它可以包含样品,例如组织样品,生物流体样品,细胞样品等。合适的生物流体样品包括但不限于血液,血浆,血清,汗液,泪液,痰,尿液,痰,耳流液,淋巴液,唾液,脑脊液,灌洗液,骨髓悬浮液,阴道流体,经宫颈灌洗液,脑液,腹水,乳汁,呼吸道、肠道和泌尿生殖道的分泌物,羊水,乳汁和除白细胞样品。在一些实施方案中,样品是容易通过非侵入性操作获得的样品,例如血液,血浆,血清,汗液,泪液,痰液,尿液,痰液,耳流液,唾液或粪便。在某些实施方案中,样品是外周血样品,或外周血样品的血浆和/或血清组分。在其它实施方案中,生物样品是拭子或涂片,活检样品或细胞培养物。在另一个实施方案中,样品是两种或更多种生物样品的混合物,例如,生物样品可以包含生物流体样品、组织样品和细胞培养物样品中的两种或更多种。如本文所用,术语“血液”、“血浆”和“血清”明确地包括其级分或处理部分。类似地,当样品取自活组织检查,拭子,涂片等时,“样品”明确地包括来自活组织检查,拭子,涂片等的经处理的级分或部分。

在某些实施方案中,样品可以获自的来源包括但不限于,来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如,患有癌症或疑似患有遗传病症的个体)的样品、来自正常个体的样品、在个体的疾病的不同阶段获得的样品、从接受疾病的不同治疗的个体获得的样品,来自经受不同环境因素的个体的样品,来自对病理状态易感的个体的样品,暴露于传染病病原体(例如HIV)的个体的样品等。

在本申请方法中使用的样品可以是组织样品,生物流体样品或细胞样品。作为非限制性实例,生物流体包括血液,血浆,血清,汗液,泪液,痰液,尿液,痰液,耳流液,淋巴液,唾液,脑脊液,灌洗液,骨髓悬浮液,阴道流液,经子宫颈灌洗液,脑液,腹水,乳汁,呼吸道、肠道和泌尿生殖道的分泌物,以及除白细胞样品。

在另一个说明性、但非限制性的实施方案中,受体样品是两种或更多种生物样品的混合物,例如,所述生物样品可以包括生物流体样品,组织样品和细胞培养物样品中的两种或更多种。在一些实施方案中,样品是容易通过非侵入性操作获得的样品,例如血液,血浆,血清,汗液,泪液,痰液,尿液,乳汁,痰液,耳流液,唾液和粪便。在一些实施方案中,生物样品是外周血样品,和/或其血浆和血清部分。在其它实施方案中,生物样品是拭子或涂片,活检样品或细胞培养物的样品。如上文所述,术语“血液”、“血浆”和“血清”明确地包括其级分或处理部分。类似地,当样品取自活组织检查,拭子,涂片等时,“样品”明确地包括来自活组织检查,拭子,涂片等的经处理的级分或部分。

在某些实施方案中,样品也可以从体外培养的组织、细胞或其它含多核苷酸的来源获得。培养的样品可取自的来源包括但不限于,维持在不同培养基和条件(例如pH,压力或温度)中的培养物(例如组织或细胞),维持不同长度时期的培养物(例如组织或细胞),用不同因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞),或不同类型的组织和/或细胞的培养物。

从生物来源分离核酸的方法是众所周知的,并且将根据来源的性质而不同。本领域技术人员可以根据本文所述方法视需要容易地从来源中分离核酸。在某些情况下,可以有利地将核酸样品中的核酸分子片段化。片段化可以是随机的,或者可以是特异性的,例如使用限制性内切核酸酶消化实现。随机片段化的方法是本领域熟知的,包括,例如,有限DNA酶消化,碱处理和物理剪切。在一个实施方案中,样品核酸以cfDNA的形式获得,不进行片段化。

在一个实施方案中,本文所述的方法可利用二代测序技术(NGS),其允许在单个测序运行中多个样品作为基因组分子(即,单重测序)或作为包含带索引的基因组分子的汇集样品(例如,多重测序)单独测序。这些方法可以产生多达数亿个DNA序列的读数。在各种实施方案中,可使用例如本文所述的二代测序技术(NGS)测定基因组核酸和/或带索引的基因组核酸的序列。在各种实施方案中,使用NGS获得的大量序列数据的分析可以使用本文描述的一个或多个处理器来执行。

在各种实施方案中,这种测序技术的使用不涉及测序文库的制备。

然而,在某些实施方案中,本文考虑的测序方法涉及测序文库的制备。在一个示例性方法中,测序文库制备包括产生待测序的衔接子修饰的DNA片段(例如,多核苷酸)的随机群体。多核苷酸的测序文库可以通过逆转录酶的作用从DNA或RNA制备,包括DNA或cDNA的等同物,类似物,例如互补或复制从RNA模板产生的DNA的DNA或cDNA。多核苷酸可以以双链形式(例如dsDNA,如基因组DNA片段,cDNA,PCR扩增产物等)产生,或者在某些实施方案中,多核苷酸可以以单链形式(例如ssDNA,RNA等)产生,并且已经被转化为dsDNA形式。作为说明,在某些实施方案中,单链mRNA分子可以被复制到适合用于制备测序文库的双链cDNA中。主要多核苷酸分子的确切序列通常不是文库制备方法需要的,并且可以是已知的或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更具体地,在某些实施方案中,多核苷酸分子代表生物体的全部遗传互补序列或生物体的基本上全部遗传互补序列,并且是基因组DNA分子(例如,细胞DNA,游离DNA(cfDNA)等),其通常包括内含子序列和外显子序列(编码序列),以及非编码调节序列,例如启动子和增强子序列。在某些实施方案中,主要多核苷酸分子包括人基因组DNA分子,例如存在于妊娠个体的外周血中的cfDNA分子。

一些NGS测序平台的测序文库的制备通过使用包含特定范围的片段尺寸的多核苷酸来促进。这种文库的制备通常涉及大的多核苷酸(例如细胞基因组DNA)的片段化以获得所需尺寸范围内的多核苷酸。

片段化可以通过本领域技术人员已知的多种方法中的任一种来实现。例如,片段化可以通过机械方法实现,包括但不限于喷雾,超声和水力剪切。然而,机械片段化通常在C-O,P-O和C-C键处裂解DNA主链,导致具有断裂的C-O,P-O和C-C键的平端和3′-和5′-悬垂端的异质混合物(参见,例如Alnemri and Liwack,J Biol.Chem 265:17323-17333[1990];Richards and Boyer,J Mol Biol 11:327-240[1965]),这可能需要修复,因为它们可能缺少用于随后的制备用于测序的DNA所必需的酶促反应(例如,测序衔接子的连接)所必需的5′-磷酸。

相比之下,cfDNA通常以少于约300个碱基对的片段存在,因此,使用cfDNA样品产生测序文库通常不需要片段化。

通常,无论多核苷酸是强制性片段化(例如,体外片段化),还是天然地作为片段存在,它们都被转化为具有5′-磷酸和3′-羟基的平末端DNA。标准方案,例如用于使用例如本文其他部分所述的Illumina平台测序的方案,指示用户对样品DNA末端修复,在dA加尾之前纯化末端修复产物,以及在文库制备的衔接子连接步骤之前纯化dA加尾产物。

本文所述的序列文库制备方法的各种实施方案消除了进行一个或多个通常由标准方案要求的步骤,以获得可由NGS测序的修饰的DNA产物的需要。缩写方法(ABB方法)、1步法和2步法是用于制备测序文库的方法的实例,其可以在2012年7月20日提交的专利申请13/555,037号中找到,将其通过援引加入方式整体并入本文。

如上所述,作为所公开的方法的一部分,将制备的样品(例如测序文库)进行测序。可以利用多种测序技术中的任一种。

一些测序技术是可商业获取的,例如来自Affymetrix Inc(Sunnyvale,CA)的杂交测序平台和来自454 Life Sciences(Bradford,CT),Illumina/Solexa(Hayward,CA)和Helicos Biosciences(Cambridge,MA)的合成测序平台,和来自Applied Biosystems(Foster City,CA)的连接测序平台,如下所述。除了使用Helicos Biosciences的合成测序进行的单分子测序之外,其它单分子测序技术包括但不限于,Pacific Biosciences的SMRT

尽管自动Sanger方法被认为是“第一代”技术,但包括自动Sanger测序的Sanger测序也可用于本文所述的方法中。其它合适的测序方法包括但不限于,核酸成像技术,例如原子力显微镜(AFM)或透射电子显微镜(TEM)。下面将更详细地描述示例性的测序技术。

在一个说明性、但非限制性的实施方案中,本文所述的方法包括使用Illumina合成测序和基于可逆终止子的测序化学(例如,如Bentley et al.,Nature 6:53-59[2009]所述)获得测试样品中的核酸的序列信息,例如针对遗传病症、癌症等筛选的个体的cfDNA或细胞DNA样品。模板DNA可以是基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,将来自分离细胞的基因组DNA用作模板,并将其片段化成数百个碱基对的长度。在其它实施方案中,cfDNA用作模板,并且不需要片段化,因为cfDNA以短片段存在。例如,胎儿cfDNA在血流中作为长度约为170个碱基对(bp)的片段循环(Fan et al.,Clin Chem 56:1279-1286[2010]),并且在测序之前不需要DNA的片段化。循环肿瘤DNA也以短片段存在,其大小分布集中于约150-170bp。Illumina的测序技术依赖于将片段化的基因组DNA附着到结合有寡核苷酸锚的平面、光学透明表面上。对模板DNA进行末端修复以产生5′-磷酸化平末端,并且使用Klenow片段的聚合酶活性将单个A碱基添加到平末端磷酸化DNA片段的3′末端。该添加制备用于连接到寡核苷酸衔接子的DNA片段,衔接子在其3′末端具有单一T碱基的突出部分以提高连接效率。衔接子寡核苷酸与流动池锚定寡核苷酸互补(在重复扩增分析中不与锚定/锚定读数混淆)。在极限稀释条件下,将衔接子修饰的单链模板DNA加入到流动池中并通过与锚定寡聚物杂交来固定。将附着的DNA片段延伸并桥接扩增以产生具有数亿簇的超高密度测序流动池,每个簇含有相同模板的约1000个拷贝。在一个实施方案中,使用PCR扩增随机片段化的基因组DNA,然后对其进行聚类扩增。或者,使用无扩增(例如,无PCR)的基因组文库制备,并且仅使用簇扩增富集随机片段化的基因组DNA(Kozarewa et al.,NatureMethods 6:291-295[2009])。使用采用具有可去除荧光染料的可逆终止子的稳定四色DNA合成测序技术对模板进行测序。使用激光激发和全内反射光学器件实现高灵敏度荧光检测。将约数十至数百个碱基对的短序列读数与参考基因组比对,并使用专门开发的数据分析流程软件鉴定短序列读数与参考基因组的独特映射。在完成第一读数之后,可以原位再生模板,以便能够从片段的相反端进行第二读数。因此,可以使用DNA片段的单端或双端测序。

本申请的各种实施方案可以使用允许配对末端测序的合成测序。在一些实施方案中,Illumina的合成测序平台涉及聚类片段。聚类是一个方法,其中每个片段分子被等温扩增。在一些实施方案中,如本文所述的实例,片段具有连接到片段两端的两个不同的衔接子,衔接子允许片段与流动池通道表面上的两个不同的寡聚物杂交。该片段还包括或连接到该片段两端的两个索引序列,该索引序列提供标签以鉴定多重测序中的不同样品。在一些测序平台中,待测序的片段也称为插入片段。

在一些实施方案中,用于在Illumina平台中聚类的流动池是具有通道的载玻片。每条通道是包被有两种类型寡聚物的区域的玻璃通道。通过表面上的两种寡聚物中的第一种来实现杂交。该寡聚物与片段一端的第一衔接子互补。聚合酶产生杂交片段的互补链。将双链分子变性,洗去原始模板链。与许多其它剩余链平行的剩余链通过桥接扩增进行克隆扩增。

在桥接扩增中,链折叠,链的第二末端上的第二衔接子区域与流动池表面上的第二类型寡聚物杂交。聚合酶产生互补链,形成双链桥接分子。这种双链分子被变性,导致两个单链分子通过两个不同的寡聚物束缚在流动池中。然后不断重复该方法,并对数百万个簇同时发生,导致所有片段的克隆扩增。在桥接扩增之后,反向链被切割并被洗掉,仅留下正向链。3′端被封闭以防止不希望的引物引发。

在聚类之后,测序开始于延伸第一测序引物以产生第一读数。在每个循环中,荧光标记的核苷酸竞争加入到生长链中。基于模板的序列,仅并入一个。加入每个核苷酸后,簇被光源激发,发出特征荧光信号。循环的数量决定了读数的长度。发射波长和信号强度决定碱基判定。对于给定的簇,同时读取所有相同的链。以大规模平行的方式对数亿计的簇进行测序。在第一读取完成时,洗去读数产物。

在涉及两个索引引物的方案的下一个步骤中,引入索引1引物并与模板上的索引1区域杂交。索引区域提供了对片段的鉴定,这对于在多重测序方法中解除样品多元性是有用的。与第一读数类似地生成索引1读数。在索引1读取完成后,将读数产物洗去,并将链的3′端去保护。然后模板链折叠,并结合流动池上的第二寡聚物。以与索引1相同的方式读取索引2序列。然后,在该步骤完成时洗去索引2读数产物。

在读取两个索引后,通过使用聚合酶延伸第二个流动池寡聚物,形成双链桥,读数2开始。该双链DNA被变性,并且3′末端被封闭。将原始正向链切割并洗去,留下反向链。读数2从引入读数2测序引物开始。如同读数1一样,重复测序步骤直到达到所需长度。洗去读数2产物。整个方法产生数百万的读数,表示所有的片段。基于在样品制备期间引入的独特索引分离来自合并的样品库的序列。对于每个样品,对碱基判定的类似延伸的读数进行局部群集。正向和反向读数是成对的,产生连续的序列。将这些连续序列与参考基因组进行比对以进行变体鉴定。

上述合成测序实例涉及配对末端读数,其在所公开的方法的许多实施方案中使用。配对末端测序包括来自片段的两个末端的两个读数。当一对读数被映射到参考序列时,可以确定两个读数之间的碱基对距离,然后可以使用该距离来确定从中获得读数的片段的长度。在一些情况下,跨骑两个箱的片段将使其配对末端读数中的一个与一个箱比对,而使其配对末端读数中的另一个与相邻箱比对。随着箱变得更长或读数变得更短,这变得更稀少。可以使用各种方法来分析这些片段的箱成员资格。例如,在确定箱的片段大小频率时,可以省略它们;它们可以针对两个相邻的箱进行计数;可以将它们分配给包含两个箱的较大数量的碱基对的箱;或者它们可以被分配给两个箱,其权重与每个箱中的碱基对的部分相关。

配对末端读数可使用不同长度(即,待测序的不同片段大小)的插入物。作为本申请中的默认含义,配对末端读数被用于指从各种插入物长度获得的读数。在一些情况下,为了区分短插入物的配对末端读数和长插入物的配对末端读数,后者也被称为配对读数。在涉及配对读数的一些实施方案中,首先将两个生物素连接衔接子连接到相对长的插入物(例如,几kb)的两端。然后生物素连接衔接子连接插入物的两端以形成环化分子。然后可以通过进一步片段化环化的分子获得包含生物素连接衔接子的子片段。然后可以通过与上述短插入物配对末端测序相同的方法对包括相反序列顺序的原始片段的两个末端的子片段进行测序。使用Illumina平台的配对测序的进一步细节显示在在线出版物中的以下URL(res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing),将其全部内容以援引加入的方式并入本文中。关于配对末端测序的其它信息可以在美国专利号7601499和美国专利公开2012/0,053,063号中找到,将其关于配对末端测序方法和装置的内容通过援引加入方式并入本文。

在DNA片段测序后,将预定长度(例如100bp)的序列读数映射或比对到已知的参考基因组。所映射或比对的读数及其在参考序列上的相应位置也被称为标签。在一个实施方案中,参考基因组序列是NCBI36/hg18序列,其可在网址genome|.|ucsc|.|edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105获得。或者,参考基因组序列是GRCh37/hg19,其可在网址genome dot ucsc dot edu/cgi-bin/hgGateway获得。公开序列信息的其它来源包括GenBank,dbEST,dbSTS,EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。许多计算机算法可用于比对序列,包括但不限于BLAST(Altschul et al.,1990),BLITZ(MPsrch)(Sturrock&Collins,1993),FASTA(Person&Lipman,1988),BOWTIE(Langmead et al.,Genome Biology 10:R25.1-R25.10[2009]),或ELAND(Illumina,Inc.,San Diego,CA,USA)。在一个实施方案中,血浆cfDNA分子的克隆扩增拷贝的一端被测序并通过用于Illumina Genome Analyzer的生物信息学比对分析来处理,所述生物信息学比对分析使用Efficient Large-Scale Alignment of Nucleotide Databases(ELAND)软件。

在一个说明性、但非限制性的实施方案中,本文所述的方法包括使用HelicosTrue Single Molecule Sequencing(tSMS)技术的单分子测序技术(例如如Harris T.D.etal.,Science 320:106-109[2008]所述)获得测试样品中核酸的序列信息。在tSMS技术中,DNA样品被切割成大约100到200个核苷酸的链,并且将polyA序列添加到每个DNA链的3′末端。通过加入荧光标记的腺苷核苷酸来标记每条链。然后将DNA链与流动池杂交,该流动池含有数百万个固定于流动池表面的寡聚物-T捕获位点。在某些实施方案中,模板的密度可以是约1亿模板/cm

通常使用各种计算机执行的算法和程序来执行对测序数据的分析和由此得到的诊断。因此,某些实施方案采用涉及存储在一个或多个计算机系统或其它处理系统中或通过一个或多个计算机系统或其它处理系统传送的数据的方法。本文公开的实施方案还涉及用于执行这些操作的装置。该装置可以为所需的目的专门构建,或者装置可以是由存储在计算机中的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中,一组处理器协同地(例如,经由网络计算或云计算)和/或并行地执行所述分析操作中的一些或全部。用于执行本文所述的方法的处理器或处理器组可以是各种类型的,包括微控制器和微处理器,例如可编程器件(例如CPLD和FPGA)和非可编程器件,例如门阵列ASIC或通用微处理器。

此外,某些实施方案涉及实体的和/或非暂时性的计算机可读介质或计算机程序产品,其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括,但不限于,半导体存储器设备,诸如磁盘驱动器、磁带的磁介质,诸如CD的光介质,磁光介质,以及专门配置成存储和执行程序指令的硬件设备,诸如只读存储器设备(ROM)和随机存取存储器(RAM)。计算机可读介质可以由终端用户直接控制,或者介质可以由终端用户间接控制。直接控制的介质的例子包括位于用户设施的介质和/或不与其它实体共有的介质。间接控制的介质的示例包括用户可经由外部网络和/或经由提供共有资源的服务(例如“云”)间接访问的介质。程序指令的例子包括机器代码(例如由编译器产生的)和包含可以由计算机使用解释器执行的高级代码的文件。

在各种实施方案中,以电子形式提供在所公开的方法和装置中采用的数据或信息。这样的数据或信息可以包括源自核酸样品的读数和标签,与参考序列的具体区域比对(例如,与染色体或染色体片段比对)的标签的计数或密度,参考序列(包括仅提供或主要提供多态性的参考序列),判定(如SNV或非整倍性判定),咨询建议,诊断等。如本文所使用的,以电子形式提供的数据或其它信息可用于在机器上存储和在机器之间传输。按照惯例,电子形式的数据以数字形式提供,并且可以作为比特和/或字节被存储在各种数据结构、列表、数据库等中。数据可以电子形式,光学形式等方式实现。

一个实施方案提供了用于确定胎儿细胞DNA的来源和/或使用胎儿细胞DNA来确定胎儿遗传状态的计算机程序产品。计算机产品可以包含用于执行上述用于确定染色体异常的任何一个或多个方法中的指令。如所解释的,计算机产品可以包括非暂时性和/或实体计算机可读介质,该介质记录有计算机可执行或可编译逻辑(例如,指令),用于使处理器能够量化DNA混合物样品。在一个实例中,计算机产品包括记录有计算机可执行或可编译逻辑(例如,指令)的计算机可读介质,用于使处理器能够确定胎儿细胞DNA的来源和/或使用胎儿细胞DNA来确定胎儿遗传状态。

来自所针对的样品的序列信息可以被映射到染色体参考序列,以鉴定任何一个或多个目标染色体的每一个的序列标签数量。在各种实施方案中,例如,参考序列被存储在诸如关系数据库或对象数据库的数据库中。

应当理解,对于无辅助的人执行本文公开的方法的计算操作是不切实际的,或者甚至在大多数情况下是可能的。例如,没有计算装置的帮助下,将从样品的单个30bp读数映射到人染色体中的任何一个可能需要多年的努力。

本文公开的方法可以使用用于定量DNA混合物样品的系统进行。所述系统包括:(a)测序仪,用于接收来自测试样品的核酸,提供来自样品的核酸序列信息;(b)处理器;以及(c)一种或多种计算机可读存储介质,其存储有用于在所述处理器上执行以实施用于确定胎儿细胞DNA的来源和/或使用胎儿细胞DNA来确定胎儿遗传状态的方法的指令。

在一些实施方案中,所述方法由存储有用于实施用于定量DNA混合物样品的方法的计算机可读指令的计算机可读介质指示。因此,一个实施方案提供了一种计算机程序产品,其包括存储有计算机可执行指令的一个或多个计算机可读非暂时性存储介质,所述计算机可执行指令在由计算机系统的一个或多个处理器执行时,使所述计算机系统实施用于确定胎儿细胞DNA的来源和/或使用胎儿细胞DNA来确定胎儿遗传状态的方法。该方法包括:(a)接收当前妊娠中胎儿的基因型,其中当前妊娠中胎儿的基因型包括多个遗传标志物中每一个遗传标志物的一个或多个等位基因,其中每一个遗传标志物代表独特基因组位点上的多态性;(b)接收所述怀孕母体的基因型,其中所述怀孕母体的基因型包含所述多个遗传标志物中的每一个遗传标志物的一个或多个等位基因;(c)从怀孕母体的基因型和当前妊娠的胎儿的基因型,鉴定一组信息遗传标志物,其中所述一组信息遗传标志物中的每一个信息遗传标志物在怀孕母体中是纯合型并且在当前妊娠的胎儿中是杂合型;(d)对于获自怀孕母体的胎儿细胞DNA,确定所述一组信息遗传标志物的每个信息遗传标志物处一个或多个等位基因,其中所述胎儿细胞DNA源自当前妊娠的胎儿或过往妊娠的胎儿;(e)提供获自怀孕母体的胎儿细胞DNA的每个信息遗传标志物处的一个或多个等位基因,作为概率模型的输入;(f)作为概率模型的输出,获得三种情景的概率:获自怀孕母体的胎儿细胞DNA源自(1)当前妊娠中的胎儿,(2)过往妊娠的胎儿并且与当前妊娠中的胎儿具有相同父亲,和(3)过往妊娠的胎儿并且与当前妊娠中的胎儿具有不同父亲;以及(g)从概率模型的输出确定胎儿细胞DNA是否来自(1)当前妊娠中的胎儿。至少(e)和(f)由包括处理器和存储器的计算机执行。

在一些实施方案中,所述指令还可以包括在提供所述测试样品的人类对象的患者病历中自动记录与所述方法有关的信息。患者医疗记录可以由例如实验室、医生办公室、医院、健康维护组织、保险公司或个人医疗记录网站来维护。此外,基于处理器实现的分析的结果,该方法还可以包括对测试样品取自的人类对象开处方、启动和/或改变处理。这可以包括对从个体获取的另外的样品进行一个或多个另外的测试或分析。

所公开的方法还可以使用计算机处理系统来执行,所述计算机处理系统被编辑或配置成执行用于确定胎儿细胞DNA的来源和/或使用胎儿细胞DNA来确定胎儿遗传状态的方法。一个实施方案提供了一种计算机处理系统,其被编辑或配置成执行本文所述的方法。在一个实施方案中,所述装置包括被编辑或配置用于对样品中的至少一部分核酸分子进行测序,以获得本文其他部分所述类型的序列信息的测序装置。该装置还可以包括用于处理样品的组件。此类组件在本文其他部分描述。

序列或其它数据可以直接或间接地输入到计算机中或存储在计算机可读介质上。在一个实施方案中,计算机系统直接连接到从样品中读取和/或分析核酸序列的测序装置。来自这样的工具的序列或其它信息经由计算机系统中的端口提供。或者,由系统处理的序列是从诸如数据库或其它储存库的序列存储源提供的。一旦提供给处理装置,存储装置或大容量存储装置至少暂时缓冲或存储核酸序列。此外,存储设备可以存储各种染色体或基因组等的标签计数。存储器还可以存储用于分析呈递序列或映射数据的各种例程和/或程序。这样的程序/例程可以包括用于执行统计分析等的程序。

在一个实例中,用户将样品提供到测序装置中。由连接到计算机的测序设备收集和/或分析数据。计算机上的软件允许数据收集和/或分析。数据可以被存储、显示(通过监视器或其它类似设备)和/或被发送到另一个位置。计算机可以连接到因特网,因特网用于向远程用户(例如,医生,科学家或分析师)使用的手持设备发送数据。应当理解,可以在传输之前存储和/或分析数据。在一些实施方案中,收集原始数据并将其发送到将分析和/或存储数据的远程用户或设备。传输可以通过因特网进行,但也可以通过卫星或其它连接进行。或者,可以将数据存储在计算机可读介质上,并且可以将该介质运送到最终用户(例如,经由邮件)。远程用户可以在相同或不同的地理位置,包括但不限于相同或不同的建筑物,城市,州,国家或大陆。

在一些实施方案中,所述方法还包括收集关于多个多核苷酸序列的数据(例如,读数,标签和/或参考染色体序列),并将所述数据发送至计算机或其它计算系统。例如,计算机可以连接到实验室设备,例如样品收集装置,核苷酸扩增装置,核苷酸测序装置或杂交装置。然后,计算机可以收集由实验室设备收集的适用数据。数据可以在任何步骤存储在计算机上,例如,在实时收集的同时,在发送之前,在发送期间或与发送结合,或在发送之后。数据可以存储在可以从计算机提取的计算机可读介质上。收集或存储的数据可以例如经由局域网或诸如因特网的广域网从计算机发送到远程位置。在远程位置,可以如下所述对所发送的数据执行各种操作。

在本文所公开的系统、装置和方法中可以存储、传输、分析和/或操纵的电子形式数据的类型包括:

通过对测试样品中的核酸进行测序而获得的读数

通过比对读数与参考基因组或其它参考序列而获得的标签

参考基因组或序列

等位基因计数-每个等位基因的标签的计数或数量

共有遗传标志物计数

诊断(与判定相关的临床状态)

来自判定和/或诊断的进一步测试的建议

处理和/或监控来自判定和/或诊断的计划

这些各种类型的数据可以使用不同的设备在一个或多个位置处获得、存储、传输、分析和/或操纵。处理选项跨越很宽的范畴。在范畴的一端,所有或大部分该信息被存储并在处理测试样品的位置使用,例如医生办公室或其它临床环境。在另一个极端情况下,在一个位置获得样品,在不同的位置处理并任选地测序样品,在一个或多个不同的位置比对读数并进行判定,并且在另一个位置(其可以是获得样品的位置)制定诊断、推荐和/或计划。

在各种实施方案中,利用测序装置产生读数,然后将其发送到远程站点,在那里对其进行处理以产生判定。在这个远程位置,例如,将读数与参考序列比对以产生标签,将标签计数并分配给目标染色体或片段。同样在远程位置,剂量被用于生成判定。

可以在不同位置采用的处理操作包括:

样品收集

测序前的样品处理

测序

分析序列数据和定量DNA混合物样品

诊断

向患者或诊疗提供者报告诊断和/或判定

制定进一步的处理、测试和/或监测计划

执行计划

咨询

这些操作的任何一个或多个可以如本文其他部分所述自动进行。通常,序列数据的测序和分析以及DNA样品的定量在计算机上进行。其它操作可以手动或自动化执行。

可以进行样品收集的位置的例子包括卫生从业者的办公室,诊所,患者的家(提供样品收集工具或试剂盒)和移动卫生保健车辆。可以在测序之前进行样品处理的位置的例子包括卫生从业者的办公室,诊所,患者的家(提供样品处理装置或试剂盒),移动卫生保健车辆和DNA分析提供者的设施。可以进行测序的位置的实例包括卫生从业者办公室,诊所,卫生从业者办公室,诊所,患者家(提供样品测序装置和/或试剂盒),移动卫生保健车辆和DNA分析提供者的设施。可以为进行测序的位置提供用于以电子形式发送序列数据(通常为读数)的专用网络连接。这种连接可以是有线的或无线的,并且具有并且可以被配置为将数据发送到数据可以在传输到处理站点之前被处理和/或聚集的站点。数据聚集器可以由诸如健康维护组织(HMO)之类的健康组织来维护。

分析和/或推导操作可以在任何前述位置进行,或者在专用于计算和/或分析核酸序列数据服务的另一个远程位置进行。这样的位置包括,例如,集群,例如通用服务器场,DNA分析服务业务的设施等。在一些实施方案中,用于执行分析的计算设备是租用或借用的。计算资源可以是处理器的因特网可访问集合的一部分,例如被称为云的处理资源。在一些情况下,计算由彼此关联或不关联的并行或大规模并行的处理器组来执行。该处理可以使用诸如集群计算、网格计算等分布式处理来实现。在这样的实施方案中,计算资源集合的群集或网格形成由多个处理器或计算机组成的超级虚拟计算机,所述多个处理器或计算机一起用于执行本文所述的分析和/或推导。这些技术以及常规的超级计算机可用于如本文所述处理序列数据。每一个都是依赖于处理器或计算机的并行计算的形式。在网格计算的情况下,这些处理器(通常是整个计算机)通过网络(专用、公共或因特网)通过诸如以太网的常规网络协议连接。相比之下,超级计算机具有通过本地高速计算机总线连接的许多处理器。

在某些实施方案中,在与分析操作相同的位置产生诊断。在其它实施方案中,在不同的位置执行。在一些实例中,报告诊断是在样品采集位置进行的,但这不是必须的。可以生成或报告诊断和/或制定计划的位置的例子包括卫生执业人员的办公室,诊所,计算机可访问的互联网站点,以及具有有线或无线网络连接的手持设备,例如手机,平板,智能电话等。执行咨询的位置的例子包括卫生从业者的办公室,诊所,可由计算机访问的互联网站点,手持设备等。

在一些实施方案中,在第一位置执行样品收集、样品处理和测序操作,在第二位置执行分析和推导操作。然而,在一些情况下,在一个位置(例如,卫生从业者的办公室或诊所)收集样品,并且不同位置执行样品处理和测序,该位置任选地与进行分析和推导的位置相同。

在各种实施方案中,上述操作的序列可以由启动样品收集、样品处理和/或测序的用户或实体来触发。在一个或多个这些操作开始执行之后,其它操作可以自然地跟随。例如,测序操作可导致读数被自动收集并被发送到处理装置,处理装置然后通常自动地且可能在不需要进一步的用户干预的情况下进行序列分析和定量DNA混合物样品。在一些实施方案中,处理操作的结果随后被自动地传递到处理并向健康专业人员和/或患者报告信息的系统组件或实体,可能伴随作为诊断的重新格式化。正如所解释的,这种信息也可以被自动地处理以产生治疗、测试和/或监测计划,可能连同咨询信息一起。因此,启动早期操作可以触发端到端序列,其中健康专家、患者或其他相关方被提供有用于作用于身体状态的诊断、计划、咨询和/或其他信息。即使整个系统的各个部分在物理上是分开的并且可能远离(例如样品和测序装置的位置),也可以实现这一点。

图10以简单的框图示出了典型的计算机系统,其在被适当地配置或设计时可以用作根据某些实施方案的计算设备。计算机系统2000包括连接到存储设备的任何数量的处理器2002(也称为中央处理单元或CPU),存储设备包括主存储器2006(通常是随机存取存储器或RAM),主存储器2004(通常是只读存储器或ROM)。CPU2002可以是各种类型,包括微控制器和微处理器,例如可编程器件(例如CPLD和FPGA)和非可编程器件,例如门阵列ASIC或通用微处理器。在所示实施方案中,主存储器2004用于单向地向CPU传送数据和指令,主存储器2006通常用于以双向方式传送数据和指令。这两个主存储设备都可以包括任何合适的计算机可读介质,例如上述的那些介质。大容量存储设备2008还双向连接到主存储器2006,并提供额外的数据存储容量,并且可以包括上述任何计算机可读介质。大容量存储设备2008可用于存储程序、数据等,并且通常是诸如硬盘的辅助存储介质。通常,这样的程序、数据等被临时复制到主存储器2006,以便在CPU 2002上执行。应当理解,在适当的情况下,保留在大容量存储设备2008内的信息(在适当的情况下)可以作为主存储器2004的一部分以标准方式并入。诸如CD-ROM 2014的特定大容量存储设备也可以单向地将数据传递到CPU或主存储器。

CPU 2002还连接到端口2010,端口2010连接到一个或多个输入/输出设备,诸如核酸测序仪(2020),视频监视器,轨迹球,鼠标,键盘,麦克风,触敏显示器,换能器、读卡器,磁带或纸带读取器,平板,指示笔,语音或手写识别外围设备,USB端口或其它公知的输入设备,诸如其他计算机。最后,CPU 2002任选地可以使用外部连接连接到外部设备,诸如数据库或计算机或电信网络,如2012处一般所示。利用这种连接,可以设想CPU可以从网络接收信息,或者可以在执行本文描述的方法步骤的方法中向网络输出信息。在一些实施方案中,代替端口2010或除端口2010之外,核酸测序仪(2020)可以经由网络连接2012通信连接到CPU 2002。

在一个实施方案中,诸如计算机系统2000的系统被用作能够执行本文所述的部分或全部任务的数据导入、数据关联和查询系统。可以经由网络连接2012提供信息和程序,包括数据文件,以供研究者访问或下载。或者,这种信息、程序和文件可以在存储设备上提供给研究者。

在一个具体实施方案中,计算机系统2000直接连接到数据采集系统,例如微阵列、高通量筛查系统或从样品采集数据的核酸测序仪(2020)。来自这样的系统的数据经由端口2010提供,用于由系统2000进行分析。或者,由系统2000处理的数据是从诸如数据库或相关数据的其它储存库的数据存储源提供的。一旦在装置2000中,诸如主存储器2006或大容量存储器2008的存储器设备至少暂时地缓冲或存储相关数据。存储器还可以存储用于导入、分析和呈现数据的各种例程和/或程序,包括序列读数,UMI,用于确测序列读数的代码、折叠序列读数和校正读数中的错误等。

在某些实施方案中,本文使用的计算机可以包括用户终端,其可以是任何类型的计算机(例如,台式机,笔记本,平板计算机等),介质计算平台(例如,电缆,卫星机顶箱,数字视频记录器等),手持计算设备(例如,PDA,电子邮件客户端等),手机或任何其它类型的计算或通信平台。

在某些实施方案中,本文使用的计算机还可以包括与用户终端通信的服务器系统,服务器系统可以包括服务器设备或分散服务器设备,并且可以包括大型计算机,小型计算机,超级计算机,个人计算机或其组合。在不脱离本申请的范围的情况下,也可以使用多个服务器系统。用户终端和服务器系统可以通过网络相互通信。网络可以包括,例如,有线网络,诸如LAN(局域网),WAN(广域网),MAN(城域网),ISDN(综合业务数字网)等,以及无线网络,诸如无线局域网,CDMA,蓝牙和卫星通信网络等,这不限制本申请的范围。

图11示出了用于从测试样品产生判定或诊断的离散系统的一个实施方式。样品收集位置01用于从诸如怀孕母体或推定的癌症患者的患者获得测试样品。然后将样品提供给处理和测序位置03,在位置03可以如上所述地处理和测序测试样品。位置03包括用于处理样品的设备以及用于对处理后的样品进行测序的设备。如本文其他部分所述,测序的结果是通常以电子形式提供的读数集合并提供给诸如因特网的网络,其在图11中由附图标记05指示。

序列数据被提供给执行分析和判定生成的远程位置07。该位置可以包括一个或多个强大的计算设备,例如计算机或处理器。在位置07处的计算资源完成它们的分析并根据接收到的序列信息生成判定之后,该判定被中继回网络05。在一些实施方案中,不仅在位置07处生成判定,而且还生成相关联的诊断。然后,如图11所示,判定和/或诊断通过网络被发送回样品收集位置01。如所解释的,这仅仅是关于与生成判定或诊断相关联的各种操作可以如何在不同位置之间划分的许多变形方式中的一种。一种常见的变形方式涉及在单个位置提供样品收集和处理以及测序。另一种变形方式包括在与分析和判定生成相同的位置提供处理和测序。

图12详细描述了在不同位置执行各种操作的选项。在图12所示的最具体的意义上,在单独的位置执行以下操作中的每一个:样品收集、样品处理、测序、读数比对、判定、诊断和报告和/或计划开发。

在聚集这些操作中的一部分的一个实施方案中,在一个位置执行样品处理和测序,并且在另外的位置执行读数比对、判定和诊断。参见图12中由附图标记A标识的部分。在图12中由字符B标识的另一实施方案中,样品收集、样品处理和测序都在相同的位置执行。在该实施方案中,在第二位置执行读数比对和判定。最后,在第三位置执行诊断和报告和/或计划开发。在由图12中的字符C所示的实施方案中,在第一位置处执行样品收集,在第二位置处执行样品处理、测序、读数比对、判定和诊断,并且在第三位置处执行报告和/或计划开发。最后,在图12中标记为D的实施方案中,在第一位置处执行样品收集,在第二位置处执行样品处理、测序、读数比对和判定,并且在第三位置处执行诊断和报告和/或计划管理。

一个实施方案提供了用于分析游离DNA(cfDNA)中与肿瘤相关的简单核苷酸变体的系统,该系统包括用于接收核酸样品并从核酸样品提供核酸序列信息的测序仪;处理器;以及机器可读存储介质,机器可读存储介质包括用于在所述处理器上执行的指令,所述指令包括:用于将所述核酸序列读数映射到参考序列上的一个或多个多态性位点的代码;用于使用所映射的核酸序列读数来确定在所述一个或多个多态性位点处的一个或多个等位基因的核酸序列读数的等位基因计数的代码;以及用于使用概率混合模型,定量所述核酸样品中的一个或多个贡献者的核酸的一个或多个分数的代码,其中使用所述概率混合模型包括将概率混合模型应用于核酸序列读数的等位基因计数,并且所述概率混合模型使用概率分布来模拟所述一个或多个多态性位点处的核酸序列读数的等位基因计数,概率分布考虑核酸序列读数中的错误。

在本文提供的任何系统的一些实施方案中,测序仪被配置为执行二代测序(NGS)。在一些实施方案中,测序仪被配置为使用具有可逆染料终止子的合成测序来执行大规模平行测序。在其它实施方案中,测序仪被配置为进行连接测序。在其它实施方案中,测序仪被配置为进行单分子序列测定。

实施例

本实施例使用所公开的方法的实施方案来使用模拟数据确定胎儿细胞DNA的来源。本实施例收集一组n个信息基因座,即,其中母体是纯合型,并且cfDNA指示胎儿具有至少一个非母体等位基因。

该方法以均匀分布模拟非母体等位基因频率(异点等位基因频率)。当应用于实际数据时,对于每个j基因座,非母体等位基因频率p

n.informative.loci<-512

non.maternal.allele.frequency<-runif(n.informative.loci)

假设s表示父亲关系情景,然后针对考虑的每一个情景i计算

所考虑的集合中最可能的父亲关系情景是具有最高后验概率的情景。

似然函数由β二项式分布给出

β二项式分布是一种复合分布,它将匹配等位基因的数量k模拟为从具有成功率μ的二项式分布提取的随机变量,成功率μ自身为从具有超参数a和b的β分布中提取的随机变量。

该函数以以下方式实现,其返回对数尺度的概率以防止下溢。

beta.binom.pmf<-function(k,n,a,b){

return(1choose(n,k)+lbeta(k+a,n-k+b)-lbeta(a,b))

}

对于每个情景,超参数a和b按以下方式设置。

a

b

其中μ

w参数被解释为伪计数的数量,并确定围绕对应于μ的值的先前分布的集中度。

以这种方式模拟匹配的预期数量允许模型对于测量误差以及对于每个情景μ的计算误差是稳定的。由于该组信息基因座的成员的等位基因频率的公众可获得的信息表存在误差,μ计算中的误差可能发生。

当胎儿细胞与cfDNA来自相同的胎儿时,所有信息标志物应该具有非母体异点等位基因。然而,出于计算的原因,使用以下表达式。

在样品来自共有相同父亲的不同胎儿的假设下,根据定义,父亲必须在每个信息位点具有至少1个拷贝的异点等位基因。

如果在第j

当父亲的剩余等位基因不是以概率1-p

在假设两个胎儿的父亲之间没有关系的情况下,胎儿细胞应该仅在信息基因座处以群体等位基因频率确定的频率具有异点等位基因。

cFC样品的父样品可以具有0个、1个或2个拷贝的异点等位基因。当有2个拷贝,其应该以概率

这简化了该组基因组的平均种群频率

在这个实施例中,我们假设在每个情景上有均匀的在先信息。在应用于实际测试对象的实施方案中,在先信息可以是关于相对频率的任何相关信息的函数。例如,可以将在先信息体现为先前妊娠的次数、自上次妊娠以来的时间等的函数。

标准化常数p(k)由下式给出

p(k)=∑

对每个情景的似然函数的输出进行对数缩放以避免下溢。为了标准化似然性和计算后验,该函数被用于在对数尺度中标准化,然后在常规尺度上返回概率。

将超参数w设置为对应于16个伪观察值。

w<-16

图13示出了三种不同情景的共有遗传标志物的预期比例(μ)的β分布u

图14示出了作为共有/匹配遗传标志物数量的函数的对数概率。每条曲线代表三种情景中的一种。在y轴上示出了对数概率。共有遗传标志物的数量显示在x轴上。例如,当在测试数据中观察到250个共有遗传标志物时,情景(3)(不同胎儿、不同父亲)的对数概率最高,如左边的垂直线所示。当在测试数据中观察到400个共有遗传标志物时,情景(2)(不同胎儿、相同父亲)的对数概率最高,如中间的垂直线所示。当在测试数据中观察到500个共有遗传标志物时,情景(1)(相同胎儿)的对数概率最高,如右边的垂直线所示。

假设我们已经建立了母体基因型和cfDNA非母体异点等位基因之间的n=512信息基因座。然后在500个信息基因座观察到具有非母体异点等位基因的胎儿细胞,该细胞来自与cfDNA相同的胎儿的概率是什么?

当在测试数据中观察到500个共有遗传标志物时,情景(1)的在后概率为0.98,情景(2)为0.07,情景(3)为0。这样,该方法确定cFC来自提供cfDNA的相同胎儿。

尽管为了清楚理解的目的已经详细描述了上述发明,但是本领域技术人员清楚在本申请的范围内可以实施某些改变和修改。应当注意,存在许多实现本申请的方法和数据库的替代方式。因此,本说明书中的实施方案应认为是说明性的而不是限制性的,并且本申请不限于本文给出的细节。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号