首页> 中国专利> 用于确定样品中存在或不存在不同非整倍性的方法

用于确定样品中存在或不存在不同非整倍性的方法

摘要

本发明提供了一种用于在测试样品中确定所感兴趣的序列的拷贝数变异(CNV)的方法,该测试样品包括多种核酸的一个混合物,这些核酸已知或被怀疑在一个或多个感兴趣的序列的量上是不同的。该方法包括一种统计方式,这种统计方式将产生于同过程相关的、染色体间的以及序列测定之间的变异性的累积性变异性考虑在内。该方法可适用于确定任何胎儿非整倍性的CNV、以及已知或被怀疑与多种医学情况进行关联的CNV。根据本发明的方法可以确定的CNV包括染色体1-22、X以及Y中任何一个或多个的三体性和单体性、其他染色体多体性、以及这些染色体中任何一个或多个的片段的缺失和/或复制,它们可以通过对一个测试样品的这些核酸仅进行一次测序而被检测出。从通过对一个测试样品的核酸仅进行一次测序而获得的测序信息就可以确定任何非整倍性。

著录项

  • 公开/公告号CN103003447A

    专利类型发明专利

  • 公开/公告日2013-03-27

    原文格式PDF

  • 申请/专利权人 维里纳塔健康公司;

    申请/专利号CN201180022958.5

  • 申请日2011-07-26

  • 分类号C12Q1/68(20060101);

  • 代理机构11262 北京安信方达知识产权代理有限公司;

  • 代理人武晶晶;郑霞

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 19:02:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-25

    授权

    授权

  • 2014-07-02

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20110726

    实质审查的生效

  • 2013-03-27

    公开

    公开

说明书

发明领域

本发明总体上涉及诊断学领域、并且提供了用于确定在衍生自不同基因组中的核酸混合物中核酸序列的量中的变异的方法。具体而言,该方法适用于实施无创性产前诊断,并且适用于诊断和监护癌症患者中的转移性进展。

发明背景

人类医学研究中的关键努力之一是发现了对不良健康结果极其重要的遗传性异常。在很多情况下,在基因组的多个部分中已经识别出了特定基因和/或关键诊断标志物,它们是以异常拷贝数存在的。例如,在产前诊断中,整个染色体的额外的或丢失的拷贝是经常发生的遗传性损伤。在癌症中,整个染色体或染色体片段的拷贝缺失或倍增、以及基因组特定区域的更高水平的扩增是常见的情况。

通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷贝数变异的大部分信息。用于遗传筛查和生物剂量测定的多种常规程序已经利用了侵入性程序(例如羊膜穿刺)来获得用于核型分析的细胞。认识到对不需要细胞培养的更迅速测试方法的需要,已经开发出了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)以及阵列-比较基因组杂交(阵列-CGH)来作为用于分析拷贝数变异的分子细胞遗传学方法。

允许在较短时间内对整个基因组进行测序的技术的出现、以及循环无细胞DNA(cfDNA)的发现已经提供了机会来将源自一个有待比较的的染色体遗传物质与另一遗传物质的染色体进行比较,而没有与侵入性采样过程相关的风险。然而,现存方法的多种限制(它们包括出自有限水平的cfDNA的不足的敏感性)以及出自基因组信息的固有性质的技术的测序偏差决定了对于无创性方法的持续性需求,这些无创性方法将提供特异性、敏感性、和适用性中任一项或全部,以便在在多种临床环境中可靠地诊断拷贝数的变化。

本发明满足了以上需求中的一些,并且特别是在提供一种可靠方法方面给出了一种优势,该方法至少适用于实施无创性产前诊断、并且适用于诊断并监护癌症患者中的转移性进展。

发明概述

本发明提供了一种方法用于在包括核酸混合物的测试样品中确定感兴趣序列的拷贝数变异,这些核酸已知或被怀疑在一个或多个感兴趣的序列的量上是不同的。这种方法包括一种统计方式,该统计方式法将来自过程相关的、染色体间的和测序处理间的变异性的累积性变异性考虑在内。该方法适用于确定任何胎儿非整倍性的CNV,以及已知或怀疑与多种医学情况相关的多种CNV。根据本方法可以确定的CNV包括染色体1-22、X和Y中的任一个或多个的三体性或单体性,其他染色体的多体性,以及这些染色体中的任一个或多个的片段的缺失和/或复制,这些可以通过对测试样品的核酸仅进行一次测序而检测出。从通过测试样品的核酸的仅进行一次测序而获得的测序信息可以确定任何非整倍性。

在一个实施方案中提供了一种方法,该方法用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何四种或更多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得在母体测试样品中胎儿的和母体核酸的序列信息;(b)使用该序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何四个或更多个染色体中的每一个识别出序列标签的一个数目,并且针对用于所述感兴趣的任何四个或更多个染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目;(c)使用针对所述感兴趣的任何四个或更多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何四个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何四个或更多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何四个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在该母体测试样品中存在或不存在任何四种或更多种完整的、不同的胎儿染色体非整倍性。步骤(a)可以包括对一个测试样品的这些核酸中的至少一部分进行测序,以获得针对测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化染色体序列识别出的序列标签的数目与每个所述归一化染色体序列的长度进行关联来针对每个所述归一化染色体序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中该染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化染色体序列的序列标签密度比的比率来计算的。

在另一个实施方案中提供了一种方法用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何四种或更多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在母体测试样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何四个或更多个染色体中的每一个识别出序列标签的一个数目、并且针对用于所述感兴趣的任何四个或更多个染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目;(c)使用针对所述感兴趣的任何四个或更多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何四个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何四个或更多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何四个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在该母体测试样品中存在或不存在任何四种或更多种完整的、不同的胎儿染色体非整倍性,其中选自染色体1-22、X、以及Y的所述感兴趣的任何四个或更多个染色体包括选自染色体1-22、X、以及Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的、完整的胎儿染色体非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化染色体序列识别出的序列标签的数目与每个所述归一化染色体序列的长度进行关联来针对每个所述归一化染色体序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中所述染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化染色体序列的序列标签密度比的比率来计算的。<

在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何四种或更多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在母体测试样品中的所述胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何四个或更多个染色体中的每一个识别出序列标签的一个数目,并且针对用于所述感兴趣的任何四个或更多个染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目;(c)使用针对所述感兴趣的任何四个或更多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何四个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何四个或更多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何四个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在任何四种或更多种完整的、不同的胎儿染色体非整倍性,其中选自染色体1-22、X、以及Y的所述感兴趣的任何四个或更多个染色体是所有染色体1-22、X和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的胎儿染色体非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化染色体序列识别出的序列标签的数目与每个所述归一化染色体序列的长度进行关联来针对每个所述归一化染色体序列计算出一个序列标签密度比;并且(iii)用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中该染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化染色体序列的序列标签密度比的比率来计算的。

在任何以上实施方案中,这个归一化染色体序列是选自染色体1-22、X、以及Y的一种单染色体。可替代地,这个归一化染色体序列是选自染色体1-22、X、以及Y的一组染色体。

在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在样品中的所述胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目;(c)使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化片段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每个所述单染色体剂量与针对所述一个或多个感兴趣的染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在任一种或多种完整的、不同的胎儿染色体非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体中的每一个计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化片段序列识别出的序列标签的数目与每个所述归一化染色体的长度进行关联来针对每个所述归一化片段序列计算出一个序列标签密度比;并且(iii)使用步骤(i)和(ii)中计算出的序列标签密度比来计算感兴趣的所述染色体中的每一个的单染色体剂量,其中所述染色体剂量被计算为感兴趣的染色体中的每一个的序列标签密度比和感兴趣的染色体中的每一个的归一化片段序列的序列标签密度比的比率。

在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目;(c)使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化片段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述任何一个或多个感兴趣的染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种完整的、不同的胎儿染色体非整倍性,其中选自染色体1-22、X、以及Y的所述任何一个或多个感兴趣的染色体包括选自染色体1-22、X和Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的完整的胎儿染色体非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化片段序列识别出的序列标签的数目与每个所述归一化染色体的长度进行关联来针对每个所述归一化片段序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中所述染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化片段序列的序列标签密度比的比率来计算的。

在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中的每一个的一个归一化片段序列识别出序列标签的一个数目;(c)使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化片段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述任何一个或多个感兴趣的染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种完整的、不同的胎儿染色体非整倍性,其中选自染色体1-22、X、以及Y的所述任何一个或多个感兴趣的染色体是全部染色体1-22、X和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的胎儿染色体非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化片段序列识别出的序列标签的数目与每个所述归一化染色体的长度进行关联来针对每个所述归一化片段序列计算出一个序列标签密度比;并且(iii)用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中所述染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化片段序列的序列标签密度比的比率来计算的。

[0013a]在以上实施方案的任一个中,这些不同完整染色体性非整倍性选自完整染色体三体性、完整染色体单体性和完整染色体多体性。这些不同染色体性非整倍性选自染色体1-22、X、和Y中的任一个的完整非整倍性。例如,所述不同完整的胎儿染色体非整倍性选自三体性2、三体性8、三体性9、三体性21、三体性13、三体性16、三体性18、三体性22、47、XXY、47、XXX、47、XYY、以及单体性X。

在以上实施方案的任一个中,对于来自不同母体受试者的测试样品重复步骤(a)-(d),并且该方法包括确定在每一测试样品中,存在或不存在任何四个或更多个不同的完整胎儿的染色体性非整倍性。

[0014a]在以上实施方案的任一个中,该方法可以进一步包括计算出一个归一化染色体值(NCV),其中所述NCV使所述染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联,作为:

>NCVij=χij-μ^jσ^j>

其中对应地是对于在一组合格样品中的第j个染色体剂量的估算平均值以及标准差,并且xij是对于测试样品i所观察到的第j个染色体剂量。

在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在不同的、部分的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息针对每个选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体的任何一个或多个片段识别出序列标签的一个数目并且针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段的归一化片段序列识别出序列标签的一个数目;(c)使用针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段识别出的所述序列标签的数目以及针对每个所述归一化片段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体的任何一个或多个片段中的每一个计算出一个单染色体剂量;并且(d)将针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段中的每个所述单片段剂量与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、部分的胎儿染色体非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。

在一些实施方案中,步骤(c)包括对于每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段计算出一个单片段剂量,作为针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段识别出的序列标签的数目与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段的所述归一化片段序列识别出的序列标签的数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的每一片段中的识别出的序列标签的数目与每个所述感兴趣的片段的长度进行关联来针对每个所述感兴趣的片段计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化片段序列识别出的序列标签的数目与每个所述归一化片段序列的长度进行关联来针对每个所述归一化片段序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的片段计算出一个单染色体剂量,其中所述片段剂量是作为针对每个所述感兴趣的片段的序列标签密度比与针对每个所述感兴趣的片段的所述归一化片段序列的序列标签密度比的比率来计算的。该方法可以进一步包括计算出一个归一化片段值(NSV),其中所述NSV使所述片段剂量与在一组合格样品中的相应的片段剂量的平均值进行关联,作为:

>NSVij=χij-μ^jσ^j>

其中对应地是对于在一组合格样品中的第j个片段剂量的估算平均值以及标准差,并且xij是对于测试样品i的所观察到的第j个片段剂量。<

在所说明的方法的多个实施方案中,由此使用归一化片段序列来确定染色体剂量或片段剂量,这种归一化片段序列可以是染色体1-22、X、以及Y中任意一项或多项的一个单一片段。可替代地,这种归一化片段序列可以是染色体1-22、X、以及Y中任意一项或多项的一组片段。

对于来自不同母体受试者的多个测试样品重复用于确定存在或不存在部分的胎儿染色体非整倍性的方法的步骤(a)-(d),并且该方法包括确定在每个所述样品中存在或不存在不同的、部分的胎儿染色体非整倍性。根据该方法可以确定的部分的胎儿染色体非整倍性包括任何染色体的任何片段的部分的非整倍性。这些部分的非整倍性可以选自部分的复制、部分的倍增、部分的插入和部分的缺失。根据该方法可以确定的部分非整倍性的实例包括染色体1的部分单体、染色体4的部分单体、染色体5的部分单体、染色体7的部分单体、染色体11的部分单体、染色体15的部分单体、染色体17的部分单体、染色体18的部分单体、以及染色体22的部分单体。

在上述实施方案的任何一个中,这种测试样品可以是选自血液、血浆、血清、尿和唾液样品的一个母体样品。在这些实施方案的任何一个中,这种测试样品可以是血浆样品。母体样品的这些核酸分子是胎儿的和母体的无细胞DNA分子。可以使用下一代测序(NGS)来对这些核酸进行测序。在一些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是连接法测序。在另外的其他实施方案,测序是单分子测序。可任选地,在测序前进行一个扩增步骤。

在另一个实施方案中提供了一种方法,用于在包含胎儿和母体的无细胞DNA分子的混合物的母体血浆测试样品中确定存在或不存在任何二十种或更多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)对无细胞DNA分子中的至少一部分进行测序以便获得针对在该样品中的胎儿和母体的无细胞DNA分子的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的每一个感兴趣的任何二十个或更多个染色体识别出序列标签的一个数目并且来针对每个所述感兴趣的二十个或更多个染色体的一个归一化染色体识别出序列标签的一个数目;(c)使用针对每个所述感兴趣的二十个或更多个染色体所识别出的所述序列标签的数目以及针对每个所述归一化染色体识别出的所述序列标签的数目来对于每个所述感兴趣的二十个或更多个染色体计算出一个单染色体剂量;并且(d)将针对每个所述感兴趣的二十个或更多个染色体的每个所述单染色体剂量与针对每个所述感兴趣的二十个或更多个染色体的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在任何二十种或更多种不同的、完整的胎儿染色体非整倍性。

在另一实施方案中,本发明提供了用于识别在测试样品中的一个感兴趣的序列(例如临床上相关的序列)的拷贝数变异(CNV)的方法,该方法包括以下步骤:(a)获得一个测试样品和多个合格的样品,所述测试样品包括测试核酸分子和所述多个合格的样品,所述多个合格的样品包括合格的核酸分子;(b)获得在所述样品中所述胎儿的和母体的核酸的序列信息;(c)基于所述合格的核酸分子的所述测序计算在每一所述多个合格样品中感兴趣的所述合格序列的合格序列剂量,其中所述计算合格序列剂量包括确定感兴趣的所述合格序列和至少一个合格的归一化序列的参数;(d)基于所述合格序列剂量识别出至少一个合格的归一化序列,其中在所述多个合格样品中所述至少一个合格的归一化序列具有最小变异性和/或最大可辨性;(e)基于在所述测试样品中所述核酸分子的所述测序,计算感兴趣的所述测试序列的测试序列剂量,其中所述计算测试序列剂量包括确定所述感兴趣的测试序列和至少一个归一化测试序列的参数,所述至少一个归一化测试序列对应于所述至少一个合格的归一化序列;(f)比较所述测试序列剂量与至少一个阈值;以及(g)基于步骤(f)的结果来评定在所述测试样品中所述感兴趣的序列的所述拷贝数变异。在一个实施方案中,针对所述感兴趣的合格序列和至少一个合格的归一化序列的参数使映射到所述感兴趣的合格序列的序列标签的数目与映射到所述合格的归一化序列的这些标签的数目进行关联,并且其中感兴趣的所述测试序列和至少一个归一化测试序列的所述参数使映射到所述感兴趣的测试序列的序列标签的数目与映射到所述归一化测试序列的标签数目进行关联。在一些实施方案中,步骤(b)包括对这些合格的和测试的核酸分子中的至少一部分进行测序,其中测序包括提供用于测试的多个映射的序列标签以及一个感兴趣的合格序列、并且用于至少一个测试和至少一个合格的归一化序列;对测试样品的所述核酸分子中的至少一部分进行测序以获得该测试样品的胎儿和母体核酸分子的序列信息。在一些实施方案中使用了下一代测序方法来进行这个测序步骤。在一些实施方案中,该测序方法可以是大规模平行测序方法,其中该测序方法使用借助可逆染料终止子的合成法测序。在其他实施方案中,该测序方法是连接法测序。在一些实施方案中,测序包括一次扩增。在其他实施方案中,测序是单分子测序。感兴趣的序列的CNV是一种非整倍性,它可以是一个染色体的或一个部分性的非整倍性。在一些实施方案中,这种染色体性非整倍性是选自三体性2、三体性8、三体性9、三体性16、三体性21、三体性13、三体性18、三体性22、47、XXY、47、XXX、47、XYY、以及单体X。在其他实施方案中,这种部分的非整倍性是一个部分染色体缺失或一个部分染色体插入。在一些实施方案中,通过该方法识别的CNV是与癌症相关的一种染色体的或部分性的非整倍性。在一些实施方案中,这些测试的和合格的样品是生物学流体样品,例如:得自怀孕的受试者(如怀孕的人类受试者)的血浆样品。在其他实施方案中,测试的和合格的生物学流体样品(例如血浆样品)是得自已知或怀疑患有癌症的受试者。

虽然在此这些实例涉及人类并且语言主要针对人类问题,但是本发明的概念也适用于来自任何植物或动物的基因组。

通过引用结合的文件

在此提到的所有专利、专利申请、以及其他公开文件(包括在这些引用文献内披露的所有序列)都通过引用而被明确地结合在此,其范围等同于如同每一单独的公开文件、专利或专利申请被确切并且单独地表明是通过引用而被结合在此。所有引用的文件都在相关部分中通过引用而结合在此。然而,任何文件的引用都不得被解释为是承认它相对于本发明是现有技术。

附图简要说明

本发明的新颖特征在所附权利要求书中具体列出。通过参见阐明了多个说明性实施方案(其中利用了本发明的原理)的以下详细说明及其附图,将得到对本发明的特征和优点的更好理解,在附图中:

图1是方法100的流程图,该方法用于在包括核酸的混合物的测试样品中确定存在或不存在拷贝数变异。

图2展示了从对cfDNA进行测序所确定的染色体21的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图2A)、并且针对染色体1-22和X(图2B),将对于合格的(即:对于染色体21(○)而言正常的)染色体21的剂量、以及三体性21测试样品示出为(△)。

图3展示了从对cfDNA进行测序所确定的染色体18的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图3A)并且针对染色体1-22和X(图3B)示出了对于合格的(即:对于染色体18(○)而言正常的)染色体18的剂量、以及三体性18(△)的测试样品。

图4展示了从对cfDNA进行测序所确定的染色体13的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图4A),并且针对染色体1-22和X(图4B)示出了对于合格的(即:对于染色体13(○)而言正常的)染色体13的剂量、以及三体性13(△)的测试样品。

图5展示了从对cfDNA进行测序所确定的染色体X的染色体剂量的分布,cfDNA提取自一组48个测试血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图5A)、并且针对染色体1-22和X(图5B)示出了对于男性(46,XY;(○))、女性(46,XX;(△))的染色体X剂量,单体性X(45,X;(+)),以及复杂核型(Cplx(X))的样品。

图6展示了从对cfDNA进行测序所确定的染色体Y的染色体剂量的分布,cfDNA是提取自一组48个测试血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12(图6A)、并且针对染色体1-22(图6B)示出了对于男性(46,XY;(△)),女性(46,XX;(○))的染色体Y剂量,单体性X(45,X;(+)),以及复杂核型(Cplx(X))的样品。

图7示出了对于从图2、3和4中分别示出的剂量来确定的染色体21(■)、18(●)和13(▲)的变异系数(CV)。

图8示出了对于从图5和6中分别示出的剂量来确定的染色体X(■)和Y(●)的变异系数(CV)。

图9示出了人类染色体的GC部分的累积性分布。纵轴代表具有低于水平轴上示出的值的GC含量的染色体的频率。

图10展示了对于从对cfDNA进行测序所确定的染色体11(81000082-103000103bp)的片段的序列剂量(Y轴),cfDNA是提取自所获得的一组7个合格样品(○)和来自怀孕人类受试者的1个测试样品(◆)。识别了来自一位受试者的样品,这位受试者怀有一个带有染色体11(◆)的一种部分非整倍性的胎儿。

图11展示了,相对于在未受影响的样品中的对应染色体的平均值(Y-轴)的标准差,对于染色体21(A)、染色体18(B)、染色体13(C)、染色体X(D)以及染色体Y(E)的归一化的染色体剂量的分布。

图12示出了使用如实例6中所述的归一化染色体,对于在来自训练组1中的样品中确定的染色体21(○)、18(△)、和13(□)的归一化的染色体值。

图13示出了使用如实例6中所述的归一化染色体,对于在来自测试组1中的样品中确定的染色体21(○)、18(△)、和13(□)的归一化的染色体值。

图14示出了使用Chiu(赵)等人的归一化方法(对感兴趣的染色体所识别序列标签的数目与在样品中剩余染色体所获得的序列标签的数目进行归一化,参见在本申请其他地方的实例7),对于来自测试组1的样品中确定的染色体21(○)和18(△)的归一化的染色体值。

图15示出了使用系统地确定的归一化染色体(如实例7中所述),对于来自训练组1的样品中确定的染色体21(○)、18(△)、和13(□)的归一化的染色体值。

图16示出了使用系统地确定的归一化染色体(如实例7中所述),对于来自测试组1的样品中确定的染色体21(○)、18(△)、和13(□)的归一化的染色体值。

图17示出了使用系统地确定的归一化染色体(如实例7中所述),对于来自测试组1的样品中确定的染色体9(○)的归一化的染色体值。

图18示出了对于染色体X(X-轴)和Y(Y-轴)的归一化的染色体值。箭头指向分别在训练和测试组中识别的5(图18A)和3(图18B)单体性X样品,如在实例7中所述。

图19示出了使用系统地确定的归一化染色体(如实例7中所述),对于来自测试组1的样品中确定的染色体1-22的归一化的染色体值。

发明详细说明

本发明提供了一种方法用于在包括核酸混合物的测试样品中确定感兴趣的序列的拷贝数变异(CNV),已知或怀疑这些核酸在一个或多个感兴趣的序列的量上是不同的。感兴趣的序列包括范围从千碱基(kb)到兆碱基(Mb)到完整染色体的基因组序列,已知或怀疑这些序列与遗传情况或疾病情况是相关联的。感兴趣的序列的实例包括与熟知的非整倍性相关联的染色体(例如三体性21)以及在疾病(如癌症)中增加的染色体的片段,例如在急性髓细胞白血病中的部分三体性8。根据本方法可以确定的CNV包括常染色体1-22、以及性染色体X和Y(例如:45,X、47,XXX、47,XXY和47,XYY)中的任意一个或多个的单体性和三体性,其他染色体多体性,即四体性和五体性(包括但并不局限于XXXX、XXXXX、XXXXY和XYYYY),以及这些染色体中的任一个或多个的片段的缺失和/或复制。

该方法包括一种统计方法,该统计方法将源自过程相关的、染色体间(同批)的和测序处理间的(批次间)的变异性的累积性变异性考虑在内。该方法适用于确定任何胎儿非整倍性的CNV、以及已知或怀疑与多种医学情况相关的CNV。

除非另外指明,本发明的实施涉及通常用于分子生物学、微生物学、蛋白纯化、蛋白工程、蛋白和DNA测序、以及重组DNA领域的常规技术,这些都在本领域的技术内。此类技术对本领域普通技术人员而言是已知的,并且说明于众多文件和参考著作(例如,见Sambrook(萨姆布鲁克)等人,“Molecular Cloning:A Laboratory Manual(分子克隆实验指南)”,第三版(Cold Spring Harbor(冷泉港)),[2001]);以及Ausubel(奥苏贝尔)等人,“Current Protocols inMolecular Biology(最新分子生物学实验方法汇编)”[1987]。

数值范围包括限定该范围的数值。在此的意图是贯穿本说明书给出的每一最大数值限度包括每一较低的数值限度,如同此类较低数值限度在此被明确写出。贯穿本说明书给出的每一最小数值限度将包括每一较高的数值限度,如同此类较高数值限度在此被明确写出。贯穿本说明书给出的每一数值范围将包括落在此类较广的数值范围内的每一较窄数值范围,如同此类较窄数值范围此处被全部明确地写出。

在此提供的小标题并不是本发明的不同方面或实施方案的限制,通过将本说明书作为整体来参阅可以得出这些不同方面或实施方案。因此,如以上所表明,直接在下文中定义的这些术语通过将本说明书作为整体来参阅即得到更完全的定义。

除非在此另行定义,在此使用的所有技术的和科学的术语都具有本发明所属领域中的一位普通技术人员通常理解的相同含义。包括了在此包含的术语的不同科学字典对于本领域那些技术人员而言是熟知并且是可获得的。虽然类似或等价于在此所述的那些方法和材料的任何方法和材料在实施或测试本发明中找到了用途,但仅说明了一些优选的方法和材料。因此,直接在下文中定义的术语通过将本说明书作为整体来参阅即得到更完全地说明。应理解,本发明并不局限于所说明的具体方法学、规程、以及试剂,因为这些可以变化,它们被本领域的那些技术人员根据其情况下来使用。

定义

如在此所使用的,单数的术语“一个”、“一种”、和“该”包括复数引用,除非上下文清楚地另外指明。除非另外指明,对应地,核酸是按5′到3′方向从左到右书写并且氨基酸序列是按氨基到羧基方向从左到右书写。

术语“评定”在此是指用三种类型的判定,(即:“正常的”、“受影响的”、和“无判定的”)之一来表征一种染色体性非整倍性的状态。例如,在存在三体性时,这种“正常的”判定是通过一个参数的值(例如,低于使用者定义的可靠性阈值的一个测试染色体剂量)来确定的,这种“受影响的”判定是通过一个参数(例如,高于使用者定义的可靠性阈值的一个测试染色体剂量)来确定的,并且这种“无判定的”结果是通过一个参数(例如,位于这些使用者定义的用于做出“正常的”或“受影响的”判定的可靠性阈值之间的一个测试染色体剂量)来确定的。

术语“拷贝数变异”在此是指与存在于合格样品的核酸序列的拷贝数相比,在一个测试样品中存在的为1kb或更大的核酸序列的拷贝数中的变化。“拷贝数变异体(variant)”是指通过比较在测试样品中的感兴趣的序列与存在于合格样品中的序列,其中发现的拷贝数差异为1kb或更大的核酸的序列。拷贝数变异体/变异包括缺失(包括微缺失)、插入(包括微插入)、复制、倍增、倒位、易位和复杂的多位点变异体。CNV涵盖染色体性非整倍性和部分非整倍性。

术语“非整倍性”在此是指由获得或丢失整个染色体、或染色体的一部分而引起的遗传物质的不平衡。

术语“染色体性非整倍性”和“完整染色体性非整倍性”在此是指由获得或丢失整个染色体而引起的遗传物质的不平衡,并且包括种系非整倍性和嵌合性非整倍性。

术语“部分非整倍性”和“部分染色体性非整倍性”在此是指由获得或丢失染色体的一部分(例如,部分单体性和部分三体性)而引起的遗传物质的不平衡,并且涵盖由易位、缺失和插入引起的不平衡。

术语“非整倍性样品”在此是指表明一位受试者的染色体含量不是整倍体的一个样品,即:该样品表明一位受试者带有染色体的异常拷贝数。

术语“非整倍性染色体”在此是指一种染色体,它已知或被确定是存在于一个异常拷贝数的样品之中。

术语“多个/多种”在此是用于提及一定数目的核酸分子或序列标签,该数目在使用本发明的方法的测试样品和合格样品中足以识别拷贝数变异(例如染色体剂量)中的显著性差异。在一些实施方案中,对于每一测试样品获得了包括在20和40bp读数之间的至少约3×106个序列标签、至少约5×106个序列标签、至少约8×106个序列标签、至少约10×106个序列标签、至少约15×106个序列标签、至少约20×106个序列标签、至少约30×106个序列标签、至少约40×106个序列标签、或至少约50×106个序列标签。

术语“多核苷酸”、“核酸”以及“核酸分子”被可互换地使用,并且是指一个共价连接的核苷酸序列(即RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3′位置被一个磷酸二酯基团连接到下一个核苷酸的戊糖的5′位置上,这包括任何形式的核酸的序列,包括但不局限于RNA、DNA和cfDNA分子。术语“多核苷酸”包括而不局限于单链的和双链的多核苷酸。

术语“部分(portion)”在此被用于提及在一个生物学样品中胎儿和母体核酸分子的序列信息的量,这个量合计小于(<1)一个类基因组的序列信息。

术语“测试样品”在此是指一个包括核酸混合物的样品,这些核酸包括至少一个核酸序列,而其拷贝数被怀疑已经发生了变异。在一个测试样品中存在的核酸被称为“测试核酸”。

术语“合格样品”在此是指一个包括核酸混合物的样品,这些核酸以一个已知拷贝数存在,而一个测试样品中的核酸与这个已知拷贝数进行比较,并且它是一个正常的样品,即对于感兴趣的序列而言不是非整倍性,例如用于识别染色体21的归一化染色体的合格样品就是一个并非三体性21样品的样品。

术语“训练组”在此是指一组样品,它们可包括受影响的和未受影响的样品。在训练组中未受影响的样品被用作合格样品来识别归一化序列,例如归一化染色体,而未受影响的样品的染色体剂量被用于为这些感兴趣的序列(例如染色体)中的每一个设定阈值。在一个训练组中的这些受影响的样品可以被用于验证受影响的测试样品可以容易地从未受影响的样品中辨别出来。

术语“合格核酸”是与“合格序列”可互换地使用,这是一个测试序列或测试核酸与之进行比较的序列。合格序列是优选按已知表达(即合格序列的量是已知的)存在于生物学样品中的一种序列。“感兴趣的合格序列”是对其在合格样品中的量已知的一种合格序列,并且它是与带有一种医学情况的个体的序列表达中的一种差异相关联的序列。

术语“感兴趣的序列”在此是指一种核酸序列,它与在健康对比患病个体的序列表达中的一种差异相关联。一个感兴趣的序列可以是一种染色体上的序列,它在疾病或遗传状况下被错误表达,即:过表达或表达不足。一个感兴趣的序列还可以是一个染色体的一部分(即染色体片段)、或一个染色体。例如,一个感兴趣的序列可以是一种染色体(它在非整倍性情况下是过表达的),或者是一种基因(它对在癌症中表达不足的一种肿瘤抑制子进行编码)。感兴趣的序列包括在受试者的细胞的总群或亚群中过表达或表达不足的序列。一个“感兴趣的合格序列”是在合格样品中的感兴趣的序列。一个“感兴趣的测试序列”是在测试样品中的感兴趣的序列。

术语“归一化序列”在此是指一种序列,它在多个样品中并且在最好地接近感兴趣的序列(对此它被用作一个归一化参数)的多次测序运行中显示了对它映射的这个序列标签数目中的一种变异性,并且它能够从一个或多个未受影响的样品中最好地辨别出一个受影响的样品。“归一化染色体”或“归一化染色体序列”是“归一化序列”的实例。“归一化染色体序列”可以由一个单染色体或一组染色体构成。一个“归一化片段”是“归一化序列”的另一个实例。一个“归一化片段序列”可以由一个染色体的单一片段构成,或者它可以由相同的或不同的染色体的两个或更多个片段构成。

术语“可辨性”在此是指时一种归一化染色体的特征,这使它能够从一个或多个受影响的(即非整倍性)样品辨别出一个或多个未受影响的(即正常的)样品。

术语“序列剂量”在此是指一个参数,它使一个感兴趣的序列的序列标签密度与一个归一化序列的标签密度进行关联。“测试序列剂量”是一个参数,它使一个感兴趣的序列(例如染色体21)的序列标签密度与在一个测试样品中确定的归一化序列(例如染色体9)的序列标签密度进行关联。类似地,一个“合格序列剂量”是一个参数,它使一个感兴趣的序列的序列标签密度与在一个合格样品中确定的归一化序列的标签密度进行关联。

术语“序列标签密度”在此是指序列读数的数目,这些读数被映射到一个参考基因组序列上,例如,针对染色体21的序列标签密度是由测序方法产生的背映射到参考基因组的染色体21上的序列读数的数目。术语“序列标签密度比”在此是指被映射到参考基因组的染色体(例如染色体21)的序列标签数目与参考基因组染色体21的长度的比率。

术语“下一代测序(NGS)”在此是指允许对克隆扩增的和单个的核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成法测序、以及连接法测序。

术语“参数”在此是指特征化一个量化数据组的一个数字值,和/或在多个量化数据组之间的一种数字关系。例如,映射到一个染色体上的序列标签的数目和这些标签所映射到上面的染色体的长度之间的比率(或比率的函数)就是一个参数。

术语“阈值”和“合格阈值”在此只是使用选拔数据组来计算出的任何数,并且用作生物体内拷贝数变异(例如非整倍性)的诊断的一种限度。如果从实施本发明获得的结果超过了一个阈值,那么受试者可以被诊断患有拷贝数变异,例如,三体21。通过分析对于一个训练组的样品计算出的归一化值(例如染色体剂量,NCV或NSV)可以识别用于在此说明的方法的适当阈值。使用包括合格的(即未受影响的)样品和受影响的样品的训练组中的合格的(即未受影响的)样品可以识别阈值。在已知具有染色体性非整倍性的训练组中的这些样品(即受影响的样品)可以用于确认这些选择的阈值在从测试组中的未受影响的样品辨别出受影响的样品中是有用的(参见在此的这些实例)。阈值的选择取决于使用者希望得到的做出分类的置信水平。在一些实施方案中,用于识别适当阈值的训练组包括至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000、或更多个合格样品。可能有利的是使用更大组的合格样品来改进阈值的诊断有用性。

术语“归一化值”在此是指一个数字值,该数字值使针对感兴趣的序列(例如染色体或染色体片段)所识别的序列标签数目与针对归一化序列(例如归一化染色体或归一化染色体片段)识别的序列标签数目进行关联。例如,“归一化值”可以是在本申请的其他地方说明的染色体剂量,或者它可以是在本申请的其他地方说明的NCV(归一化的染色体值),或者它可以是在本申请的其他地方说明的NSV(归一化的片段值)。

术语“读取”指的是一段足够长(比如至少30bp)的能用于识别更大的序列或者是区域的DNA序列,比如能与一个染色体或者一个基因组区域或者一个基因进行比对和针对性的比对。

术语“序列标签”在此与术语“映射的序列标签”可互换地使用,是指已经通过比对确切地分配给(即映射到)一个更大序列(例如一个参考基因组)的序列读数。映射的序列标签被独特地映射到参考基因组上,即它们被分配给对于该参考基因组的一个单一位置。在分析中不包括可以被映射到参考基因组中多于一个的位置的标签(即并不独特地映射的标签)。

如在此使用的,术语“比对的”、“比对”、或“进行比对”是指就它们的核酸分子的顺序而言与来自一个参考基因组的已知序列被识别为一个匹配项的一个或多个序列。此类比对可以手工进行或通过计算机算法进行,实例包括作为Illumina基因组学分析系列的一部分来分销的核苷酸数据的有效本地比对(ELAND)计算机程序。在比对中读出一个序列的匹配可以是100%序列匹配或小于100%(非完美匹配)。

如在此所使用的,术语“参考基因组”是指任何生物体或病毒的任何具体的已知基因组序列(无论是部分的或完整的),它可以用于对来自一个受试者的识别的序列进行参考。例如,用于人类受试者连同很多其他生物体的参考基因组可见于the National Center for Biotechnology Information(美国国家生物技术信息中心),在www.ncbi.nlm.nih.gov。“基因组”是指一个生物体或病毒的完整遗传学信息,这表达在核酸序列中。

术语“临床上相关的序列”在此是指一个核酸序列,该序列已知是或被怀疑是与一种遗传的或疾病的情况相关联或与之有牵连。在确定一种医学情况的诊断或确认该医学情况的诊断时、或提供对于一种疾病发展的预测时,确定存在或不存在临床上相关的序列可以是有用的。

当在一种核酸或一个核酸混合物的背景下使用术语“衍生的”时,在此是指从这种或这些核酸得起源的来源处获得这种或这些核酸的方式。例如,在一个实施方案中,衍生自两个不同基因组的核酸的混合物是指这些核酸(例如cfDNA)是由细胞通过天然发生的过程(如坏死或凋亡)而自然地释放出的。在另一实施方案中,衍生自两个不同基因组的核酸的混合物是指这些核酸是从来自一个受试者的两种不同类型的细胞中提取的。

术语“混合样品”在此是指含有核酸混合物的样品,它们衍生自不同基因组。

术语“母体样品”在此是指从一个怀孕受试者(例如,一位女士)获得的生物学样品。

术语“生物学流体”在此是指取自生物学来源的液体并且包括(例如)血液、血清、血浆、痰、灌洗液、脑脊液、尿、精液、汗液、眼泪、唾液、以及类似物。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖它们的分离部或加工的部分。类似地,当一个样品是取自活组织检查、棉签、涂片、等时,该“样品”明确涵盖衍生自活组织检查、棉签、涂片、等的一个加工的分离部或部分。

术语“母体核酸”和“胎儿核酸”在此分别是指怀孕的女性受试者的核酸和该怀孕的女性所怀有的胎儿的核酸。

如在此所使用的,术语“相对应”是指存在于不同受试者的基因组中的核酸(例如基因或染色体),并且它并不必须在所有基因组中具有相同的序列,但是用于提供感兴趣的序列(例如基因或染色体)的身份而不是遗传信息。

如在此所使用的,术语“基本上无细胞”涵盖希望的样品的制备物,从该样品上除去了通常与其相关联的组分。例如通过除去正常与其相关联的细胞(例如红细胞),使血浆本质上无细胞。在一些实施方案中,基本上无细胞的样品经过加工来除去细胞,这些细胞会另外构成有待测试CNV的的希望的遗传物质。

如在此所使用的,术语“胎儿部分”是指存在于一个包括胎儿的和母体的核酸的样品中的胎儿的核酸部分。

如在此所使用的,术语“染色体”是指衍生自染色质并且包括DNA和蛋白组分(尤其是组蛋白)的活细胞的承载遗传性的基因载体。在此采用了常规的、在国际上认可的个体人类基因组染色体编号系统。

如在此所使用的,术语“多核苷酸长度”是指在一个序列或在一个参考基因组的区域中核酸分子(核苷酸)的绝对数目。术语“染色体长度”是指以碱基对给出的染色体的已知长度,例如,在万维网上,在genome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=见到的人类染色体的NCBI36/hg18组件中提供了染色体长度。

术语“受试者”在此是指一位人类受试者以及一个非人类受试者,例如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌、和病毒。虽然在此的这些实例涉及人类并且语言主要指向人类的问题,但是本发明的概念适用于来自任何植物或动物的基因组,并且在兽医、动物科学、研究实验室和类似物的领域中是有用的。

术语“情况”在此是指作为一个广义术语的“医学情况”,这包括所有疾病和失调,但是可以包括[损伤]和正常健康状况,如怀孕,它可以影响人的健康,可从医疗救助上获益,或影响医学治疗。

在此关于一种染色体性非整倍性而使用的术语“完整”是指获得或丢失一个完整染色体。

在关于染色体性非整倍性来使用时,术语“部分”在此是指获得或丢失染色体的一部分。

术语“嵌合性”在此是表示在从一个单受精卵发育的一个个体中存在具有不同核型的两群细胞。嵌合现象可以生成自发育过程中的一种突变,它仅被繁殖到成年细胞的一个亚群上。

术语“非嵌合性”在此是指由一种核型的细胞构成的生物体,例如人类胎儿。

在关于确定染色体剂量而使用时,术语“使用一个染色体”在此是指使用针对一个染色体所获得的序列信息,即针对一个染色体所获得的序列标签的数目。

在此使用的术语“敏感性”等于真阳性数除以真阳性和假阴性之和。

在此使用的术语“特异性”等于真阴性的数目除以真阴性和假阳性之和。

术语“患者样品”是指从一位患者(即一位医学关注、护理或治疗的接受者)获得的生物学样品。这种患者样品可以是在此说明的任何样品。优选地,这种患者样品是通过无创性过程获得的,例如外周血样品或粪便样品。

术语“亚二倍体”在此是指一个染色体数,它比对于该物种而言的染色体组特征的正常单体数要小一或更多。

说明

本发明提供了一种方法用于确定在包括衍生自两个不同基因组的核酸的混合物的测试样品中,感兴趣的不同序列的拷贝数变异(CNV),并且这些核酸已知或被怀疑在一个或多个感兴趣的序列的量上是不同的。通过本发明的方法确定的拷贝数变异包括获得或丢失完整染色体,涉及显微镜可见的非常大的染色体片段的改变,以及大量在大小上范围从千碱基(kb)到兆碱基(Mb)的DNA片段的亚显微拷贝数变异。该方法包括一种统计方式,该统计方式将源自过程相关的、染色体间(同批)的和测序处理间的的变异性的累积性变异性考虑在内。该方法适用于确定任何胎儿非整倍性的CNV,并且CNV已知或被怀疑是与多种医学情况相关联的。根据本发明的方法可以确定的CNV包括染色体1-22、X和Y中的任意一个或多个的三体性和单体性,其他染色体多体性,以及这些染色体中的任意一个或多个的片段的确实和/或复制,通过测试样品的核酸的仅一次测序可以检测到它们。从通过对测试样品的核酸的仅进行一次测序而获得测序信息中可以确定的任何非整倍性。

在人类基因组中的CNV显著地影响人类多样性和对疾病的易感性(Redon(雷东)等人,Nature(自然)23:444-454[2006],Shaikh(谢赫)等人,GenomeRes(基因组研究)19:1682-1690[2009]。已知CNV通过不同机制促成遗传疾病,从而在多数情况下导致基因剂量的不平衡亦或基因破坏。除了它们直接与遗传性障碍相关外,还已知CNV介导可以是有害的表型改变。最近,若干研究已经报道,与正常对照相比,在复杂失调,如自闭症、ADHD(多动症)、和精神分裂症中,罕见或重新的CNV的一种增加的负担,从而突出了罕见或独特的CNV的潜在致病性(Sebat(塞伯特)等人,316:445-449[2007];Walsh(沃尔什)等人,Science(科学)320:539-543[2008]。来自基因组重排的CNV上升,主要因为缺失、复制、插入、和不平衡的易位事件。

在此说明的方法采用了下一代测序技术(NGS),其中以流动槽内的大规模平行方式测序来克隆地扩增的DNA模板或单DNA分子(例如像在Volkerding(沃克尔丁)等人,Clin Chem(临床化学)55:641-658[2009];Metzker(梅兹可)M,Nature Rev(自然评论)11:31-46[2010]中所述)。除了高通量序列信息外,NGS还提供了定量信息,其中每一序列读数是可计算的“序列标签”,这些序列标签代表个体克隆DNA模板或单DNA分子。NGS的测序技术包括焦磷酸测序、借助可逆染料终止子的合成法测序、通过寡核苷酸探针连接的测序以及离子半导体测序。对来自单独的样品的DNA可以单独地进行测序(即单项(singleplex)测序),或者在单测序运行时,作为索引基因组分子,来自多个样品的DNA可以被汇集在一起并进行测序(即多重测序),以产生高达若干亿的DNA序列的读数。以下说明多种测序技术的实例,根据本发明的方法它们可以用于获得序列信息。

测序方法

一些测序技术是可商购的,如来自Affymetrix Inc.(美国昂飞公司)(Sunnyvale(桑尼维尔),CA)的杂交法测序平台,和来自454Life Sciences公司(Bradford(布拉福德),CT),Illumina/Solexa(Hayward(海沃德),CA)与Helicos Biosciences(螺旋生物科学公司)(剑桥,MA)的合成法测序平台,以及来自Applied Biosystems(美国应用生物系统公司)(福斯特城,CA)的连接法测序平台,如以下所述。除了使用Helicos Biosciences(螺旋生物科学公司)的合成法测序进行的单分子测序外,其他单分子测序技术包括Pacific Biosciences公司的SMRTTM技术,离子TorrentTM技术,以及例如正在由Oxford NanoporeTechnologies(牛津纳米孔技术公司)开发的纳米孔测序。虽然自动化桑格法(automated Sanger method)被认为是“第一代”技术,但是包括自动桑格测序的桑格测序也可以被本发明的方法采用。另外的测序方法包括核酸成像技术,例如原子力显微技术(AFM)或透射电子显微术(TEM)。以下说明多种示例性测序技术。

在一个实施方案中,本方法包括使用Helicos真单分子测序(tSMS)技术(例如像在Harris(哈里斯)T.D.等人,Science(科学),320:106-109[2008]中所述)的单分子测序技术获得测试样品中的核酸(例如母体样品中的cfDNA)的序列信息。在tSMS技术中,一个DNA样品被切割为约100至200个核苷酸的链,并且polyA序列被添加到每一DNA链的3’端。通过添加荧光标记的腺苷酸来标记每一链。然后这些DNA链被杂交至流动槽,它含有被固定到流动槽表面的数百万个寡T(oligo-T)捕获位点。这些模板可以是在约1亿个模板/cm2的密度。然后将流动槽加载到一个仪器之中,例如HeliScopeTM测序仪,并且一个激光器照亮流动槽表面,从而揭示每一模板的位置。CCD相机可以映射这些模板在流动槽表面上的位置。然后切割并洗掉模板荧光标记物。通过引入DNA聚合酶和荧光标记的核苷酸来开始测序反应。寡T核酸用作引物。聚合酶以模板引导的方式,将标记的核苷酸结合到该引物上。除去聚合酶和未结合的核苷酸。通过使流动槽表面成像,这些指引了荧光标记的核苷酸的结合的模板被辨别出。在成像后,一个切割步骤除去荧光标记,并且用其他荧光标记的核苷酸重复该过程,直至达到所希望的读数长度。随着每一核苷酸添加步骤收集了序列信息。通过单分子测序技术的整个基因组测序排除了在制备测序文库中的PCR基扩增,并且样品制备的直接性允许该样品的直接测量,而不是这个样品的拷贝的测量。

在另一实施方案中,本发明的方法包括使用454测序(Roche(罗氏)公司)来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息(例如像在Margulies(马古列斯),M.等人),Nature(自然),437:376-380[2005]中所述)。454测序涉及两个步骤。在第一步中,DNA被剪切为约300-800个碱基对的片段,并且这些片段是钝端的。然后将寡核苷酸适配子连接到这些片段的末端上。这些适配子用作用于将些片段扩增和测序的引物。使用例如适配子B(它含有5’生物素标签),这些片段可以被附接到DNA捕获珠粒上(例如链霉亲和素涂覆的珠粒上)。在油水乳状液的小滴内对附接到这些珠粒上的片段进行PCR扩增。结果是在每一珠粒上的克隆扩增的DNA片段的多个拷贝。在第二步中,3结合的核苷酸数成正比。焦磷酸测序利用了在核苷酸添加时释放的焦磷酸根(PPi)。在存在腺苷酸5’磷酰硫酸盐下,PPi被ATP硫酸化酶转化为ATP。荧光素酶使用ATP来将荧光素转化为氧化荧光素,并且该反应产生被测量和分析的光。

在另一实施方案中,本方法包括使用SOLiDTM技术(Applied Biosystems(美国应用生物系统公司)来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息。在SOLiDTM连接法测序中,基因组DNA被剪切为片段,并且适配子被附接到这些片段的5’和3’端上,以产生一个片段库。可替代地,可以通过将适配子连接到这些片段的5’和3’端上,传递这些片段、消化这些传递的片段以产生内部适配子、以及附接适配子到生成的片段的5’和3’端以产生一个配对库来引入内部适配子。接下来,在含有珠粒、引物、模板、和PCR组分的微反应器中制备克隆珠粒群体。在PCR后,使模板变性并且是珠粒浓缩,以分离具有延伸模板的珠粒。在选择的珠粒上的模板经历允许结合到载玻片的3’修饰。通过使部分随机寡核苷酸与通过特定荧光团的识别的中央确定的碱基(或碱基对)进行顺序杂交和连接,可以确定该序列。在记录了颜色后,切割并除去连接的寡核苷酸,并且然后重复该过程。

在另一实施方案中,本方法包括使用Pacific Biosciences公司的单分子的、实时(SMRTTM)测序技术来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息。在SMRT测序中,对在DNA合成过程中染料标记的核苷酸的连续结合进行成像。单DNA聚合酶分子被附接到获得序列信息的个体零模式波长探测器(ZMW探测器)的底表面上,同时磷酸连接的核苷酸被结合到正在生长的引物链之中。ZMW是一种封闭结构,它使得在迅速扩散进出ZMW(按微秒计)的荧光核苷酸的背景下能够观察到由的DNA聚合酶进行的单核苷酸的结合。这需要若干毫秒来将一个核酸结合到正在生长的链中。在该时间的过程中,激发出荧光标记物并且产生荧光信号,并且该荧光标签被切掉。染料的对应荧光的测量表明哪种碱基被结合。重复该过程。

在另一实施方案中,本发明的方法包括使用纳米孔测序来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息(例如像在Soni(索尼)GV和Meller(梅勒)A.,Clin Chem(临床化学)53:1996-2001[2007]中所述)。纳米孔测序DNA分析技术正在由多个公司进行工业性开发,包括Oxford NanoporeTechnologies(牛津纳米孔技术公司)(牛津,英国)。纳米孔测序是一种单分子测序技术,由此一个单分子的DNA随着它通过一个纳米孔而被直接测序。纳米孔是一个小孔,其级别在直径1纳米。将纳米孔浸入导电流体,并且横跨它施加一个电势(电压)导致由于离子传导穿过纳米孔的一个轻微电流。流动的电流的量对于纳米孔的大小和形状是敏感的。随着一个DNA分子穿过一个纳米孔,DNA分子上的每一核苷酸以不同程度阻塞纳米孔,从而以不同程度改变穿过纳米孔的电流的量级。因此,随着DNA分子穿过纳米孔在电流中的这种改变代表了DNA序列的一个读数。

在另一实施方案中,本发明的方法包括使用化学敏感的场效应晶体管(chemFET)阵列来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息(例如,像在美国专利申请公开号20090026082中所述)。在该技术的一个实例中,DNA分子可以被置入反应室中,并且可以将模板分子杂交到结合在聚合酶上的一个测序引物上。可以通过用chemFET的电流中的改变辨别在测序引物的3’端处一个或多个三磷酸盐到新核酸链的结合。一个阵列可以具有多个chemFET传感器。在另一实例中,单核苷酸可以被附接到珠粒上,并且核酸可以在珠粒上进行扩增,并且单独的珠粒可以被转移到chemFET阵列上的单独反应室中,其中每一个室具有一个chemFET传感器,并且这些核酸可以被测序。

在另一实施方案中,本方法包括使用Halcyon Molecular公司的技术(它使用了透射电子显微术(TEM))来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息。该方法,被叫做单个分子放置快速纳米转移(IndividualMolecule Placement Rapid Nano Transfer,IMPRNT),包括利用用重原子标记物选择性标记的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微镜进行成像,并且将这些分子安排在具有一致的碱基到碱基间隔的超高密度(3nm链到链)平行阵列中的超薄膜上。使用电子显微镜来成像膜上的分子,以确定重原子标记物的位置,并且提取来自DNA的碱基序列信息。在PCT专利公开WO2009/046445中进一步说明了该方法。该方法允许在小于十分钟的时间内对完整人类基因组进行测序。

在另一实施方案中,DNA测序技术是Ion Torrent(离子激流公司)单分子测序,它使半导体技术与简单测序化学配对,以便在半导体芯片上直接将化学编码的信息(A、C、G、T)翻译为数字信息(0、1)。在自然界,在通过聚合酶将核苷酸结合到一个DNA链时,释放一个氢离子作为副产物。Ion Torrent(离子激流公司)使用了微机械孔的高密度阵列来以大规模平行方式进行这种生物化学过程。每一孔容纳一个不同的DNA分子。在孔下是一个离子敏感层,并且在其下是一个离子传感器。在一个核苷酸(例如一个C)被添加到一个DNA模板上并且然后结合到一个DNA链中时,将释放一个氢离子。来自该离子的电荷将改变溶液的pH值,这可以被Ion Torrent(离子激流公司)的离子传感器检测到。该测序仪-本质上是世界上最小的固态pH计-对碱基进行判定,直接从化学信息到数字信息。这种Ion personal Genome Machine(离子个人基因组机,PGMTM)测序仪然后顺序用一个接一个的核苷酸淹没该芯片。如果淹没该芯片的下一个核苷酸不是一个匹配项。那么将记录不到电压改变,并且将不会判定碱基。如果在DNA链上存在两个一样的碱基,那么电压将被加倍,并且该芯片将记录到判定了两个一样的碱基。直接检测允许记录按秒计的核苷酸结合。

在另一实施方案中,本方法包括使用杂交测序来获得测试样品中核酸(例如母体测试样品中的cfDNA)的序列信息。杂交测序包括使多个多核苷酸序列与多个多核苷酸探针相接触,其中多个多核苷酸探针中的每一个可以任选地被系留到一个基片上。该基片可以是包括一个已知核苷酸序列的阵列的平表面。到一个阵列的杂交模式可以被用于确定存在于样品中的多核苷酸序列。在另一实施方案中,每一探针被系留到一个珠粒上,例如一个磁珠或类似物。到这些珠粒的杂交可以被确定并且可以用于识别样品内的该多个多核苷酸序列。

在另一实施方案中,本方法包括通过使用Illumina公司的合成法测序和可逆终止子基测序化学(reversible terminator-based sequencing chemistry)的数百万DNA片段的大规模平行测序来获得测试样品中的核酸(例如母体测试样品中的cfDNA)的序列信息(例如在Bentley(宾利)等人,Nature(自然)6:53-59[2009]中所述)。模板DNA可以是基因组DNA,例如cfDNA。在一些实施方案中,来自分离细胞的基因组DNA被用作模板,并且被断裂为数百个碱基对的长度。在其他实施方案中,cfDNA被用作模板,并且不要求进行断裂,因为cfDNA以短片段存在。例如,胎儿cfDNA作为长度是约170个碱基对(bp)的片段在血流中循环(Fan(范)等人,Clin Chem(临床化学),56:1279-1286[2010]),并且在测序前不需要DNA的断裂。Illumina公司的测序技术依赖将断裂的基因组DNA附接到一个平面的、任选透明的表面上,上面结合了寡核苷酸锚点。模板DNA被末端修复以产生5′磷酸化的钝端,并且Klenow(克列诺)片段的聚合酶活性被用于添加单个的A碱基到平的磷酸化DNA片段的3′端上。这种添加制备了用于连接到寡核苷酸适配子的DNA片段,并且在它们的3′端具有一个突出的单个T碱基,以增加连接效率。这些适配子寡核苷酸与流动槽锚点是互补的。在限制稀释条件下,适配子修饰的、单链模板DNA被添加到流动槽、并且通过杂交被固定到这些锚点上。附接的DNA片段被延伸和桥式扩增,来造成具有数亿个簇的超高密度流动槽,每一个含有同一模板的约1000个拷贝。在一个实施方案中,随机断裂的基因组DNA(例如cfDNA)在经历成簇扩增前,使用PCR对其进行扩增。可替代地,使用了无扩增基因组库制品,并且单独使用成簇扩增富集随机断裂的基因组DNA(Kozarewa(科扎热瓦(等人,Nature Methods(自然方法学),6:291-295[2009])。使用一种鲁棒的四颜色DNA合成法测序技术测序这些模板,该技术采用具有可除去荧光染料的可逆终止子。使用激光激发和全内反射光学器件实现了高度敏感的荧光检测。针对一种重复掩蔽的参考基因组来比对约20-40bp(例如36bp)的短序列读数,并且使用特别开发的数据分析管线软件来识别短序列读数到参考基因组的独特性映射。还可以使用非重复掩蔽的参考基因组。无论使用重复掩蔽的或非重复掩蔽的参考基因组,只对独特性地映射到参考基因组上的读数进行计数。在第一次读数完成后,可以原位再生这些模板,以便能够从这些片段的相反端进行第二读数。因此,可以使用这些DNA片段的单末端的亦或成对末端的测序。进行在样品中存在的DNA片段的部分测序,并且对映射到已知参考基因组的包括预定长度(例如36bp)的读数的序列标签进行计数。在一个实施方案中,参考基因组序列是NCBI36/hg18序列,它在万维网上,在genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105可获得。可替代地,这个参考基因组序列是GRCh37/hg19,它在万维网上,在genome.ucsc.edu/cgi-bin/hgGateway可获得。公开序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)、以及DDBJ(日本DNA数据库)。多种计算机算法可用于进行序列比对,包括而不限于:BLAST(Altschul(阿尔丘尔)等人,1990)、BLITZ(MPsrch)(Sturrock(斯特罗克)&Collins(柯林斯),1993)、FASTA(Person(珀森)&Lipman(利普曼),1988)、BOWTIE(Langmead(拉格梅德)等人,Genome Biology(基因组生物学)10:R25.1-R25.10[2009])、或ELAND(Illumina,Inc.公司,San Diego(圣迭戈),CA,USA)。在一个实施方案中,对血浆cfDNA分子的克隆扩展的拷贝的一端进行测序,并且通过生物信息学比对加工用于Illumina基因组分析仪,它使用核苷酸数据库的有效大规模比对(ELAND)软件。

在此说明的方法的一些实施方案中,映射序列标签包括为约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、或约500bp的序列读数。期待技术进步将能够进行大于500bp的单端读数,在产生配对端读数时,该读数使得能够进行大于约1000bp的读数。在一些实施方案中,映射的序列标签包括为36bp的序列读数。通过比较标签序列与参考序列达到序列标签的映射,以确定测序的核酸(例如cfDNA)分子的染色体来源,并且并不需要特异性遗传序列信息。可以允许小程度的错配(每个序列标签0-2个错配),以便将可能存在于参考基因组和混合样品中的基因组之间的小多态性考虑在内。

每个样品获得了多个序列标签。在一些实施方案中,从映射读数到每个样品的参考基因组来获得包括在20和40bp的读数之间(例如36bp)的至少约3×106个序列标签、至少约5×106个序列标签、至少约8×106个序列标签、至少约10×106个序列标签、至少约15×106个序列标签、至少约20×106个序列标签、至少约30×106个序列标签、至少约40×106个序列标签、或至少约50×106个序列标签。在一个实施方案中,所有序列读数都被映射到参考基因组的所有区域上。在一个实施方案中,对已经映射到参考基因组的所有区域(例如所有染色体)的标签进行计数,并且确定了在混合DNA样品中感兴趣的序列(例如染色体或其一部分)的CNV(即过表达或表达不足)。该方法并不需要两个基因组之间的区分。

对于正确地确定在一个样品中是否存在或不存在CNV(例如非整倍性)所要求的准确性是在样品中间在一次测序运行内映射到参考基因组上的序列标签数目的变异(染色体间变异性)上、并且在不同测序测序运行中映射到该参考基因组上的序列标签数目的变异(染色体间变异性)上进行预测的。例如,对于映射到富GC或贫GC参考序列的标签,这些变异可以是特别显著的。从使用针对核酸的提取和纯化的不同规约、测序文库的制备、以及不同测序平台的使用可以得出其他变异。本方法使用基于归一化序列(归一化染色体序列或归一化片段序列)的知识的序列剂量(染色体剂量、或片段剂量)来从本质上将源自染色体间(同批)、和测序间(批次间)以及平台依赖的变异性的累积的变异性考虑在内。染色体剂量是基于归一化染色体序列的知识,它可以由单染色体构成,或者由选自染色体1-22、X、Y的两个或更多个染色体构成。可替代地,归一化染色体序列可以由一个单染色体片段构成、或者由一个染色体的或两个或更多个染色体的两个或更多个片段构成。片段剂量是基于归一化片段序列的知识,它可以由任何一个染色体的单一片段构成,或者由选自染色体1-22、X、Y的任何两个或更多个的两个或更多个片段构成。

在合格样品中的归一化序列的确定:归一化染色体序列和归一化片段序列

使用来自一组得自受试者的合格样品识别归一化序列,这些受试者已知包括具有感兴趣的任何序列(例如染色体或其片段)的一个正常拷贝数。在图1中描绘的方法实施方案的步骤100、120、130、140、和145中概述了归一化序列的确定。从合格样品获得的序列信息还被用于确定测试样品中染色体性非整倍性的统计学上有意义的识别(图1的步骤155,以及实例)。

图1提供了本发明的方法100的一个实施方案的流程图,用于确定生物学样品中的感兴趣的序列(例如染色体或其片段)的CNV。在一些实施方案中,从受试者获得了一个生物学样品,并且该样品包括由不同基因组构成的核酸的混合物。可以由两个个体的样品构成不同基因组,例如由胎儿和怀有胎儿的母体构成不同基因组。可替代地,可以由来自相同受试者的非整倍性癌症细胞和正常整倍细胞的样品(例如来自癌症患者的血浆样品)构成基因组。

获得一组合格样品来识别合格的归一化序列,并且来提供变异值来用于确定测试样品中的CNV的统计上有意义的识别。在步骤110中,从多个受试者获得多个生物学合格样品,已知这些受试者包括具有针对感兴趣的任何一个序列的正常拷贝数的细胞。在一个实施方案中,从怀有胎儿的母体获得合格样品,已经使用细胞遗传学手段确认该胎儿具有正的染色体常拷贝数。这些生物学合格样品可以是一种生物学流体,例如血浆,或如以下所述的任何适合的样品。在一些实施方案中,一个合格样品含有核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,合格样品是含有胎儿的和母体的cfDNA分子的混合物的母体的血浆样品。使用任何已知测序方法,通过对这些核酸中的至少一部分(例如胎儿的和母体的核酸)进行测序获得了归一化染色体和/或其一部分的序列信息。优选地,将在本申请的其他地方说明的下一代测序(NGS)方法中的任何一种用于对作为单一的或克隆扩增的分子的胎儿的和母体的核酸进行测序。

在步骤120,包含在这些合格样品内的所有合格核酸的每一个的至少一部分被测序,以产生百万个序列读数,例如36bp读数,这与参考基因组(例如hg18)进行比对。在一些实施方案中,这些序列读数包括约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、或约500bp。期待技术的进步将能够进行大于500bp的单端读数,在产生配对端读数时,该读数能够用于大于约1000bp的读数。在一个实施方案中,映射的序列读数包括36bp。将序列读数与参考基因组进行比对,并且已知独特性映射到参考基因组的读数是作为序列标签。在一个实施方案中,从独特地映射到参考基因组上的读数中获得至少约3×106个合格序列标签、至少约5×106个合格序列标签、至少约8×106个合格序列标签、至少约10×106个合格序列标签、至少约15×106个合格序列标签、至少约20×106个合格序列标签、至少约30×106个合格序列标签、至少约40×106个合格序列标签、或至少约50×106个合格序列标签,这些序列标签包括20和40bp之间的读数。

在步骤130,对得自测序合格样品中的核酸的所有标签进行计数,以确定合格序列标签密度。在一个实施方案中,序列标签密度被确定为映射到参考基因组的感兴趣的序列上的合格序列标签的数目。在另一实施方案中,合格序列标签密度为确定为映射到感兴趣的序列上的合格序列标签的数目,这个感兴趣的序列被归一化为它们映射到上面的合格序列的长度。被确定为标签密度相对于感兴趣的序列的长度的比率的序列标签密度在此称为标签密度比率。归一化到感兴趣的序列的长度并非一定要有的、并且可以被包括为一个步骤来减少一个数目中的位数从而将其简化以供人工解读。因为在每一合格样品中所有合格序列标签都被映射并计数,在这些合格样品中针对感兴趣的序列(例如临床上相关的序列)的序列标签密度被确定,对于随后从中识别出归一化序列的额外序列的这些序列标签密度也是一样。

在一些实施方案中,感兴趣的序列是与一种完整染色体性非整倍性相关联的染色体,例如染色体21,并且这个合格的归一化序列是不与染色体性非整倍性相关联的完整染色体,并且在序列标签中它的变异最好地接近感兴趣的序列(即染色体)例如染色体21的变异。染色体1-22、X和Y中的任何一个或多个可以是一个感兴趣的序列,并且这个或这些染色体可以被识别为用于合格样品中的任一个染色体1-22、X、Y中的每一个的归一化序列。这个归一化染色体可以是单独的染色体,或者它可以是本申请的其他地方所述的一组染色体。

在另一实施方案中,这个感兴趣的序列是与部分非整倍性(例如染色体缺失或插入,或不平衡的染色体易位)相关联的一个染色体的片段,并且归一化序列是不与部分非整倍性相关联的一个染色体片段,并且在序列标签密度中的它的变异最好地接近与这种部分非整倍性相关联的染色体片段的变异。任何一个或多个染色体1-22、X、和Y的任何一个或多个片段都可以是一个感兴趣的序列。

在全部实施方案中,无论一个单序列或一组序列在这些合格样品中被识别为针对任何一个或多个感兴趣的序列的归一化序列,该合格的归一化序列都具有序列标签密度中的一种变异,这种变异最好地接近如在这些合格样品中确定的这个感兴趣的序列的变异。例如,一个合格的归一化序列是具有最小变异性的序列,即该归一化序列的变异性最接近于感兴趣的序列的变异性。

在一些实施方案中,这种归一化序列是这样一种序列,它最好地从一个或多个受影响的样品中辨别出一个或多个合格的样品,这意味着这个归一化序列是具有最大可辨性的序列,即该归一化序列的可辨性是使得它提供了对于在一个受影响的测试样品中的感兴趣的序列的最优的区分,以便容易地从其他未受影响的样品中辨别出这个受影响的测试样品。在其他实施方案中,这种归一化序列是一个具有最小变异性和最大可辨性的序列。可辨性的水平可以被确定为在一群合格样品中的序列剂量(例如染色体剂量或片段剂量)与在一个或多个测试样品中的这个或这些染色体剂量之间的统计差异,如下文中所述并且在这些实例中示出。例如,可辨性可以被数字性地表示为一个T检验值,它代表在一群合格样品中的染色体剂量与在一个或多个测试样品中的这个或这些染色体剂量之间的统计差异。可替代地,可辨性可以被数字式地表示为一个归一化的染色体值(NCV),只要NCV的分布是正态的,它就是对于染色体剂量的z分数。类似地,可辨性可以被数字式地表示为一个T检验值,它代表在一群合格样品中的片段剂量与一个或多个测试样品中的这个或这些片段剂量之间的统计差异。可替代地,片段剂量的可辨性可以被数字式地表示为一个归一化的片段值(NSV),只要NSV的分布是正态的,它就是对于染色体剂量的z分数。在确定z分数时,可以使用在一组合格样品中的染色体的或片段的剂量的平均值和标准差。可替代地,可以使用一个包括合格样品和受影响样品的训练组中染色体的或片段的剂量的平均值和标准差。在其他实施方案中,这种归一化序列是一个具有最小变异性和最大可辨性的序列。

该方法识别了多个序列,它们内在地具有类似特征并且在多个样品和序列运行中易于有类似变异,并且这对于确定测试样品中的序列剂量是有用的。

合格样品中序列剂量(即染色体剂量或片段剂量)的确定

在步骤140,基于计算的合格标签密度,针对一个感兴趣的序列的合格序列剂量(即染色体剂量或片段剂量)被确定为针对这个感兴趣的序列的序列标签密度与针对额外序列(从它们中随后在步骤145识别出归一化序列)的合格序列标签密度的比率。所识别的归一化序列随后被用于确定测试样品中的序列剂量。

在一个实施方案中,这些合格样品中的序列剂量是一个染色体剂量,该染色体剂量被计算为一个感兴趣的染色体的序列标签数目与一个合格样品中的归一化染色体序列的序列标签数目的比率。归一化染色体序列可以是一个单染色体、一组染色体、一个染色体的片段、或来自不同染色体的一组片段。因此,在一个合格样品中针对感兴趣的染色体的染色体剂量被确定为:(i)针对感兴趣的染色体的标签数目与由一个单染色体构成的归一化染色体序列的标签数目的比率,(ii)针对一个感兴趣的染色体的标签数目与由两个或更多染色体构成的一个归一化染色体序列的标签数目的比率,或(iii)针对一个感兴趣的染色体的标签数目与由一个染色体的单一片段构成的归一化片段序列的标签数目的比率,(iv)针对一个感兴趣的染色体的标签数目与由来自一个染色体的两个或更多个片段构成的归一化片段序列的标签数目的比率,或(v)针对一个感兴趣的染色体的标签数目与由两个或更多个染色体的两个或更多个片段构成的归一化片段序列的标签数目的比率。根据(i)-(v),用于确定感兴趣的染色体的染色体剂量的实例如下:针对感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度与全部剩余染色体(即染色体1-20、染色体22、染色体X、和染色体Y)中的每一个的序列标签密度的比率(i);针对感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度与两个或更多个剩余染色体的全部可能组合的序列标签密度的比率(ii);针对感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度与另一染色体(例如染色体9)的一个片段的序列标签密度的比率(iii);针对感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度与另一染色体的两个片段(例如染色体9的两个片段)的序列标签密度的比率(iv);以及针对感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度与两个不同染色体的两个片段(例如染色体9的片段和染色体14的片段)的序列标签密度的比率。

在另一个实施方案中,在这些合格样品中的序列剂量是一个片段剂量,该片段剂量被计算为针对一个感兴趣的片段的序列标签数目与合格样品中的归一化片段序列的序列标签数目的比率。归一化片段序列可以是一个染色体的一个片段,或是来自不同染色体的一组片段。因此,在一个合格样品中,针对一个感兴趣的片段的片段剂量被确定为(i)针对一个感兴趣的片段的标签数目与由染色体的单一片段构成的归一化片段序列的标签数目的比率,(ii)针对一个感兴趣的片段的标签数目与由一个染色体的两个或更多片段构成的归一化片段序列的标签数目的比率,或(iii)针对一个感兴趣的片段的标签数目和由两个或更多个染色体的两个或更多个片段构成的归一化片段序列的标签数目的比率。

在全部合格样品中确定了一个或多个感兴趣的染色体的染色体剂量,并且在步骤145中识别出一个归一化染色体序列。类似地,在全部合格样品中确定了针对感兴趣的一个或多个感兴趣的片段的片段剂量,并且在步骤145中识别出一个归一化片段序列。

从合格序列的剂量中识别归一化序列

在步骤145,对感兴趣的序列识别出一个归一化序列作为基于计算出的序列剂量的序列,即该序列导致针对感兴趣的序列跨所有合格样品的在序列剂量中的最小变异性。该方法识别了内在地具有类似特征的序列,并且这些序列在多个样品和序列运行中易于有类似变异,并且这对于在测试样品中确定序列剂量是有用的。

在一组合格样品中可以识别针对一个或多个感兴趣的序列的归一化序列,并且在这些合格样品中识别的序列可以随后用于计算针对每一测试样品中的一个或多个感兴趣的序列的序列剂量(步骤150),以确定在每一测试样品中存在或不存在非整倍性。在使用不同测序平台时和/或在有待测序的核酸的纯化和/或测序文库的制备中存在差异时,针对感兴趣的染色体或片段识别的归一化序列可以不同。使用根据本发明的方法的归一化序列提供了一种染色体或其片段的拷贝数中的变异的特异性的且敏感的度量,而与所使用的样品制备和/或测序平台无关。

在一些实施方案中,识别了多于一个的归一化序列,即,可以对一个感兴趣的序列确定不同的归一化序列,并且可以对一个感兴趣的序列确定多个序列剂量。例如,在使用染色体14的序列标签密度时,针对感兴趣的染色体21的染色体剂量中的变异(例如变异系数)是最小的。然而,可以识别两个、三个、四个、五个、六个、七个、八个或更多个归一化序列,以供用于确定针对测试样品中感兴趣的序列的序列剂量。作为一个实例,使用染色体7、染色体9、染色体11或染色体12作为归一化染色体序列,可以在任何一个测试样品中确定染色体21的第二剂量,因为这些染色体全部具有与染色体14的CV接近的CV(参见实例2,表2)。优选地,在选择单染色体作为针对一个感兴趣的染色体的归一化染色体序列时,这个归一化染色体将是这样一种染色体,该染色体导致针对感兴趣的染色体的染色体剂量具有跨全部测试样品(例如合格样品)的最小变异性。

作为一个或多个染色体的归一化序列的归一化染色体序列

在其他实施方案中,一个归一化染色体序列可以是一个单序列,或者它可以是一组序列。例如,在一些实施方案中,一个归一化序列是被识别为针对染色体1-22、X和Y的任意一个或多个的归一化序列的一组序列,例如一组染色体。构成针对感兴趣的染色体的归一化序列(即归一化染色体序列)的组染色体,可以是一组二、三、四、五、六、七、八、九、十、十一、十二、十三、十四、十五、十六、十七、十八、十九、二十、二十一、或二十二个染色体,并且包括或排除染色体X和Y中的一个或这二者。被识别为这种归一化染色体序列的组染色体是这样一组染色体,它们导致感兴趣的染色体的染色体剂量具有跨全部测试样品(即合格样品)的最小变异性。优选地,单独的或多组的染色体针对它们最佳地模拟感兴趣的序列的能力是在一起测试的,为此选择它们作为归一化染色体序列。

在一个实施方案中,针对染色体21的归一化序列是选自染色体9、染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、和染色体17。在另一实施方案中,针对染色体21的归一化序列是选自染色体9、染色体1、染色体2、染色体11、染色体12、和染色体14。可替代地,针对染色体21的归一化序列是选自染色体9、染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、和染色体17的一组染色体。在另一实施方案中,该组染色体是选自染色体9、染色体1、染色体2、染色体11、染色体12、和染色体14的一个组。

在一些实施方案中,通过使用归一化序列进一步改进了该方法,这个归一化序列是通过单独地并且在与全部剩余染色体的全部可能组合中使用每一染色体系统地计算全部染色体剂量来确定的(参见实例7)。例如,通过使用染色体1-22、X、和Y中任一个,以及染色体1-22、X、和Y中的两个或更多个的组合来确定哪个单个或成组的染色体是导致跨一组合格样品的感兴趣的染色体的染色体剂量的最小变异性的归一化染色体,由此系统计算全部可能染色体,可以对每一感兴趣的染色体确定出系统性地确定的归一化染色体(参见实例7)。因此,在一个实施方案中,针对染色体21的系统性计算的归一化序列是由染色体4、染色体14、染色体16、染色体20、和染色体22组成的一组染色体。对基因组中的全部染色体,可以确定单个或成组的染色体。

在一个实施方案中,针对染色体18的归一化序列是选自染色体8、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体9、染色体10、染色体11、染色体12、染色体13、和染色体14。优选地,针对染色体18的归一化序列是选自染色体8、染色体2、染色体3、染色体5、染色体6、染色体12、和染色体14。可替代地,针对染色体18的归一化序列是选自染色体8、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体9、染色体10、染色体11、染色体12、染色体13、和染色体14的一组染色体。优选地,该组染色体是选自染色体8、染色体2、染色体3、染色体5、染色体6、染色体12、和染色体14的一个组。

在另一实施方案中,通过单独地以及按归一化染色体的全部可能组合使用每一可能归一化染色体来系统计算全部可能染色体剂量,确定了针对染色体18的归一化序列(如本申请的其他地方所解释的)。因此,在一个实施方案中,针对染色体18的归一化序列是由一组染色体组成的归一化染色体,该组包括染色体2、染色体3、染色体5、和染色体7。

在一个实施方案中,针对染色体X的归一化序列是选自染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、和染色体16。优选地,针对染色体X的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6和染色体8。可替代地,针对染色体X的归一化序列是选自染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、和染色体16的一组染色体。优选地,该组染色体是选自染色体2、染色体3、染色体4、染色体5、染色体6、和染色体8的一个组。

在另一实施方案中,通过单独地以及按归一化染色体的全部可能组合使用每一可能归一化染色体来系统计算全部可能染色体剂量,确定了染色体X的归一化序列(如本申请的其他地方所解释的)。因此,在一个实施方案中,针对染色体X的归一化序列是由染色体4和染色体8的组所组成的归一化染色体。

在一个实施方案中,针对染色体13的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体14、染色体18、和染色体21的一个染色体。优选地,针对染色体13的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6、和染色体8的一个染色体。在另一实施方案中,针对染色体13的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体14、染色体18、和染色体21的一组染色体。优选地,该组染色体是选自染色体2、染色体3、染色体4、染色体5、染色体6、和染色体8的一个组。

在另一实施方案中,针对染色体13的归一化序列是通过单独地使用每一可能归一化染色体以及归一化染色体的全部可能的组合系统地计算全部可能染色体剂量来确定的(如本申请的其他地方所解释的)。因此,在一个实施方案中,针对染色体13的归一化序列是包括染色体4和染色体5的组的归一化染色体。在另一个实施方案中,针对染色体13的归一化序列是由染色体4和染色体5的组所组成的一个归一化染色体。

独立于在确定染色体Y剂量中使用的哪个归一化染色体,针对染色体Y的在染色体剂量中的变异是大于30。因此,选自染色体1-22和染色体X的一组两个或更多个染色体可以被用作针对染色体Y的归一化序列。在一个实施方案中,至少一个归一化染色体是由染色体1-22、和染色体X组成的一组染色体。在另一实施方案中,该组染色体由染色体2、染色体3、染色体4、染色体5、和染色体6组成。

在另一实施方案中,通过单独地以及按归一化染色体的全部可能组合使用每一可能归一化染色体来系统计算全部可能染色体剂量,确定了染色体Y的归一化序列(如本申请的其他地方所解释的)。因此,在一个实施方案中,染色体Y的归一化序列是包括由染色体4和染色体6组成的组染色体的归一化染色体。在另一个实施方案中,染色体Y的归一化序列是由一组染色体组成的归一化染色体,该组染色体由染色体4和染色体6组成。

用于计算感兴趣的不同染色体或感兴趣的不同片段的剂量的归一化序列可以是相同的,或者分别对于不同染色体或片段它可以是不同的归一化序列。例如,针对感兴趣的染色体A的归一化序列,例如一个归一化染色体(一个或一组)可以是相同的,或者它可以不同于针对感兴趣的染色体B的归一化序列,例如一个归一化染色体(一个或一组)。

针对完整染色体的归一化序列可以是一个完整染色体或一组完整染色体,或者它可以是一个染色体的片段,或一个或多个染色体的一组片段。

作为针对一个或多个染色体的归一化序列的归一化片段序列

在另一实施方案中,针对染色体的归一化序列可以是一个归一化片段序列。这个归一化片段序列可以是单一片段,或者它可以是一个染色体的一组片段,或者它们可以是来自两个或更多个不同染色体的多个片段。通过基因组中片段序列的全部组合的系统计算可以确定一个归一化片段序列。例如,针对染色体21的归一化片段可以是大于或小于染色体2的大小的一个单一片段,它是来自染色体9的大约47Mbp(兆碱基对),染色体9是大约140Mbp。可替代地,针对染色体21的归一化序列可以是来自染色体1的序列与来自染色体12的序列的组合。

在一个实施方案中,针对染色体21的归一化序列是染色体1-20、22、X、和Y的一个片段或一组两个或更多个片段的一个归一化片段序列。在另一实施方案中,针对染色体18的归一化序列是染色体1-17、19-22、X、和Y的一个片段或多组片段。在另一实施方案中,针对染色体13的归一化序列是染色体1-12、14-22、X、和Y的一个片段或多组片段。在另一实施方案中,针对染色体X的归一化序列是染色体1-22、和Y的一个片段或多组片段。在另一实施方案中,针对染色体Y的归一化序列是染色体1-22、和X的一个片段或一组片段。对一个基因组中的全部染色体可以确定单个或多组片段的归一化序列。归一化片段序列的两个或更多个片段可以是来自一个染色体的片段,或者这两个或更多个片段可以是两个或更多个不同染色体的片段。如对归一化染色体序列所说明的,一个归一化片段序列对两个或更多个不同染色体而言可以是相同的。

作为针对一个或多个染色体片段的归一化序列的归一化片段序列

当感兴趣的序列是一个染色体的片段时,可以确定存在或不存在感兴趣的序列的CNV。染色体片段的拷贝数中的变异允许确定存在或不存在一种部分染色体性非整倍性。以下说明的是与不同胎儿异常和病情相关联的部分染色体性非整倍性的实例。染色体的片段可以具有任何长度。例如,它可以范围从千碱基到数亿个碱基。人类基因组只占超过30亿个DNA碱基,它可以被分为数十、数千、数十万以及成百万的具有不同大小的片段,它们的拷贝数可以根据本发明的方法来确定。一个染色体片段的归一化序列是这样一种归一化片段序列,它可以是来自染色体1-22、X和Y中任何一个的单一片段,或者它可以是来自染色体1-22、X、和Y中任何一个的一组片段。

针对一个感兴趣的片段的归一化序列是这样一个序列,该序列具有跨多个染色体并且跨多个样品的变异性,该变异性最接近感兴趣的片断的变异性。在该归一化序列是染色体1-22、X和Y中的任意一个或多个的一组片段时,可以如所述来进行归一化序列的确定,用于确定感兴趣的染色体的归一化序列。通过使用针对在一组合格样品(即已知是感兴趣的片段的二倍体的样品)的每一个样品中的感兴趣的片段作为归一化序列的两个或更多个片段的一个以及全部可能的组合来计算片段剂量,可以识别一个或一组片段的归一化片段序列,并且这个归一化序列被确定为是提供了一个片段剂量的归一化序列,这个片段剂量跨全部合格样品针对这个感兴趣的片段具有最低的变异性,正如以上对归一化染色体序列的说明。

例如,对感兴趣的片段它是1Mb(兆碱基),大约3Gb人类基因组中的剩余3百万个片段(减去感兴趣的1mg片段)可以被单独地或相互组合使用,以计算在合格组的样品中的感兴趣的片段的片段剂量,从而确定哪一个或哪组片段将用作合格的和测试的样品的归一化片段序列。感兴趣的片段可以从约1000个碱基变化到数千万个碱基。归一化片段序列可以由与感兴趣的序列大小相同的一个或多个片段构成。在其他实施方案中,归一化片段序列可以由不同于感兴趣的序列,和/或彼此不同的片段构成。例如,对于一个10,000碱基长度的序列的归一化序列可以是20,000个碱基长,并且可以包括例如在7,000+8,000+5,000个碱基的不同长度的序列的组合。如在本申请的其他地方对归一化染色体序列所说明的,通过独立地以及以归一化片段的全部可能组合使用每一可能的归一化染色体片段系统地计算全部可能的染色体和/或片段剂量,可以确定归一化片段序列(如本申请的其他地方所解释的)。对基因组中的全部片段和/或染色体,可以确定单个或成组的片段。

用于计算感兴趣的不同染色体片段的剂量的归一化序列可以是相同的,或者它可以是针对不同的感兴趣的染色体片段的不同归一化序列。例如,针对感兴趣的染色体片段A的归一化序列,例如一个归一化片段(一个或一组)可以是相同的,或者它可以不同于针对感兴趣的染色体片段B的归一化序列,例如一个归一化片段(一个或一组)。

测试样品中非整倍性的确定

基于合格样品中识别的一个或多个归一化序列,针对在测试样品中的一个感兴趣的序列来确定一个序列剂量,该样品包括核酸混合物,这些核酸衍生自在一个或多个感兴趣的序列上不同的基因组。

在步骤115,从怀疑或已知携带感兴趣的序列的临床相关CNV的一位受试者获得一个测试样品。这个测试样品可以是一种生物学流体(例如血浆)或如以下所述的任何适合的样品。在一些实施方案中,测试样品含有核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,该测试样品是含有胎儿的和母体的cfDNA分子的混合物的一个母体血浆样品。

在步骤125,如对合格样品所说明的情况,对在该测试样品中的至少一部分测试核酸进行测序,以产生成百万的序列读数(例如36bp读数)。如在步骤120中,从对该测试样品中的核酸进行测序所产生的读数被独特地映射到一个参考基因组上。如在步骤120中所述,从独特地映射参考基因组的读数中获得至少约3×106个合格序列标签、至少约5×106个合格序列标签、至少约8×106个合格序列标签、至少约10×106个合格序列标签、至少约15×106个合格序列标签、至少约20×106个合格序列标签、至少约30×106个合格序列标签、至少约40×106个合格序列标签、或至少约50×106个合格序列标签,这些合格序列标签包括20和40bp之间的读数。

在步骤135,对从测试样品中的核酸进行测序所得到的所有标签进行计数,以确定测试序列标签密度。在一个实施方案中,映射到一个感兴趣的序列上的序列标签数目被归一化到它们映射到上面的一个感兴趣的序列的已知长度上,以提供一个测试序列标签密度比。如对这些合格样品所述,并不一定要求归一化到一个感兴趣的序列的已知长度上,并且这可以被包括为一个步骤来减少一个数目中的数字位数从而将其简化以供人工解读。随着测试样品中全部映射的测试序列标签都被计数,在这些测试样品中针对感兴趣的序列(例如临床上相关的序列)的序列标签密度被确定,同样被确定的是针对额外序列的序列标签密度,这些额外序列对应于在这些合格样品中识别出的至少一个归一化序列。

在步骤150,基于在这些合格样品中的至少一个归一化序列的识别,对测试样品中的一个感兴趣的序列确定出有关测试序列剂量。如在本申请的其他地方所说明,该至少一个归一化序列可以是一个单序列或一组序列。在测试样品中针对一个感兴趣的序列的序列剂量是对该测试样品中感兴趣的序列确定的序列标签密度与在该测试样品中确定的至少一个归一化序列的序列标签密度的比率,其中在该测试样品中的归一化序列对应于在这些合格样品中针对感兴趣的具体序列识别的归一化序列。例如,如果针对这些合格样品中的染色体21识别的归一化序列别被确定为是一个染色体(例如染色体14),那么针对染色体21(感兴趣的序列)的测试序列剂量就被确定为针对染色体21的序列标签密度与针对染色体14的序列标签密度的比率,每一个都是在测试样品中确定的。类似地,确定了针对染色体13、18、X、Y以及与多种染色体性非整倍性相关联的其他染色体的染色体剂量。针对感兴趣的染色体的归一化序列可以是一个或一组染色体,或一个或一组染色体片段。如上所述,一个感兴趣的序列可以是染色体的一部分,例如一个染色体片段。因此,针对一个染色体片段的剂量可以被确定为针对在该测试样品中的这个片段确定的序列标签密度与针对该测试样品中的归一化染色体片段的序列标签密度的比率,其中在该测试样品中的归一化片段对应于在这些合格样品中针对感兴趣的具体片段识别的归一化片段(单个或一组片段)。染色体片段在大小上可以是范围从千碱基(kb)到兆碱基(Mb)。

在步骤155,从对多个合格样品中确定的合格序列剂量和对已知是感兴趣的序列的非整倍的样品确定的序列剂量建立的标准差值中衍生出多个阈值。准确分类取决于对于不同类别(即:非整倍性类型)的概率分布之间的差异。优选地,从针对每一类型的非整倍性(例如三体性21)的经验分布中选择出多个阈值。如在实例中所述,用于对三体性13、三体性18、三体性21、和单体性X非整倍性进行分类建立了可能的阈值,它们说明了用于通过对提取自一个母体样品的cfDNA进行测序来确定染色体性非整倍性的方法的用途,这个母体样品包括胎儿的和母体的核酸的混合物。被确定为用于辨别出针对一种染色体的非整倍而受影响的样品的这种阈值与被确定为用于辨别出针对一种不同非整倍性而受影响样品的阈值可以是相同的或不同的。如在这些实例中所示,针对每一感兴趣的染色体的阈值是从跨多个样品和多个测序运行的感兴趣的染色体的剂量中的变异性来确定的。针对任何感兴趣的任何染色体的染色体剂量的可变性越小,针对跨全部未受影响样品的感兴趣的染色体的剂量中的分散就越窄,而这些样品被用来设定用于确定不同非整倍性的阈值。

在步骤160,通过将针对感兴趣的序列的测试序列剂量与从这些合格样品剂量建立的至少一个阈值进行比较,在该测试样品中确定了感兴趣的序列的拷贝数变异。

在步骤165,将针对感兴趣的测试序列计算的剂量与设定为阈值的剂量进行比较,而这些阈值的选择是根据一个使用者定义的可靠性阈值,以此将该样品分类为“正常的”、“受影响的”或“无判定(no call)”。这些“无判定”样品是对其不能做出有可靠性的确定性诊断的样品。

本发明的另一实施方案提供了一种方法,该方法用于提供在一个包括胎儿的和母体的核酸分子的生物学样品中的胎儿非整倍性的产前诊断。这种诊断是基于以下步骤做出的:获得对衍生自一个生物学测试样品(例如母体血浆样品)的胎儿的和母体的核酸分子混合物中的至少一部分进行测序的序列信息;从该测序数据中计算出针对一个或多个感兴趣的染色体的一个归一化染色体剂量、和/或针对一个或多个感兴趣的片段的一个归一化片段剂量;并且确定在对应地该测试样品中的针对这个感兴趣的染色体的染色体剂量和/或针对这个感兴趣的片段的片段剂量与在多个合格的(正常的)样品中确立的一个阈值之间的一个统计学上显著的差异,并且基于该统计差异提供产前诊断。如在该方法的步骤165中所述,做出一个正常或受影响的诊断。在不能有信心地做出正常或受影响的诊断的情况下,提供一个“无判定”。

样品

用于确定CNV(例如染色体的和部分的非整倍性)的样品包括存在于细胞中核酸的或“无细胞”的核酸。在本发明的一些实施方案中,有利的是获得无细胞核酸,例如无细胞DNA(cfDNA)。通过本领域已知的不同方法,从包括但不局限于血浆和血清的生物学样品中可以获得无细胞核酸,包括无细胞DNA(Chen(陈)等人,Nature Med.(自然医学),2:1033-1035[1996];Lo(罗)等人,Lancet(柳叶刀),350:485-487[1997])。为了从细胞中分离无细胞DNA,可以使用分部分离、离心分离(例如密度梯度离心分离)、DNA特异性沉淀(DNA-specific precipitation)、或高通量细胞分拣和/或分离方法。

包括这种核酸混合物(对其应用了此所述的方法)的样品是一种生物学样品,如组织样品、生物学流体样品、或细胞样品。在一些实施方案中,通过任何一种已知方法从这种生物学样品中将这种核酸混合物纯化或分离。一个样品可以由纯化的或分离的多核苷酸组成,或者它可以包括生物学样品,如组织样品、生物学流体样品、或细胞样品。生物学流体包括,作为非限制性实例,血液,血浆,血清,汗,眼泪,痰,尿,痰,耳流出物出物(ear flow),淋巴液,唾液,脑脊液,灌洗液(ravages),骨髓悬浮液(bone marrow suspension),阴道流出物(vaginal flow),经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,羊水和白细胞分离术样品。在一些实施方案中,这种样品是通过无创性过程容易地可获得的样品,例如血液、血浆、血清、汗液、眼泪、痰、尿、痰、耳流出物、唾液或粪便。优选地,这种生物学样品是外周血样品,或血浆或血清部分。在其他实施方案中,这种生物学样品是棉签或涂片,活组织检查标本,或细胞培养。在另一实施方案中,这种样品是两种或更多种生物学样品的混合物,例如生物学样品可以包括两种或更多种生物学流体样品、组织样品、和细胞培养样品。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖它们的分级部分或加工的部分。类似地,当一个样品是取自一种活组织检查、棉签、涂片、等时,该“样品”明确地涵盖衍生自这种活组织检查、棉签、涂片、等的加工的分离部或部分。

在一些实施方案中,样品可以得自多个来源,包括但不限于,来自不同个体、相同或不同个体的不同发展阶段、不同的患病个体(例如患有癌症的或怀疑具有遗传性障碍的个体)、正常个体的样品,在个体的疾病的不同阶段获得的样品,得自经历对疾病的不同治疗的个体的样品,来自经历不同环境因素的个体的样品,或对一种病情易感的个体,或暴露于一种传染病因素(例如HIV)的个体。

在一个实施方案中,这种样品是得自怀孕雌性(例如孕妇)的母体样品。在这种情况下,该样品可以使用在此说明的方法来进行分析,以提供胎儿中潜在染色体异常的产前诊断。这种母体样品可以是组织样品、生物学流体样品、或细胞样品。生物学流体包括(作为非限制性实例):血液,血浆,血清,汗液,眼泪,痰,尿,痰,耳流出物,淋巴液,唾液,脑脊液,灌洗液(ravages),骨髓悬浮液,阴道流出物,经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,和白细胞分离术样品。在另一实施方案中,母体样品是两种或更多种生物学样品的混合物,例如,一种生物学样品可以包括两种或更多种生物学流体样品、组织样品、和细胞培养样品。在一些实施方案中,这种样品是通过无创性过程容易地可获得的样品,例如,血液、血浆、血清、汗液、眼泪、痰、尿、痰、耳流出物、唾液和粪便。在一些实施方案中,这种生物学样品是外周血样品,或血浆或血清部分。在其他实施方案中,这种生物学样品是棉签或涂片、活组织检查标本、或细胞培养。如以上披露的,术语“血液”、“血浆”和“血清”明确涵盖它们的分离部或加工的部分。类似地,当一个样品取自活组织检查、棉签、涂片、等时,这个“样品”明确涵盖衍生自活组织检查、棉签、涂片、等的加工的分离部或部分。

样品还可以是得自体外培养的组织、细胞、或其他含多核苷酸的来源。这些培养的样品可以取自多个来源,包括但不限于,维持在不同培养基和条件(例如pH值、压力、或温度)下的培养物(例如组织或细胞),维持了不同长度的时段的培养物(例如组织或细胞),用不同因子或试剂(例如药物候选,或调节剂)处理的培养物(例如组织或细胞),或不同类型的组织或细胞的培养物。

从生物学来源分离核酸的方法是人们熟知的,并且取决于源的性质将不同。本领域的普通技术人员可以容易地从一个源分离出如对于在此说明的方法所需要的核酸。在一些情况中,将核酸样品中的核酸分子断裂可以是有利的。断裂可以是随机的,或者它可以是特异的,例如使用限制性内切酶消化所达到的情况。用于随机断裂的方法在本领域是为人熟知的,并且包括例如限制性DNA酶消化、碱处理和物理剪切。在一个实施方案中,样品核酸是作为cfDNA而获得的,它并不经历断裂。在其他实施方案中,样品核酸是作为基因组DNA而获得的,它经历断裂成为约500或更多碱基对的片段,并且可以对其容易地应用NGS方法。

确定CNV用于产前诊断

在母体血液中循环的无细胞胎儿DNA和RNA可以被用于数目不断增加的遗传状况的早期无创性产前诊断(NIPD),既可用于妊娠管理也可帮助生殖决策。在血流中循环的无细胞DNA的存在已经为人所知超过50年了。最近,在怀孕期间的母体血流中发现了存在小量循环的胎儿DNA(Lo(罗)等人,Lancet(柳叶刀)350:485-487[1997])。被认为是源自垂死的胎盘细胞,无细胞胎儿DNA(cfDNA)已经被证明是由长度上典型地小于200bp的短片段组成,(Chan(陈)等人),临床化学,50:88-92[2004]),在早到只有4周妊娠的时候可以被辨明(Illanes(伊拉尼斯)等人,Early Human Dev(早期人类发育),83:563-566[2007]),并且已知在分娩的数小时内即被从母体循环中清除(Lo(罗)等人,Am J Hum Genet(美国人类遗传学杂志),64:218-224[1999])。除了cfDNA外,在母体血流中还可以辨明无细胞胎儿RNA的(cfRNA)的片段,这是源自在胎儿或胎盘中被转录的基因。来自母体血液样品的这些胎儿遗传元件的提取和随后的分析提供了用于NIPD的新机会。

本方法是一种独立于多态性的方法,它是供在NIPD中使用的并且它不要求从母体cfDNA辨别出胎儿cfDNA以便能够确定胎儿非整倍性。在一些实施方案中,该非整倍性是一种完整染色体三体性或单体性,或一种部分三体性或单体性。部分非整倍性是由获得或丢失部分染色体引起的,并且涵盖染色体不平衡,这些不平衡生成自不平衡的易位、不平衡的倒位、缺失和插入。至今,与生命能共存的最常见的已知非整倍性是三体性21,即唐氏综合征(DS),它由存在部分或全部的染色体21引起的。很少情况下,DS可以由一种遗传的或偶发的缺陷引起,由此染色体21的全部或部分的一个额外拷贝变成附接到另一染色体(通常是染色体14)上,以形成一个单畸变染色体。DS是与智力损伤、严重的学习困难以及由长期健康问题(例如心脏病)引起的超额死亡率相关联的。具有已知临床显著性的其他非整倍性包括爱德华综合征(三体性18)和帕塔综合征(三体性13),它们在前几个月的生命经常是致命性的。与性染色体数目相关的非整倍性也是已知的、并且包括单体性X,例如在女性新生儿中的特纳综合征(XO)和三倍X综合征(XXX),以及在男性新生儿中的柯林菲特综合征(XXY)和XYY综合征,它们全部都与包括不育和智力技能降低的不同表型相关联。本发明的方法可以用于产前诊断这些和其他染色体异常。

根据本发明的一些实施方案,由本发明确定的三体性包括而不限于:三体性21(T21;唐氏综合征),三体性18(T18;爱德华综合征),三体性16(T16),三体性22(T22;猫眼综合征),三体性15(T15;普瑞德-威利氏综合征),三体性13(T13;帕塔综合征),三体性8(T8;Warkany综合征)和XXY(柯林菲特综合征),XYY,或XXX三体性。应理解,其他完整三体性和部分三体性可以根据本发明的传授内容在胎儿cfDNA中确定。部分三体性的实例包括但并不局限于,部分三体性1q32-44,具有三体性的三体性9p,三体性4嵌合性,三体性17p,部分三体性4q26-qter,三体性9,部分2p三体性,部分三体性1q,和/或部分三体性6p/单体性6q。

本发明的方法还可以被用于确定染色体单体性X,以及部分单体性,如单体性13,单体性15,单体性16,单体性21,和单体性22,这些已知涉及怀孕的流产。还可以通过本发明的方法确定典型地涉及完整非整倍性的染色体的部分单体性。单体性18p是罕见的染色体疾病,其中缺失染色体18的全部或部分的短臂(p)(单染色体的)。这种疾病典型地特征在于身材矮小,程度可变的精神发育迟缓,语言发育迟缓,颅骨和面部(颅面)区域的畸形,和/或额外的身体异常。对于不同案例,相关颅面缺损可以在范围和严重性上变化很大。由染色体15的结构和数目中的变化引起的病况包括安格曼综合征和普瑞德-威利氏综合征,它们涉及在染色体15的同一个部分(15q 11-q 13区域)中的基因活性的丢失。应当理解,在父母携带者中,若干易位和微缺失可以是无症状的,但仍可以引起后代中的主要遗传疾病。例如,携带15q 11-q 13微缺失的健康母亲可以生出患有安格曼综合征(一种严重的神经变性疾病)的孩子。因此,本发明可以用于识别胎儿中此类部分缺失和其他缺失。部分单体性13q是一种罕见的染色体疾病,它发生在染色体13长臂(q)的一段缺失时(单体的)。出生时患有部分单体性13q的婴儿会表现出低出生体重,头和面部(颅面区域)的畸形,骨骼异常(尤其是手和脚),以及其他身体异常。精神发育迟缓是该病况的特征。在出生患有该疾病的个体中,婴儿期间的死亡率是很高的。几乎所有部分单体性13q的病例都没有明显原因而随机发生(偶发性的)。22q 11.2缺失综合征,也称为迪格奥尔格综合征,是由一小段染色体22的缺失引起的综合征。缺失(22q11.2)发生在这对染色体之一的长臂上的染色体中部附近。该综合征的特征甚至在同一家族的成员中也会变化非常广,并且影响身体的很多部分。特征性迹象和症状可以包括出生缺陷,如先天性心脏病,颚的缺陷,最常见地涉及关闭的神经肌肉问题(腭咽关闭不全),学习障碍,面部特征中的轻微差异,以及复发性感染。染色体区域22q11.2中的微缺失是与精神分裂症的20至30倍的增加的风险相关联的。在一个实施方案中,本发明的方法被用于确定部分单体性,包括但不局限于:单体性18p,染色体15的部分单体性(15q11-q13),部分单体性13q,并且还可以使用本发明的方法确定染色体22的部分单体性。

如果父母之一是已知此类非整倍性的携带者,那么本发明的方法还可以用于确定任何非整倍性。这些包括但不局限于:对于小的额外标记物染色体(SMC)的嵌合;t(11;14)(p15;p13)易位;不平衡的易位t(8;11)(p23.2;p15.5);11q23微缺失;史密斯-马吉利综合征17p11.2缺失;22q13.3缺失;Xp22.3微缺失;10p14缺失;20p微缺失;迪格奥尔格综合征[del(22)(q11.2q11.23)];威廉姆斯综合征(7q11.23和7q36缺失);1p36缺失;2p微缺失;神经纤维瘤类型1(17q11.2微缺失),Yq缺失;Wolf-Hirschhom综合征(WHS,4p16.3微缺失);1p36.2微缺失;11q14缺失;19q13.2微缺失;鲁宾斯坦-秦比综合征(16p13.3微缺失);7p21微缺失;米勒-迪克综合征(17p13.3),17p11.2缺失;以及2q37微缺失。

完整的胎儿染色体非整倍性的确定

在一个实施方案中,本发明提供了一种方法用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体非整倍性。优选地,该方法确定了存在或不存在任何四种或更多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在母体测试样品中的胎儿和母体核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目。这种归一化染色体序列可以是一个单染色体,或者它可以是选自染色体1-22、X、和Y的一组染色体。该方法进一步在步骤(c)中使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述任何一个或多个感兴趣的染色体中的每一个的一个阈值进行比较,由此来确定在该母本测试样品中存在或不存在任何一种或多种完整的、不同的胎儿染色体非整倍性。

在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的序列标签数目的比率。

在其他实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体识别出的序列标签数目的比率。在其他实施方案中,步骤(c)包括:通过使针对感兴趣的染色体获得的序列标签数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化染色体序列的标签数目与归一化染色体序列的长度进行关联,针对一个感兴趣的染色体计算出一个序列标签比率,并且针对这个感兴趣的染色体来计算一个染色体剂量,作为感兴趣的染色体的序列标签密度与针对归一化染色体序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。针对来自不同母体受试者的测试样品可以重复步骤(a)-(d)。

通过该实施方案的一个实例在一个包含胎儿和母体无细胞DNA分子的混合物的母体测试样品中确定了四种或更多种完整的胎儿染色体非整倍性,该实例包括:(a)对无细胞DNA分子中的至少一部分进行测序以便获得针对在测试样品中的胎儿和母体的无细胞DNA分子的序列信息;(b)使用该序列信息来针对选自染色体1-22、X、以及Y中的每一个感兴趣的任何二十个或更多个染色体识别出序列标签的一个数目并且来针对每个所述感兴趣的二十个或更多个染色体的一个归一化染色体识别出序列标签的一个数目;(c)使用针对每个所述感兴趣的二十个或更多个染色体所识别出的所述序列标签的数目以及针对每个归一化染色体识别出的序列标签的数目来对于每个感兴趣的二十个或更多个染色体计算出一个单染色体剂量;并且(d)将针对每个所述感兴趣的二十个或更多个染色体的每个单染色体剂量与针对每个感兴趣的二十个或更多个染色体的一个阈值进行比较,并且由此来确定在测试样品中存在或不存在任何二十种或更多种不同的、完整的胎儿染色体非整倍性。

在另一实施方案中,如以上所述的用于确定在母体测试样品中存在或不存在任何一个或多个不同的、完整的胎儿染色体非整倍性的方法使用了一个归一化片段序列用于确定感兴趣的染色体的剂量。在这种情况中,该方法包括:(a)获得针对在所述样品中的胎儿和母体核酸的序列信息;并且(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目。该归一化片段序列可以是染色体的单片段,或者它可以是来自一个或多个不同染色体的一组片段。该方法进一步在步骤(c)中使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签数目以及针对所述归一化片段序列识别出的所述序列标签数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述一个或多个感兴趣的染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、完整的胎儿染色体非整倍性。

在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化片段序列识别出的序列标签数目的比率。

在其他实施方案中,步骤(c)包括:通过使针对感兴趣的染色体获得的序列标签数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化片段序列的标签数目与归一化片段序列的长度进行关联,针对一个感兴趣的染色体计算出一个序列标签比率,并且针对这个感兴趣的染色体来计算一个染色体剂量作为感兴趣的染色体的序列标签密度与针对归一化片段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同母体受试者的测试样品重复步骤(a)-(d)。

通过确定归一化的染色体值(NCV)提供了用于比较不同样品组的染色体剂量的一种手段,这使测试样品中的染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联。计算这个NCV,作为:

>NCVij=χij-μ^jσ^j>

其中分别对应地是对于在一组合格样品中的第j个染色体剂量的估算平均值以及标准差,并且xij是对于测试样品i所观察到的第j个染色体剂量。

在一些实施方案中,确定了存在或不存在至少一种完整的胎儿染色体非整倍性。在其他实施方案中,在一个样品中确定了存在或不存在至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少石二种、至少十三种、至少十四种、至少十五种、至少十六种、至少十七种、至少十八种、至少十九种、至少二十种、至少二十一种、至少二十二种、至少二十三种、或二十四种完整的胎儿染色体非整倍性,其中完整的胎儿染色体非整倍性中的二十二种对应于任何一种或多种常染色体的的完整的染色体性非整倍性;第二十三和第二十四种染色体性非整倍性对应于染色体X和Y的完整的胎儿染色体非整倍性。因为性染色体的非整倍性可以包括四体性、五体性和其他多体性,所以可以根据本方法确定的不同完整的染色体性非整倍性的数目可以是至少24种、至少25种、至少26种、至少27种、至少28种、至少29种、或至少30种完整的染色体性非整倍性。因此,被确定的不同完整的染色体性非整倍性的数目与选择用于分析的感兴趣的染色体的数目是相关的。

在一个实施方案中,如以上所述的确定在母体测试样品中存在或不存在任何一个或多个不同的、完整的胎儿染色体非整倍性使用了针对一个感兴趣的染色体的归一化片段序列,它是选自染色体1-22、X、和Y。在其他实施方案中,两个或更多个感兴趣的染色体是选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X、或Y中的任何两个或更多个。在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体包括选自染色体1-22、X、和Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的、完整的胎儿染色体非整倍性。在其他实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体是全部的染色体1-22、X、和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的胎儿染色体非整倍性。可以确定的完整的不同胎儿染色体非整倍性包括完整染色体三体性、完整染色体单体性以及完整染色体多体性。完整的胎儿染色体非整倍性的实例包括但不局限于:任何一个或多个常染色体的三体性,例如三体性2、三体性8、三体性9、三体性21、三体性13、三体性16、三体性18、三体性22;性染色体的三体性,例如47,XXY、47XXX、和47XYY;性染色体的四体性,例如48,XXYY、48,XXXY、48,XXXX、和48,XYYY;性染色体的五体性,例如49,XXXYY、49,XXXXY、49,XXXXX、49,XYYYY;以及单染色体X。以下将说明可以根据本方法确定的其他完整的胎儿染色体非整倍性。

部分的胎儿染色体非整倍性的确定

在另一个实施方案中,本发明提供了一种方法用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在任何一种或多种不同的、部分的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对所述样品中的胎儿和母体核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于任何一个或多个感兴趣的染色体中的所述任何一个或多个片段中的每一个的一个归一化片段序列识别出序列标签的一个数目。该归一化片段序列可以是一个染色体的单片段,或者它可以是来自一个或多个不同染色体的一组片段。该方法在步骤(c)中进一步使用针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段识别出的所述序列标签的数目以及针对每个所述归一化片段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体的任何一个或多个片段中的每一个计算出一个单片段剂量;并且(d)将针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段中的每个所述单染色体剂量与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个染色体片段的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、部分的胎儿染色体非整倍性。

在一些实施方案中,步骤(c)包括对于每个任何一个或多个感兴趣的染色体的任何一个或多个片段计算出一个单片段剂量,作为针对每个任何一个或多个感兴趣的染色体的任何一个或多个片段识别出的序列标签数目与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段的所述归一化片段序列识别出的序列标签数目的比率。

在其他实施方案中,步骤(c)包括:通过使针对感兴趣的片段获得的序列标签的数目与感兴趣的片段的长度进行关联、并且使针对感兴趣的片段的相应的归一化片段序列的标签数目与归一化片段序列的长度进行关联,针对一个感兴趣的片段体计算出一个序列标签比率,并且针对这个感兴趣的片段来计算一个片段剂量作为感兴趣的片段的序列标签密度与针对归一化片段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同母体受试者的测试样品重复步骤(a)-(d)。

通过确定一个归一化的片段值(NSV)提供了用于比较不同样品组的片段剂量的一种手段,这使一个测试样品中的片段剂量与在一组合格样品中的相应的片段剂量的平均值进行关联。计算NSV,作为:

>NSVij=χij-μ^jσ^j>

其中对应地是对于在一组合格样品中的第j个片段剂量的估算平均值以及标准差,并且xij是对于测试样品i所观察到的第j个片段剂量。

在一些实施方案中,确定了存在或不存在一种部分的胎儿染色体非整倍性。在其他实施方案中,在一个样品中确定了存在或不存在两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、二十五种、或更多种部分的胎儿染色体非整倍性。在一个实施方案中,选自染色体1-22、X、和Y中的任何一个的一个感兴趣的片段是选自染色体1-22、X、和Y。在另一实施方案中,选自染色体1-22、X、和Y的两个或更多个感兴趣的片段是选自染色体染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X、或Y。在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的片段包括选自染色体1-22、X、和Y的至少一个、五个、十个、15个、20个、25个或更多个片段,并且其中确定了存在或不存在至少一种、五种、十种、15种、20种、25种不同的、部分的胎儿染色体非整倍性。可以确定的不同的、部分的胎儿染色体非整倍性包括部分复制、部分倍增、部分插入以及部分缺失。部分的胎儿染色体非整倍性的实例包括常染色体的部分的单体性和部分的三体性。常染色体的部分的单体性包括染色体1的部分的单体性、染色体4的部分的单体性、染色体5的部分的单体性、染色体7的部分的单体性、染色体11的部分的单体性、染色体15的部分的单体性、染色体17的部分的单体性、染色体18的部分的单体性、以及染色体22的部分的单体性。以下将说明可以根据本方法确定的其他部分的胎儿染色体非整倍性。

在上述任何一个实施方案中,这种测试样品是选自血液、血浆、血清、尿和唾液样品的母本样品。在一些实施方案中,该母体测试样品是血浆样品。该母体样品的核酸分子是胎儿的和母体的无细胞DNA分子的混合物。可以使用如在本申请的其他地方所说明的下一代测序(NGS)进行核酸的测序。在一些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是连接法测序。在另外的其他实施方案中,测序是单分子测序。可任选地,在测序前进行一个扩增步骤。

临床病症的CNV的确定

除了早期确定新生儿缺陷外,在此说明的方法还可以应用于确定基因组内的遗传序列的表达中的任何异常。

已经证明,来自癌症患者的血浆和血清DNA含有可测量的量值的肿瘤DNA,它可以被回收并用作肿瘤DNA的代用源,并且肿瘤的特征为非整倍性,或者基因序列或甚至完整染色体的不适当数目。确定在来自一位个体的样品中的一个给定序列(即感兴趣的序列)的量中的差异可以因此用于诊断医学情况。在一些实施方案中,该方法可以用于在怀疑或已知患有癌症的患者中确定存在或不存在染色体性非整倍性。还可以将该方法应用于:确定存在或不存在一种疾病的状态;确定存在或不存在一种病原体(例如病毒)的核酸;确定与移植物抗宿主疾病(GVHD)相关的染色体异常;并且确定法医分析中的个体的构成。

本发明的多个实施方案提供了一种方法,用于评定在一个测试样品中的感兴趣的序列(例如临床上相关的序列)的拷贝数变异,该测试样品包括衍生自两个不同基因组的核酸的混合物,并且这些核酸已知或被怀疑在一个或多个感兴趣的序列的量上是不同的。核酸的混合物是衍生自两个或更多个类型的细胞。在一个实施方案中,该核酸混合物是衍生自正常的和癌的细胞,这些细胞衍生自患有一种医学情况(例如癌症)的受试者。

癌症的发展通常伴随整个染色体的数目中的一种改变(即完整的染色体性非整倍性),和/或染色体的片段的数目中的改变(即部分的非整倍性),由被称作染色体不稳定性(CIN)的过程所引起(Thoma(托马)等人,Swiss Med Weekly(瑞士医学周刊),2011:141:w13170)。据信很多实体瘤,如乳癌,通过若干遗传畸变的累积而从启始进展到转移。[Sato(佐藤)等人,Cancer Res.(癌症研究),50:7184-7189[1990];Jongsma(琼斯玛)等人,J Clin Pathol(临床病理学杂志):Mol Path(分子病理学)55:305-309[2002])]。此类遗传畸变随着它们累积可以造成繁殖优势、遗传不稳定性和伴随的迅速演生出抗药性的能力,以及增强的血管生成、蛋白分解和新陈代谢。这些遗传畸变可以或者是影响隐性的“肿瘤抑制基因”或者是影响显性开放癌基因。导致杂合性丢失(LOH)的缺失和重组被认为是通过露出突变的肿瘤抑制等位基因在肿瘤进展中起到主要作用。

在诊断患有恶性肿瘤的患者的循环中已经发现了cfDNA,这些恶性肿瘤包括但不局限于肺癌(Pathak(帕萨克)等人,Clin Chem(临床化学),52:1833-1842[2006]),前列腺癌(Schwartzenbach(许瓦臣巴赫)等人,Clin Cancer Res(临床癌症研究),15:1032-8[2009]),以及乳癌(Schwartzenbach(许瓦臣巴赫)等人,在breast-cancer-research.com/content/11/5/R71在线可得,[2009])。在癌症患者的循环cfDNA中可以确定的与癌症相关的基因组不稳定性的识别是潜在的诊断和预测工具。在一个实施方案中,本发明的方法评定了在样品中的感兴趣的序列的CNV,该样品包含衍生自一位受试者的核酸的混合物,已知或怀疑该受试者患有癌症,例如癌、肉瘤、淋巴瘤、白血病、生殖细胞瘤和母细胞瘤。在一个实施方案中,这种样品是衍生(加工)自外周血的血浆样品,并且它包括衍生自正常的和癌的细胞的cfDNA的混合物。在另一实施方案中,需要确定是否存在CNV的生物学样品是衍生自癌和非癌细胞的混合物,这些细胞来自其他生物学流体,这些生物学流体包括但不局限于:血清,汗液,眼泪,痰,尿,痰,耳流出物,淋巴液,唾液,脑脊液,灌洗液(ravages),骨髓悬浮液,阴道流出物,经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,以及白细胞分离术样品,或者在组织活检、棉签、或涂片中。在其他实施方案中,这种生物学样品是粪便(粪的)样品。

感兴趣的序列是一种核酸序列,已知或怀疑该序列在癌症的发展和/或进展中起作用。感兴趣的序列的实例包括核酸序列,即完整的染色体和/或染色体的片段,如以下所述,这些序列在癌细胞中被扩增或删除。

在一个实施方案中,本方法可以被用于确定存在或不存在染色体扩增。在一些实施方案中,这种染色体扩增是获得一个或多个完整染色体。在其他实施方案中,这种染色体扩增是获得一个染色体的一个或多个片段。在另外的其他实施方案中,这种染色体扩增是获得两个或更多个染色体的两个或更多个片段。这种染色体扩增可以涉及获得一个或多个癌基因。

与人类实体瘤相关联的显性开放基因典型地通过过表达或改变的表达来发挥它们的作用。基因扩增是导致基因表达上调的一种常见机制。来自细胞遗传学研究的证据表明,在超过50%的人乳癌中发生了显著扩增。最值得注意的是,位于染色体17(17(17q21-q22))上的原癌基因人表皮生长因子受体2(HER2)的扩增造成了在细胞表面上的HER2受体的过表达,从而在导致乳癌和其他恶性肿瘤中的过量的并且调节异常的信号(Park(朴)等人,Clinical Breast Cancer(临床乳癌),8:392-401[2008])。在其他人类恶性肿瘤中已经发现了多种癌基因被扩增。人类肿瘤中细胞癌基因扩增的实例包括以下各项的扩增:前髓细胞性白血病细胞系HL60、以及小细胞肺癌中的c-myc,原发成神经细胞瘤(阶段III和IV)、成神经细胞瘤细胞系、视网膜母细胞瘤细胞系和原发肿瘤、以及小细胞肺癌细胞系和肿瘤中的N-myc,小细胞肺癌细胞系和肿瘤中的L-myc,急性髓细胞性白血病中和结肠癌细胞系中的c-myb,表皮样癌细胞、以及原发神经胶质瘤中的c-erbb,肺、结肠、膀胱、以及直肠的原发癌中的c-K-ras-2,乳腺癌细胞系中的N-ras(Varmus(瓦穆斯)H.,Ann Rev Genetics(遗传学年鉴),18:553-612(1984),[引用在Watson(沃森)等人,Molecular Biology of the Gene(基因的分子生物学)(第4版;Benjamin/Cummings Publishing公司1987)]。

在一个实施方案中,本方法可以被用于确定存在或不存在一种染色体缺失。在一些实施方案中,这种染色体缺失是丢失一个或多个完整染色体。在其他实施方案中,这种染色体缺失是丢失染色体的一个或多个片段。在另外的其他实施方案,这种染色体缺失是丢失两个或更多个染色体的两个或更多个片段。这种染色体缺失可以涉及丢失一个或多个肿瘤抑制基因。

涉及肿瘤抑制基因的染色体缺失可以在实体瘤的发展和进展中起一种重要作用。视网膜母细胞瘤肿瘤抑制基因(Rb-1)(位于染色体13q14)是最广泛地特征化的肿瘤抑制基因。Rb-1基因产物(一种105kDa的核磷蛋白)显然在细胞周期调控中起到重要作用(Howe(豪依)等人,Proc Natl Acad Sci(美国国家科学院院刊)(美国),87:5883-5887[1990])。由通过一个点突变亦或染色体缺失的这两个基因的等位基因的失活引起Rb蛋白的改变的或丢失的表达。已经发现Rb-i基因改变不仅存在于视网膜母细胞瘤中,而且还存在于其他恶性肿瘤中,如骨肉瘤、小细胞肺癌(Rygaard(瑞格德)等人,Cancer Res(癌症研究),50:5312-5317[1990)])和乳癌。限制性片段长度多态性(RFLP)研究已经表明,此类肿瘤类型经常在13q丢失了杂合性,提示由于总的染色体缺失,Rb-1基因的等位基因之一已经被丢失(Bowcock(伯考克)等人,Am J Hum Genet(美国人类遗传学杂志),46:12[1990])。包括涉及染色体6和其他同伴染色体的复制、缺失和不平衡易位的染色体1异常表明染色体1的区域,特别是1q21-1q32和1p11-13,可能容纳与骨髓增生性肿瘤的慢性和高级阶段发病上有关的癌基因或肿瘤抑制基因(Caramazza(卡拉马萨)等人,Eur J Hematol(欧洲血液学杂志),84:191-200[2010])。骨髓增生性肿瘤还与染色体5的缺失相关联。染色体5的完整丢失或中间缺失是骨髓增生异常综合征(MDS)中最常见的核型异常。分离的del(5q)/5q-MDS患者具有比患有额外核型缺陷的那些患者更有利的预后,他们倾向于发展骨髓增生性肿瘤(MPN)和急性髓细胞性白血病。不平衡的染色体5缺失的频率已经引出一个想法,即:5q容纳一个或多个肿瘤抑制基因,这些基因在造血干细胞/造血祖细胞(HSC/HPC)的生长控制中起到根本作用。通常缺失的区域(CDR)的细胞遗传学映射集中在5q31和5q32识别的候选肿瘤抑制基因,包括核糖体亚基RPS14、转录因子Egr1/Krox20和细胞骨架重塑蛋白、α-联蛋白(Eisenmann(艾斯曼),Oncogene(癌基因),28:3429-3441[2009])。新鲜肿瘤和肿瘤细胞系的细胞遗传学和等位基因型研究已经证明,来自染色体3p上的若干明确区域(包括3p25、3p21-22、3p21.3、3p12-13和3p14)的等位基因的丢失是在肺癌、乳癌、肾癌、头颈癌、卵巢癌、子宫颈癌、结肠癌、胰腺癌、食道癌、膀胱癌和其他器官的癌症的广谱的主要上皮癌中所涉及的最早和最常见的基因组异常。若干肿瘤抑制基因已经被映射到染色体3p区域,并且认为中间缺失或启动子高度甲基化先于在癌的发展中的3p或完整染色体3的丢失(Angeloni(安格罗尼)D.,Briefings Functional Genomics(功能基因组学简报),6:19-39[2007])。

患有唐氏综合征(DS)的新生儿和儿童通常呈现先天的暂时性白血病并且具有急性髓细胞性白血病和急性成淋巴细胞白血病的增加的风险。染色体21(容纳约300个基因)可以牵涉多种结构畸变,例如在白血病、淋巴瘤、和实体瘤中的易位、缺失、以及扩增。此外,已经识别位于染色体21上的基因在肿瘤发生中所起的重要作用。染色体21的实体数目的连同结构的畸变是与白血病相关联的,并且特定基因包括RUNX1、TMPRSS2、和TFF,它们位于21q,在肿瘤发生中起作用(Fonatsch(冯纳茨克)C,Gene Chromosomes Cancer(基因、染色体和癌),49:497-508[2010])。

在一个实施方案中,该方法提供了一种手段来评定基因扩增和肿瘤演化的程度之间的关联性。扩增和/或缺失以及癌症阶段或等级之间的关联对于预后可以是重要的,因为此类信息可以构成遗传性肿瘤等级的定义,这会更好地预测具有最坏预后的更晚期肿瘤的未来病程。此外,关于早期扩增和/或缺失事件的信息在将这些事件作为随后疾病进展的预测因素方面进行关联时可以是有用的。可以将通过本方法识别的基因扩增和缺失与其他已知参数(如肿瘤等级、病史、Brd/Urd标记物指数、激素状态、淋巴结转移、肿瘤大小、生存时间和从流行病学和生物统计学研究可获得的其他肿瘤特性)进行关联。例如,有待通过本方法进行测试的肿瘤DNA可以包括不典型增生、导管的原位癌、阶段I-III的癌症以及转移性淋巴结,以便允许识别在扩增和缺失与阶段之间的关联性。所做出的关联可以使得有效的治疗性干预成为可能。例如,一致扩增的区域可以含有一个过表达的基因,其产物也许能够接受治疗性附接(例如,生长因子受体酪氨酸激酶p185HER2)。

通过确定从原发癌症到已经转移到其他部位的细胞的那些核酸序列的拷贝数变异,该方法可以用于识别与抗药性相关的扩增和/或缺失事件。如果基因扩增和/或缺失是允许抗药性迅速发展的核型不稳定性的一种表现,那么与来自化疗敏感的患者的肿瘤相比,将会期待在来自化疗抗性的患者的原发肿瘤中的更多扩增和/或缺失。例如,如果特定基因的扩增造成了抗药性的发展,那么在来自化疗抗性的患者的肿瘤细胞中而不是在原发肿瘤中将会期待围绕那些基因的区域得到了一致的扩增。在基因扩增和/或缺失与抗药性发展之间的关联性的发现可以允许识别将能够或将不能受益于辅助疗法的患者。

以类似于针对确定在母体样品中确定存在或不存在完整的和/或部分的胎儿染色体非整倍性所说明的方式,本发明的方法可以被用于确定在包含核酸(例如DNA或cfDNA)的任何患者样品(包括不是母体样品的患者样品)中确定存在或不存在完整的和/或部分的染色体性非整倍性。这种患者样品可以是如在本申请的其他地方所说明的任何生物学样品类型。优选地,这种样品是通过无创性过程获得的。例如,这种样品可以是血液样品,或其血清和血浆部分。可替代地,这种样品可以是尿样品或粪样品。在另外的其他实施方案,这种样品是一种组织活检样品。在全部情况下,这种样品包括核酸,例如cfDNA或基因组DNA,它被纯化,并且使用上述任何NGS测序方法进行测序。

与癌症的形成和进展相关联的完整的以及部分的染色体性非整倍性二者都可以根据本方法来确定。

患者样品中完整的染色体性非整倍性的确定

在一个实施方案中,本发明提供了一种方法用于在包含核酸分子的患者测试样品中确定存在或不存在任何一种或多种不同的、完整的染色体性非整倍性。在一些实施方案中,该方法确定存在或不存在任何一种或多种不同的、完整的染色体性非整倍性。该方法的步骤包括:(a)获得针对在患者测试样品中的患者核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述感兴趣的任何一个或更多个染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目。这个归一化染色体序列可以是一个单染色体,或者它可以是选自染色体1-22、X、和Y的一组染色体。该方法进一步在步骤(c)中使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何一个或更多个染色体中的每一个的一个阈值进行比较,由此来确定在该患者测试样品中存在或不存在任何一种或多种不同的、完整的患者染色体性非整倍性。

在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的序列标签数目的比率。

在其他实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体识别出的序列标签数目的比率。在其他实施方案中,步骤(c)包括:通过使针对感兴趣的染色体获得的序列标签的数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化染色体序列的标签数目与归一化染色体序列的长度进行关联,针对一个感兴趣的染色体计算出一个序列标签比率,并且针对这个感兴趣的染色体来计算一个染色体剂量,作为感兴趣的染色体的序列标签密度与针对归一化染色体序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同患者的测试样品重复步骤(a)-(d)。

通过该实施方案的一个实例在包含无细胞DNA分子的癌症患者测试样品中确定了一个或多个完整的染色体性非整倍性,该实例包括:(a)对无细胞DNA分子中的至少一部分进行测序以便获得针对在测试样品中的患者无细胞DNA分子的序列信息;(b)使用该序列信息来针对选自染色体1-22、X、以及Y的每一个感兴趣的任何二十个或更多个染色体识别出序列标签的一个数目并且来针对每个所述感兴趣的二十个或更多个染色体的一个归一化染色体识别出序列标签的一个数目;(c)使用针对每个所述感兴趣的二十个或更多个染色体所识别出的所述序列标签的数目以及针对每个归一化染色体识别出的序列标签的数目来对于每个感兴趣的二十个或更多个染色体计算出一个单染色体剂量;并且(d)将针对每个所述感兴趣的二十个或更多个染色体的每个单染色体剂量与针对每个感兴趣的二十个或更多个染色体的一个阈值进行比较,并且由此来确定在患者测试样品中存在或不存在任何二十种或更多种不同的、完整的染色体性非整倍性。

在另一实施方案中,如以上所述用于确定在患者测试样品中存在或不存在任何一个或多个不同的、完整的染色体性非整倍性的方法使用了一个归一化片段序列来确定感兴趣的染色体的剂量。在这个实例中,该方法包括:(a)获得针对在所述样品中的核酸的序列信息;并且(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述感兴趣的任何一个或更多个染色体中的每一个的一个归一化片段序列识别出序列标签的一个数目。该归一化片段序列可以是一个染色体的单片段,或者它可以是来自一个或多个不同染色体的一组片段。该方法进一步在步骤(c)中使用了针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对所述归一化片段序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的一个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在患者样品中存在或不存在一种或多种不同的、完整的染色体性非整倍性。

在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化片段序列识别出的序列标签数目的比率。

在其他实施方案中,步骤(c)包括:通过使针对感兴趣的染色体获得的序列标签数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化片段序列的标签数目与归一化片段序列的长度进行关联,针对一个感兴趣的染色体计算出一个序列标签比率,并且针对这个感兴趣的染色体来计算一个染色体剂量,作为感兴趣的染色体的序列标签密度与针对归一化片段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同患者的测试样品重复步骤(a)-(d)。

通过确定一个归一化的染色体值(NCV)提供了用于比较不同样品组的染色体剂量的一种手段,它使测试样品中的染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联。计算NCV,作为:

>NCVij=χij-μ^jσ^j>

其中对应地是对于在一组合格样品中的第j个染色体剂量的估算平均值以及标准差,并且xij是对于测试样品i所观察到的第j个染色体剂量。

在一些实施方案中,确定了存在或不存在一个完整的染色体性非整倍性。在其他实施方案中,在一个样品中确定存在或不存在两种、三种、四种、五种、六种、七种、八种、九种、十种、十一种、十二种、十三种、十四种、十五种、十六种、十七种、十八种、十九种、二十种、二十一种、二十二种、二十三种、或二十四种完整的染色体性非整倍性,其中二十二种完整的染色体性非整倍性对应于任何一个或多个常染色体的完整的染色体性非整倍性;第二十三和第二十四种染色体性非整倍性对应于染色体X和Y的完整的染色体性非整倍性。因为非整倍性可以包括三体性、四体性、五体性和其他多体性,并且在不同疾病中和在相同疾病的不同阶段中,完整的染色体性非整倍性的数目发生变化,根据本方法确定的完整的染色体性非整倍性的数目是至少24、至少25、至少26、至少27、至少28、至少29、至少30种完整的、至少40、至少50、至少60、至少70、至少80、至少90、至少100或更多种染色体性非整倍性。肿瘤的系统核型分析已经揭示,在癌细胞中的染色体数目是高度可变的,范围从亚二倍体(相当地少于46个染色体)到四倍体和超四倍体(高达200个染色体)(Storchova(斯托克瓦)和Kuffer(枯否),J Cell Sci(细胞科学杂志),121:3859-3866[2008])。在一些实施方案中,该方法包括确定在来自一位怀疑或已知患有癌症(例如结肠癌)的患者的样品中存在不或不存在高达200种或更多种染色体性非整倍性。这些染色体性非整倍性包括丢失一个或多个完整的染色体(亚二倍体),获得包括三体性、四体性、五体性、以及其他多体性的完整染色体。如在本申请的其他地方所说明的,还可以确定染色体片段的获得和/或丢失。该方法适用于确定在来自怀疑或已知患有如在本申请的其他地方所说明的癌症的患者的样品中存在或不存在不同的非整倍性。

在一些实施方案中,染色体1-22、X和Y中的任何一个可以是在确定在如上所述的患者测试样品中存在或不存在任何一种或多种不同的、完整的染色体性非整倍性中的感兴趣的染色体。在其他实施方案中,两个或更多个感兴趣的染色体是选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X、或Y中的任何两个或更多个。在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体包括选自染色体1-22、X、和Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的、完整的染色体性非整倍性。在其他实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体是全部的染色体1-22、X、和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的染色体性非整倍性。可以被确定的完整的、不同的染色体性非整倍性包括染色体1-22、X和Y中的任何一个或多个的完整的染色体单体性;染色体1-22、X和Y中的任何一个或多个的完整的染色体三体性;染色体1-22、X和Y中的任意一个或多个的完整的染色体四体性;染色体1-22、X和Y中的任何一个或多个的完整的染色体五体性;以及染色体1-22、X和Y中的任何一个或多个的其他完整的染色体多体性。

患者样品中部分的染色体性非整倍性的确定

在另一个实施方案中,本发明提供了一种方法用于在包含核酸分子的患者测试样品中确定存在或不存在任何一种或多种不同的、部分的染色体性非整倍性。该方法的步骤包括:(a)获得针对所述样品中的患者核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于任何一个或多个感兴趣的染色体中的所述任何一个或多个片段中的每一个的一个归一化片段序列识别出序列标签的一个数目。该归一化片段序列可以是一个染色体的单片段,或者它可以是来自一个或多个不同染色体的一组片段。该方法在步骤(c)中进一步使用了针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段识别出的所述序列标签的数目以及针对每个所述归一化片段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体的任何一个或多个片段中的每一个计算出一个单片段剂量;并且(d)将针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段中的每个所述单染色体剂量与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个染色体片段的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、部分的染色体性非整倍性。

在一些实施方案中,步骤(c)包括:对于每个任何一个或多个感兴趣的染色体的任何一个或多个片段计算出一个单片段剂量,作为针对每个任何一个或多个感兴趣的染色体的任何一个或多个片段识别出的序列标签数目与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个片段的所述归一化片段序列识别出的序列标签数目的比率。

在其他实施方案中,步骤(c)包括:通过使针对感兴趣的片段获得的序列标签的数目与感兴趣的片段的长度进行关联、并且使针对感兴趣的片段的相应的归一化片段序列的标签数目与归一化片段序列的长度进行关联,针对一个感兴趣的片段计算出一个序列标签比率,并且针对这个感兴趣的片段来计算一个片段剂量,作为感兴趣的片段的序列标签密度与针对归一化片段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同患者的测试样品重复步骤(a)-(d)。

通过确定归一化的片段值(NSV)提供了用于比较不同样品组的片段剂量的一种手段,这使测试样品中的片段剂量与在一组合格样品中的相应的片段剂量的平均值进行关联。计算NSV,作为:

>NSVij=χij-μ^jσ^j>

其中对应地是对于在一组合格样品中的第j个片段剂量的估算平均值以及标准差,并且xij是对于测试样品i所观察到的第j个片段剂量。

在一些实施方案中,确定了存在或不存在一种部分的染色体性非整倍性。在其他实施方案中,在一个样品中确定了存在或不存在两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、二十五种、或更多种部分的染色体性非整倍性。在一个实施方案中,选自染色体1-22、X、和Y中的任何一个的一个感兴趣的片段是选自染色体1-22、X、和Y。在其他实施方案中,选自染色体1-22、X、和Y的两个或更多个感兴趣的片段是选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16,17、18、19、20、21、22、X、或Y中的任何两个或更多个。

在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的片段包括选自染色体1-22、X、和Y的至少一个、五个、十个、15个、20个、25个、50个、75个、100个或更多个片段,并且其中确定了存在或不存在至少一种、五种、十种、15种、20种、25种、50种、75种、100种、或更多种不同的、部分的染色体性非整倍性。可以确定的不同的、部分的染色体性非整倍性包括部分复制、部分倍增、部分插入以及部分缺失。

可用于确定在患者中存在或不存在染色体性非整倍性(部分的或完整的)的样品可以是在本申请的其他地方所说明的任何生物学样品。可用于确定患者中的非整倍性的样品类型或样品将取决于患者已知或被怀疑患有的疾病的类型。例如,可以选择粪便样品作为DNA源来确定存在或不存在与结肠直肠癌症相关联的非整倍性。该方法还适用于在此所述的组织样品。优选地,该样品是通过无创性方式获得的生物学样品,例如血浆样品。如在本申请的其他地方所说明,可以使用在本申请其他地方所说明的下一代测序(NGS)来进行患者样品中的核酸的测序。在一些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是连接法测序。在另外的其他实施方案,测序是单分子测序。可任选地,在测序前进行一个扩增步骤。

在一些实施方案中,确定了一位患者体内存在或不存在非整倍性,这位患者怀疑患有如在本申请的其他地方所说明的癌症,例如肺癌、乳癌、肾癌、头颈癌、卵巢癌、子宫颈癌、结肠癌、胰腺癌、食道癌、膀胱癌和其他器官的癌症,以及血液癌症。血液癌症包括骨髓、血液、和淋巴系统的癌症,而淋巴系统包括淋巴结、淋巴管、扁桃体、胸腺、脾脏、以及消化道淋巴组织。白血病和骨髓瘤(它们开始在骨髓)、以及淋巴瘤(它开始在淋巴系统)是最常见的血液癌症类型。

在患者样品中可以做出存在或不存在一种或多种染色体性非整倍性的确定而对以下各项没有限制,即:确定患者对一种具体癌症的易感性,作为在已知或不知易感一种癌症的患者当中常规筛查的一部分来确定存在或不存在所关心的癌症,提供对疾病的预后,评估对辅助疗法的需要,并且确定疾病的进展或复原。

用于确定CNV的装置和系统

典型地使用不同的计算机算法和程序拉进行测序数据的分析和由此导出的诊断。在一个实施方案中,本发明提供了一种计算机程序产品用于产生一个输出,该输出表明在一个测试样品中存在或不存在一种胎儿非整倍性。该计算机产品包括一种计算机可读的媒质,它具有在其上记录的计算机可执行的逻辑,用于使一个处理器能够诊断一种胎儿非整倍性,包括:用于从来自母体生物学样品的核酸分子中的至少一部分接收测序数据的一个接收程序,其中所述测序数据包括一个计算出的染色体;用于从所述接收的数据分析胎儿非整倍性的计算机辅助的逻辑;以及用于产生表明所述胎儿非整倍性的存在、不存在或种类的输出结果的一个输出程序。

使用具有上面储存了计算机可读指令的计算机可读的媒质可以进行本发明的方法,以便进行一种用于识别任何CNV(例如染色体的或部分的非整倍性)的方法。因此,在一个实施方案中,本发明提供了一种上面储存了计算机可读指令的计算机可读的媒质,用于进行一种用于识别完整的和部分的染色体性非整倍性(例如胎儿非整倍性)的方法。

本发明的方法还可以使用一个计算机处理系统来进行,该系统被适配或配置成用于进行一种用于识别任何CNV(例如染色体的或部分的非整倍性)的方法。因此,在一个实施方案中,本发明提供了一种计算机处理系统,该系统被适配或配置成用于进行如在此所述的方法。在一个实施方案中,该装置包括一个测序器件,该器件被适配或配置成用于对在一个样品中的核酸分子的至少一部分进行测序,以获得如在本申请的其他地方所说明的类型的序列信息。

在以下实例中将更详细地说明本发明,这些实例无意以任何方式限制如所要求的本发明的范围。附图是意在被认为是本发明的说明书和说明的整体部分。提供了以下实例来进行说明,而并非限制所要求的发明。

实验

实例1

样品处理和DNA提取

从被认为有胎儿非整倍性风险的多位孕妇在她们妊娠的第一个和第二发三月期中收集外周血样品。在抽血之前获得了每位参与者的同意书。在羊膜穿刺或绒膜绒毛取样之前收集血液。使用绒膜绒毛或羊膜穿刺样品进行核型分析以证实胎儿的核型分析。

从每位受试者抽取的外周血收集在ACD管中。将一管血液样品(大约6-9mL/管)转移至一个15-mL的低速离心管中。将血液在2640rpm、4℃下使用Beckman Allegra 6R离心机和转子型号GA 3.8离心10分钟。

对于无细胞的血浆提取,将上层血浆转移至一个15-mL的高速离心管中并且在16000x g、4℃下使用Beckman Coulter Avanti J-E离心机和JA-14转子离心10分钟。这两个离心步骤是在收集血浆后的72h内进行的。将无细胞的血浆在-80℃下储存并且在DNA提取之前仅融化一次。

通过使用QIAamp DNA Blood Mini kit(Qiagen)根据制造商的说明将无细胞DNA从无细胞血浆中提取出来。将五毫升的缓冲液AL和500μl的Qiage蛋白酶加入4.5ml至5ml的无细胞血浆中。用磷酸盐缓冲盐水(PBS)将体积调整到10ml,并且将该混合物在56℃下孵育12分钟。使用了多个柱通过在一个Beckman微量离心机内以8,000RPM进行离心而将沉淀的cfDNA从溶液中分离出来。将这些柱用AW1和AW2缓冲液洗涤,并且将该cfDNA用55μl的无核酸酶的水进行洗脱。从该血浆样品中提取了大约3.5至7ng的cfDNA。

所有测序文库都是从大约2ng的、从母体血浆中提取的、纯化的cfDNA制备的。文库制备是使用NEBNextTM DNA Sample Prep DNA Reagent Set 1(物品编号E6000L;New England Biolabs,Ipswich,MA)(以下为)的试剂进行的。由于无细胞的血浆DNA在本质上是成片段的,对于血浆DNA样品没有通过喷雾法或声处理进行进一步的断裂。将在40μl中包含的大约2ng纯化的cfDNA片段的突出端根据末端修复模块(End Repair Module)而转化成磷酸化的钝端,这是通过在1.5ml微量离心管中将cfDNA用在NEBNextTM DNA Sample Prep DNA Reagent Set 1中提供的5μl 10X的磷酸化作用的缓冲液、2μl脱氧核苷酸溶液混合物(每份dNTP有10mM)、1μl的1∶5的DNA聚合酶I的稀释液、1μl T4DNA聚合酶以及1μl T4多核苷酸激酶在20℃下孵育15分钟来进行的。然后通过将该反应混合物在75℃下孵育5分钟而将这些酶热灭活。将该混合物冷却至4℃,并且使用10μl的含有克列诺片段(3’至5’exo minus)(NEBNextTM DNA Sample Prep DNA Reagent Set 1)的dA-尾预混合液完成钝端的DNA的dA尾,并且在37℃下孵育15分钟。随后,通过将该反应混合物在75℃下孵育5分钟而将这些克列诺片段热灭活。在将克列诺片段灭活后,使用在NEBNextTM DNA Sample Prep DNA Reagent Set 1中提供的4μl的T4DNA连接酶,通过将该混合物在25℃下孵育15分钟,用1μl的IlluminaGenomic Adaptor Oligo Mix的1∶5的稀释液(物品编号:1000521;Illumina Inc.,Hayward,CA)将这些Illumina适配子(Non-Index Y-Adaptors)连接到dA-tailed DNA上。将该混合物冷却到4℃,并且使用Agencourt AMPure XP PCR纯化系统(物品编号:A63881;Beckman Coulter Genomics,Danvers,MA)中提供的磁珠将适配子连接的cfDNA从未连接的适配子、适配子二聚物、以及其他试剂中纯化出来。使用高保真预混液(High-Fidelity Master Mix)(Finnzymes,Woburn,MA)以及与适配子互补的Illumina的PCR引物(物品编号:1000537和1000537)进行十八次PCR的循环以选择性地富集适配子连接的cfDNA。使用Illumina基因组PCR引物(物品编号:100537和1000538)以及在NEBNextTM DNA Sample Prep DNA Reagent Set 1中提供的Phusion HF PCR预混液(根据制造商的说明),使适配子连接的DNA经受PCR(98℃下30秒;98℃下18次循环持续10秒,65℃下30秒,并且72℃下30秒;最终延伸在72℃下持续5分钟,并且保持在4℃下)。使用Agencourt AMPure XP PCR纯化系统(安捷伦科技公司,Beverly,MA)根据制造商的说明(在www.beckmangenomics.com/products/AMPureXPProtocol 000387v001.pdf处可得)对扩增的产物进行纯化。将纯化后的扩增产品在40μl的Qiagen EB缓冲液中洗脱,并且使用2100Bioanalyzer(安捷伦科技公司(Agilent technologies Inc.),Santa Clara,CA)的Agilent DNA 1000Kit分析扩增文库的浓度和尺寸分布。

使用Illumina的基因组分析仪II对扩增后的DNA进行测序,以获得36bp的单端读数。为了识别出一个序列属于一个特定的人染色体,仅仅需要约30bp的随机序列信息。更长的序列可以独特地识别出更具体的标靶。在本案例中,获得了大量36bp读数,覆盖了基因组的大约10%。一旦完成了样品的测序,Illumina“序列控制软件(Sequencer Control Software)”将影像和碱基判定文件转移到运行Illumina“基因组分析仪流水线(Genome Analyzer Pipeline)”软件版本1.51的一个Unix服务器中。运行Illumina“Gerald”程序,来将序列与参考人类基因组进行比对,该参考人类基因组是源自美国国家生物技术信息中心(NationalCenter for Biotechnology Information)提供的hg 18基因组(NCBI36/hg18,在世界网站http://genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105处可得)。与该基因组独特比对的、从以上程序产生的序列数据通过在一台运行Linnux操作系统的计算机上运行一个程序(c2c.pl)从Gerald输出结果(export.txt文件)读出。允许具有碱基错配的序列比对并且只有在它们仅独特地与该基因组对齐时才包括在比对计数中。具有相同的起始和终止坐标的序列比对(复制体)被排除在外。

将具有2或更少的错配的约500万至1500万之间的36bp标签独特地映射到这个人类基因组上。将所有映射的标签进行计数并且包括在测试以及合格样品两者的染色体剂量的计算之内。从染色体Y的碱基0延伸至碱基2x106、碱基10x106至碱基13x106以及碱基23x106至末尾的区域明确地排除在分析之外,因为从男性和女性胎儿得到的标签都映射到Y染色体的这些区域上。

应指出,序列标签的总数目上的某些变化映射到遍及在同一轮次中进行测序的样品的单个染色体(染色体间变异性),但注意到在不同轮次的测序(序列测序处理之间的变异性)中发生了实质性更大的变化。

实例2

针对染色体13、18、21、X、和Y的剂量及变化

为了检查在对于所有染色体而言在映射的序列标签的数目上染色体间变异性和序列测定间变异性的程度,提取了从48名志愿的怀孕受试者的外周血获得的血浆cfDNA并且如实例1中的说明进行了测序,并且进行如下分析。

确定了映射到每个染色体上的序列标签的总数目(序列标签密度)。可替代地,可以将映射的序列标签的数目归一化为该染色体的长度,以产生一个序列标签密度比。归一化为染色体的长度不是必需的步骤,但是可以单独进行,以减小一个数目中的数字位数,从而将其简化而用于人类解读。可以用来将这些序列标签计数归一化的染色体长度可以是在世界网站genome.ucsc.edu/goldenPath/stats.html#hg 18处提供的那些长度。

使对于每个染色体得到的序列标签密度与每一个剩余染色体的序列标签密度进行关联,以得出一个合格的染色体剂量,该剂量被计算为针对感兴趣的染色体(例如染色体21)的序列标签密度与针对剩余的染色体(即染色体1-20、22以及X)的序列标签密度的比率。表1提供了针对感兴趣的染色体13、18、21、X、和Y计算出的合格的染色体剂量的一个实例,该剂量是在其中一个合格样品中测定的。对于所有样品中的所有染色体测定了染色体剂量,并且在表2和表3中提供了对于合格样品中的感兴趣的染色体13、18、21、X、和Y的平均剂量,并且描绘在图2-6中。图2至6还描绘了测试样品的染色体剂量。合格样品中每个感兴趣的染色体的染色体剂量提供了对于每个感兴趣的染色体而言(相对于每个剩余的染色体)映射的序列标签的总数变化的一种量度。因此,合格的染色体剂量可以识别出以下染色体或一组染色体,即,在样品间的变异性与感兴趣的染色体的变异性最接近的归一化染色体,并且该归一化染色体将作为对进一步的统计评估的值进行归一化的理想序列。图7和8描绘了对于染色体13、18、以及21,以及染色体X和Y在一个合格的样品群中测定的、计算出的平均染色体剂量。

在一些情况下,这种最好的归一化染色体也许不具有最小的变异性,但是可能具有合格剂量的一种分布,这种分布最好地将一个或多个测试样品与这些合格样品相区分,即:最好的归一化染色体也许并不具有最低的变异性,但是可能具有最大的可分辨性。因此,可分辨性将染色体剂量的变化以及在合格样品中的剂量的分布考虑在内。

表2和表3提供了变异系数作为变异性的量度,并且提供了t检验值作为染色体18、21、X和Y的可分辨性的量度,其中t检验值越小,则可分辨性就越大。针对染色体13的可分辨性是作为在这些合格样品中平均染色体剂量与在仅有T13的测试样品中的染色体13的剂量之间的差值与合格剂量的平均值的标准偏差的比率来确定的。

当如以下所说明在测试样品中识别非整倍性时,这些合格的染色体剂量还作为用于确定阈值的基础。

表1

针对染色体13、18、21、X和Y的合格的染色体剂量(n=1;样品号#11342,46XY)

染色体chr 21chr 18chr 13chr XchrYchr10.1499010.3067980.3418320.4909690.003958chr20.154130.3154520.3514750.5048190.004069chr30.1933310.3956850.440870.6332140.005104chr40.2330560.4769880.5314570.7633240.006153chr50.2192090.4486490.4998820.7179730.005787chr60.2285480.4677630.5211790.7485610.006034chr70.2451240.5016880.5589780.8028510.006472chr80.2562790.5245190.5844160.8393880.006766chr90.3098710.6342030.7066251.0149150.008181chr100.251220.5141640.5728790.8228170.006633chr110.2571680.5263380.5864430.84230.00679chr120.2751920.5632270.6275440.9013320.007265chr130.4385220.89750911.4362850.011578chr140.4059570.8308580.9257381.3296240.010718chr150.4068550.8326970.9277861.3325660.010742chr160.3761480.7698490.8577621.2319910.009931chr170.3830270.7839280.8734481.2545210.010112

chr180.48859911.1141941.6003010.0129chr190.5358671.0967421.2219841.7551180.014148chr200.4673080.9564241.0656421.5305660.012338chr2112.0466682.2803863.2752850.026401chr220.7562631.5478191.7245722.4769770.019966chrX0.3053170.6248820.69624110.008061chrY37.8767577.5211486.37362124.05721

表2

针对染色体21、18和13的合格的染色体剂量、变化和可分辨性

表3

针对染色体13、X和Y的合格的染色体剂量、变化和可分辨性

在实例3中说明了使用针对每个感兴趣的染色体的归一化染色体、染色体剂量以及可分辨性获得的对于T21、T13、T18以及一个特纳综合征病例的诊断实例。

实例3

使用归一化染色体诊断的胎儿非整倍性

为了实施使用染色体剂量来评估生物测试样品中的非整倍性,从怀孕的志愿者们获得了母体血液测试样品并且制备了cfDNA,并且如实例1和2所说明进行了测序和分析。

三体性21

表4提供了在一个示例性的测试样品(#11403)中针对染色体21计算出的剂量。对于T21的阳性诊断计算出的阈值被设定在距这些合格(正常)样品的平均值>2的标准偏差处。T21的诊断是基于测试样品中的染色体剂量要大于所设定的阈值而给出的。在分开的计算中使用了染色体14和15作为归一化染色体,以表明或者具有最低的变异性(例如染色体14)的染色体或者具有最大的可分辨性(例如染色体15)的染色体可以用来识别非整倍性。使用计算出的染色体剂量识别出了十三个T21样品,并且通过核型证实这些非整倍性样品是T21。

表4

针对T21非整倍性的染色体剂量(样品#11403,47XY+21)

三体性18

表5提供了在一个测试样品(#11390)中针对染色体18计算出的剂量。针对这个T18的阳性诊断计算出的阈值被设定在距这些合格(正常)样品的平均值>2的标准偏差处。T18的诊断是基于测试样品中的染色体剂量大于设定的阈值而给出的。使用染色体8作为归一化染色体。在这一实例中,染色体8具有最低的变异性和最大的可分辨性。使用染色体剂量识别出了十八个T18样品,并且通过核型证实为是T18。

这些数据表明,一个归一化染色体可以既具有最低的变异性也具有最大的可分辨性。

表5

针对T18非整倍性的染色体剂量(样品#11390,47XY+18)

三体性13

表6提供了在一个测试样品(#51236)中对于染色体13计算出的剂量。对于T13的阳性诊断计算出的阈值被设定在距这些合格的样品的平均值2个标准偏差处。T13的诊断是基于测试样品中的染色体剂量大于设定的阈值而给出的。使用染色体5或3、4、5和6的染色体组作为归一化染色体对于染色体13计算了染色体剂量。识别出了一个T13样品。

表6

针对T13非整倍性的染色体剂量(样品#51236,47XY+13)

针对染色体3至6的序列标签密度是针对染色体3至6的平均标签计数。

该数据表明,染色体3、4、5和6的组合提供了低于染色体5的变异性,以及大于其他染色体中任何一个的最大的可分辨性。

因此,可以使用一组染色体作为归一化染色体来确定染色体剂量并且识别非整倍性。

特纳综合征(单体性X)

表7提供了在一个测试样品(#51238)中针对染色体X和Y计算出的剂量。对于特纳综合征(单体性X)的阳性诊断计算出的阈值被设定为针对X染色体是在距离合格的(正常的)样品的平均值<-2个标准偏差处,并且针于不存在Y染色体是在距离合格的(正常的)样品平均值<-2个标准离均差处。

表7

针对特纳(XO)非整倍性(样品#51238,45X)的染色体剂量

具有的X染色体剂量小于设定阈值的样品被识别为具有少于一个X染色体。同一个样品被确定为具有小于设定阈值的Y染色体剂量,从而表明该样品不具有Y染色体。因此,使用X和Y染色体剂量的组合来识别特纳综合征(单体性X)样品。

因此,所提供的方法使得能够确定染色体的CNV。具体而言,该方法通过对母体血浆cfDNA进行大规模平行测序以及对归一化染色体进行识别用于对测序数据进行统计分析使得能够确定过度代表和代表不足的染色体非整倍性。该方法的灵敏度和可靠性允许进行精确第一个和第二个三月期的非整倍性测定。

实例4

部分非整倍性的确定

序列剂量的用途被应用于评估cfDNA生物学测试样品的部分非整倍性,这个样品是从血浆制备的并且如实例1中的说明进行了测序。通过核型分析证实该样品是从具有染色体11部分缺失的一位受试者得到的。

对于部分非整倍性(染色体11,即q21-q23的部分缺失)的测序数据的分析是按照对于之前的实例中的染色体性非整倍性的说明进行的。在一个测试样品中序列标签到染色体11的映射揭示了相对于针对在这些合格样品中的染色体11的相应序列获得的标签计数而言在染色体的长臂中碱基对81000082-103000103之间的标签计数的一个令人注目的丢失(数据未示出)。使用了在每个合格样品中映射到染色体11的感兴趣的序列的序列标签(810000082-103000103bp)、以及在合格样品的整个基因组中映射到所有20兆碱基区段的序列标签(即合格的序列标签密度)来确定合格的序列剂量作为在所有合格样品中的标签密度的比率。对于整个基因组中的所有20个兆碱基区段计算了平均序列剂量、标准偏差、以及变异系数,并且具有最小变异性的20-兆碱基序列被识别为在染色体5上的归一化序列(13000014-33000033bp)(参见表8),该归一化序列被用来计算针对测试样品中感兴趣的序列的剂量(参见表9)。表8提供了在测试样品中染色体11上的感兴趣的序列(810000082-103000103bp)的序列剂量,该序列剂量被计算为映射到感兴趣的序列上的序列标签与映射到识别出的归一化序列上的序列标签的比率。图10示出了在7个合格样品(○)中对于感兴趣的序列的序列剂量以及在该测试样品(◇)中针对相应的序列的序列剂量。由实线示出平均值,并且由虚线示出对于部分非整倍性的阳性诊断计算出的阈值,它被设定在距平均值5个标准偏差处。部分非整倍性的诊断是基于测试样品中的序列剂量小于这个设定的阈值而给出的。通过核型分析证实该测试样品在染色体11上具有缺失q21-q23。

因此,除了识别染色体性非整倍性之外,本发明的方法可以被用来识别部分非整倍性。

表8

针对序列Chr11:81000082-103000103的合格的归一化序列、剂量以及变化(合格样品n=7)

表9

针对在染色体11上感兴趣的序列(81000082-103000103)的序列剂量(测试样品11206)

实例5

非整倍性检测的展示

对于在实例2和3中说明并且在图2至6中示出的样品所获得的序列数据进行进一步的分析,以展示该方法在成功识别母体样品中的非整倍性方面的灵敏度。针对染色体21、18、13、X和Y的归一化的染色体剂量作为相对于标准离均差的分布(Y轴)进行分析,并且在图11中示出。所使用的归一化染色体作为分母示出(X轴)。

图11(A)示出了当对于染色体21使用染色体14作为归一化染色体时,对于在未受影响的样品(o)和三体性21样品(T21;△)中的染色体21剂量而言染色体剂量相对于距离平均值的标准偏差的分布。图11(B)示出了当针对染色体18使用染色体8作为归一化染色体时,对于在未受影响的样品(o)和三体性18样品(T18;△)中的染色体18剂量而言染色体剂量相对于距离平均值的标准偏差的分布。图11(C)示出了对于在未受影响的样品(o)和三体性18样品(T13;△)中的染色体13剂量而言染色体剂量相对于距离平均值的标准偏差的分布,使用的是3、4、5和6的一个染色体组的平均序列标签密度作为归一化染色体以确定染色体13的染色体剂量。图11(D)示出了当对于染色体X使用染色体4作为归一化染色体时,对于在未受影响的女性样品(o)、未受影响的男性样品(△)、以及单体性X样品(XO;+)中的染色体X剂量而言染色体剂量相对于距离平均值的标准偏差的分布。图11(E)示出了当使用1至22以及X的一个染色体组的平均序列标签密度作为归一化染色体以确定染色体Y的染色体剂量时,对于在未受影响的男性样品(o)、未受影响的女性样品(△)、以及单体性X样品(+)中的染色体Y剂量相对于距离平均值的标准偏差的分布。

该数据表明,三体性21、三体性18、三体性13与未受影响的(正常的)样品是可清楚区分开的。当具有的染色体X剂量明显低于未受影响的女性样品(图11(D))的剂量时,并且具有的染色体Y剂量明显低于未受影响的男性样品(图11(E))的剂量时,单体性X样品可容易识别出。

因此,所提供的方法是灵敏的并且对于确定一个母体血液样品中存在或不存在染色体性非整倍性是特异性的。

实例6

对来自母体血液的无细胞胎儿DNA使用大规模平行DNA测序来确定胎儿染色体非整倍性:独立于训练组1的测试组1

本研究是由合格的定点临床研究人员在13个美国临床地区于2009年4月和2010年10月之间根据由每个机构的伦理审查委员会(IRB)获准的一项人类受试者科学试验计划进行的。在参与研究之前从每位受试者获得了书面同意书。该科学试验计划被设计为提供血液样品以及临床数据来支持无创性产前遗传学诊断方法的发展。18岁或年龄更大的妊娠妇女有资格参与。对于经历临床指征的绒膜绒毛取样(CVS)或羊膜刺穿的患者在进行该程序之前收集血液,并且同样收集胎儿核型的结果。从所有受试者抽取外周血样品(两管或总共约20mL)置于酸性枸橼酸盐葡萄糖(ACD)管中(Becton Dickinson)。将所有样品都去除身份并且指定一个匿名的患者ID号。将血液样品在对于研究所提供的温控型运送容器中连夜运送至实验室。抽血和受到样品之间所花费的时间被记录为样品即位的一部分。

定点研究协调人员使用匿名的患者ID号将与患者当前的妊娠情况以及历史相关的临床数据录入研究病例报告表(CRF)中。在每个实验室对来自无创性产前程序的样品进行胎儿核型的细胞遗传分析并且将结果同样记录在研究CRF中。在CRF上获得的所有数据都录入实验室的临床数据库中。在24至48小时的静脉穿刺取样后利用两步离心法从单独的血液管获得无细胞的血浆。来自单一血液管的血浆足够进行测序分析。通过使用QIAamp DNABlood Mini kit(Qiagen)根据制造商的说明将无细胞DNA从无细胞血浆中提取出来。由于已知这些无细胞的DNA片段在长度上约为170个碱基对(bp)(Fan et al.,Clin Chem 56:1279-1286[2010]),在测序之前无需使将DNA碎裂。

对于这个训练组的样品,将cfDNA送至Prognosys Biosciences,Inc.(La Jolla,CA)用于测序文库制备(钝端化并且连接到普通适配子上的cfDNA)并且使用标准制造商科学试验计划用Illumina Genome Analyzer IIx仪器(http://www.illumina.com/)进行测序。获得了36个碱基对的单端读数。在完成测序之后,收集所有碱基判定文件并且进行分析。对于测试组样品,制备测序文库并且在Illumina Genome Analyzer IIx仪器上进行测序。测序文库的制备如下进行。所说明的全长科学试验计划主要是Illumina提供的标准科学试验计划,并且仅在扩增的文库的纯化上与Illumina科学试验计划不同。Illumina科学试验计划指示:扩增的文库使用凝胶电泳法进行纯化,而在此说明的科学试验计划使用磁珠进行相同的纯化步骤。使用从母体血浆提取的约2ng纯化的cfDNA来制备一个初级测序文库,这主要使用的NEBNextTM DNA Sample Prep DNAReagent Set 1(物品编号:E6000L;New England Biolabs,Ipswich,MA)根据制造商的说明来进行。除了使用Agencourt磁珠和试剂来代替纯化柱对适配子连接的产物进行最终纯化之外,所有步骤都是根据科学试验计划伴随用于基因组DNA文库的样品制备的NEBNextTM试剂(已使用GAII测序)来进行的。NEBNextTM规约本质上遵循了Illumina所提供的规约,这在grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf处可获得。

将在40μl中包含的大约2ng纯化的cfDNA片段的突出端通过在200μl微量离心管中将40μl cfDNA用在NEBNextTM DNA Sample Prep DNA Reagent Set 1中提供的5μl 10X的磷酸化作用的缓冲液、2μl脱氧核苷酸溶液混合物(每份dNTP有10mM)、1μl的1∶5的DNA聚合酶I的稀释液、1μl T4DNA聚合酶以及1μl T4多核苷酸激酶在20℃下孵育30分钟,根据末端修复模块而转化成磷酸化的钝端。将该样品冷却到4℃,并且使用一个在QIAQuick PCRPurification Kit(QIAGEN Inc.,Valencia,CA)中提供的QIA快速柱进行纯化。将50μl反应液转移到1.5ml离心管中,并且加入250μl的Qiagen Buffer PB。将得到的300μl转移到一个QIA快速柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在39μl的QiagenBuffer EB中通过离心来洗脱。使用16μl的含有克列诺片段(3’至5’exo minus)(NEBNextTM DNA Sample Prep DNA Reagent Set 1)的dA-尾预混合液完成34μl钝端的DNA的dA尾,并且根据制造商的dA-Tailing Module在37℃下孵育30分钟。将该样品冷却到4℃,并且使用在MinElute PCR Purification Kit(QIAGEN Inc.,Valencia,CA)中提供的一个柱进行纯化。将50μl反应液转移到1.5ml离心管中,并且加入250μl的Qiagen Buffer PB。将300μl转移到一个MinElute柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在15μl的Qiagen Buffer EB中通过离心来洗脱。根据Quick Ligation Module,将十微升的DNA洗脱液用1μl的1∶5的Illumina Genomic Adapter Oligo Mix(物品编号:1000521)稀释液、15μl的2X Quick Ligation Reaction Buffer、以及4μl快速T4DNA连接酶在25℃下孵育15分钟。将样品冷却到4℃,并且使用一个如下的MinElute柱。将一百五十微升Qiagen Buffer PE加入30μl反应液中,并且将全部体积转移到一个MinElute柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。通过在13,000RPM下再离心5分钟来去除残余的乙醇。将DNA在28μl的Qiagen Buffer EB中通过离心来洗脱。使用Illumina基因组PCR引物(物品编号:100537和1000538)以及在NEBNextTM DNA Sample Prep DNA Reagent Set 1中提供的Phusion HF PCR预混液(根据制造商的说明),使二十三微升的适配子连接的DNA洗脱液经受18次PCR循环(98℃下30秒;98℃下18次循环持续10秒,65℃下30秒,并且72℃下30秒;最终伸展在72℃下5分钟,并且保持在4℃下)。使用Agencourt AMPure XP PCR纯化系统(Agencourt Bioscience Corporation,Beverly,MA)根据制造商的说明(在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处可获得)将扩增的产物进行纯化。Agencourt AMPure XP PCR纯化系统去除了未接合的dNTP、引物、引物二聚体、盐类以及其他污染物,并且回收了大于100bp的扩增子。将纯化后的扩增产品在40μl的Qiagen EB缓冲液从Agencourt珠中洗脱,并且使用2100Bioanalyzer(Agilent technologies Inc.,Santa Clara,CA)的Agilent DNA 1000Kit对析这些文库的尺寸分布。对于训练以及测试样品组二者,对36个碱基对的单端读数进行测序。

数据分析和样品分类

将长度为36个碱基的序列读数与从UCSC数据库获得的人类基因组组件hg18进行比对(http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/)。使用在比对过程中允许最多两个碱基错配的Bowtie短基因片段比对器(版本0.12.5)(Langmead et al.,Genome Biol 10:R25[2009])来进行比对。只有清楚映射到一个单一基因组位置上的读数才被包括在内。对读数所映射的基因组位点进行了计数并且包括在染色体剂量的计算中(参见以下内容)。在Y染色体上来自男性和女性胎儿的序列标签无任何区分地映射之处的区域被排除在分析以外(确切地说,从碱基0至碱基2x106、碱基10x106至碱基13x106;以及碱基23x106至Y染色体的末尾。)

在序列读数的染色体分布中同批和批次间的测序变化可以使胎儿非整倍性对所映射的序列位点的分布不明显。为了对这种变化进行校正,计算出了一个染色体剂量,因为对于给出的感兴趣的染色体的映射位点的计数被归一化为对于预设定的归一化染色体序列所观察到的计数。如之前说明的,一个归一化的染色体序列可以由一个单染色体或由一组染色体组成。在未受影响的(即合格的)样品的训练组内的一个样品子集中,归一化的染色体序列首先被识别为具有感兴趣的染色体21、18、13和X的二倍体核型,考虑将每个常染色体在具有我们感兴趣的染色体的计数的比率中作为潜在的分母。分母染色体(即归一化的染色体序列)被选择为使得测序批次之间的染色体剂量的变化最小。每个感兴趣的染色体被确定为具有一个显著的归一化染色体序列(分母)(表10)。没有单个染色体可以被识别为针对染色体13的一个归一化染色体序列,因为没有一个染色体被确定为减少了样品中染色体13的剂量的变化,即,染色体13的NCV值的散布没有被减小至足以允许对T13非整倍性进行正确识别。染色体2至6被随机选择并且作为一个组测试了它们模仿染色体13的行为的能力。染色体2至6的组被发现实质性地减小了训练组样品中针对染色体13的剂量上的变化,并且因此被选择作为染色体13的归一化染色体序列。如上所述,针对染色体Y的染色体剂量的变化是大于30,与其独立地,单染色体在确定染色体Y的剂量时被用作归一化染色体序列。染色体2至6的组被发现实质性地减小了训练组样品中针对染色体Y的剂量上的变化,并且因此被选择作为染色体Y的归一化染色体序列。

在合格样品中针对每个感兴趣的染色体的染色体剂量提供了对于每个感兴趣的染色体而言映射的序列标签的总数目相对于每个剩余染色体的映射的序列标签的总数目的变化的一种量度。因此,合格的染色体剂量可以识别该染色体或一组染色体,即在样品中具有最接近于感兴趣的染色体的变异性的一个变异性、并且将作为用于进一步统计评估的归一化值的理想序列的归一化染色体序列。

在训练组(即合格并且受影响的)中针对所有样品的染色体剂量还如以下所说明作为在识别的测试样品中的非整倍性时用于确定阈值的基础。

表10

用于确定染色体剂量的归一化染色体序列

对于在测试组的每个样品中每个感兴趣的染色体,确定了一个归一化的值并且被用来确定存在或不存在非整倍性。该归一化值是作为一个染色体剂量来进行计算的,该染色体剂量可以被进一步计算以提供一个归一化的染色体值(NCV)。

染色体剂量

对于测试组,对于每个样品的每个感兴趣的染色体21、18、13、X和Y计算了一个染色体剂量。如在以上表10中提供的,染色体21的染色体剂量是作为映射到测试样品中的染色体21的测试样品中的标签数目与映射到测试样品中的染色体9的测试样品中的标签数目的比率来计算的;染色体18的染色体剂量是作为映射到测试样品中的染色体18的测试样品中的标签数目与映射到测试样品中的染色体8的测试样品中的标签数目的比率来计算的;染色体13的染色体剂量是作为映射到测试样品中的染色体13的测试样品中的标签数目与映射到测试样品中的染色体2至6的测试样品中的标签数目的比率来计算的;染色体X的染色体剂量是作为映射到测试样品中的染色体X的测试样品中的标签数目与映射到测试样品中的染色体6的测试样品中的标签数目的比率来计算的;染色体Y的染色体剂量是作为映射到测试样品中的染色体Y的测试样品中的标签数目与映射到测试样品中的染色体2至6的测试样品中的标签数目的比率来计算的。

归一化的染色体值

使用每个测试样品中针对每个感兴趣的染色体的染色体剂量以及在训练组的合格样品中确定的相应的染色体剂量,使用以下方程计算归一化的染色体值(NCV):

>NCVij=χij-μ^jσ^j>

其中对应地是对于第j个染色体剂量的估算训练组平均值以及标准偏差,并且xij是对于测试样品i所观察到的第j个染色体剂量。当将染色体剂量进行归一化分布时,NCV对于这些剂量而言相当于一个统计z分数。在来自未受影响的样品的NCV的分位数-分位数绘图中没有观察到与线性度的显著偏离。此外,对于NCV的归一程度的标准测试未能否决正态性的零假设。

对于测试组,对于每个样品的每个感兴趣的染色体21、18、13、X和Y计算了一个NCV。为了确保一个安全且有效的分类方案,对于非整倍性分类选择了保守的边界。为了对常染色体的非整倍性状态进行分类,需要NCV>4.0来将染色体归类为受影响的(即,对于该染色体为非整倍性);以及NCV<2.5来将染色体归类为未受影响的。常染色体具有2.5和4.0之间的NCV的样品被归类为“未判定的”。

在测试中,性染色体的分类是通过对于X和Y都按如下内容相继应用NCV来进行的:

1.如果NCV Y距男性样品的平均值>-2.0标准偏差,则该样品被归类为男性(XY)。

2.如果NCV Y距男性样品的平均值<-2.0标准偏差,并且NCV X距离女性样品的平均值>-2.0标准偏差,则该样品被归类为女性(XX)。

3.如果NCV Y距男性样品的平均值<-2.0标准偏差,并且NCV X距离女性样品的平均值<-3.0标准偏差,则该样品被归类为单体性X,即特纳综合征。

4.如果NCV不符合任何以上标准,则该样品被归类为对于性别是“未判定的”。

结果

研究人口统计学

在2009年4月和2010年7月之间共登记了1,014名患者。患者的人口统计、侵入性程序类型以及核型结果总结在表11中。研究参与者的平均年龄为35.6岁(范围在17至47岁)并且孕龄范围是6周1天至38周1天(平均为15周4天)。异常胎儿染色体核型的总体发病率是6.8%,其中T21发病率为2.5%。在具有单胎妊娠以及核型的946名受试者中,906名(96%)呈现出对于产前过程的胎儿非整倍性而言至少一种临床公认的风险因素。即使除去那些仅具有高的怀孕年龄作为其唯一指征的受试者,数据仍展示了对于当前的筛查模态一个非常高的假阳性率。用超声进行的超声检查结果为:增加的颈半透明度、水囊状淋巴管瘤、或其他结构上的先天性异常,这些是这一年龄组中预见性最强的异常核型。

表11

患者人口统计

*包括多胎妊娠的胎儿的结果,**由临床医师评估和报告

缩写:AMA=孕妇高龄,NT=颈半透明度

在本研究人群中展示的多样的种族背景的分布也在表11中示出。总体上,在本研究中63%的患者是高加索人,17%是西班牙人,6%是亚洲人,5%是多民族的,并且4%是非裔美国人。注意到,种族的差异在不同的地点变化显著。例如,一个地点登记了60%的西班牙和26%的高加索受试者,而位于相同州的三个临床点没有登记西班牙受试者。如所预期的,在我们的不同种族的结果中没有观察到可辨别的不同之处。

训练数据组1

该训练组研究从2009年4月至2009年12月之间收集的、初期相继积累的435个样品中挑选了71个样品。在该第一系列的受试者中具有受影响的胎儿(异常核型)的所有受试者都包括在内用于测序,以及具有适当的样品和数据的一个随机挑选和随机数目的未受影响的受试者。训练组患者的临床特征与表11中示出的总体研究的人口统计一致。训练组内的样品的孕龄范围是从10周0天至23周1天的范围。三十八人经历了CVS,32人经历了羊膜穿刺并且1位患者不具有指定的侵入性程序的类型(未受影响的核型46,XY)。70%的患者是高加索人,8.5%是西班牙人,8.5%是亚洲人,并且8.5%是多民族的。为了训练的目的,从这个组内去除了六个已测序的样品。4个样品来自双胎妊娠的受试者(以下详细讨论),1个样品具有T18,该样品在制备过程中被污染,并且1个样品具有胎儿核型69,XXX,剩下65个样品为该训练组。

单一序列位点的数目(即,在基因组中用独特的位点识别的标签)从该训练组研究的早期阶段的2.2M到后期阶段的13.7M(由于随时间推移而在测序技术上的改进)而变化。为了监测在独特的位点中染色体剂量超过这个6倍范围的任何潜在的改变,在研究的开始和结束时运行了不同的、未受影响的样品。对于前15个未受影响的样品的轮次,独特位点的平均数目是3.8M并且对于染色体21和染色体18的平均染色体剂量分别是0.314和0.528。对于后15个未受影响的样品的轮次,独特位点的平均数目是10.7M并且对于染色体21和染色体18的平均染色体剂量分别是0.316和0.529。在染色体21和染色体18的染色体剂量之间随着训练组研究的时间推移,没有统计性差异。

在图12上示出对于染色体21、18和13的训练组NCV。在图12中示出的结果与一种归一化程度的假设一致,该假设是:大约99%的二倍体NCV将落入平均值的±2.5标准偏差。在这一组内的65个样品中,8个具有指示T21的临床核型的样品具有的NCV范围是从6至20。四个具有的临床核型指示出胎儿T18的样品具有的NCV范围是从3.3至12,并且两个具有的临床核型指示出胎儿三体性13(T13)的样品具有的NCV为2.6和4。在受影响的样品中NCV的散布是由于它们对单个样品中的胎儿cfDNA的百分比的依赖性。

与常染色体类似,在训练组内确定了性染色体的平均值和标准偏差。性染色体的阈值允许100%地鉴别训练组内的男性和女性胎儿。

测试数据组1

在确立了染色体剂量平均值以及与训练组的标准离均差之后,从在2010年1月至2010年6月之间从总共575个样品中收集的样品中选择了48个样品的一个测试组。其中一个来自双胎妊娠的样品从最终分析中去除,这样在测试组内剩下47个样品。使制备用于测序的样品以及操作设备的人员对临床核型信息为盲。孕龄范围与在训练组中所看到的类似(表11)。侵入性程序的58%是CVS,比总体的程序性人口统计的更高,但也与训练组类似。50%的受试者是高加索人,27%是西班牙人,10.4%是亚洲人并且6.3%是非裔美国人。

在测试组内,独特的序列标签的数目从大约13M至26M而不同。对于未受影响的样品,对于染色体21和染色体18,染色体剂量分别为0.313和0.527。对于染色体21、染色体18和染色体13,测试组NCV在图13中示出并且分类在表12中给出。

表12

测试组分类数据测试组分类数据

*MX是X染色体的单体性,而Y染色体没有迹象

在测试组内,具有指示为胎儿T21的核型的13/13名受试者被正确地识别为具有范围从5至14的NCV。具有指示为胎儿T18的核型的八/八名受试者被正确地识别为具有范围从8.5至22的NCV。在本测试组内,具有归类为T13的单一样品被归类为其中NCV大约为3的未判定。

对于测试数据组,所有男性样品被正确地识别,包括具有复杂核型46,XY+标记染色体(通过细胞遗传学不能识别)的样品(表3).二十名女性样品中有十九名被正确识别,并且一个女性样品被归类为未判定。对于测试组内核型为45,X的三个样品,三个中有两个被正确识别为单体性X,并且1个被归类为未判定的(表12)。

双胎

对于训练组最初选择的样品中有四个并且测试组内有一个是来自双胎妊娠。在此使用的阈值可能受到在双胎妊娠的环境中预期的cfDNA的不同量值的困扰。在训练组内,来自其中一个双胎样品的核型是单绒膜47,XY+21。一个第二双胎样品是异卵的并且对每个胎儿单独进行了羊膜穿刺术。在这个双胎妊娠中,其中一个胎儿具有47,XY+21的核型而另一个具有一个正常的核型46,XX。在这两个病例中,基于以上讨论的方法的无细胞的归类将样品归类为T21。在训练组内的其他两个双胎妊娠被正确归类为对于T21未受影响的(所有双胎都显示对于染色体21的二倍体核型)。对于测试组内的双胎妊娠,仅对双胎B确立了核型(46,XX),并且该算法被正确归类为对于T21是未受影响的。

结论

该数据表明大规模平行测序法可以被用来从孕妇的血液中确定多个异常的胎儿核型。这些数据表明,对具有三体性21和三体性18的样品的100%正确的归类可以使用独立的测试组数据进行识别。即使是在具有异常的性染色体核型的胎儿的情况下,利用该方法的算法没有样品被错误地归类。重要的是,该算法同样在确定在两个双胎妊娠的组内存在或不存在T21方面同样表现良好。此外,本研究检查了来自多个中心的许多连续的样品,不仅代表了人们在商业临床环境中可能见到的异常核型的范围,还展示了将未受普通三体性影响的妊娠准确归类的重要性,以强调在当今的产前筛查中存在的高到不可接受的假阳性率。该数据对于在未来利用该方法的巨大潜力提供了有价值的见解。独特的基因位点的子集的分析表明了在方差一致的泊松计数统计值上的增加。

该数据在Fan和Quake的发现的基础上建立,Fan和Quake证实了:使用大规模平行测序从母体血浆无创地确定胎儿非整倍性的灵敏度仅受计数统计的限制(Fan和Quake,PLos One 5,e10439[2010])。因为测序信息是遍及整个基因组采集的,所以这种方法能够确定任何非整倍性或其他拷贝数变异,包括插入和缺失。来自其中一个样品的核型在染色体11中在q21和q23之间具有一个小的缺失,当将测序数据在500k碱基数据箱内进行分析时,观察到在q21处起始的一个25Mb的区域内标签相对数目约10%的减少。此外,在训练组内,样品中有三个由于细胞遗传分析中的嵌合现象而具有复杂的性核型。这些核型是:i)47,XXX[9]/45,X[6],ii)45,X[3]/46,XY[17],以及iii)47,XXX[13]/45,X[7]。展现出一些含有XY的细胞的样品ii被正确归类为XY。通过细胞遗传分析(与嵌合体特纳综合征一致)均展示出XXX和X细胞的混合物的样品i(来自CVS过程)和iii(来自羊膜穿刺)分别被归类为未判定的和单体性X。

在测试该算法时,对于来自测试组的一个样品(图13)的染色体21,另一个有趣的数据点被观察到具有-5和-6之间的一个NCV。尽管该样品通过细胞遗传学在染色体21上为二倍体,该核型对于染色体9展示了与部分三倍性的嵌合现象:47,XX+9[9]/46,XX[6]。由于染色体9被用在分母中来确定染色体21的染色体剂量(表10),这降低了总的NCV值。在以下实例7中提供的结果证实了使用归一化染色体在本样品中确定胎儿三体性9的能力。

Fan等人有关这些方法的灵敏度的结论仅在所使用的算法能够将测序方法所带来的任何随机或系统性偏差考虑在内时才是正确的。如果该测序数据未被适当地归一化,则所得的分析结果将劣于计数统计。Chiu(赵)等人在他们近期的论文中注意到,他们使用大规模平行测序方法得到的染色体18和13的测量结果是不精确的,并且结论是需要进行更多的研究来将该方法应用至T18和T13的确定(Chiu等人,BMJ 342:c7401[2011])。在Chiu等人的论文中使用的方法在他们的病例染色体21中简单使用了感兴趣的染色体的序列标签的数目,该数目通过在该测序轮次中的标签的总数目进行了归一化。这种途径的挑战之处在于:标签在每个染色体上的分布可以从测序轮次到测序轮次而不同,并且因此增加了非整倍性测定量度的总体变化。为了将Chiu算法的结果与在本实例中使用的染色体的剂量进行对比,将染色体21和18的测试数据使用Chiu等人推荐的方法进行再分析,如图14中所示。总体上,对于染色体21和18的每一个都观察到了在NCV的范围内的压缩,并且观察到了确定率的减小,其中利用了用于非整倍性分类的NCV阈值4.0从我们的测试组中正确识别出10/13的T21和5/8的T18样品。

Ehrich等人同样只聚焦于T21并且使用了与Chiu等人相同的算法(Ehrich etal.,Am J Obstet Gynecol 204:205e1-e11[2011])。此外,在观察到他们的测试组z分数量度与外部参考数据(即训练组)的一个偏移之后,他们对测试组进行了再训练以确立分类边界。尽管这种方法在原则上是可行的,在实际中将具有挑战性的是决定需要多少样品进行训练以及需要多久一次进行再训练来确保这些分类数据的正确。减轻这一问题的一种方法是在每个测序轮次中都包括对照,这些对照度量基线并且对于定量行为进行校准。

使用本方法获得的数据表明,当用于将染色体计数数据进行归一化的算法被优化时,大规模平行测序能够从孕妇的血浆确定多种胎儿染色体异常。本方法用于定量不仅将测序轮次之间的随机和系统变化减至最小,还允许遍及整个基因组对非整倍性进行分类,最显著的是T21和T18。需要较大的样品收集来测试用于确定T13的算法。为此目的,正在进行一个有希望的、盲的、多地点的临床研究以进一步证明本方法的诊断准确性。

实例7

在单个测试样品的所有染色体中确定存在或不存在至少5种不同的染色体性非整倍性

为了证明本方法用于确定每一组母体测试样品(测试组1;实例6)中存在或不存在任何染色体性非整倍性的能力,在未受影响的测试组样品(训练组1;实例6)中识别了系统地确定的归一化染色体序列,并且这些归一化染色体序列被用来计算针对每个测试样品的所有染色体的染色体剂量。确定每个测试和训练组样品中存在或不存在任何一种或多种不同的完整的胎儿染色体非整倍性是由从对每个单个样品进行的单次测序轮次获得的测序信息实现的。

使用染色体密度,即对于在实例6中说明的每个测试组的样品中的每个染色体识别的序列标签的数目,通过对于染色体1-22、X和Y中的每一个计算一个单染色体剂量而确定了由一个单染色体或一组染色体组成的、一个系统地确定的归一化染色体序列。通过使用每个可能的染色体组合作为分子而系统地计算针对每个染色体的染色体剂量,确定了对于染色体1-22、X和Y中的每一个的、系统地确定的归一化染色体序列。例如,对于染色体21作为感兴趣的染色体,作为(i)对于染色体21(感兴趣的染色体)获得的序列标签的数目和(ii)对于每个剩余染色体获得的序列标签的数目与对于剩余染色体(不包括染色体21)的所有可能的组合获得的标签数目之和的比率,计算了染色体剂量,即:1、2、3、4、5等等直到20、21、22、X和Y;1+2、1+3、1+4、1+5等等直到1+20、1+22、1+X、以及1+Y;1+2+3、1+2+4、1+2+5等等直到1+2+20、1+2+22、1+2+X、以及1+2+Y;1+3+4、1+3+5、1+3+6等等直到1+3+20、1+3+22、1+3+X、以及1+3+Y;1+2+3+4、1+2+3+5、1+2+3+6等等直到1+2+3+20、1+2+3+22、1+2+3+X、以及1+2+3+Y;并且如此等等,这样使得所有染色体1-20、22、X和Y的所有可能的组合都被用作归一化染色体序列(分子)来针对训练组内的这些合格(非整倍性)样品中的每一个的每个感兴趣的染色体来确定所有可能的染色体剂量。对于在所有训练组样品中的染色体21以同样的方式确定了染色体剂量,并且这些针对染色体21系统地确定的归一化染色体序列被确定作为导致在一个剂量中针对21具有遍及所有训练样品具有最小的变异性的单一的或一组染色体。重复进行了相同的分析以确定将作为针对每个剩余染色体(包括染色体13、18、X以及Y)的、进行了系统地确定的归一化染色体序列的单染色体或染色体组合,即,使用了所有可能的染色体组合来确定在所有训练样品中针对所有其他感兴趣的染色体1-12、14-17、19-20、22、X以及Y的归一化序列(单个染色体或一组染色体)。因此,所有染色体都被视作感兴趣的染色体,并且对于训练组内的每个未受影响的样品中所有染色体中的每一个都确定了一个系统地确定的归一化序列。表13提供了作为对于每个感兴趣的染色体1-22、X以及Y的系统地确定的归一化序列识别出的单个染色体或染色体组。如表13突出显示的,对于某些感兴趣的染色体,将系统地确定的归一化染色体序列确定为一个单染色体(例如,当染色体4是感兴趣的染色体时),并且对于其他感兴趣的染色体,系统地确定的归一化染色体序列确定为一个染色体的组(例如,当染色体21是感兴趣的染色体时)。

表13

针对所有染色体的系统地确定的归一化染色体序列

在表14中给出对于所有染色体中的每一个所确定的系统地确定的归一化染色体序列的平均值、标准偏差(SD)以及变异系数(CV)。

表14

对于系统地确定的归一化染色体序列的平均值、标准偏差(SD)以及变异系数(CV)

感兴趣的染色体平均值SDCV10.366370.002660.72%20.315800.000680.22%30.219830.000550.18%40.981910.025092.56%50.301090.000760.25%60.216210.000590.27%70.212140.000440.21%80.255620.000680.27%90.127260.000340.27%100.244710.000980.40%110.269070.000980.36%120.123580.000290.23%13a0.260230.001220.47%140.092860.000280.30%150.215680.001470.68%160.251810.001340.53%170.460000.002480.54%18a0.101000.000380.38%191.437090.028992.02%

200.199670.001230.62%21a0.078510.000530.67%220.696130.013912.00%Xb0.468650.002790.68%Yb0.000280.0000414.97%

a不包括三体性

b女性胎儿

遍及所有训练样品的染色体剂量的变化(如由CV的值所反映的)证实了系统地确定的归一化染色体序列用于提供一个大的信噪比和动态范围的用途,从而允许以高的敏感性和高的特异性对非整倍性进行确定,如以下内容所示。

为了证明该方法的敏感性和特异性,确定了针对所有感兴趣的染色体1-22、X和Y在训练组内的每个样品中对于所有感兴趣的染色体1-22、X和Y的染色体剂量,并且在实例5中说明的测试组内的所有样品的每一个都使用了在以上表13中提供的相应的、系统地确定的归一化染色体序列。

使用对于每个感兴趣的染色体的系统地确定的归一化染色体序列,确定了在每个训练组的样品中以及每个测试样品中存在或不存在任何胎儿非整倍性,即,确定了每个样品的染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X以及Y是否都含有一个完整的胎儿染色体非整倍性。对于在每个训练组的样品中以及每个测试样品中的所有染色体都获得了序列信息,即序列标签的数目,并且对于在每个训练和测试样品中的每个染色体都使用与在测试组内确定的那些相对应的、系统地确定的归一化染色体序列(表13)获得的序列标签的数目如以上所述计算了一个单染色体剂量。在每个训练样品中对于系统地确定的归一化染色体序列获得的序列标签的数目被用来确定每个训练样品中每个染色体的染色体剂量,并且在每个测试样品中对于系统地确定的归一化染色体序列获得的序列标签的数目被用来确定每个测试样品中每个染色体的染色体剂量。为了确保对非整倍性进行安全和有效的分类,如实例6中所说明,选择了同样保守的边界。

训练组的结果

在图15中给出使用系统地确定的归一化染色体序列在训练组的样品中针对染色体21、18和13的染色体剂量的绘图。当使用系统地确定的归一化染色体序列(即染色体4+14+16+20+22的组)时,其中临床核型指示T21的8个样品具有5.4与21.5之间的NCV。当使用系统地确定的归一化染色体序列(即染色体2+3+5+7的组)时,其中临床核型指示T18的4个样品具有3.3与15.3之间的NCV。当使用系统地确定的归一化染色体序列(即染色体4+5的组)时,其中临床核型指示T13的2个样品具有8.0与12.4之间的NCV。训练组的T21样品作为染色体21数据的最后8个样品示出(○);训练组的T18样品作为染色体18数据的最后4个样品示出(△);并且训练组的T13样品作为染色体13数据的最后2个样品示出(□)。

这些数据表明,能以高的置信度使用归一化染色体序列来确定不同的、完整的胎儿染色体非整倍性并且将其正确分类。由于所有具有受影响的核型的样品都具有大于3的NCV,存在小于约0.1%的可能性,即:这些样品为未受影响的分布中的一部分。

与常染色体类似,当系统地确定的归一化染色体序列(即染色体4+8的组)被用于染色体X时,并且当系统地确定的归一化染色体序列(即染色体4+6的组)被用于染色体Y时,训练组内的所有女性和男性胎儿都被正确地识别出来。此外,将所有5个单体性X样品都识别出来。图18A示出了对于训练组内的每个样品对于X染色体确定的NCV(X轴)以及对于Y染色体确定的NCV(Y轴)的绘图。通过核型为单体性X的所有样品具有小于-4.83的NCV值。具有与45,X核型(完全的或嵌合的)一致的核型的那些单体性X样品具有如所期望的一个接近零的Y NCV值。对于X和Y而言女性样品都聚集在NCV=0附近。

测试组结果

在图16中给出使用相关的系统地确定的归一化染色体序列在测试样品中针对染色体21、18和13的染色体剂量的绘图。当使用系统地确定的归一化染色体序列(即染色体4+14+16+20+22的组)时,其中临床核型指示T21的13个样品中有13个被正确识别出具有7.2与16.3之间的NCV。当使用系统地确定的归一化染色体序列(即染色体2+3+5+7的组)时,其中临床核型指示T18的所有8个样品都被识别出具有12.7与30.7之间的NCV。当使用系统地确定的归一化染色体序列(即染色体4+5的组)时,其中临床核型指示T13的只有一个样品被正确识别出具有8.6的NCV。测试组的T21样品作为染色体21数据的最后13个样品示出(○);测试组的T18样品作为染色体18数据的最后8个样品示出(△);并且测试组的T13样品作为染色体13数据的最后的样品示出(□)。

这些数据表明,能以高的置信度使用系统地确定的、归一化染色体序列来确定不同的完整的胎儿染色体非整倍性并且将其正确分类。与训练组类似,具有受影响的核型的所有样品都具有大于7的NCV,这表明有一个极小的可能性,即:这些样品是未受影响的分布的一部分。(图16)。

与常染色体类似,当系统地确定的归一化染色体序列(即染色体4+8的组)被用于染色体X时,并且当系统地确定的归一化染色体序列(即染色体4+6的组)被用于染色体Y时,测试组内的所有女性和男性胎儿都被正确地识别出来。此外,将所有3个单体性X样品都识别出来。图18B示出了对于测试组内的每个样品对于X染色体确定的NCV(X轴)以及对于Y染色体确定的NCV(Y轴)的绘图。

如以上说明的,本方法允许在每个样品中确定存在或不存在染色体1-22、X和Y中每一个的一种完整的、或部分的染色体性非整倍性。除了测定完整的染色体性非整倍性T13、T18、T21、以及单体性X,该方法测定了在其中一个测试样品中染色体9的三体性的存在。当使用系统测定的归一化染色体序列(即染色体3+4+8+10+17+19+20+22的组)时,对于感兴趣的染色体9,识别了一个具有14.4的NCV的样品(图17)。这一样品对应于实例6中的测试样品,该测试样品根据对于染色体21计算出的畸形的低剂量被怀疑对于染色体9是非整倍体(其中在实例6中使用了染色体9作为归一化染色体序列)。

该数据表明,100%的具有指示T21、T13、T18、T9以及单体性X的临床核型的样品被正确地识别出来。图19示出了在47个测试样品的每一个中对于染色体1-22的每一个的NCV的绘图。将NCV的中位数归一化至零。该数据表明,本发明的方法(包括使用系统地确定的归一化染色体序列)以100%的灵敏度和100%的特异性确定了这一测试组中存在的所有5种类型的染色体性非整倍性的存在,并且清楚地指出,该方法可以识别在任何样品中对于染色体1-22、X和Y任一者的任何染色体性非整倍性。

实例8

确定存在或不存在部分胎儿染色体非整倍性:确定猫眼综合征

迪格奥尔格综合征(22q11.2缺失综合征)(一种由在染色体22中的缺陷引起的病症)导致数个身体系统的不良发展。通常与迪格奥尔格综合征相关联的医疗问题包括心脏缺陷、不良免疫系统功能、腭裂、甲状旁腺以及行为失常。与迪格奥尔格综合征相关联的问题的数目和严重程度有非常大的不同。几乎每一个具有迪格奥尔格综合征的人都需要来自多个领域的专家的治疗。

为了确定存在或不存在胎儿染色体22的部分缺失,通过对母亲实施静脉穿刺而获得了一个血液样品,并且cfDNA是如以上实例中所描述而制备的。纯化后的cfDNA被连接到适配子上并且使用Illumina cBot聚簇站(cluster station)使其经受成簇扩增。使用可逆染料终止子进行大规模平行测序,以产生数百万的36bp读数。将这些序列读数与人类hg19参考基因组进行比对,并且将独特地映射到参考基因组上的读数作为标签来计数。<0}

将全部都已知为染色体22的二倍体(即染色体22或其任何部分已知仅以二倍体状态存在)的一个合格样品的组首先进行测序并且进行分析以对于3兆碱基(Mb)的1000个区段的每一个(不包括区域22q11.2)都获得多个序列标签。如果人类基因组包括大约30亿个碱基(3Gb),3Mb的1000个区段各自大约组成了基因组的剩余部分。这1000个区段中每个都可以单独或作为一个区段序列的组服务,这些区段序列被用来确定感兴趣的区段的归一化区段序列,即22q11.2的3Mb区域。映射到每个单一的1000bp区段上的序列标签的数目被单独地用来计算22q11.2的3Mb区域的区段剂量。此外,两个或更多个区段的所有可能的组合被用来确定对于所有合格的样品中感兴趣的区段的区段剂量。导致具有遍及样品最低的变异性的区段剂量的该单一的3Mb区段或两个或更多个3Mb区段的组合被选作归一化区段序列。

在每个合格样品中映射到感兴趣的区段上的序列标签的数目被用来确定每个合格样品中的区段剂量。在所有合格样品中的区段剂量的平均值和标准方差被计算和用来确定阈值,可以将在测试样品中确定的区段剂量与这些阈值进行对比。优选地,对于所有合格样品中的所有感兴趣的区段计算归一化的区段值(NSV),并且使用这些值来设定阈值。

随后,在相应的测试样品中映射到归一化区段序列的标签数目被用来确定测试样品中感兴趣的区段的剂量。如之前所描述对于测试样品中的区段计算出一个归一化区段值(NSV)并且将测试样品中感兴趣的区段的NCV与使用合格样品确定的阈值进行比较以确定在测试样品中存在或不存在22q11.2的缺失。

测试NCV<-3表明在感兴趣的区段中的一种丢失,即在测试样品中存在染色体22(22q11.2)的部分缺失。

实例9

为得到II阶段结肠癌患者的预测结果进行的粪便DNA测试

所有II阶段结肠癌患者中大约30%将会复发并死于其所患的疾病。已出现疾病复发的II阶段结肠癌患者在染色体4、5、15q、17q和18q上显示出显著更多的丢失。具体地讲,II阶段结肠癌患者在4q22.1-4q35.2上的丢失已表明与更差的结果是相关联的。确定存在或不存在这些基因组改变可以辅助选择进行佐剂疗法的患者(Brosens等人,分析细胞病理学/细胞肿瘤学(Analytical CellularPathology/Cellular Oncology)33:95-104[2010])。

为了确定在患有II阶段结肠癌患者中存在或不存在4q22.1至4q35.2区域中一种或多种染色体缺失,从这个或这些患者获得了粪便和/或血浆样品。粪便DNA是根据Chen等人,J Natl Cancer Inst 97:1124-1132[2005]描述的方法制备的;并且血浆DNA是根据以上实例中描述的方法制备的。根据在此描述的NGS法对DNA进行测序,并且这个或这些患者样品的序列信息被用来计算针对跨越4q22.1至4q35.2区域的一个或多个区段的区段剂量。区段剂量是使用分别在一个合格的粪便和/或血浆样品组内在先确定的归一化区段剂量来确定的。计算了测试样品(患者样品)中的区段剂量,并且在4q22.1至4q35.2区域中存在或不存在一种或多种部分染色体缺失是通过将每个感兴趣的区段与由合格样品组内的NSV设定的阈值进行比较来确定的。

虽然已经在此展示和描述了本发明的优选实施方案,对于本领域普通技术人员而言显而易见的是此类实施方案仅是以举例的方式在此提供的。本领域普通技术人员此刻将会想到众多的变体、改变、和替代而无需背离本发明。应理解的是,在实施本发明时可以利用对在此描述的本发明的这些实施方案的多个不同的替代方案。在此的意图是用以下权利要求来定义本发明的范围并且在这些权利要求的范围内的方法和结构以及他们的等效物由此覆盖在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号