首页> 中国专利> 使用神经网络调用倍性状态的方法和系统

使用神经网络调用倍性状态的方法和系统

摘要

一种使用神经网络来调用倍性状态的方法包括:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;基于基因测序数据或基因阵列数据,确定多个基因片段的相应真实性倍性状态值,每个基因片段各自包含多个基因位置中的至少一些;以及确定包含用于调用相应倍性状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义。该方法进一步包括使用特定过程来迭代地修改权重。该方法进一步包括:针对测试样本,通过经由修改过的神经网络传播测试样本的基因测序数据或测试样本的基因阵列数据来调用目标基因区域的倍性状态。

著录项

  • 公开/公告号CN112639982A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 纳特拉公司;

    申请/专利号CN201980047284.0

  • 申请日2019-07-16

  • 分类号G16B20/10(20060101);G16B20/20(20060101);

  • 代理机构44348 广州文冠倪律知识产权代理事务所(普通合伙);

  • 代理人何锦标;杨娅莉

  • 地址 美国加利福尼亚

  • 入库时间 2023-06-19 10:32:14

说明书

相关申请的交叉引用

本申请要求于2018年7月17日提交的美国临时申请第62/699,135号的优先权,其全部内容通过引用并入于此。

背景技术

检测胚胎染色体异常有助于确定胚胎或胎儿的健康状况。例如,可以在植入之前、借助于体外受精(IVF)过程、通过检测非整倍性(包括全染色体非整倍性或区域性非整倍性)来确定胚胎的健康状况,或者可以使用无创性产前测试(NIPT)来确定胎儿非整倍性性方面的健康状况。然而,使用常规技术可能难以对此类非整倍性进行检测,并且可能难以对此类非整倍性进行与非整倍性的位置相关的粒度检测。本公开描述了尤其用于准确地调用胚胎非整倍性和胎儿非整倍性、以及调用染色体特定片段的胚胎非整倍性和胎儿非整倍性的改进的系统和方法。

发明内容

本文描述的系统和方法中的至少一些涉及使用神经网络来调用胚胎或胎儿非整倍性。可以根据带注释的数据来对神经网络进行训练,以准确地调用胚胎样本的倍性状态,从而提供对胚胎健康状况的洞察力。本文的系统和方法可以提供改进的检测,提供根据阵列数据和测序数据二者对胚胎和胎儿中的非整倍性(包括特定于染色体小片段的非整倍性)进行定位和分类,并且可以提供除了对较大的倍性区域进行分类以外,还根据倍性状态对每个基因组位置进行分类。本文描述的系统和方法可以实施深度学习或机器学习过程,诸如出版物《深度学习(自适应计算和机器学习)(Deep Learning(Adaptive Computationand Machine Learning))》,Ian Goodfellow,Yoshua Bengio,Aaron Courville,麻省理工学院出版社(MIT Press)(2016年11月18日)中描述的任何过程,其全部内容并入本文。

本文描述的系统和方法可以提供改进的无创性产前测试,该改进的无创性产前测试可以用于测试很多状况;确定胎儿是否具有全染色体异常,诸如唐氏综合征、爱德华综合征或特纳氏综合征,确定胎儿是否具有任何局部染色体异常,诸如镶嵌症、缺失综合征或复制病症,或者确定胎儿一个或多个基因座处的基因型,例如疾病相关的单核苷酸多态性(SNP)。此外,本文描述的系统和方法可以提供改进的植入前基因诊断(PGD)。PGD可以检测诸如非整倍性等染色体异常,并且可以用于确保成功植入并确保婴儿健康。PGD还可以用于基因疾病筛查。

本文描述的一些实施例涉及用于通过训练和采用神经网络来调用和模拟染色体片段的倍性状态的系统和方法。调用的染色体片段由从血浆混合物和基因组样本获得的靶向测序或阵列数据表示。本文描述的神经网络训练方法涉及全染色体非整倍性调用并且涉及存在于亚染色体水平上的调用非整倍性。这些方法改进了现有算法,允许神经网络学习基因组位置偏差,并且通过更改训练管线来增加噪声的鲁棒性和不变性。教导了一种用于通过首先捕获群体中常见同源物的存在来模拟现实的分段倍性状态的系统,并且将其用于扩充训练数据,从而使得受过训练的神经网络能够调用染色体结构中的缺失,诸如小微缺失。可以将测试样本传递通过神经网络来确定测试样本的特性,包括检测基因异常。

在一些实施方案中,除了胚胎基因数据之外,神经网络还将母体基因数据和父体基因数据作为输入基因数据。基因数据可以是例如任何类型的DNA或RNA的链或片段的读取或测序、或者由其衍生的数据。可以使用包括胚胎、母体和父体基因数据的训练数据来开发神经网络,并且可以通过利用此类数据来准确地调用胚胎样本的倍性状态。如本文所用,术语“倍性状态”可以指基因片段或染色体的分类是整倍的或非整倍的,并且可以指基因片段或染色体呈现特定的非整倍性。在一些实施方案中,使用包括一个或多个合成例子的扩充数据来训练神经网络。例如,扩充数据可以包括通过组合包括在训练数据中的两个其他基因片段而生成的基因信息,或者可以包括通过模拟包括在训练数据中的基因片段的缺失而生成的遗传信息。可以特异性地生成合成例子以包括非整倍性,并且可以更新一组“真实性”或已知值(例如,通过人工注释确定)以解释合成例子。合成例子在训练中的使用可以提供能够比其他一些技术更有效地、更准确地、更容易地调用亚染色体非整倍性的神经网络。

因此,在一个方面,本公开提供一种进行产前测试的方法,该方法包括:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;基于基因测序数据或基因阵列数据,确定多个基因片段的相应真实性倍性状态值,每个基因片段各自包含多个基因位置中的至少一些;以及确定包含用于调用相应倍性状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义。该方法进一步包括迭代地修改神经网络直到满足退出条件为止,该修改包括:确定包含多个例子的一批数据,每个例子对应于多个基因片段中的相应基因片段并且包含指示相应基因片段中的一个或多个位置的等位基因频率的数据;基于该批的多个例子中的一个或多个来生成合成例子,并且将该合成例子包括在该批中以生成扩充的一批;基于该合成例子来扩充真实性状态值;经由神经网络传播该批数据以生成包含每个例子的一个或多个相应状态值的网络输出;以及基于损失值来修改多个权重中的一个或多个。该方法还进一步包括:选择包含从孕妇提取的血浆的测试样本;以及针对该测试样本,通过经由修改过的神经网络传播测试样本的基因测序数据或测试样本的基因阵列数据来调用目标基因区域的倍性状态。

在另一方面,本公开提供一种进行植入前基因筛查的方法,该方法包括:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;基于基因测序数据或基因阵列数据,确定多个基因片段的相应真实性倍性状态值,每个基因片段各自包含多个基因位置中的至少一些;以及确定包含用于调用相应倍性状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义。该方法进一步包括迭代地修改神经网络直到满足退出条件为止,该修改包括:确定包含多个例子的一批数据,每个例子对应于多个基因片段中的相应基因片段并且包含指示相应基因片段中的一个或多个位置的等位基因频率的数据;基于该批的多个例子中的一个或多个来生成合成例子,并且将该合成例子包括在该批中以生成扩充的一批;基于该合成例子来扩充真实性状态值;经由神经网络传播该批数据以生成包含每个例子的一个或多个相应状态值的网络输出;以及基于损失值来修改多个权重中的一个或多个。该模型进一步包括:选择来自胚胎的测试样本;以及针对该测试样本,通过经由修改过的神经网络传播测试样本的基因测序数据或测试样本的基因阵列数据来调用目标基因区域的倍性状态。

在另一方面,本公开提供一种使用神经网络来调用倍性状态的方法。该方法包括:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;基于基因测序数据或基因阵列数据,确定多个基因片段的相应真实性倍性状态值,每个基因片段各自包含多个基因位置中的至少一些;以及确定包含用于调用相应倍性状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义。该方法进一步包括迭代地修改神经网络直到满足退出条件为止,该修改包括:确定包含多个例子的一批数据,每个例子对应于多个基因片段中的相应基因片段并且包含指示相应基因片段中的一个或多个位置的等位基因频率的数据;经由神经网络传播该批数据以生成包含每个例子的一个或多个相应倍性状态值的网络输出;使用损失函数和真实性倍性状态值、基于一个或多个相应倍性状态值来确定一个或多个损失值;以及基于该损失值来修改多个权重中的一个或多个。该方法进一步包括:针对测试样本,通过经由修改过的神经网络传播测试样本的基因测序数据或测试样本的基因阵列数据来调用目标基因区域的倍性状态。

在另一方面,本公开提供一种使用扩充数据来训练神经网络的方法,该方法包括:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;基于基因测序数据或基因阵列数据,确定多个基因片段的相应真实性状态值,每个基因片段各自包含多个基因位置中的至少一些;以及确定包含用于调用相应状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义。该方法进一步包括迭代地修改神经网络直到满足退出条件为止,该修改包括:确定包含多个例子的一批数据,每个例子对应于多个基因片段中的相应基因片段并且包含指示相应基因片段中的一个或多个位置的等位基因频率的数据;基于该批的多个例子中的一个或多个来生成合成例子,并且将该合成例子包括在该批中;以及经由神经网络传播该批数据以生成包含每个例子的一个或多个相应状态值的网络输出。该方法进一步包括基于该网络输出来修改多个权重中的一个或多个。

在进一步的方面,本公开提供一种训练用于调用亚染色体倍性状态的神经网络的系统,该系统包括处理器和处理器可执行指令,该处理器可执行指令存储在非暂时性存储器上,在由处理器执行时,使得处理器:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;以及基于基因测序数据或基因阵列数据,确定多个基因片段的相应真实性状态值,每个基因片段各自包含多个基因位置中的至少一些。该处理器可执行指令在由该处理器执行时,进一步使得处理器:确定包含用于调用相应状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义;以及迭代地修改神经网络直到满足退出条件为止。迭代式修改包括:确定包含多个例子的一批数据,每个例子对应于多个基因片段中的相应基因片段并且包含指示相应基因片段中的一个或多个位置的等位基因频率的数据;选择多个例子中的第一例子的第一片段的一部分;选择多个例子中的第二例子的第二片段,该第二片段具有基于真实性状态值的非整倍性;选择该第二片段的一部分;用该第二片段的该部分替代该第一片段的该部分,以生成合成例子,并且将该合成例子包括在该批中以生成扩充的一批;基于该合成例子来扩充真实性状态值;经由神经网络传播该批数据以生成包含每个例子的一个或多个相应状态值的网络输出;以及基于该网络输出来修改多个权重中的一个或多个。

前面的一般描述以及以下的附图描述和详细描述都是示例性的和解释性的,并且旨在提供对所要求保护的实施方案的进一步解释。通过以下的附图简要描述和详细描述,其他目的、优点和新颖特征对于本领域技术人员将是显而易见的。

附图说明

附图不旨在按比例绘制。在各图中,相同的参考数字和标号指示相同的元件。为了清楚起见,并非在每个图中都标记了每个组件。

图1展示了根据一些实施例的用于对基因组样本或血浆样本进行基因分型或测序的示例过程的概述。

图2展示了根据一些实施例的用于对测序数据或阵列数据进行注释的示例过程的概述。

图3展示了根据一些实施例的训练神经网络的示例过程。

图4展示了根据一些实施例的训练神经网络的示例过程。

图5展示了根据一些实施例的神经网络的详细示例。

图6展示了根据一些实施例的分类网络的示例。

图7展示了根据一些实施例的用于扩充训练数据和真实性数据的示例算法。

图8展示了根据一些实施例的用于扩充训练数据和真实性数据的示例算法。

图9展示了根据一些实施例的神经网络架构的示例。

图10是示出根据一些实施例的倍性调用系统的实施例的框图。

图11是展示根据一些实施例的调用目标基因区域的倍性状态的示例方法的流程图。

图12是展示根据一些实施例的修改神经网络的示例方法的流程图。

具体实施方式

由于所描述的概念不限于任何特定方式的实施方案,因此可以以多种方式中的任何一种来实施上文引入的以及下文将更详细地讨论的各种概念。主要出于说明性目的而提供具体实施方案和应用的示例。

现在参照图1,图1示出了使用例如应用下一代测序(NGS)的Cyto12b阵列或靶向单核苷酸多态性(SNP)池对基因组样本或血浆样本进行基因分型或测序的示例过程的概述。例如,Cyto12b阵列可以具有横跨所有染色体的大约30万个(此处写成约300k)SNP目标,并且各种NGS池例如可以具有较小的靶向SNP组,范围从数百个基因组位置到几万或几十万个SNP。测序或阵列基因分型过程中的输入可以包括来自胚胎的一个或多个细胞(图1中的1)、以及来自胚胎亲本的任选的基因组样本(图1中的2和3)。在一些实施例中,测序过程中的输入可以是来自孕妇的血浆样本(图1中的1)(例如,关于胎儿,通过无创性液体活检获得)。在进行分析处理之后,测序或阵列基因分型过程或者实验室过程(图1中的4)中的输出包括存储在一些计算机存储介质上的样本中的每一个的数值阵列数据(图1中的5),该数值阵列数据可以包括每一样本2个或更多个正数值数值阵列,其中每个数值阵列的长度等于由测序目标池或测序阵列鉴定的基因组位置的数目,并且数值阵列中的各个条目表示SNP靶向池中的每一匹配目标位置的计数或强度。

现在参照图2,图2示出了对测序或阵列数据(图2中的5)进行注释的示例过程的概述。例如,可以将与阵列数据的视觉手工复核有关的经验性算法和第一主算法应用(图2中的6)于测序或阵列基因分型过程中的输出。当对液体活检进行测序以检测含有可能导致个体患癌症或其他疾病的体细胞变体的cfDNA时,可以这样做以对输出数据进行分类,并且获得有关个体染色体状态、胚胎或胎儿状态、或者血浆本身状态的真实性或真实性数据(图2中的7)。真实性数据可以用作参考数据,并且可以被假设成指示例如已分析样本的准确分类。真实性数据可以存储在一些计算机存储介质上,以用于训练神经网络。该真实性数据可以包括从胚胎或胎儿鉴定为处于整倍性状态、或者数个非整倍性状态之一的每个染色体的分类和似然度。对于用于在宿主个体中检测疾病(诸如癌症)的血浆样本,真实性数据可以含有有关基因组位置的正常匹配数据以及对个体生殖系变体的描述,该个体生殖系变体通过对来自液体活检的基因组样本(例如,血沉棕黄层)进行测序而获得,其中通过该液体活检获得血浆或者在与个体不同的时间点获得血浆。另外,当使用血浆样本检测癌症时,真实性数据可以含有有关与癌症相关联的体细胞变体和/或其他亚染色体异常的信息(例如,定量和/或位置),并且可以通过对癌症样本进行测序并将结果与正常匹配的测序数据或可公开获得的人类参考基因组数据进行比较来获得。

图3示出了训练神经网络的示例过程,该神经网络可以是深度神经网络。该过程使用如关于图1和图2所描述的测序数据或阵列数据5以及真实性7来训练和评估神经网络(例如,以输出阵列数据和真实性数据)、或者改进每一染色体或目标基因组位置的真实性数据和分类。

在一些实施例中,通过过滤过程8将测序数据或阵列数据5分为组。这些组包括训练数据、验证数据和测试数据。验证数据和测试数据可以包括为以后在经过训练的神经网络上进行测试而预留的数据(例如,验证数据可以用于在优化过程期间进行过拟合测试,并且测试数据可以用于对最终网络的预测能力进行定量)。在训练期间,可以扰动训练数据(图3中的9)以使神经网络规则化、并且提供更好的概括性、并且在网络遭遇到其他噪声以及遭遇到不是现有训练集的一部分的示例时使网络具有弹性。图3中的扰动过程9还可以包括对额外导出的可用于训练网络的属性进行计算,以便使损失函数(12)的输出最小化。分批地通过正向传播过程(图3中的10)来馈送数据,以产生可以与真实性(7)进行比较的网络输出(图3中的11),以使用损失函数计算一个或多个损失值(图3中的12)。损失值是神经网络中权重的函数,并且可以在多次迭代中优化、更新或以其他方式修改这些权重以产生更接近真实性(例如,导致较低的损失值)的新神经网络输出11。此优化过程(图3中的14)在新一批测序数据或阵列数据通过网络之前修改网络的权重。例如,优化过程可以是随机梯度下降优化的修改型,或者是另一适当的优化过程。当达到退出条件时(例如,一个或多个损失值被确定为低于或等于预定阈值(例如,预定验证阈值)),训练过程结束,并且网络权重(图3中的16)被存储在计算机可读介质上并可以被解序列化,以构建根据网络指定的正向传播函数将测序数据或阵列数据映射到输出的函数。训练过程还可以创建(例如,使用验证数据和测试数据)验证统计(图3中的15),该验证统计可以用于指导训练过程以及训练完成后的无偏测试统计。

图4示出了用于神经网络的训练阶段的示例实施方案。在训练后,网络然后可以用于通过相同的输入管线和正向传播过程、通过运行测序或阵列数值数据,将胚胎分类为整倍性状态或非整倍性状态。到网络中的输入可以包括两个或更多个(可能是标准化的)数值阵列,它们是如结合图1所描述的测序或阵列过程的输出。对于一组样本(例如,1至3个样本(胚胎或血浆以及任选的母亲和父亲基因组样本))中的每一个,获得的等位基因频率(例如,等位基因比率,其可以是非整倍性等位基因的数个读取与总数目读取的比率)也可以输入到网络的第一层中。在一些实施例中,来自胚胎或血浆的等位基因比率可以是唯一的输入。图4示出了矩阵(14a),其中每一行含有来自一个胚胎或血浆的等位基因比率,该等位基因比率用于已在过程(8)中被选为训练数据并在过程(9)中进行解析、变换和扰动的数据。列表示基因组位置。如图所示,当处理来自胚胎活检的细胞时,可以输入胚胎等位基因比率,并且在一些实施例中,输入三种样本(胚胎、母体和父体样本)的等位基因比率。当处理来自孕妇液体活检的血浆时,可以输入标准化的测序或阵列数据读取、或者血浆的强度和等位基因比率。当处理来自可能患有或可能已经患有癌症的个体的液体活检的血浆时,当目的是训练网络以对来自存在于血浆中的癌症的cfDNA(例如体细胞变体)进行量化时,输入通道可以例如包括来自正常匹配样本的测序数据、对个体的生殖系变体中的至少一些进行定位的测序数据、例如通过对获得自液体活检的血沉棕黄层材料(例如,血液样本)进行测序而获得的测序数据。输入还可以含有有关在获得自个体的当前或更早的癌症样本中鉴定出的体细胞变体的数据,如果此样本可以获得的话。这可以是对使用等离子体本身的高读取深度(ref和mut)测序输入的通道的补充。矩阵(14a)是一个训练批的示例,该一个训练批包括可以从示例池中随机选择的数个“示例”(在本文中也被称为“例子”)。图4还示出了如图3所描述的示例性网络输出(11)、真实性数据(7)和损失值(12),该损失值可以基于真实性数据(7)和网络输出(11)来确定。一个示例过程包括使用诸如交叉熵公式之类的损失公式来计算损失值(12)。神经网络可以接受从胚胎、母亲和父亲样本获得的阵列数据作为输入。网络可以包括可训练变量,该可训练变量可以用于在优化过程(14)期间修改网络输出。网络输出(11)例如是分类向量(诸如(x,y)),其中x和y的数值非负数值之和为1,并且其中x>>y指示整倍性分类,并且y>>x指示胚胎的非整倍性分类。在训练分类网络以检测血浆样本中与癌症相关联的体细胞变体的存在的例子中,y>>x可以指示网络检测到此类变体的存在,而x>>y可以指示网络未检测到体细胞变体的存在。例如,如果x值比y值大预定量(在一些实施例中,该预定量可以为零或负数量),则系统可以将样本分类为整倍性,并且如果y值比x值大预定量(在一些实施例中,该预定量可以为零或负数量),则系统可以将样本分类为显示非整倍性。网络输出(11)中所示的每一行表示矩阵(14a)输入行中的每一行的此种向量的输出。与图4的矩阵(7)和(11)中的列数目相等的状态数目(例如,两个状态)取决于用于训练网络的真实性数据的可用状态。网络的输出也可以是使用不同损失函数(诸如,绝对差与真实性值(L1范数)或平方距离(L2范数)的函数)的近似的单个值。此种值的示例是存在于孕妇血浆中的胎儿分数。另一示例是与来自宿主的血浆样本中的癌症相关联的体细胞变体的DNA的定量。批的损失值(12)可以定义为包括在该批中的每个示例的单个损失的平均值或总和。也可以使用任何其他适当的损失函数。

图5示出了如图3和图4中所描述的神经网络的详细示例,该神经网络可以用于训练(例如,使用随机梯度下降样优化),并且然后可以用于使用正向传递过程来对胚胎或胎儿染色体的状态进行分类。网络以N×3×约300k数值张量的输入(图5中的15)开始,其中N是当处理Cyto12b阵列时在训练期间被分类在一起的或批处理的示例的数目,3个通道是胚胎、母亲和父亲等位基因比率,并且最后数目约300k表示被作为目标的基因组位置的数目(图5中的21)。在处理血浆的例子中,在一些实施例中,输入(图5中的15)为N×5×约12k,其中N也是一起批处理的示例的数目,约12k是基因组位置的数目(图5中的21),并且5个通道是血浆和来自NGS测序过程的四个(例如,标准化的)输出阵列(诸如参考等位基因读取、突变等位基因读取、质量得分和等位基因读取错误率)的等位基因比率。基因组位置不一定要应用于所有的输入通道,因为输入通道中的一些可能会根据不同的标准进行重新排序。下文描述的血浆设置还包括仅具有一个输入通道而不是5个输入通道的设置(例如,血浆等位基因读取),并且数个其他组合是可能的。该过程可以包括网络内的多个系列(所描绘的示例中的A和B),可以以不同的输入张量来馈送该多个序列,其中一些按基因组位置编索引,而另一些不按基因组位置编索引。示出的网络包括如图5中的16所表示的多个初始一维卷积、激活和池化层,这些层减小输入向量的尺寸,并且以附加通道(由图5中的20例示)的形式提取相关特征。输入(15)可以被引导到包括多个池化和激活功能的多个此系列卷积层。图5示出了由图中的A和B表示的两个此系列的示例。该系列多个层也可以链接在一起。然后,该系列层延伸到一个或多个系列的全连接的层(图5中的17),其中任选地嵌入了丢失(dropout)和其他正则化技术。全连接的层可以具有数百或数千个节点,从而导致节点之间的权重(图5中的19)为数百万。然后,全连接的层级联在一起,并且最后产生最终分对数(logits)层(图5中的18),其尺寸为N×k,其中k是所需分类中的类别的数目,例如,如图所示(18),其中k=2表示两个类别:整倍性状态和非整倍性状态。在一些实施例中,最终输出(18)可以是单个变量,该单个变量旨在指示在真实性集中可得到的、诸如母亲血浆中的胎儿分数之类的统计量。在训练和进行分类期间,在计算关于在网络中使用的权重的梯度之前,可以将分对数(18)馈送到softmax计算器,以获得每一状态的置信值,并且在训练期间,应用诸如交叉熵之类的损失函数(参见图4和图3中的损失值12)。

图6示出了分类网络的示例,其中该网络输出每基因组位置一组类别(图6中的23)。这些类别表示在给定的基因组目标或SNP处的胚胎状态或胎儿状态。例如,一组5个类别将由具有5个通道(图6中的22)的最终卷积层(图6中的25)表示,每个通道表示用于计算似然度的分对数中的一个,该似然度为母体单体性、父体单体性、二体性、母体三体性或父体三体性在如由示出的轴线(图6中的23)所例示的每个基因组位置或基因组单元处的似然度。在该例子中,输入的类型与如图5所例示的类型相同(15和21),但是输出层包括Nד基因组位置的数目”(图6中的23)×k(图6中的22)张量,其中k个通道中的每一最终维度表示结合图3获得和解释的表示真实性状态(7)的k个类别,并且N是在训练、验证或测试阶段期间被分类在一起或一起批处理的示例的数目。该网络可以包括:多个一维卷积层、激活和池化层(图6中的16);随后的一个或多个转置卷积层(图6中的24),其也被称为反卷积层;以及用于使输出平滑化的任选的层(图6中的26)和最后的卷积层(图6中的25)。训练和优化使用例如小批量梯度下降和动量类型优化(诸如Adam优化算法)来进行。图6示出了卷积-反卷积设置的若干系列(图6中的A、B、C)。可以分别使用相应的损失函数来任选地对以相应的反卷积层(图6中的24)结尾的每个序列进行训练,并且然后可以使用来自反卷积通道的输入作为输入通道来对网络中的其他权重(例如,来自诸如图6中的层(26)和(25)之类的其他卷积层)进行训练。

图7示出了用于以如下方式扩充训练数据和真实性数据的算法:在训练神经网络之后(例如,如图3、4、5和6所展示),该网络能够将染色体的片段分类为处于整倍性状态或多个非整倍性状态中的一个。对于图5中所示的神经网络,使用扩充的真实性以及测序或阵列数据集,对网络进行训练以通过示出的扩充数据集来检测具有分段或全染色体非整倍性的胚胎的状态。基于扩充的训练集,对图6中所示的神经网络进行训练,以检测和定位处于各种倍性状态的胚胎基因组或胎儿基因组内的SNP或基因组位置。如图7所示,在训练期间,使用一个或多个合成例子或示例来扩充测序数据或阵列数据以及真实性数据。为了产生合成示例,算法从训练集选择(图7中的27)两个示例。这可以随机地进行,并且从训练集挑选该示例中的一个(例如第二示例),使得由真实性数据保证其具有全染色体或区域性非整倍性。例如,系统可以确定第二示例具有全染色体或区域性非整倍性,并且可以基于该确定来选择第二示例。该算法在第二示例的非整倍性区域内(图7中的28)选择(例如随机地)可以具有某一最小长度的片段,并且用来自第二示例的数据来替代、处理(图7中的29)来自第一示例的相应的测序数据或阵列数据。由来自第二示例的数据从第一示例替代的数据可以对应于选自第二示例的非整倍性片段的基因组位置。过程(图7中的29)可以选择性地(例如,随机地或基于其他标准)使第一示例不变地通过系统,使得在训练期间也可以使用未改变的示例来训练网络。在示出的下一过程(图7中的30)中,该算法修改提交给损失计算的真实性数据,使得当示例在神经网络的训练阶段期间作为含有合成示例和未改变示例的混合物的较大批的一部分提交(过程(图7中的31))给该网络时,插入的片段被计为修改过的第一示例中的非整倍性片段,如上文结合图3和图4所描述。在选择过程(图7中的27)期间,选择示例,使得存在于真实性集中的测序或阵列数据统计或者针对两个示例计算出的其他测序或阵列数据统计在设置范围内是相似的。在来自孕妇的血浆的例子中,这将包括两个示例,该两个示例被选择用于产生可能具有相似胎儿分数统计的合成测序或阵列数据。在训练期间,在每个时期或周期期间再次重复该程序。

图8示出了一种算法,该算法用于通过插入合成测序数据或阵列数据(例如,等位基因读取)来扩充训练数据和真实性数据,这些数据表示染色体各个区域中的小染色体缺失,诸如其中已知此类缺失会发生并导致已知状况。使用该扩充数据的受训练网络学习基于缺失的存在来对这些区域进行分类。可以使用此扩充数据来对诸如图4、5或6中所示的那些不同类型的网络进行训练,从而得到分类算法和更通用的缺失位置算法二者。该算法假设在对具有检测基因组预定区域中小的染色体同源物缺失(例如,微缺失)能力的神经网络进行训练期间,可以使用以下程序。第一过程是从训练集选择示例(图8中的32),并且为每个选择的示例选择区域(图8中的33)(例如,从表示已知状况的预定义微缺失区域的列表)。微缺失区域可能例如包括与以下基因状况和疾病相关联的区域中的一个或多个:1p36缺失、1q21.1远端微缺失、2q37微缺失:奥尔布赖特遗传性骨营养不良(Albright HereditaryOsteodystrophy)样/短指症、3q29微缺失、Wolf-Hirschhorn综合征、猫叫综合征(Cri DuChat)、5p15.2微缺失、William-Beuren综合征、Langer-Giedion/毛发鼻指骨(Trichorhinophalangeal)综合征II型、9q34微缺失/Kleefstra综合征、10p13至p14迪乔治(DiGeorge)2、11p13微缺失:WAGR、11q24.1微缺失:Jacobsen综合征、安格尔曼(Angelman)、安格尔曼综合征2型、Prader-Willi综合征2型、Prader-Willi、16p11.2微缺失、16pter-p13.3微缺失:AT-ID、Smith Magenis、Miller Dieker综合征、RCAD(17q12缺失)、17q21.31微缺失、18q21.2微缺失:Pitt-Hopkins综合征、迪乔治、22q11.21微缺失、22q11.2微缺失、Phelan McDermid 22q13缺失、5q22微缺失:具有ID的家族性腺瘤性息肉病、5q35.2-35.3微缺失-Sotos综合征、6p25.3(p24)微缺失、8p23.1微缺失CDH2、11p11.2微缺失:Potocki-Shaffer综合征、13q14.2缺失、具有ID的视网膜母细胞瘤、13q32缺失-HPE5、PKD1/TSC2连续缺失综合征、17p13.3远端微缺失、17p13.3远端微缺失、17q21.31微缺失、等臂染色体、21q22.3微缺失:前脑无裂畸形1、Pelizaeus Merzbacher XL。在设置范围内,所选择的区域的大小和位置可以改变。在同源物产生过程中(图8中的34),该算法以预定的频率产生表示所选择区域中的微缺失例子的测序数据或阵列数据的模拟,并且任选地用模拟数据替代来自所选择基因组位置的现有数据,该模拟数据考虑了诸如母亲血浆例子中的胎儿分数和胎儿DNA分布等统计。插入的微缺失数据可以来自此种预选则条件的实际已知例子,或者可以由如本文结合图9所描述的第二神经网络或下文描述的第二神经网络来产生。在真实性产生或更新过程(图8中的35)中,修改真实性数据并将其传递到神经网络,以准确地表示微缺失或传递通过例子。可以实施产生表示合成示例的测序数据的过程(图8中的36),并且可以对所产生的用于合成示例的测序数据进行扰动并将其向前传递,以经由神经网络传播。

一些实施例实施第二神经网络,并且可以实施使用生成式对抗网络(GAN)来训练神经网络以产生表示这些片段的群体发生的单个同源物片段的方法。GANS可以包括生成式网络和判别式网络。生成式网络可以包括两个(例如,完全相同的)同源物生成式网络,该两个同源物生成式网络中的每一个均产生单片段同源物。生成式网络的输出是通过组合两个同源物而产生的非定相片段基因型,该两个同源物是由两个同源物生成式网络产生的。判别式网络将由生成式网络产生的非定相基因型与实际非定相基因型数据区分开。为了训练GAN,对判别式网络进行训练,以将由生成式网络产生的非定相基因型与实际非定相基因型数据区分开,并且对生成式网络进行训练,以“欺骗”判别式网络(以产生判别式网络无法将其与真实非定相基因型数据区分(或难以区分)的非定相基因型)。一旦进行训练,可以使用生成式网络来生成用于创建合成数据的同源物统计,并且扩充和替代如结合图8所解释的训练数据的一部分,并且由此使得上文描述的神经网络能够检测包括导致胎儿或胚胎严重状况的微缺失的相关染色体异常。

图9示出了示意性神经网络架构(例如,用于第二神经网络),该架构可以被训练成用于生成表示这些片段的群体发生的单个同源物片段(图9中的41)。该网络与一组称为自动编码器的深度神经网络有关。到网络中用于训练的输入(图9中的37)是与所使用的基因组位置子集兼容且可用作群体测序数据或阵列数据的一部分的基因型的非定相集、以及随机地或以其他方式选择的定相基因型(5)。使用所生成的同源物统计来扩充和替代如结合图8所解释的训练数据的一部分,并且由此使得之前描述的神经网络能够检测包括导致胎儿或胚胎严重状况的微缺失的相关染色体异常。可以使用多种类型的网络来表示编码器(图9中的38)和解码器(图9中的40和42)。这些包括:具有池化和激活功能的用于编码的卷积层;或具有丢失和激活功能的、用于编码和转置卷积和卷积的、用于解码层的全连接层;或具有丢失和激活的用于解码器的全连接层。可以实施用于创建自动编码器的各种技术,并且结合图6对一些技术进行解释。

以下是一些实施例的描述。此描述仅通过示例的方式提供,并且与本文描述的方法和系统一致的其他实施例被本公开涵盖。

下文描述了将图5所示的网络应用于来自几乎没有细胞的基因组样本的阵列数据的一些实施例。图5中的网络使用超过80,000个阵列数据样本的训练子集进行训练,这些样本大约来自在IVF周期期间进行的胚胎活检(例如,5天胚胎活检)、胚胎亲本的血液样本、以及标记算法生成的和手工复核的真实性。对于每个示例,输入包括3个通道,一个通道用于胚胎等位基因比率,一个通道用于母亲等位基因比率,第三个通道用于父亲等位基因比率,所有通道均使用在3个样本中的每一个的约300,000个基因组位置处的Cyto12b阵列进行基因分型,这些基因组位置跨越所有染色体。等位基因比率是在每个阵列SNP位置处的比率x/(x+y),其中x和y是由阵列基因分型过程生成的2个阵列通道强度。手工标记的胚胎全染色体状态真实性在每一胚胎染色体中是可获得的,并且用于将胚胎分类为处于整倍性或非整倍性状态。在输入层之后,一些实施例使用约10个设置在如图5所示的两个不同路径或系列之后的卷积层作为系列A和B。卷积层中的每一个之后是激活“elu”函数和最大池层。第一组卷积层和最大池层各自首先将通道数目从3个扩展到16个,并且在对激活函数输出上的256个连续位置进行最大扫描并随后进行最大池移位16个位置之前,分别对512个和1个连续位置的区域进行扫描。然后,对于每个系列A和B,重复此结构约四次以上,其中每次不同的扫描尺寸和最大池尺寸使每一过程中的输出通道的数目加倍。对于图5中的系列A和B中的每一个,一些实施例的扫描尺寸遵循32、16、8、8的图案,并且对于每个系列中第一层之后的系列中的每个层的最大池,该扫描尺寸遵循16、8、4、4的图案。在该系列卷积层中的每一个之后,添加具有1024个节点的全连接的层,随后添加具有256个节点的全连接的层,然后一些实施例将全连接的层级联在一起,并且添加另外两个附加层,该附加层的尺寸为128和2或等于在真实性集中寻找并可获得的倍性状态的数目的一些数目。最终层中的两个节点仅仅表示“整倍性”和“非整倍性”两个类别。一些实施例为除了最终层之外的全连接的层中的每一个实施在约25%至约75%之间的丢失率,并且除了最终层之外的全连接的层中的每一个都跟随有elu激活函数。如图3和图4所示,相关联的输入管线对输入数据施加扰动,这些扰动包括例如:随机地置换每一SNP的阵列读取、随机地转换母亲样本和父亲样本用于常染色体读取的作用、以及通过将它们与从具有均值接近1且标准偏差相对小的分布中得到的标量相乘来对阵列读取随机地进行扰动。对神经网络进行训练,并且当该训练满足验证样本集时,基于指定指定的标准对其进行序列化。一些实施例使用具有称为Adam的动量的随机梯度下降样算法,并且将学习速率设置为约0.0001,并且使用32的批处理大小。

用于检测亚染色体非整倍性的一些实施例使图5所示的和上文描述网络适应于通过将图7所示的算法或图8示的算法应用于图5的输入管线来检测非整倍性的亚染色体片段,诸如缺失片段、重复片段和/或三体性片段。此过程可以包括在真实性数据中定位(参见图2、图3、图4、图7中的7)非整倍性的一个或多个样本,此些非整倍性来自通过真实性标记已知含有全染色体非整倍性的其他示例。可以在训练期间以预定频率随机地选择示例。例如,可以以50%或更高、或者33%或更高的频率进行选择。在一些实施例中,频率在25%与66%之间。然后,以随机位置开始,从一个或多个随机选择的非整倍性染色体数据(x和y强度读取、或直接等位基因比率)中复制具有某些最小长度(例如,至少100个SNP)的阵列片段,并且将其插入到被处理成用于如图7(过程29)所指示的训练的示例中。还将来自所选随机示例的父亲和母亲阵列数据的相应片段分别插入到父亲和母亲阵列数据中,以用于该训练示例。在训练期间修改(例如,临时地)用于该训练示例的标记,以表示如由图7中概述的描述性工作流或图8所示的用于检测微缺失的类似工作流所指示的修改后示例的改变的真实性状态。当使用正向传播将新数据传递通过成功训练后所得的神经网络以利用该网络进行分类时,该网络将能够容易地检测亚染色体非整倍性片段。

在一些实施例中,在对来自孕妇的血浆和来自区域的大约13,000个SNP的较小目标集(基因组位置)进行测序时从靶向下一代测序获得的测序数据包括例如染色体13、18、21和染色体X,并且图5所示网络的一些实施例根据卷积核尺寸使用相似且按比例缩小的结构,使得初始卷积网络将采用具有128个基因组位置、4个输入通道、16个输出通道、具有最大移位16个位置的超过64个位置的最大池的核。在此之后,一些实施例在转换或流向全连接的层之前采用卷积、激活和最大池的附加层(例如,约五个附加层)。一些实施例可以在全连接的层中采用高丢失率(例如,约65%或更多、约75%或更多、约85%或更多、或更高),并且可以实施线性瓶颈层以避免过拟合。由于训练集中的非整倍性标记率可能低,例如在百分之一至百分之二之间,因此除了上文结合阵列数据描述的技术(包括添加噪声、扰动读取、以及转换参考的作用和突变读取)之外,一些实施例包括:在用如由真实性数据所确定的、来自具有非整倍性和相似血浆胎儿分数的不同示例的染色体的数据替代和置换给定示例中的训练数据的一部分之后,对示例进行重新标记,并且包括遵循图7或图8所示的过程。在一些实施例中,在全染色体非整倍性调用的一些实施方案中,使用图7的过程29中的SNP的最小数目(例如,基于和/或接近(例如,+/-5%)给定染色体上的位置数目的数目,并且最大长度等于给定染色体上可用SNP的数目)。一些实施例除了增加其在训练批中的频率之外,还为非整倍性示例实施约0.0001的目标学习率以及学习率时间表、约128的小批尺寸和约0.25的减小自重。

在一些自然网络拓扑实施例中,这些实施例在本文中称为读取偏差模型,它们在对来自孕妇的血浆进行分类时使用,包括以引用和突变血浆读取开始,该引用和突变血浆读取来自染色体13、18、21和X的大约13,000个基因组位置。该实施例可以包括来自额外或更少染色体的读取。该引用和突变读取开始是作为到网络中的输入的两个初始通道或特征,该两个初始通道或特征来自经过处理或汇总的下一代测序读取(“ref”和“mut”读取),然后构建一系列卷积层,从而增加通道或特征的数目,但是将扫描长度保持为一个基因组位置;从2至128个通道、从128至64个、从64至32个、从32至16个、从8至4个、从4至2个通道,其中每个层都具有可训练权重的核、每一特征一个可训练偏差变量、以及每个层之间的elu激活函数。然后,网络继续,并且采用具有2至1个通道的卷积层,其后跟随有激活函数,但是在此例子中,除了一个通道偏差变量之外,每个基因组位置(对应于此级别网络的输出)还都得到单独的每一输出基因组位置的可训练变量,有时称为解绑偏差。在模型采用绑定和解绑偏差的特定模型之后,再次通过一系列卷积和激活函数提取输出数据,该一系列卷积和激活函数将通道或特征的数目从1更改为128、从128更改为64、从64更改为32、从32更改为16、以及从16更改为8,每次更改包括每一通道的特征偏差,并且随后是elu激活函数,并且扫描大小为1。然后,通过添加另外6个卷积层来修改每个网络层的尺寸,这些卷积层仅采用绑定特征偏差,并且每个卷积层之后跟随有激活函数和最大池层。这六层中的扫描大小是这六层中的第一层的扫描大小为128,然后每一层都具有一个大小为4的扫描核,每一层的通道数目加倍,前两层的最大扫描设置为64和8,然后固定为4,并且最大池或移位分别设置为16、8、4、4、2和2,分别用于6个最终卷积最大池层。在所有这些卷积层之后,使用两个全连接的层以及带有丢失的elu激活,可以使用具有1024个节点的第一层和具有256个节点的第二层和超过90%的高丢失率,具体取决于输入数据的处理以及如何通过插入(参见图7)或通过重复和/或权重人为地增加其在训练集中的频率来多次重复阳性例子。最后,附接具有2个输出的线性分对数层,以便获得如结合图5所描述的分类结果。然后,可以如本文所描述地进行训练过程。

对于在使用靶向下一代测序血浆测序时的亚染色体非整倍性调用,一些实施例使用用于图7中的过程28和29的小的最小数目的SNP来实施图7所示的算法。一些实施例使用混合的合成种群数据将图8所示的算法用于特定的微缺失,该合成种群数据使用图9中的解码器网络40和42针对算法中的过程34生成。在图7的过程29处,选择并入的片段作为例如连续片段,该连续片段具有使用随机过程选择的起始位置(例如随机起始位置)以及来自全染色体非整倍性的长度,该全染色体非整倍性来自血浆数据,该血浆数据具有相似胎儿分数,该胎儿分数用于即将到来的训练示例以及含有给定的如图7进一步描述的非整倍性样本的示例二者。

为了将各种染色体内非整倍性的亚染色体片段定位直到SNP级分辨率,一些实施例使用图6所示的分段网络。一些实施例包括如图6中的A、B、C所示的并且如上文结合图6所解释的三种不同路径或系列。对于阵列数据,一些实施例使用卷积层,其后跟随有ReLu激活函数和最大池以对数据进行压缩。在一些实施例中,层A、B和C开始于一个具有3个输入通道(每个基因组位置的胚胎等位基因比率、母亲等位基因比率和父亲等位基因比率)的卷积层,扫描大小为512个连续位置和32个输出通道,该卷积层之后跟随有激活函数和256个连续基因组位置的最大扫描以及32的最大池步长,然后添加另外两个卷积层,每个层都包括激活函数,将通道从32增加到64,然后增加到128,每次的扫描均为8。一些实施例采用转置卷积层(图6中的24),其输出扫描为256,路径A的步幅为32和2个输出层。在路径B之后,一些实施例包括至少一个附加的卷积层,其扫描长度为32,并且将输出通道加倍,该附加的卷积层之后跟随有激活函数和最大池层,其最大扫描为16,并且步长为4。路径C采用又另一卷积层,其扫描长度为16,并且再次将输出通道加倍,该又另一卷积层之后跟随有激活函数和最大池层,其最大扫描为8,并且步长为4,如由图6中的布局所示。对于路径A和B,一些实施例在最终最大池层之后采用与用于路径C相似的卷积层,但是这些卷积层具有经调整的通道输入和输出数目,并且如以前每个过程中的通道数目的比率为2。跟随在路径B之后的转置卷积层(图6中的24)具有128的步幅长度、256的输出扫描,并且将通道数目减少到2。跟随在路径C之后的转置卷积层(图6中的24)具有512的步幅长度、256的输出扫描,并且再次将通道数目减少到2。

然后,将6个输出通道(每2个来自3个转置卷积层)组合为6个通道,并且将其传递通过另外两个卷积层,每个卷积层之后均跟随有ReLu激活函数。在一些实施例中,最终层具有2个最终输出通道,当提供有未见过的或未有注释的示例并且使用正向传播时,如上文结合图6进一步描述地,该最终输出通道在训练后被配置成通过提供基因组位置的置信似然度(例如,softmax置信似然度)来在每个基因组位置(SNP)的整倍性类别与非整倍性类别进行区分,其中该基因组位置属于每个真实性状态中的片段。

对于下一代测序数据,一些实施例实施表示量的输入通道,该量诸如来自母亲血浆的等位基因比率、每个基因组位置的标准化和缩放化的总数目读取、以及等位基因比率的一个或多个置换集。缩放分段网络(例如,如图6所示)以匹配数据的大小(SNP的数目)。在两种例子中,阵列数据和测序数据都经过如上文结合图3、4和5所描述的扰动。为了训练网络以检测亚染色体非整倍性,可以将图7和/或图8所示的算法包括在输入管线中,从而得到被配置成以与上文关于阵列数据描述的方式相似的方式定位亚染色体非整倍性的系统。当训练网络以检测亚染色体非整倍性时,一些实施例在过程28中使用小的最小片段长度。

一些实施例使用图9中所示的受过训练的神经网络来创建如图9中的子网络40和42所示的解码子网络,该解码子网络用于生成在图8中所示的训练算法的过程34中使用的测序数据或阵列数据。图9中所示的网络的一些实施例使用输入层(图9中的37),该输入层对应于集中在基因组的特定基因组区域上的大约1000个SNP。输入到每个位置处的初始卷积层、激活和最大池层中的类别是被表示为4个通道(其被示出为大小为4的向量)的基因型,并且在下文中进行解释。可以使用随机地(或以其他方式)选择的定相杂合基因型来确定两个亲本解码器子网络(图9中的40或图9中的42)中的哪一个应该输出每个示例的哪一个同源物。训练此网络以输出(图9中的43)与输入的基因组序列相同的基因组序列,因此已知真实性,并且当在小批量的128个示例上训练此网络时,损失函数容易地被计算为所输出softmax概率的交叉熵函数。在第一输入卷积层之后,随后卷积层中的通道数目被缓慢地增加,随后卷积层中的每一个之后跟随有激活和最大池层,从而产生如图9所示的如结构38和39的多个编码或压缩层。一些实施例确保最终解码层39中的输入变量的数目通过由第一层提供的聚合和最大池而极大地减少了在如图9中的37所示的起始层中使用的输入变量的数目。在一些实施例中,在最终解码器层(图9中的39)之后,采用图9的转置卷积层中的两个系列40和42来构建具有一定长度(约等于输入(37)的基因组位置的数目)的亲本1(第一亲本)和亲本2(第二亲本)同源物,但是每个亲本具有2个通道,而不是用于如37所示的输入的4个通道。为了生成图9中的最终输出43,将下文中所解释的公式应用于图9中的层40和42的输出。以下过程可以用于将在图9中的输入层37与解码网络40和42的两个子网41和44的输出之间的基因型和最终输出43进行连接。对于一些实施例,如上所解释,网络结构使得两个染色体同源物在网络结构中在内部被表示,并且网络可以被细分成在训练之后选择性地单个输出所生成的同源物。每个基因组位置输入的5个基因组基因型是无序的(非定相的)RR、RM、MM以及定相的R

在已经使用如上文所描述的针对即将到来的微缺失基因组区域的群体阵列或测序数据对图9所示的网络进行训练之后,定义单个同源物层40和42的权重和正向传播构成用于以群体一致的方式合成从父母传递给后代的同源物的生成器的至少一部分。然后,通过忽略编码器40或42中的一个或者另一染色体异常,可以使用针对从中间层(图9中的45)输出的每一组可能的数值生成的同源物来模拟从缺失中获得的等位基因比率或读取。为了生成现实性同源物,可以基于当通过从(图9中的37)开始的较大网络运行验证数据或测试数据时接近通过图9中的层39的输出的值的值范围,选择作为表示来自中间层(图9中的45)的输出的值范围。

在一些实施例中,实施GAN(例如,如上所述),在已经使用针对即将到来的微缺失基因组区域的群体阵列或测序数据对GAN进行训练之后,通过仅使用单个同源物或另一染色体异常创建非定相基因型,可以使用由GAN的生成式网络生成的同源物来模拟从缺失中获得的等位基因比率或读取。同源物可以用作合成数据并且可以用于扩充和替代如结合图8所解释的训练数据的一部分,并且由此使得上文描述的神经网络能够检测包括导致胎儿或胚胎严重状况的微缺失的相关染色体异常。

现在参照图10,图10是示出了倍性调用系统1000的实施例的框图。倍性调用系统1000可以包括一个或多个处理器1002以及存储器1004。一个或多个处理器1002可以包括一个或多个微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等、或它们的组合。存储器1004可以包括但不限于能够向处理器提供程序指令的电子设备、磁性设备、或者任何其他存储设备或传输设备。存储器可以包括磁盘、存储器芯片、只读存储器(ROM)、随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、闪速存储器、或处理器可以从其中读取指令的任何其他合适的存储器。存储器1004可以包括组件、子系统、模块、脚本、应用程序、或者一组或多组处理器可执行指令,该指令用于实施错误分析过程(包括本文描述的任何过程)。例如,存储器1004可以包括训练数据1006、注释器1008、神经网络1012、真实性数据1010和网络更新器1016。

训练数据1006可以包括基因组样本或血浆样本的基因分型数据或测序数据。可以使用例如应用下一代测序(NGS)的Cyto12b阵列或靶向单核苷酸多态性(SNP)池来生成训练数据1006。例如,Cyto12b阵列可以具有横跨所有染色体的大约300万个(此处写成约300k)SNP目标,并且各种NGS池例如可以具有较小的靶向SNP组,范围从数百个基因组位置到几万或几十万个SNP。用于生成训练数据1006的样本可以包括例如来自胚胎的一个或多个细胞、以及来自胚胎父母的任选基因组样本。在一些实施例中,样本可以包括来自孕妇的血浆样本(例如,关于胎儿,通过无创性液体活检获得)。训练数据1006可以包括针对所分析的每个样本的数值阵列数据,该数值阵列数据可以包括每一样本2个或更多个正数值数值阵列,其中每个数值阵列的长度等于由测序目标池或测序阵列以及数值阵列中的各个条目鉴定的基因组位置的数目。

注释器1008可以包括组件、子系统、模块、脚本、应用程序、或者一组或多组处理器可执行指令,该指令用于使用训练数据来生成真实性数据。注释器1008可以将经验性算法和第一主算法应用于训练数据以对训练数据进行注释(例如,以对训练数据进行分类),以生成真实性数据1010。真实性数据1010可以用作参考数据,并且可以被假设成指示例如已分析样本的准确分类。真实性数据1010可以包括从胚胎或胎儿鉴定为处于整倍性状态、或者数个倍性状态之一的每个染色体的分类和似然度。在一些实施例中,注释器1008与手工注释结合使用以生成真实性数据1010。在一些实施例中,可以省略注释器1008,并且以一些其他方式(例如,借助于手工注释)生成或提供真实性数据1010。

神经网络1012可以包括组件、子系统、模块、脚本、应用程序、或一组或多组处理器可执行指令,该指令用于通过神经网络1012传播基因测序数据或基因阵列数据(其可以预先处理),为测试样本或在训练期间确定目标基因区域的倍性状态(例如,整倍性或非整倍性的指定、或者一个或多个特定非整倍性的指定)。神经网络1012可以输出指示倍性状态的分类信息。神经网络1012可以包括一个或多个层。例如,神经网络1012可以包括多个卷积、激活和池化层(例如,减小输入向量的大小,并且以附加通道的形式提取相关特征)。神经网络1012可以包括一个或多个系列。该系列可以链接或连接在一起。该系列可以延伸到一个或多个系列的全连接的层,其中任选地嵌入了丢失和其他正则化技术。全连接的层可以具有数百或数千个节点,从而导致节点之间数百万的权重1014。全连接的层可以级联在一起以产生最终层。神经网络1012可以包括最终分对数层,其尺寸为N×k,其中k是所需分类中的类别的数目(例如,k=2表示两个类别:整倍性状态和非整倍性状态)。在一些实施例中,神经网络1012的最终输出可以是单个变量,该单个变量旨在指示在真实性集中可得到的、诸如母亲血浆中的胎儿分数之类的统计量。神经网络1012可以实施“elu”激活函数或“ReLu”激活函数。神经网络1012可以包括任何特征、结构,并且可以提供本文所描述的任何优点,以输出倍性状态信息和/或调用倍性状态。

网络更新器1016可以包括组件、子系统、模块、脚本、应用程序、或者一组或多组处理器可执行指令,该指令用于更新、优化或修改神经网络1012。例如,网络更新器1016可以包括批处理器1018、例子合成器1020、损失计算器1022和权重优化器1024。网络更新器1016可以被配置成修改神经网络1012的权重1014,以优化神经网络1012。例如,网络更新器1016可以通过神经网络1012馈送多批训练数据1006(每批包括一个或多个示例或例子),并且可以基于此种过程的输出来优化神经网络1012。

批处理器1018可以包括组件、子系统、模块、脚本、应用程序、或者一组或多组处理器可执行指令,该指令用于确定多批训练数据1006以传递通过或传播通过神经网络1012。这些批可以包括预定数目的训练数据的例子或示例,每个例子对应于多个基因片段中的相应基因片段,并且包括指示相应基因片段中的一个或多个位置的等位基因频率的数据。可以随机地确定包括在该批中的例子。

批处理器1018可以包括被配置成生成合成例子的例子合成器1020。例如,批处理器1018从训练数据1006选择两个例子。这可以随机地进行,并且从训练数据1006挑选该例子中的一个(例如第二例子),使得由真实性数据1010保证其具有全染色体或区域性非整倍性。例如,例子合成器1020可以确定第二例子具有全染色体或区域性非整倍性,并且可以基于该确定来选择第二例子。例子合成器1020在第二例子的非整倍性区域内选择(例如随机地)可以具有某一最小长度的片段,并且用来自第二例子的数据来替代来自第一例子的相应的测序或阵列数据。由来自第二例子的数据从第一例子替代的数据可以对应于选自第二例子的非整倍性片段的基因组位置。例子合成器1020可以选择性地(例如,随机地或基于其他标准)使第一例子不变地通过系统,使得在训练期间也可以使用未改变的例子来训练网络。例子合成器1020可以修改真实性数据1010,使得当例子在神经网络的训练阶段期间作为含有合成示例和未改变示例的混合物的较大批的一部分提交给该网络时,插入的片段被计为修改过的第一例子中的非整倍性片段。在选择过程期间,批处理器1018选择例子,使得存在于真实性集中的测序或阵列数据统计或者针对两个示例计算出的其他测序或阵列数据统计在设置范围内是相似的。在来自孕妇的血浆的例子中,这可能包括两个例子,它们被选择用于产生可能具有相似胎儿分数统计的合成测序或阵列数据。在训练期间,在每个时期或周期期间再次重复此程序。

损失计算器1022可以被配置成使用损失函数或损失公式来确定基于真实性数据1010并基于神经网络1012的输出的一个或多个损失值。例如,损失公式包括交叉熵公式。损失计算器1022可以计算整个批的损失,例如,作为包括在该批中的每个例子的单个损失的平均值或总和。

权重优化器1024被配置成基于例如由损失计算器1022确定的损失值来优化权重1014和/或以其他方式修改神经网络1012。权重优化器1024可以使用例如随机梯度下降优化的修改型或者另一适当的优化过程来修改权重1014。在一些实施例中,权重优化器1024使用具有动量的随机梯度下降样算法(例如,本文描述的Adam算法,并且将学习速率设置为约0.0001。在一些实施例中,权重优化器1024使用小批量梯度下降和动量类型优化。

现在参照图11,图11是示出调用目标基因区域的倍性状态的示例方法的流程图。该方法包括过程1102至过程1110。概括地说,在过程1102中,倍性调用系统1000针对训练样本确定多个基因位置的基因测序数据或基因阵列数据。在过程1104中,倍性调用系统1000基于基因测序数据或基因阵列数据来确定多个基因片段的相应真实性倍性状态值。在过程1106中,倍性调用系统1000确定用于调用相应倍性状态值的神经网络,该神经网络至少部分地由多个权重定义。在过程1108中,倍性调用系统1000迭代地修改神经网络直到满足退出条件为止。在过程1110中,针对测试样本,倍性调用系统1000通过经由修改过的神经网络传播测试样本的基因测序数据或测试样本的基因阵列数据来调用目标基因区域的倍性状态。

更详细地,在过程1102中,倍性调用系统1000针对训练样本确定多个基因位置的基因测序数据或基因阵列数据。基因测序数据或基因阵列数据可以包括应用下一代测序(NGS)的Cyto12b阵列或靶向单核苷酸多态性(SNP)池。基因测序数据可以包括一个或多个目标的数个读取或读取计数。例如,Cyto12b阵列可以具有横跨所有染色体的大约300万个(此处写成约300k)SNP目标,并且各种NGS池例如可以具有较小的靶向SNP组,范围从数百个基因组位置到几万或几十万个SNP。用于生成训练数据1006的训练样本可以包括例如来自胚胎的一个或多个细胞、以及来自胚胎父母的任选基因组样本。在一些实施例中,训练样本可以包括来自孕妇的血浆样本(例如,关于胎儿,通过无创性液体活检获得)。

在过程1104中,倍性调用系统1000使用注释器1008基于基因测序数据或基因阵列数据来确定多个基因片段的相应真实性倍性状态值,该注释器可以将经验性算法和第一主算法应用于训练数据以对训练数据进行注释(例如,以对训练数据进行分类),以生成真实性数据1010。真实性数据1010可以用作参考数据,并且可以被假设成指示例如已分析样本的准确分类。真实性数据1010可以包括从胚胎或胎儿鉴定为处于整倍性状态、或者数个非整倍性状态之一的每个染色体的分类和似然度。在一些实施例中,注释器1008与手工注释结合使用以生成真实性数据1010。在一些实施例中,可以省略注释器1008,并且以一些其他方式(诸如借助于手工注释、或通过参考外部数据库)确定真实性数据1010。

在过程1106中,倍性调用系统1000确定用于调用相应倍性状态值的神经网络(例如神经网络1012),该神经网络至少部分地由多个权重定义。神经网络1012可以输出指示倍性状态的分类信息。神经网络1012可以包括一个或多个层。例如,神经网络1012可以包括多个卷积、激活和池化层(例如,减小输入向量的大小,并且以附加通道的形式提取相关特征)。神经网络1012可以包括一个或多个系列。神经网络1012可以包括最终分对数层,其尺寸为N×k,其中k是所需分类中的类别的数目(例如,k=2表示两个类别:整倍性状态和非整倍性状态)。在一些实施例中,神经网络1012的最终输出可以是单个变量,该单个变量旨在指示在真实性集中可得到的、诸如母亲血浆中的胎儿分数之类的统计量。神经网络1012可以实施“elu”激活函数或“ReLu”激活函数。

在过程1108中,倍性调用系统1000迭代地修改(例如,使用网络更新器1016)神经网络,直到满足退出条件为止。网络更新器1016可以被配置成修改神经网络1012的权重1014,以优化神经网络1012。例如,网络更新器1016可以通过神经网络1012馈送多批训练数据1006(每批包括一个或多个示例或例子),并且可以基于此种过程的输出来优化神经网络1012(例如,通过最小化损失函数)。迭代地修改神经网络的示例实施方案示出在图12中。

在过程1110中,针对测试样本,倍性调用系统1000通过经由修改过的神经网络传播测试样本的基因测序数据或测试样本的基因阵列数据来调用目标基因区域的倍性状态。在一些实施例中,网络输出是分类向量(诸如(x,y)),其中x和y的数值非负数值之和为1,并且其中x>>y指示整倍性分类,并且y>>x指示胚胎的非整倍性分类。例如,如果x值比y值大预定量(在一些实施例中,该预定量可以为零或负数量),则系统可以将样本分类为整倍性,并且如果y值比x值大预定量(在一些实施例中,该预定量可以为零或负数量),则系统可以将样本分类为显示非整倍性。

现在参照图12,图12是示出修改神经网络的示例方法的流程图。可以迭代地使用该示例方法来优化神经网络。该方法包括过程1202至过程1210。概括地说,在过程1202中,倍性调用系统1000确定包含多个例子的一批数据。在过程1204中,倍性调用系统1000基于该批的多个例子中的一个或多个来生成合成例子,并且将该合成例子包括在该批中以生成扩充的一批。在过程1206中,倍性调用系统1000基于该合成例子来扩充真实性状态值。在过程1208中,倍性调用系统1000经由神经网络传播该批数据,以生成包含每个例子的一个或多个相应状态值的网络输出。在过程1210中,倍性调用系统1000基于该网络输出来修改多个权重中的一个或多个。

更详细地,在过程1202中,倍性调用系统1000确定(例如,使用批处理器1018)包含多个例子的一批数据。批处理器1018可以包括组件、子系统、模块、脚本、应用程序、或者一组或多组处理器可执行指令,该指令用于确定多批训练数据以传递通过或传播通过神经网络。这些批可以包括预定数目的训练数据的例子或示例,每个例子对应于多个基因片段中的相应基因片段,并且包括指示相应基因片段中的一个或多个位置的等位基因频率的数据。可以随机地确定包括在该批中的例子。

在过程1204中,倍性调用系统1000基于该批的多个例子中的一个或多个来生成(例如,使用例子合成器1020)合成例子,并且将该合成例子包括在该批中以生成扩充的一批。例如,批处理器1018从训练数据1006选择两个例子。这可以随机地进行,并且从训练数据挑选该例子中的一个(例如第二例子),使得由真实性数据保证其具有全染色体或区域性非整倍性。例如,例子合成器1020可以确定第二例子具有全染色体或区域性非整倍性,并且可以基于该确定来选择第二例子。例子合成器1020在第二例子的非整倍性区域内选择(例如随机地)可以具有某一最小长度的片段,并且用来自第二例子的数据来替代来自第一例子的相应的测序或阵列数据。由来自第二例子的数据从第一例子替代的数据可以对应于选自第二例子的非整倍性片段的基因组位置。例子合成器1020可以选择性地(例如,随机地或基于其他标准)使第一例子不变地通过系统,使得在训练期间也可以使用未改变的例子来训练网络。在选择过程期间,批处理器1018选择例子,使得存在于真实性集中的测序或阵列数据统计或者针对两个示例计算出的其他测序或阵列数据统计在设置范围内是相似的。在来自孕妇的血浆的例子中,这可能包括两个例子,该两个例子被选择用于产生可能具有相似胎儿分数统计的合成测序或阵列数据。在训练期间,在每个时期或周期期间再次重复此程序。

在过程1206中,倍性调用系统1000基于合成例子来扩充真实性状态值。例子合成器1020可以修改真实性数据1010,使得当例子在神经网络的训练阶段期间作为含有合成示例和未改变示例的混合物的较大批的一部分提交给该网络时,插入的片段被计为修改过的第一例子中的非整倍性片段。

在过程1208中,倍性调用系统1000经由神经网络传播该批数据,以生成包含每个例子的一个或多个相应状态值的网络输出。在过程1210中,倍性调用系统1000基于该网络输出来修改多个权重中的一个或多个。这可以例如使用权重优化器1024并基于例如由损失计算器1022确定的损失值来实施。权重优化器1024可以使用例如随机梯度下降优化的修改型或者另一适当的优化过程来修改神经网络的权重。在一些实施例中,权重优化器1024使用具有动量的随机梯度下降样算法(例如,本文描述的Adam算法),并且将学习速率设置为约0.0001。在一些实施例中,权重优化器1024使用小批量梯度下降和动量类型优化。因此,倍性调用系统1000可以训练神经网络。

样本制备

在一些实施例中,可以使用本文描述的系统和方法来调用生物样本的倍性状态。生物样本可以是胎儿、母体或父体。生物样本可以选自血液、血清、血浆、尿液和活检样本。在一些实施例中,从分离的无细胞DNA扩增出至少10、或至少20、或至少50、或至少100、或至少200、或至少500或至少1,000个SNV基因座。在一些实施例中,以至少200、或至少500、或至少1,000、或至少2,000、或至少5,000、或至少10,000、或至少20,000、或至少50,000、或至少100,000的读取深度对扩增产物进行测序。样本的制备或处理可以包括:从受试者的生物样本分离无细胞DNA、从分离的无细胞DNA扩增包含多个目标碱基的多个单核苷酸变体(SNV)基因座、以及对扩增产物进行测序以获得基因测序数据。一些实施例包括纵向地收集和分析来自患者的多个生物样本。

检测癌症的方法

在进一步的方面,本公开提供了一种用于将样本分类为癌性的方法,该方法包含:从受试者的生物样本分离无细胞DNA;从分离的无细胞DNA扩增包含多个目标碱基的多个单核苷酸变体(SNV)基因座或片段,其中已知该SNV基因座或片段是与癌症相关联的;对扩增产物进行测序;以及使用本文描述的一种或多种过程(例如,利用以本文描述的方式训练的神经网络,该神经网络可以利用标记的、扩充的和/或合成的训练数据)来将样本分类为癌性。在一些实施例中,多个单核苷酸变异基因座选自在用于癌症的TCGA和COSMIC数据集中鉴定的SNV基因座。

一些实施例包括:进行多重扩增反应以从分离的无细胞DNA扩增包含多个目标碱基的多个单核苷酸变体(SNV)基因座,其中SNV基因座是与受试者已接受治疗的癌症相关联的患者特异性SNV基因座;以及对扩增产物进行测序以获得多个目标碱基的序列读取。在一些实施例中,多重扩增反应扩增了与受试者已接受治疗的癌症相关联的至少4、或至少8、或至少16、或至少32、或至少64、或至少128个患者特异性SNV基因座。

术语“癌症”和“癌性”是指或描述通常以细胞生长失控为特征的动物生理状况。“肿瘤”包含一个或多个癌性细胞。有若干主要类型的癌症。恶性上皮肿瘤是开始于皮肤或者开始于连接或覆盖体内器官的组织的癌症。肉瘤是开始于骨骼、软骨、脂肪、肌肉、血管、或者其他结缔组织或支持组织的癌症。白血病是开始于诸如骨髓之类的造血组织并导致大量异常血细胞产生并进入血液的癌症。淋巴瘤和多发性骨髓瘤是开始于免疫系统细胞的癌症。中枢神经系统癌症是开始于脑组织和脊髓组织的癌症。

在一些实施例中,癌症包含急性淋巴细胞白血病;急性髓性白血病;肾上腺皮质癌;艾滋病相关癌症;艾滋病相关淋巴瘤;肛门癌;阑尾癌;星形细胞瘤;非典型畸胎瘤样/横纹肌样瘤;基底细胞癌;膀胱癌;脑干胶质细胞瘤;脑肿瘤(包括脑干胶质细胞瘤、中枢神经系统非典型畸胎瘤样/横纹肌样瘤、中枢神经系统胚胎性肿瘤、星形细胞瘤、颅咽管瘤、成室管膜细胞瘤、室管膜瘤、髓母细胞瘤、髓质上皮瘤、中度分化的松果体实质细胞瘤、幕上原始神经外胚层肿瘤和松果体母细胞瘤);乳腺癌;支气管肿瘤;伯基特淋巴瘤;原发部位不明癌;类癌;原发灶不明癌;中枢神经系统非典型畸胎瘤样/横纹肌样瘤;中枢神经系统胚胎性肿瘤;宫颈癌;儿童期癌症;脊索瘤;慢性淋巴细胞性白血病;慢性髓细胞性白血病;慢性骨髓增殖性疾病;结肠癌;结直肠癌;颅咽管瘤;皮肤T细胞淋巴瘤;内分泌胰岛细胞瘤;子宫内膜癌;成室管膜细胞瘤;室管膜瘤;食道癌;鼻腔神经胶质瘤;尤文氏肉瘤;颅外生殖细胞肿瘤;性腺外生殖细胞肿瘤;肝外胆管癌;胆囊癌;胃癌;胃肠道类癌瘤;胃肠道间质细胞瘤;胃肠道间质瘤(GIST);妊娠滋养细胞肿瘤;胶质瘤;毛细胞白血病;头颈癌;心脏肿瘤;霍奇金淋巴瘤;下咽癌;眼内黑色素瘤;胰岛细胞瘤;卡波济肉瘤;肾癌;朗格汉斯细胞组织细胞增生症;喉癌;唇癌;肝癌;恶性纤维组织细胞瘤;骨癌;髓母细胞瘤;髓上皮瘤;黑色素瘤;Merkel细胞癌;皮肤Merkel细胞癌;间皮瘤;原发灶隐匿转移性颈部鳞状癌;口腔癌;多发性内分泌腺瘤综合征;多发性骨髓瘤;多发性骨髓瘤/浆细胞瘤;蕈样肉芽肿病;骨髓增生异常综合征;骨髓增殖性肿瘤;鼻腔癌;鼻咽癌;成神经细胞瘤;非霍奇金淋巴瘤;非黑色素瘤皮肤癌;非小细胞肺癌;口腔癌(oral cancer);口腔癌(oral cavity cancer);口咽癌;骨肉瘤;其他脑肿瘤和脊髓肿瘤;卵巢癌;卵巢上皮癌;卵巢生殖细胞肿瘤;低度潜在恶性卵巢肿瘤;胰腺癌;乳头状瘤病;鼻旁窦恶性肿瘤;甲状旁腺癌;盆腔癌;阴茎癌;鼻咽癌;中度分化的松果体实质细胞瘤;松果体母细胞瘤;垂体瘤;浆细胞肿瘤/多发性骨髓瘤;胸膜肺母细胞瘤;原发性中枢神经系统(CNS)淋巴瘤;原发性肝细胞癌;前列腺癌;直肠癌;肾癌;肾细胞(肾脏)癌;肾细胞癌;呼吸道癌症;视网膜母细胞瘤;横纹肌肉瘤;唾液腺癌;塞扎里综合征;小细胞肺癌;小肠癌;软组织肉瘤;鳞状细胞癌;颈部鳞状细胞癌;胃癌;幕上原始神经外胚层肿瘤;T细胞淋巴瘤;睾丸癌;咽喉癌;胸腺癌;胸腺瘤;甲状腺癌;移行细胞癌;肾盂和输尿管移行细胞癌;滋养细胞肿瘤;输尿管癌;尿道癌;子宫癌;子宫肉瘤;阴道癌;外阴癌;华氏巨球蛋白血症;或肾母细胞瘤。

在某些示例中,该方法包括在该组单核苷酸变异基因座的每一个处鉴定用于每个等位基因确定的置信值,该置信值可以至少部分地基于该基因座的读取深度。置信限可以设置为至少75%、80%、85%、90%、95%、96%、96%、98%或99%。可以针对不同类型的突变将置信限设置为不同级别。

在本文包括ctDNA SNV扩增/测序工作流程的用于检测SNV的任何方法中,均可以采用用于多重PCR的改进的扩增参数。例如,其中扩增反应是PCR反应,并且退火温度在高于范围低端解链温度的1、2、3、4、5、6、7、8、9或10℃至引物组的至少10、20、25、30、40、50、06、70、75、80、90、95或100%引物的范围高端的2、3、4、5、6、7、8、9、10、11、12、13、14或15℃之间。

在某些实施例中,其中扩增反应是PCR反应,PCR反应中退火步骤的长度在范围低端的10、15、20、30、45和60分钟至范围高端的15、20、30、45、60、120、180或240分钟之间。在某些实施例中,扩增(诸如PCR反应)中的引物浓度在1至10nM之间。此外,在示例性实施例中,引物组中的引物被设计成使引物二聚体的形成最小化。

因此,在本文包括扩增步骤的任何方法的示例中,扩增反应是PCR反应,退火温度比引物组中的至少90%的引物的解链温度高1至10℃,PCR反应中退火步骤的长度在15至60分钟之间,扩增反应中的引物浓度在1至10nM之间,并且引物组中的引物被设计成使引物二聚体的形成最小化。在该示例的进一步方面,多重扩增反应在限制性引物条件下进行。

在某些说明性实施例中,在本发明方法中分析的样本是血液样本或其一部分。在某些实施例中,本文提供的方法特别适合于扩增DNA片段,特别是存在于循环肿瘤DNA(ctDNA)中的肿瘤DNA片段。此类片段的长度通常约为160个核苷酸。

本领域已知,可以借助于各种形式的细胞死亡(诸如细胞凋亡、坏死、自噬和坏死性凋亡)将无细胞核酸(例如,cfDNA)释放到循环中。将cfDNA进行片段化,并且片段的尺寸分布从150-350bp至>10000bp变化。(参见Kalnina等人,《世界胃肠病学杂志(World JGastroenterol)》2015年11月7日;21(41):11636–11653)。例如,肝细胞癌(HCC)患者血浆DNA片段的尺寸分布范围为100-220bp长度,计数频率的峰值约为166bp,并且片段最大肿瘤DNA浓度为150-180bp长度(参见:Jiang等人,《美国国家科学院院刊(Proc Natl Acad SciUSA)》112:E1317–E1325)。

在说明性实施例中,在通过离心将细胞碎片和血小板去除之后,使用EDTA-2Na管来从血液分离循环肿瘤DNA(ctDNA)。可以将血浆样本储存在-80℃下直到使用例如QIAampDNA Mini Kit(德国希尔登(Hilden)Qiagen)提取DNA为止(例如,Hamakawa等人,《英国癌症杂志(Br J Cancer)》2015;112:352-356)。Hamakava等人报告,所有样本中的所提取的无细胞DNA的中值浓度为每ml血浆43.1ng(范围为9.5-1338ng ml/),并且突变体部分的范围为0.001-77.8%,中位数为0.90%。

在某些实施例中,本说明书的方法包括从样本生成核酸文库并对其进行扩增的步骤(即,文库制备)。在文库制备步骤期间来自样本的核酸可以具有附加的连接衔接子,通常被称为文库标签或连接接头标签(LT),其中连接衔接子含有通用引物序列,随后进行通用扩增。在实施例中,这可以使用被设计成在片段化后创建测序文库的标准协议来完成。在实施例中,可以将DNA样本进行平端化,并且然后可以在3'端处添加A。可以添加具有T形突出端的Y形接头并将其连接。在一些实施例中,可以使用除了A形或T形突出端以外的其他粘端。在一些实施例中,可以添加其他接头,例如环状连接接头。在一些实施例中,接头可以具有被设计成用于PCR扩增的标签。

本文提供的数个实施例包括检测ctDNA样本中的SNV。说明性实施例中的此类方法包括扩增步骤和测序步骤(在本文中有时被称为“ctDNA SNV扩增/测序工作流程”)。在说明性示例中,ctDNA扩增/测序工作流程可以包括:通过对从个体(诸如疑似患有癌症的个体)的血液或其部分的样本中分离的核酸进行多重扩增反应来生成一组扩增子,其中该组扩增子中的每个扩增子跨越一组单核苷酸变体基因座中的至少一个单核苷酸变体基因座,诸如已知与癌症相关联的SNV基因座;以及确定该组扩增子中的每个扩增子的至少一片段的序列,其中该片段包含单核苷酸变体基因座。以这种方式,该示例性方法确定了存在于样本中的单核苷酸变体。

更详细地,ctDNA SNV扩增/测序工作流程可以包括通过组合聚合酶、核苷酸三磷酸、来自由样本生成的核酸文库中的核酸片段、以及一组引物或一组引物对来形成扩增反应混合物,其中每个引物约束与单核苷酸变体基因座的有效距离,每个引物对跨越包括单核苷酸变体基因座的有效区域。在示例性实施例中,单核苷酸变体基因座是已知与癌症相关联的单核苷酸变体基因座。然后,将扩增反应混合物置于扩增条件下以生成一组扩增子,该组扩增子包含优选地已知与癌症相关联的一组单核苷酸变体基因座中的至少一个单核苷酸变体基因座;以及确定该组扩增子中的每个扩增子的至少一片段的序列,其中该片段包含单核苷酸变体基因座。

引物的有效结合距离可以在SNV基因座的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100、125或150个碱基对内。一对引物跨越的有效范围通常包括SNV,并且通常为160个碱基对或更小,并且可以为150、140、130、125、100、75、50或25个碱基对或更小。在其他实施例中,一对引物跨越的有效范围为范围低端的SNV基因座的20、25、30、40、50、60、70、75、100、110、120、125、130、140或150个核苷酸,以及范围高端的25、30、40、50、60、70、75、100、110、120、125、130、140、或150、160、170、175、或200。

引物尾巴可以改善对来自通用标签化文库的片段化DNA的检测。如果文库标签和引物尾巴含有同源序列,则只要引物目标序列的一部分在样本DNA片段中,就可以改善杂交(例如,降低解链温度(Tm))并且可以延伸引物。在一些实施例中,可以使用13个或更多个目标特异性碱基对。在一些实施例中,可以使用10至12个目标特异性碱基对。在一些实施例中,可以使用8至9个目标特异性碱基对。在一些实施例中,可以使用6至7个目标特异性碱基对。

在一个实施例中,文库从上文的样本通过将接头连接到样本中的DNA片段的端部、或连接到由从样本分离的DNA生成的DNA片段的端部来生成。然后,可以使用PCR例如根据以下示例性协议对这些片段进行扩增:95℃,2分钟;15x[95℃,20秒;55℃,20秒;68℃,20秒];68℃,2分钟;保持4℃。

用于生成核酸文库的许多试剂盒和方法在本领域是已知的,该核酸文库包括用于后续扩增(例如克隆扩增)和用于子序列测序的通用引物结合位点。为了帮助促进衔接子的连接,文库的制备和扩增可以包括端部修复和腺苷酸化(即,加A尾巴)。特别适合于从小核酸片段(特别是循环游离DNA)制备文库的试剂盒可以用于实践本文提供的方法。例如,可从Bioo Scientific()获得的NEXTflex Cell Free试剂盒、或者Natera Library Prep Kit(可从加利福尼亚州圣卡洛斯Natera公司获得)。然而,通常将会对此类试剂盒进行修改以包括针对本文提供的方法中的扩增和测序步骤定制的接头。可以使用可商购的试剂盒(诸如发现于AGILENT SURESELECT试剂盒(加利福尼亚州安捷伦(Agilent))中的连接试剂盒)来进行接头连接。

然后对由从样本分离的DNA(特别是用于本发明方法的循环游离DNA样本)生成的核酸文库的目标区域进行扩增。对于此扩增,所需的一系列引物或引物对可以包括在范围低端的5、10、15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000、50,000与范围高端的15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000、50,000、60,000、75,000或100,000个引物之间,其中每个均与一系列引物结合位点中的一个结合。

可以使用Primer3来生成引物设计(Untergrasser A,Cutcutache I,KoressaarT,Ye J,Faircloth BC,Remm M,Rozen SG(2012)“Primer3-新功能和接口(Primer3-newcapabilities and interfaces)”《核酸研究》(Nucleic Acids Research)40(15):e115和Koressaar T,Remm M(2007)“引物设计程序Primer3的增强和修改(Enhancements andmodifications of primer design program Primer3)”《生物信息学》(Bioinformatics)23(10):1289-91),源代码可以在primer3.sourceforge.net上找到)。可以通过BLAST来评估引物特异性,并且将其添加到现有的引物设计管线标准中:

可以使用ncbi-blast-2.2.29+软件包中的BLASTn程序来确定引物特异性。可以使用任务选项“blastn-short”来绘制针对hg19人类基因组的引物图。如果引物对基因组的命中少于100个,并且最高命中是基因组的目标互补引物结合区域,并且比其他命中高至少两分(分数由BLASTn程序定义),则可以将引物设计确定为“特异性”。这样做是为了对基因组产生唯一的命中,并且在整个基因组中没有许多其他的命中。

可以使用用于验证的bed文件和覆盖图在IGV(James T.Robinson,HelgaThorvaldsdóttir,Wendy Winckler,Mitchell Guttman,Eric S.Lander,Gad Getz,JillP.Mesirov,整合基因组学查看器(Integrative Genomics Viewer),《自然·生物技术》(Nature Biotechnology)29,24–26(2011))和UCSC浏览器(Kent WJ,Sugnet CW,Fury TS,Roskin KM,Pringle TH,Zahler AM,Haussler D,加州大学圣克鲁兹分校(UCSC)的人类基因组浏览器,《基因组研究》(Genome Res)2002年6月;12(6):996-1006)中可视化最终选择的引物。

在某些实施例中,本文描述的方法包括形成扩增反应混合物。通常通过组合聚合酶、核苷酸三磷酸、来自由样本生成的核酸文库中的核酸片段、对含有SNV的目标区域特异的一组正向和反向引物来形成反应混合物。本文提供的反应混合物自身在说明性实施例中形成了本发明单独的方面。

可用于本发明的扩增反应混合物包括本领域已知的用于核酸扩增(特别是用于PCR扩增)的组分。例如,反应混合物通常包括核苷酸三磷酸、聚合酶和镁。可用于本发明的聚合酶可以包括可以用于扩增反应的任何聚合酶,特别是可用于PCR反应的那些聚合酶。在某些实施例中,热启动Taq聚合酶是特别有用的。可用于实践本文提供的方法的扩增反应混合物(诸如AmpliTaq Gold预混液(加利福尼亚州卡尔斯巴德(Carlsbad)生命科技公司(Life Technologies))是可商购的。

PCR的扩增(例如,温度循环)条件是本领域众所周知的。本文提供的方法可以包括导致目标核酸(诸如来自文库的目标核酸)扩增的任何PCR循环条件。在本文的示例部分中提供了非限制性示例性循环条件。

进行PCR时可能有许多工作流程;本文提供了本文公开方法中的一些典型工作流程。本文概述的步骤并不意味着排除其他可能的步骤,也不暗示本文描述的任何步骤对于该方法正常工作都是必需的。大量的参数变化或其他修改在文献中是已知的,并且可以在不影响本发明的实质的情况下进行。

在本文提供的方法的某些实施例中,确定扩增子(诸如外部引物目标扩增子)的至少一部分,并且在说明性示例中确定其整个序列。用于确定扩增子序列的方法是本领域已知的。本领域已知的任何测序方法(例如桑格测序(Sanger Sequencing))可以用于此种序列确定。在说明性实施例中,高通量下一代测序技术(在本文中也被称为大规模并行测序技术)(诸如但不限于在MYSEQ(因美纳(ILLUMINA))、HISEQ(因美纳)、ION TORRENT(生命科技公司)、GENOME ANALYZER ILX(因美纳)、GS FLEX+(罗氏公司(ROCHE)454)中所采用的那些技术)可以用于对通过本文提供的方法产生的扩增子进行测序。

高通量基因测序仪适合于使用条形码(即,用独特的核酸序列标记样本),以便鉴定来自个体的特定样本,从而允许在DNA测序仪的单次运行中同时分析多个样本。文库制备(或其他感兴趣的核酸制备)中基因组给定区域被测序的次数(读取的数目)将与感兴趣的基因组中该序列的拷贝数(或在含有制剂的cDNA的例子中的表达水平)成正比。在此种定量测定中可以将扩增效率的偏差考虑在内。

目标基因。在示例性实施例中,本发明的目标基因是癌症相关基因,并且在许多示例性实施例中,是癌症相关基因。癌症相关基因是指与癌症风险改变或癌症预后改变相关联的基因。促进癌症的示例性癌症相关基因包括:癌基因;增强细胞增殖、侵袭或转移的基因;抑制细胞凋亡的基因;以及促血管生成基因。抑制癌症的癌症相关基因包括但不限于:肿瘤抑制基因;抑制细胞增殖、侵袭或转移的基因;促进细胞凋亡的基因;以及抗血管生成基因。

调用倍性状态的方法的实施例开始于选择成为目标的基因区域或基因座区域。使用具有已知突变的区域来开发用于mPCR-NGS的引物,以扩增和检测突变。

本文提供的方法实际上可以用于检测任何类型的突变(包括已知与癌症相关联的突变),并且最为特别的是,本文提供的方法涉及与癌症相关联的突变,尤其是SNV。示例性SNV可以存在于以下基因的一个或多个中:EGFR、FGFR1、FGFR2、ALK、MET、ROS1、NTRK1、RET、HER2、DDR2、PDGFRA、KRAS、NF1、BRAF、PIK3CA、MEK1、NOTCH1、MLL2、EZH2、TET2、DNMT3A、SOX2、MYC、KEAP1、CDKN2A、NRG1、TP53、LKB1和PTEN,它们已在各种肺癌样本中被鉴定为产生突变、拷贝数增加、或与其他基因及其组合融合(非小细胞肺癌:一组异质性疾病(Non-small-cell lung cancers:a heterogeneous set of diseases),Chen等人,《自然·评论癌症》(Nat.Rev.Cancer),2014年8月14(8):535-551)。在另一示例中,基因列表是上文列出的那些,其中已经报道了诸如在引用的Chen等人的参考文献中的SNV。

其他示例性多态性或突变存在于以下基因的一个或多个中:TP53、PTEN、PIK3CA、APC、EGFR、NRAS、NF2、FBXW7、ERBBs、ATAD5、KRAS、BRAF、VEGF、EGFR、HER2、ALK、p53、BRCA、BRCA1、BRCA2、SETD2、LRP1B、PBRM、SPTA1、DNMT3A、ARID1A、GRIN2A、TRRAP、STAG2、EPHA3/5/7、POLE、SYNE1、C20orf80、CSMD1、CTNNB1、ERBB2。FBXW7、KIT、MUC4、ATM、CDH1、DDX11、DDX12、DSPP、EPPK1、FAM186A、GNAS、HRNR、KRTAP4-11、MAP2K4、MLL3、NRAS、RB1、SMAD4、TTN、ABCC9、ACVR1B、ADAM29、ADAMTS19、AGAP10、AKT1、AMBN、AMPD2、ANKRD30A、ANKRD40、APOBR、AR、BIRC6、BMP2、BRAT1、BTNL8、C12orf4、C1QTNF7、C20orf186、CAPRIN2、CBWD1、CCDC30、CCDC93、CD5L、CDC27、CDC42BPA、CDH9、CDKN2A、CHD8、CHEK2、CHRNA9、CIZ1、CLSPN、CNTN6、COL14A1、CREBBP、CROCC、CTSF、CYP1A2、DCLK1、DHDDS、DHX32、DKK2、DLEC1、DNAH14、DNAH5、DNAH9、DNASE1L3、DUSP16、DYNC2H1、ECT2、EFHB、RRN3P2、TRIM49B、TUBB8P5、EPHA7、ERBB3、ERCC6、FAM21A、FAM21C、FCGBP、FGFR2、FLG2、FLT1、FOLR2、FRYL、FSCB、GAB1、GABRA4、GABRP、GH2、GOLGA6L1、GPHB5、GPR32、GPX5、GTF3C3、HECW1、HIST1H3B、HLA-A、HRAS、HS3ST1、HS6ST1、HSPD1、IDH1、JAK2、KDM5B、KIAA0528、KRT15、KRT38、KRTAP21-1、KRTAP4-5、KRTAP4-7、KRTAP5-4、KRTAP5-5、LAMA4、LATS1、LMF1、LPAR4、LPPR4、LRRFIP1、LUM、LYST、MAP2K1、MARCH1、MARCO、MB21D2、MEGF10、MMP16、MORC1、MRE11A、MTMR3、MUC12、MUC17、MUC2、MUC20、NBPF10、NBPF20、NEK1、NFE2L2、NLRP4、NOTCH2、NRK、NUP93、OBSCN、OR11H1、OR2B11、OR2M4、OR4Q3、OR5D13、OR8I2、OXSM、PIK3R1、PPP2R5C、PRAME、PRF1、PRG4、PRPF19、PTH2、PTPRC、PTPRJ、RAC1、RAD50、RBM12、RGPD3、RGS22、ROR1、RP11-671M22.1、RP13-996F3.4、RP1L1、RSBN1L、RYR3、SAMD3、SCN3A、SEC31A、SF1、SF3B1、SLC25A2、SLC44A1、SLC4A11、SMAD2、SPTA1、ST6GAL2、STK11、SZT2、TAF1L、TAX1BP1、TBP、TGFBI、TIF1、TMEM14B、TMEM74、TPTE、TRAPPC8、TRPS1、TXNDC6、USP32、UTP20、VASN、VPS72、WASH3P、WWTR1、XPO1,、ZFHX4、ZMIZ1、ZNF167、ZNF436、ZNF492、ZNF598、ZRSR2、ABL1、AKT2、AKT3、ARAF、ARFRP1、ARID2、ASXL1、ATR、ATRX、AURKA、AURKB、AXL、BAP1、BARD1、BCL2、BCL2L2L2、BCL6、BCOR、BCORL1、BLM、BRIP1、BTK、CARD11、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD79A、CD79B、CD73、CDK12、CDK4、CDK6、CDK8、CDKN1B、CDKN2B、CDKN2C、CEBPA、CHEK1、CIC、CRKL、CRLF2、CSF1R、CTCF、CTNNA1、DAXX、DDR2、DOT1L、EMSY(C11orf30)、EP300、EPHA3、EPHA5、EPHB1、ERBB4,ERG、ESR1、EZH2、FAM123B(WTX)、FAM46C、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCL、FGF10、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGFR1、FGFR2、FGFR3、FGFR4、FLT3、FLT4、FOXL2、GATA1、GATA2、GATA3、GID4(C17orf39)、GNA11、GNA13、GNAQ、GNAS、GPR124、GSK3B、HGF、IDH1、IDH2、IGF1R、IKBKE、IKZF1、IL7R、INHBA、IRF4、IRS2、JAK1、JAK3、JUN、KAT6A(MYST3)、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KLHL6、MAP2K2、MAP2K4、MAP3K1、MCL1、MDM2、MDM4、MED12、MEF2B、MEN1、MET、MITF、MLH1、MLL、MLL2、MPL、MSH2、MSH6、MTOR、MUTYH、MYC、MYCL1、MYCN、MYD88、NF1、NFKBIA、NKX2-1、NOTCH1、NPM1、NRAS、NTRK1、NTRK2、NTRK3、PAK3、PALB2、PAX5、PBRM1、PDGFRA、PDGFRB、PDK1、PIK3CG、PIK3R2、PPP2R1A、PRDM1、PRKAR1A、PRKDC、PTCH1、PTPN11、RAD51、RAF1、RARA、RET、RICTOR、RNF43、RPTOR、RUNX1、SMARCA4、SMARCB1、SMO、SOCS1、SOX10、SOX2、SPEN、SPOP、SRC、STAT4、SUFU、TET2、TGFBR2、TNFAIP3、TNFRSF14、TOP1、TP53、TSC1、TSC2、TSHR、VHL、WISP3、WT1、ZNF217、ZNF703、以及它们的组合(Su等人,《分子诊断学杂志(JMol Diagn)》2011,13:74-84;DOI:10.1016/j.jmoldx.2010.11.010;以及Abaan等人,“NCI-60板图的外显子组:癌症生物学和系统药理学的基因组资源(The Exomes of the NCI-60Panel:A Genomic Resource for Cancer Biology and Systems Pharmacology)”,《癌症研究》(Cancer Research),2013年7月15日,它们各自的全部内容通过引用并入于此)。示例性的多态性或突变可以存在于以下microRNA的一个或多个中:miR-15a、miR-16-1、miR-23a、miR-23b、miR-24-1、miR-24-2、miR-27a、miR-27b、miR-29b-2、miR-29c、miR-146、miR-155、miR-221、miR-222和miR-223(Calin等人,“与慢性淋巴细胞白血病预后和进展相关联的microRNA信号(A microRNA signature associated with prognosis and progressionin chronic lymphocytic leukemia)”,《新英格兰医学杂志》(N Engl J Med)353:1793–801,2005,其全部内容通过引用并入于此)。

扩增(例如PCR)反应混合物

在某些实施例中,本说明书的方法包括形成扩增反应混合物。通常通过组合聚合酶、核苷酸三磷酸、来自由样本生成的核酸文库中的核酸片段、一系列正向目标特异性外部引物、以及第一链反向外部通用引物来形成反应混合物。另一说明性实施例是一种反应混合物,该反应混合物包括正向目标特异性内部引物而不是正向目标特异性外部引物以及来自使用外部引物进行的第一PCR反应的扩增子而不是来自核酸文库的核酸片段。本文提供的反应混合物自身在说明性实施例中形成了本发明单独的方面。在说明性实施例中,反应混合物是PCR反应混合物。PCR反应混合物通常包括镁。

在一些实施例中,反应混合物包括乙二胺四乙酸(EDTA)、镁、四甲基氯化铵(TMAC)、或它们的任何组合。在一些实施例中,TMAC的浓度在20至70mM之间,包括端点值。尽管不意味着要受任何特定理论的束缚,但是据信,TMAC与DNA结合,使双链体稳定,增加引物特异性和/或使不同引物的解链温度均衡。在一些实施例中,TMAC增加了用于不同目标的扩增产物的量的均匀性。在一些实施例中,镁(诸如来自氯化镁的镁)的浓度在1至8mM之间。

用于大量目标的多重PCR的大量引物可能会与大量的镁螯合(引物中的2个磷酸盐与1个镁螯合)。例如,如果使用了足够的引物,使得引物中磷酸盐的浓度为约9mM,则引物可以使有效镁浓度降低约4.5mM。在一些实施例中,由于高浓度的镁可能会导致PCR错误(诸如非目标基因座的扩增),因此使用EDTA来减少可用作聚合酶的辅因子的镁的量。在一些实施例中,EDTA的浓度将可用的镁的量减少到1至5mM之间(诸如3至5mM之间)。

在一些实施例中,pH在7.5至8.5之间,诸如在7.5至8、8至8.3、或8.3至8.5之间,包括端点值。在一些实施例中,三羟甲基氨基甲烷的使用浓度例如在10至100mM之间,诸如在10至25mM、25至50mM、50至75mM、或25至75mM之间,包括端点值。在一些实施例中,在7.5至8.5之间的pH下使用任何这些浓度的三羟甲基氨基甲烷。在一些实施例中,使用KCl和(NH

在一些实施例中,使用拥挤剂,诸如聚乙二醇(PEG,诸如PEG 8,000)或丙三醇。在一些实施例中,PEG(诸如PEG 8,000)的量在0.1至20%之间,诸如在0.5至15%、1至10%、2至8%、或4至8%之间,包括端点值。在一些实施例中,丙三醇的量在0.1至20%之间,诸如在0.5至15%、1至10%、2至8%、或4至8%之间,包括端点值。在一些实施例中,拥挤剂允许使用低聚合酶浓度和/或较短的退火时间。在一些实施例中,拥挤剂改善DOR的均匀性和/或减少丢失(未检测到的等位基因)。

在一些实施例中,使用具有校对活性的聚合酶、不具有(或具有可忽略的)校对活性的聚合酶、或者具有校对活性的聚合酶与不具有(或具有可忽略的)校对活性的聚合酶的混合物。在一些实施例中,使用热启动聚合酶、非热启动聚合酶、或者热启动聚合酶与非热启动聚合酶的混合物。在一些实施例中,使用HotStarTaq DNA聚合酶(参见,例如,QIAGEN目录号203203)。在一些实施例中,使用AmpliTaq

在一些实施例中,使用在5至600单位/mL(每1mL反应体积的单位)之间的聚合酶,诸如在5至100、100至200、200至300、300至400、400至500、或500至600单位/mL之间,包括端点值。

PCR方法。在一些实施例中,在PCR热循环之前使用热启动PCR来减少或防止聚合。示例性的热启动PCR方法包括DNA聚合酶的初始抑制,或对反应组分反应进行物理分离直到反应混合物达到更高的温度。在一些实施例中,使用镁的缓慢释放。由于DNA聚合酶需要镁离子才能发挥活性,因此镁通过与化合物结合而从反应中化学地分离,并且仅在高温下释放到溶液中。在一些实施例中,使用抑制剂的非共价结合。在此方法中,肽、抗体或适体在低温下与酶非共价地结合,并且抑制其活性。在高温下温育之后,释放抑制剂,并且开始反应。在一些实施例中,使用冷敏性Taq聚合酶,诸如在低温下几乎没有活性的修饰过的DNA聚合酶。在一些实施例中,使用化学修饰。在此方法中,分子共价地结合到DNA聚合酶活性位点的氨基酸侧链上。通过在高温下温育反应混合物,使得分子从酶中释放出来。分子释放后,酶即被激活。

在一些实施例中,模板核酸(诸如RNA或DNA样本)的量在20至5,000ng之间,诸如在20至200、200至400、400至600、600至1,000;1,000至1,500;或2,000至3,000ng之间,包括端点值。

在一些实施例中,使用QIAGEN多重PCR试剂盒(QIAGEN目录号206143)。对于100x50μl多重PCR反应,该试剂盒包括2xQIAGEN多重PCR Master Mix(其提供3mM MgCl2的最终浓度,3x0.85ml)、5xQ-溶液(1x2.0ml)和无核糖核酸酶的水(RNase-Free Water)(2x1.7ml)。QIAGEN多重PCR Master Mix(MM)含有KCl和(NH

在一些实施例中,在20ul最终体积中使用了1xQIAGEN MM最终浓度(推荐浓度)、7.5nM文库中每种引物、50mM TMAC和7ul DNA模板。在一些实施例中,PCR热循环条件包括:95℃持续10分钟(热启动);96℃持续30秒的20次循环;65℃持续15分钟;并且72℃持续30秒;随后72℃持续2分钟(最后延伸);然后保持在4℃。

在一些实施例中,在20ul总体积中使用了2xQIAGEN MM最终浓度(两倍推荐浓度)、2nM文库中每种引物、70mM TMAC和7ul DNA模板。在一些实施例中,还包括高达4mM的EDTA。在一些实施例中,PCR热循环条件包括:95℃持续10分钟(热启动);96℃持续30秒的25次循环;65℃持续20、25、30、45、60、120或180分钟;并且任选地72℃持续30秒;随后72℃持续2分钟(最后的延伸);然后保持在4℃。

另一组示例性条件包括半套式PCR方案。第一PCR反应使用20ul反应体积,其具有2xQIAGEN MM最终浓度、1.875nM文库中每种引物(外部正向引物和反向引物)以及DNA模板。热循环参数包括:95℃持续10分钟;96℃持续30秒的25次循环;65℃持续1分钟;58℃持续6分钟;60℃持续8分钟;65℃持续4分钟;并且72℃持续30秒;随后72℃持续2分钟;然后保持在4℃。接下来,将1:200稀释的2ul所得产物用作第二PCR反应的输入。此反应使用10ul反应体积,其具有1xQIAGEN MM最终浓度、20nM每种内部正向引物、以及1uM反向引物标签。热循环参数包括:95℃持续10分钟;95℃持续30秒的15次循环;65℃持续1分钟;60℃持续5分钟;65℃持续5分钟;并且72℃持续30秒;随后72℃持续2分钟;然后保持在4℃。如本文所讨论,退火温度可以任选地高于一些或所有引物的解链温度(参见2015年10月20日提交的美国专利申请第14/918,544号,其全部内容通过引用并入本文)。

解链温度(T

在各个实施例中,退火温度在高于至少25、50、60、70、75、80、90、95或100%的非同一引物的解链温度(诸如根据经验测量或计算的T

示例性多重PCR。在各个实施例中,使用长退火时间(如本文所讨论并在示例12中所例示的)和/或低引物浓度。实际上,在某些实施例中,使用了限制性引物浓度和/或条件。在各个实施例中,退火步骤的长度在范围低端的15、20、25、30、35、40、45或60分钟至范围高端的20、25、30、35、40、45、60、120或180分钟之间。在各个实施例中,退火步骤的长度(每次PCR循环)在30至180分钟之间。例如,退火步骤可以在30至60分钟之间,并且每种引物的浓度可以小于20、15、10或5nM。在其他实施例中,引物浓度为范围低端的1、2、3、4、5、6、7、8、9、10、15、20或25nM,以及范围高端的2、3、4、5、6、7、8、9、10、15、20、25和50。

在高阶多重化中,由于溶液中存在大量引物,因此溶液可能会变得粘稠。如果溶液太粘稠,可以将引物浓度降低到仍然足以使引物结合模板DNA的量。在各个实施例中,使用1,000至100,000种不同的引物,并且每种引物的浓度小于20nM,诸如小于10nM或在1至10nM之间,包括端点值。

一般而言,对于移植物,免疫系统可以将同种异体移植物鉴定为身体的异物并且激活各种免疫机制以排斥同种异体移植物,并且通常有必要在医学上抑制正常的免疫系统应答以排斥移植物。因此,需要比常规测试更为灵敏且更具特异性的用于移植排斥的无创性测试。可以使用本文描述的方法和系统来解决此需求。

例如,在一些实施例中,本公开提供一种用于使用扩充数据来训练神经网络的方法,该方法包括:针对训练样本确定多个基因位置的基因测序数据或基因阵列数据;基于基因测序数据或基因阵列数据,确定多个基因位置的相应真实性移植排斥状态值;以及确定包含用于调用相应移植排斥状态值的一个或多个层的神经网络,该神经网络至少部分地由多个权重定义。该方法可以进一步包括迭代地修改神经网络直到满足退出条件为止,该修改包括:确定包含多个例子的一批数据,每个例子对应于多个基因位置并且包含指示相应基因位置中的一个或多个位置的等位基因频率的数据;基于该批的多个例子中的一个或多个来生成合成例子,并且将该合成例子包括在该批内以生成扩充的一批;基于该合成例子来扩充真实性移植排斥状态值;经由神经网络传播该批数据以生成包含每个例子的一个或多个相应真实性移植排斥状态值的网络输出;以及基于该网络输出来修改多个权重中的一个或多个。

本文公开的一些实施例提供一种确定移植受者内移植排斥的似然度的方法,该方法包含:a)从移植受者的血液样本中提取DNA,b)使所提取的DNA富集在目标基因座处,c)扩增该目标基因座,以及d)测量受者血液样本中的移植DNA的量以及受者DNA的量,其中dd-cfDNA的量越大表明移植排斥的似然度越大。可以使用本文描述的某些神经网络来将移植分类为可能被排斥或不太可能被排斥,或着以某种较大程度的粒度对似然度进行分类。例如,移植状态排斥值可以包括dd-cfDNA的量、移植物DNA的量、受者DNA的量和/或移植的排斥或成功。在这方面,合成例子可以包括生成的数据集(例如,指定dd-cfDNA的量),该数据集表示移植状态排斥值的“真实性”值是该移植被排斥的值的例子。可以使用本文描述的技术对神经网络进行训练以确定移植成功的似然度,并且可以使用该神经网络来确定或调用预测成功的似然度。

现在已经描述了一些说明性的实施方案,显而易见,已经以示例方式呈现的前述内容是说明性的而不是限制性的。具体地,尽管本文呈现的许多示例涉及方法动作或系统要素的特定组合,但是可以以其他方式将那些动作和那些要素进行组合以实现相同的目标。结合一个实施方案所讨论的动作、要素和特征不旨在被排除在其他实施方案或实施方案的相似角色之外。

本文所使用的措词和术语是出于描述的目的,并且不应被认为是限制性的。本文中“包括”、“包含”、“具有”、“含有”、“涉及”、“以……为特征”、“特征在于”以及它们的变体的使用旨在涵盖其后列出的项目、其等同物和附加项目、以及由其后单独列出的项目组成的替代实施方案。在一个实施方案中,本文描述的系统和方法由所描述的要素、动作或组件中的一个、多于一个中的每个组合、或所有组成。

对本文中以单数形式提及的系统或方法的实施方案或要素或动作的任何引用也可以囊括包括多个这些要素的实施方案,并且以复数形式对本文中任何实施方案或要素或动作的任何引用也可以囊括仅包括单个要素的实施方案。以单数或复数形式的引用不旨在将当前公开的系统或方法、它们的组件、动作、或要素限制为单个或复数个配置。对基于任何信息、动作或要素的任何行为或要素的引用可以包括其中该行为或要素至少部分地基于任何信息、动作或要素的实施方案。

本文公开的任何实施方案可以与任何其他实施方案组合,并且对“实施方案”、“一些实施方案”、“一个实施方案”等的引用不一定是互相排斥的并旨在指示结合实施方案描述的特定特征、结构、或特性可以包括在至少一个实施方案中。如本文所用的此类术语不一定全部指代相同的实施方案。任何实施方案可以以与本文公开的方面和实施方案一致的任何方式包含地或单独地与任何其他实施方案结合。

如本文所用且没有另外定义,术语“基本上(substantially、substantial)”、“大约”和“约”、以及应用于数字的符号“约(~)”(例如“约100”)用于描述和说明小的变化。当与事件或状况结合使用时,这些术语可以涵盖事件或状况精确发生的情况以及事件或状况发生极度近似的情况。例如,当与数值结合使用时,这些术语的变化范围可以小于或等于该数值的±10%,诸如小于或等于±5%、小于或等于±4%、小于或等于±3%、小于或等于±2%、小于或等于±1%、小于或等于±0.5%、小于或等于±0.1%、或者小于或等于±0.05%。

除非明确地有相反的指示,否则如本文在说明书和权利要求中所使用的不定冠词“一个”和“一种”应理解为是指“至少一个”。

对“或”的引用可以被解释为包含性的,使得使用“或”描述的任何术语可以指示所描述术语的单个、多于一个和所有中的任何一者。例如,对“‘A’和‘B’中的至少一个”的引用可以包括只有‘A’、只有‘B’、以及‘A’和‘B’二者。结合“包含”或其他开放式术语使用的此类引用可以包括其他项目。

凡在附图、详细描述或任何权利要求中的技术特征之后跟随有参考标志的地方,已经将参考标志包括在内,以增加附图、详细描述和权利要求的可理解性。因此,参考标志的存在或不存在对任何权利要求要素的范围都没有任何限制性影响。

本文描述的系统和方法可以在不背离其特性的情况下以其他特定形式来体现。前述实施方案是说明性的,而不是对所描述的系统和方法的限制。因此,本文描述的系统和方法的范围由所附权利要求而不是前述描述来指示,并且落入权利要求的等同的含义和范围内的改变被囊括在其中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号