首页> 中国专利> 用于确定假基因的拷贝数和基因型的基于阵列的方法和试剂盒

用于确定假基因的拷贝数和基因型的基于阵列的方法和试剂盒

摘要

本文提供了可用于遗传分析的方法以及相关联的组合物、试剂盒、系统、装置和仪器,其中存在与样品中的所关注基因相似的一个或多个序列,例如用于确定脊髓性肌萎缩(SMA)载体状态的。在所述方法中,可以通过分析测定来确定相关基因(例如所关注基因以及其假基因,如SMN1和SMN2)的组合拷贝数。另外,可以通过所述分析测定来确定所述相关基因的相对量,即所述相关基因的比率。使用所述组合拷贝数以及所述相关基因的所述比率的数据,可以高度准确地确定所关注基因的基因型(以及其一个或多个假基因,如果需要的话)。

著录项

说明书

技术领域

本公开提供了用于遗传分析,包含核酸的基因分型和拷贝数分析的方法以及相关组合物、试剂盒、系统、装置和仪器。

背景技术

对核酸序列例如从生物样品或生物体中获得的DNA和RNA样品的分析已引起了研究和医疗保健界的极大兴趣。使用合适的方法,可以分析核酸序列的集合以辨别各种遗传信息,如基因型和拷贝数变异,这对于诊断或筛查核酸的来源以及其家族成员的疾病或病状可以是重要的。如果存在与实际相关基因高度相似的其它核酸序列(例如,假基因),则对某些核酸序列(例如,临床相关基因或与致病性病状或疾病相关联的基因)的分析可能非常困难。这种分析(例如,基于阵列或基于测序的分析)中存在的挑战部分是因为从分析中检测到的信号对应于多于一个基因。在一些情况下,将信号分配给其对应的基因并且对信号进行统计分析以分别确定各个基因的遗传信息在技术上通常很复杂。

因此,需要开发改进的方法(以及相关联的组合物、试剂盒、系统、装置和仪器),所述方法利用遗传分析来生成具有高准确度的数据,所述数据可以用于对给定基因座或染色体进行基因分型和估计给定基因座或染色体的拷贝数两者。

发明内容

本文描述了用于分析核酸样品以检测靶多核苷酸的拷贝数差异的方法和系统,如检测包含缺失和插入的拷贝数变体,以及对此类靶多核苷酸进行基因分型的方法,当存在与靶多核苷酸具有实质序列相似性的其它序列时,所述方法特别有用。

在一方面,本文所提供的本公开涉及一种对样品的核酸进行基因分型的方法。所述方法可以包含(a)向阵列提供样品的所述核酸或其扩增产物,所述阵列具有与第一靶多核苷酸和第二靶多核苷酸杂交的第一组探针和第二组探针,其中所述第一组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中有不同的序列的第一区域杂交,并且所述第二组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中是相同的第二区域杂交,并且其中所述第一靶多核苷酸和所述第二靶多核苷酸具有至少50%的序列同一性;(b)检测指示所述第一组探针与所述样品的所述核酸或其扩增产物杂交的信号;(c)检测指示所述第二组探针与所述样品的所述核酸或其扩增产物杂交的信号;以及(d)通过分析所述信号来确定所述样品的所述核酸的基因型。

在一些实施例中,所述第一区域具有在所述第一靶多核苷酸和所述第二靶多核苷酸中相异的一个或多个碱基位置以及在所述第一靶多核苷酸和所述第二靶多核苷酸中相同并且围绕所述一个或多个相异位置的序列。

在一些实施例中,所述第一组探针与所述一个或多个相异位置的紧邻5'或3'的序列杂交。

在一些实施例中,所述第一组探针在所述一个或多个相异位置的紧邻碱基处终止。

在一些实施例中,所述第一组探针具有与所述一个或多个相异位置互补的序列。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸不是基因的等位变体。

在一些实施例中,所述分析步骤包含以下中的一种或多种:(a)确定所述样品的所述核酸中的所述第一靶多核苷酸和所述第二靶多核苷酸的组合拷贝数;以及(b)确定所述样品的所述核酸中的所述第一靶多核苷酸与所述第二靶多核苷酸的量的比率。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸具有至少约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%或约99%的序列同一性。

在一些实施例中,所述样品的所述核酸具有从所述样品获得的基因组DNA序列。

在一些实施例中,所述方法进一步包含扩增从所述样品获得的所述基因组DNA序列。

在一些实施例中,所述方法进一步包含在所述第一探针组和所述第二探针组与所述样品的所述核酸杂交之前扩增所述第一靶多核苷酸和所述第二靶多核苷酸。

在一些实施例中,所述方法进一步包含使所述核酸或其扩增产物片段化。

在一些实施例中,向所述阵列提供片段化的核酸或其扩增产物。

在另一方面,本文所提供的本公开涉及一种确定个体的常染色体隐性病状的载体状态的方法。所述方法可以包含(a)向阵列提供从所述个体获得的核酸或其扩增产物,所述阵列具有与第一靶多核苷酸和第二靶多核苷酸杂交的第一组探针和第二组探针,其中所述第一组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中有不同的序列的第一区域杂交,并且所述第二组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中是相同的第二区域杂交,并且其中所述第一靶多核苷酸和所述第二靶多核苷酸具有至少50%的序列同一性;(b)检测指示所述第一组探针与所述个体的所述核酸或所述其扩增产物杂交的信号;(c)检测指示所述第二组探针与所述个体的所述核酸或所述其扩增产物杂交的信号;(d)通过分析所述信号来对所述个体的所述核酸进行基因分型;以及(e)基于基因型来确定所述个体的所述载体状态。

在一些实施例中,所述第一区域具有在第一基因和第二基因中相异的一个或多个碱基位置,以及围绕所述一个或多个相异位置的序列。

在一些实施例中,所述第一组探针与所述相异位置的紧邻5'或3'的序列杂交。

在一些实施例中,所述第一组探针在所述一个或多个相异位置的紧邻碱基处终止。

在一些实施例中,所述第一组探针具有与所述一个或多个相异位置互补的序列。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸不是基因的等位变体。

在一些实施例中,所述分析步骤包含以下中的一种或多种:(a)确定所述个体的所述核酸中的所述第一靶多核苷酸和所述第二靶多核苷酸的组合拷贝数;以及(b)确定所述个体的所述核酸中的所述第一靶多核苷酸与所述第二靶多核苷酸的量的比率。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸具有至少约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%或约99%的序列同一性。

在一些实施例中,从所述个体获得的所述核酸具有基因组DNA。

在一些实施例中,所述方法进一步包含扩增所述基因组DNA。

在一些实施例中,所述方法进一步包含扩增所述第一靶多核苷酸和所述第二靶多核苷酸的核酸。

在一些实施例中,所述方法进一步包含使从所述个体获得的所述核酸或其扩增产物片段化,由此生成片段化的核酸。

在一些实施例中,所述方法进一步包含向所述阵列提供片段化的核酸。

在一些实施例中,所述方法进一步包含确定所述个体的基因组中的所述第一靶多核苷酸中存在或不存在突变、插入和/或缺失,以便确定所述个体中存在或不存在所述第一靶多核苷酸的功能性拷贝。

在一些实施例中,所述方法进一步包含如果来自所述个体的功能性第一靶多核苷酸的拷贝数为1,则确定所述个体为所述常染色体隐性病状的载体。

在另一方面,本文所提供的本公开涉及一种用于对样品的核酸进行基因分型的试剂盒。所述试剂盒可以含有阵列,所述阵列具有与第一靶多核苷酸和第二靶多核苷酸杂交的第一组探针和第二组探针,其中所述第一组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中有不同的序列的第一区域杂交,并且所述第二组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中是相同的第二区域杂交,并且其中所述第一靶多核苷酸和所述第二靶多核苷酸具有至少50%的序列同一性。

在一些实施例中,所述第一区域含有在所述第一靶多核苷酸和所述第二靶多核苷酸中相异的一个或多个碱基位置,以及围绕所述一个或多个相异位置的序列。

在一些实施例中,所述第一组探针与所述相异位置的紧邻5'的序列杂交。

在一些实施例中,所述第一组探针在所述一个或多个相异位置的紧邻碱基处终止。

在一些实施例中,所述第一组探针具有与所述一个或多个相异位置互补的序列。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸不是基因的等位变体。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸具有至少约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%或约99%的序列同一性。

在一些实施例中,所述试剂盒进一步包括指令,在计算机可读介质中包括用于接收指示所述第一组探针和所述第二组探针与样品的所述核酸或其应用产物杂交的数据的代码、用于确定样品的所述核酸中的所述第一靶多核苷酸和所述第二靶多核苷酸的组合拷贝数的代码、用于确定来自样品的所述核酸中的所述第一靶多核苷酸与所述第二靶多核苷酸的量的比率的代码以及用于确定来自样品的所述核酸所述第一靶多核苷酸和所述第二靶多核苷酸的基因型的代码。

在仍另一方面,本文所提供的本公开涉及一种制造用于对核酸进行基因分型的阵列的方法,所述核酸具有第一多核苷酸和第二多核苷酸,所述第一多核苷酸和所述第二多核苷酸具有至少50%的序列同一性。所述方法可以包含:(a)向底物提供第一组探针,其中所述第一组探针与在所述第一多核苷酸和所述第二多核苷酸中有不同的序列的第一区域杂交;以及(b)向所述底物提供第二组核酸序列,其中第二组探针与在所述第一多核苷酸和所述第二多核苷酸中是相同的第二区域杂交。

在一些实施例中,所述第一组探针和所述第二组探针在底物上合成或在合成后附接到所述底物。

在一些实施例中,所述第一区域含有在所述第一多核苷酸和所述第二多核苷酸中相异的一个或多个碱基位置,以及围绕所述一个或多个相异位置的序列。

在一些实施例中,所述第一组探针与所述相异位置的紧邻5'的序列杂交。

在一些实施例中,所述第一组探针在所述一个或多个相异位置的紧邻碱基处终止。

在一些实施例中,所述第一组探针含有与所述一个或多个相异位置互补的序列。

在一些实施例中,所述第一多核苷酸和所述第二多核苷酸来自不同的基因。

在一些实施例中,所述第一多核苷酸和所述第二多核苷酸不是基因的等位变体。

在一些实施例中,所述第一多核苷酸和所述第二多核苷酸具有至少约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%或约99%的序列同一性。

在仍另一方面,本文所提供的本公开涉及一种用于对核酸混合物进行基因分型的由计算机实施的方法,所述混合物具有第一靶多核苷酸和与所述第一靶多核苷酸具有至少50%的序列同一性的第二靶多核苷酸。所述方法可以包含:由具有处理器的计算机从第一组探针获得强度测量的第一数据,其中所述第一组探针靶向在第一靶多核苷酸序列和第二靶多核苷酸序列中不同的序列;由所述计算机从第二组探针获得强度测量的第二数据,其中所述第二组探针靶向在第一靶多核苷酸序列和第二靶多核苷酸序列中相同的序列;由所述处理器根据所述第一数据确定所述混合物中的所述第一靶多核苷酸与所述第二靶多核苷酸的比率;由所述处理器根据所述第二数据确定所述混合物中的所述第一靶多核苷酸和所述第二靶多核苷酸的组合拷贝数;以及由所述处理器确定所述第一靶多核苷酸和所述第二靶多核苷酸中的至少一个的基因型。

在一些实施例中,所述第一组探针和所述第二组探针在阵列中提供。

在一些实施例中,所述第一组探针和所述第二组探针与所述阵列上的靶多核苷酸杂交。

在一些实施例中,所述第一靶多核苷酸与所述第二靶多核苷酸的所述比率是人基因组中的所述第一靶多核苷酸与所述第二靶多核苷酸的比率。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸的所述组合拷贝数是人基因组中的所述第一靶多核苷酸和所述第二靶多核苷酸的组合基因组拷贝数。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸不是基因的等位变体。

在一些实施例中,所述靶多核苷酸是运动神经元存活1(SMN1)和运动神经元存活2(SMN2)基因或其一部分。

在一些实施例中,所述第一靶多核苷酸在所述SMN2基因中和在外显子7中和周围具有突变的SMN1基因的变体中发现。

在一些实施例中,所述第二靶多核苷酸在所述SMN1基因中发现。

在一些实施例中,所述第一组探针具有至少四个探针组,并且每个探针组对应于在SMN1和SMN2基因中不同的序列。

在一些实施例中,所述的靶向在外显子7中和周围的SMN1基因的变体的所述至少四个探针组靶向以下区域:含有染色体5:70,247,773C>T位点的区域、含有染色体5:70,247,921A>G位点的区域、含有染色体5:70,248,036A>G位点的区域和含有染色体5:70,248,501G>A的区域。

在一些实施例中,核苷酸序列是人序列。

在一些实施例中,所述方法进一步包含从所述阵列接收信号数据,其中所述第一靶多核苷酸在所述第一组探针中报告;计算所述探针组的平均强度值并且确定所述平均强度值之间的标准偏差;计算所述靶多核苷酸的原始频率;根据相应的原始频率计算所述靶多核苷酸的居中频率;根据相应的居中频率计算所述靶多核苷酸的缩放居中频率;根据所述靶多核苷酸的每个探针组的亲和力值以及预测拷贝数(CN)计算所述靶多核苷酸的中值频率;描绘对应于所述混合物中不存在所述靶多核苷酸的拷贝,所述混合物中存在靶多核苷酸基因的一个拷贝以及所述混合物中存在所述靶多核苷酸的两个拷贝的超平面;以及关联所述超平面内的探针组簇的数量,作为所述混合物中的所述靶多核苷酸的拷贝数的统计指示。

在一些实施例中,所述方法进一步包含:通过以下来缩放所述缩放居中频率:对应于所述缩放居中频率大于1的情况,将所述缩放居中频率设置为1;以及对应于所述缩放居中频率小于0的情况,将所述缩放居中频率设置为0;以及通过减去所述第一靶多核苷酸的中值频率并且使用所述第二靶多核苷酸的中值频率值来确定所述频率的方向。

在一些实施例中,计算所述探针组的原始频率进一步包含将所述第二靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。

在一些实施例中,计算所述探针组的原始频率进一步包含将所述第一靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。

在一些实施例中,根据所述原始频率计算所述探针组的居中频率进一步包含从所述原始频率中减去所述标准偏差然后加上理想频率比率0.5,理想频率是介于所述第一靶多核苷酸与所述第二靶多核苷酸之间的频率。

在一些实施例中,根据所述居中频率计算所述探针组的缩放居中频率进一步包含:对应于所述居中频率小于第一α截止值的情况,将所述居中频率与所述第一α截止值之间的差乘以第一缩放因子然后从所述第一α截止值中减去此值;对应于所述居中频率大于第二α截止值的情况,将所述居中频率与所述第二α截止值之间的差乘以第二缩放因子然后将此值与所述第二α截止值相加;以及对应于所述居中频率等于所述第一α截止值和所述第二α截止值或在由所述第一α截止值和所述第二α截止值形成的范围内的情况,将所述居中频率确定为所述缩放居中频率。

在一些实施例中,所述方法进一步包含:将所述探针组的所述缩放居中频率对其预测拷贝数进行绘图;在所述图中描绘对应于所述混合物中不存在所述靶多核苷酸的拷贝、所述混合物中存在靶类核的一个拷贝以及所述混合物中存在靶核苷酸的两个拷贝的超平面;以及关联所述超平面内的探针组簇的所述数量,作为所述混合物中的靶核苷酸的拷贝数的所述统计指示。

在一些实施例中,所述方法进一步包含针对所述探针组中的每个探针组进行所述原始频率的归一化。

在一些实施例中,针对所述探针组进行所述原始频率的归一化进一步包含:根据所述原始频率计算所述探针组的居中频率,即从所述原始频率中减去所述标准偏差然后加上理想频率比率0.5,理想频率是介于所述第一靶多核苷酸与所述第二靶多核苷酸之间的所述原始频率;根据所述居中频率计算所述探针组的缩放居中频率,即通过:对应于所述居中频率小于第一α截止值的情况,将所述居中频率与所述第一α截止值之间的差乘以第一缩放因子然后从所述第一α截止值中减去此值;对应于所述居中频率大于第二α截止值的情况,将所述居中频率与所述第二α截止值之间的差乘以第二缩放因子然后将此值与所述第二α截止值相加;以及对应于所述居中频率等于所述第一α截止值和所述第二α截止值或在由所述第一α截止值和所述第二α截止值形成的范围内的情况,将所述居中频率确定为所述缩放居中频率。

在仍另一方面,本文所提供的本公开涉及一种方法,所述方法包含:接收具有第一组探针和第二组探针的阵列的探针组数据,所述第一组探针靶向第一靶多核苷酸和第二靶多核苷酸的可变序列并且所述第二组探针靶向所述靶多核苷酸的相同序列,所述数据具有所述靶多核苷酸的针对每个探针组的平均信号强度,每个探针组的所述平均信号强度的标准偏差、第一缩放因子、第二缩放因子和拷贝数区域;根据来自所述探针组的所述平均信号强度计算所述靶多核苷酸的原始频率;根据相应的原始频率、理想频率比率和所述标准偏差计算所述靶多核苷酸的居中频率;根据相应的居中频率、第一α截止值、第二α截止值、所述第一缩放因子和所述第二缩放因子计算所述靶多核苷酸的缩放居中频率;根据所述靶多核苷酸的每个探针组的亲和力值以及预测拷贝数(CN)计算所述靶多核苷酸的中值频率;描绘对应于不存在所述靶多核苷酸的拷贝、存在所述靶多核苷酸的一个拷贝以及存在所述靶多核苷酸的两个拷贝的超平面;以及关联所述超平面内的探针组簇的数量,作为所述靶多核苷酸的拷贝数的统计指示。

在一些实施例中,所述靶多核苷酸的所述拷贝数是人基因组中的所述靶多核苷酸的基因组拷贝数。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸具有至少50%的序列同一性。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸不是基因的等位变体。

在一些实施例中,所述靶多核苷酸是运动神经元存活1(SMN1)和运动神经元存活2(SMN2)基因或其一部分。

在一些实施例中,所述第一靶多核苷酸在所述SMN2基因中和在外显子7中和周围具有突变的SMN1基因的变体中发现。

在一些实施例中,所述第二靶多核苷酸在所述SMN1基因中发现。

在一些实施例中,所述第一组探针具有至少四个探针组,并且每个探针组对应于在SMN1和SMN2基因中不同的序列。

在一些实施例中,所述的靶向在外显子7中和周围的SMN1基因的变体的所述至少四个探针组靶向以下区域:含有染色体5:70,247,773C>T位点的区域、含有染色体5:70,247,921A>G位点的区域、含有染色体5:70,248,036A>G位点的区域和含有染色体5:70,248,501G>A的区域。

在一些实施例中,所述方法进一步包含:通过以下来缩放所述缩放居中频率:对应于所述缩放居中频率大于1的情况,将所述缩放居中频率设置为1;以及对应于所述缩放居中频率小于0的情况,将所述缩放居中频率设置为0;以及通过减去所述第一靶多核苷酸的中值频率值并且使用第二靶核苷酸的中值频率值来确定所述原始频率的方向。

在一些实施例中,计算所述探针组的原始频率进一步包含将所述第二靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。

在一些实施例中,计算所述探针组的原始频率进一步包含将所述第一靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。

在一些实施例中,根据所述原始频率计算所述探针组的居中频率进一步包含从所述原始频率中减去所述标准偏差然后加上理想频率比率0.5,理想频率是介于所述第一靶多核苷酸与所述第二靶多核苷酸之间的所述原始频率。

在一些实施例中,根据所述居中频率计算所述探针组的缩放居中频率进一步包含:对应于所述居中频率小于所述第一α截止值的情况,将所述居中频率与所述第一α截止值之间的差乘以所述第一缩放因子然后从所述第一α截止值中减去此值;对应于所述居中频率大于所述第二α截止值的情况,将所述居中频率与所述第二α截止值之间的差乘以所述第二缩放因子然后将此值与所述第二α截止值相加;以及对应于所述居中频率等于所述第一α截止值和所述第二α截止值或在由所述第一α截止值和所述第二α截止值形成的范围内的情况,将所述居中频率确定为所述缩放居中频率。

在一些实施例中,所述方法进一步包含:将所述靶多核苷酸的所述缩放居中频率对其预测拷贝数进行绘图;在所述图中描绘对应于不存在所述靶多核苷酸的拷贝、存在所述靶多核苷酸的一个拷贝以及存在所述靶多核苷酸的两个拷贝的所述超平面;以及关联所述超平面内的探针组簇的所述数量,作为人基因组中的所述靶多核苷酸的所述拷贝数的所述统计指示。

在一些实施例中,所述靶多核苷酸是人序列。

在仍另一方面,本文所提供的本公开涉及一种确定受试者的常染色体隐性病状的载体基因型的方法。所述方法可以包含:针对第一组探针获得第一数据,所述第一组探针靶向在第一多核苷酸序列和第二多核苷酸序列中不同的第一标志物序列,其中所述第一多核苷酸序列和所述第二多核苷酸序列具有至少50%的序列同一性并且所述常染色体隐性病状是由基因组中不存在所述第一多核苷酸序列的功能性拷贝引起的;针对第二组探针获得第二数据,所述第二组探针靶向在所述第一多核苷酸序列和所述第二多核苷酸序列中相同的第二标志物序列;根据所述第一数据和所述第二数据计算至少一个多核苷酸序列的拷贝数和计算用于确定所述第一多核苷酸序列和所述第二多核苷酸序列的相对存在度的比率;当所述第一多核苷酸序列的所述拷贝数小于2时,和/或当所述比率指示所述第二多核苷酸序列相对于所述第一多核苷酸序列有更高存在度时,确定载体基因型。

本说明书中所提及的所有公开、专利和专利申请都在本文中通过引用并入,程度如同每一单独的公开、专利或专利申请被专门并且单独地指示以引用的方式并入一般。

附图说明

本公开的新颖特征在所附权利要求书中具体阐述。通过参考阐述了说明性实施例的以下详细说明,将获得对本公开的特征和优点的更好理解,在所述实施例中利用了本公开的原理,并且在附图中:

图1是示出常染色体隐性遗传的示意图。

图2展示了根据一个实施例的脊髓性肌萎缩(SMA)表型表现100。

图3展示了根据一个实施例的运动神经元存活1(SMN1)基因型200。

图4展示了根据一个实施例的基因组浏览器300。

图5展示了根据一个实施例的基因组浏览器400。

图6展示了根据一个实施例的SMN1碱基序列500。

图7展示了根据一个实施例的序列比对。

图8展示了根据一个实施例的运动神经元存活1(SMN1)和运动神经元存活2(SMN2)序列变异基因型700。

图9展示了根据一个实施例的拷贝数确定过程800。

图10展示了根据一个实施例的系统900。

图11展示了根据一个实施例的图1400。

图12展示了根据一个实施例的图1500。

图13是可以结合本公开的实施例的计算装置1600的示例框图。

图14示出了96个代表性样品的SMN1和SMN2的拷贝数的分布。

图15示出了确定SMA的载体的结果。

图16示出了SMN1和SMN2两者的拷贝数显示的实例。在此所展示的实例中,以y轴值为1.5或更低示出的数据可以指示怀疑是SMA载体的样品。

具体实施方式

本公开具有许多优选实施例,并且本公开由于本领域技术人员已知的细节的原因依赖于许多专利、申请和其它参考文献。因此,当在下面引用或重复专利、申请或其它参考文献时,应当理解,出于所有目的以及所陈述的主张通过引用将其整体并入本文。

贯穿本公开,可以以范围格式呈现本公开的各个方面。应当理解,采用范围格式的描述仅仅是出于方便和简洁的目的,并且不应该将其解释为是对本公开的范围的非灵活限制。因此,一个范围的描述应当被认为是具有确切公开的所有可能的子范围以及该范围内的单独数值。例如,一个范围如从1至6的描述应当被认为是具有确切公开的子范围,如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等,以及该范围内的单独数字,例如1、2、3、4、5和6。无论范围的宽度如何,这都适用。

除非另外说明,否则本公开的实践可以采用在本领域技术范围内的有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学以及免疫学的常规技术和描述。此类常规技术包含聚合物阵列合成、杂交、连接和使用标记物检测杂交。合适技术的具体说明可以参考本文下述实例。然而,当然也可以使用其它等效的常规程序。此类常规技术和说明可以在以下标准实验室手册中找到:如《基因组分析:实验室手册系列(第I到IV卷)(Genome Analysis:A Laboratory Manual Series(Vols.I-IV))》、《使用抗体:实验室手册(Using Antibodies:A Laboratory Manual)》、《细胞:实验室手册(Cells:A LaboratoryManual)》、《PCR引物:实验室手册(PCR Primer:A Laboratory Manual)》和《分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)》(全部由冷泉港实验室出版社(ColdSpring Harbor Laboratory Press)出版),Stryer,L.(1995),生物化学(Biochemistry)(第4版),Freeman,纽约,Gait,《寡核苷酸合成:一种实用方法(OligonucleotideSynthesis:A Practical Approach”,1984,IRL出版社,伦敦,Nelson和Cox(2000),Lehninger,《生物化学原理(Principles of Biochemistry)》(第三版),W.H.Freeman出版社,纽约,纽约州,和Berg等,(2002)《生物化学(Biochemistry)》(第5版),W.H.Freeman出版社,纽约,纽约州,出于所有目的将其全部内容通过引用整体并入本文。

定义

如在本申请中所用的,单数形式“一个/一种(a、an)”和“所述(the)”包含复数个提及物,除非上下文另外明确指明。例如,术语“药剂”包含多种药剂(包含其混合物)。

出于所有目的将本文引用的所有参考文献通过引用以其整体并入本文。就任何参考文献包括以与本文阐述的定义和公开不一致的方式定义或使用权利要求术语而言,以本申请的定义和公开内容为准。

如本文所使用的,单数或复数形式的术语“一个或多个核酸”、“一个或多个核酸分子”、“一个或多个核酸低聚物”、“一个或多个寡核苷酸”、“一个或多个核酸序列”、“一个或多个核酸片段”和“一个或多个多核苷酸”可互换使用,并且意在包含但不限于共价连接在一起的可能具有多种长度的核苷酸的聚合形式,脱氧核糖核苷酸或核糖核苷酸,或其类似物、衍生物或修饰。不同的多核苷酸可以具有不同的三维结构,并且可以执行各种已知或未知的功能。多核苷酸的非限制性实例包含基因、基因片段、外显子、内含子、基因间DNA(包含但不限于异色DNA)、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、序列的分离的DNA、序列的分离的RNA、核酸探针和引物。可用于本公开的方法的多核苷酸可以包括天然核酸序列和其变体、人工核酸序列或此类序列的组合。

通过在比较窗口上比较两个最佳比对的序列来确定“序列同一性的百分比”或“序列相似性的百分比”,其中比较窗口中的多核苷酸或多肽序列的部分可以包括与参考序列(不包括突变、添加或缺失)相比的突变、添加或缺失(即,空位)以使两个序列最佳比对。如下计算百分比:确定两个序列中出现相同核酸碱基或氨基酸残基的位置数目以产生匹配位置的数目,将匹配位置的数目除以比较窗中的总位置数目并将结果乘以100而得到序列同一性百分比。

在两个或更多个核酸序列的上下文中,术语“相同”或“同一性”百分数以及“相似”或“相似性”百分数是指如使用利用下文所描述的默认参数的BLAST或BLAST 2.0序列比较算法或通过手动比对和视觉检查测量的相同的或具有指定百分比的核苷酸的相同的两个或更多个序列或子序列(即,当在比较窗口或指定区域之上针对最大对应性进行比较和比对时,在指定区域之上的约50%同一性,优选地55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的同一性)(参见例如,NCBI网站http://www.ncbi.nlm.nih.gov/BLAST/等)。此类序列然后被称为“实质相同”。此定义还涉及或可以应用于测试序列的补充。所述定义还包含具有缺失和/或添加的序列,以及具有突变和/或取代的序列。在一些实施例中,优选的算法可以解决空位等问题。

术语“互补”或“互补性”是指多核苷酸中的核酸与第二多核苷酸中的另一个核酸形成碱基对的能力。例如,序列A-G-T与序列T-C-A互补。互补性可以是部分的,其中根据碱基配对,只有一些核酸匹配,或者是完全的,其中根据碱基配对,所有核酸匹配。

如本文所使用的,“基因”是指编码具有功能的分子的DNA或RNA的序列。因此,翻译成多肽的DNA或RNA的序列形成基因。另外,任何调节序列,例如DNA、内含子和许多其它在细胞中具有任何功能(包含但不限于在DNA复制、转录和翻译中的功能)的启动子、增强子、5'和3'调节序列被视为基因的一部分。同样,基因如miRNA和siRNA未翻译,并且在细胞中提供某些功能的基因也被视为基因。

如本文所使用的,“等位基因”是指细胞、个体或群体中核酸序列(如基因)的一种特定形式,所述特定形式与所述基因的序列中至少一个(通常一个以上)变异位点的核酸序列中相同基因的其它形式不同。在不同等位基因之间不同的这些变异位点处的序列被称为“变异”、“多态性”或“突变”。序列中的变体可以作为SNP、SNP的组合、单倍型甲基化模式、插入、缺失等的结果而出现。等位基因可以包括单个核苷酸的变体形式、来自染色体上关注区域的核苷酸连续序列的变体形式或来自关注染色体区域的多个单核苷酸(不一定都是连续的)的变体形式。在每个常染色体特定的染色体定位或“基因座”,一个从双亲中的一方继承,另一个从双亲中的另一方继承,例如一个遗传自母亲,一个遗传自父亲。如果个体在一个基因座上有两个不同的等位基因,则所述个体在所述基因座上就为“杂合的”。如果个体在一个基因座上有两个相同的等位基因,则所述个体在所述基因座上就为“纯合的”。

如本文所使用的,“基因组”指代或表示编码到生物体的DNA中的生物体的完整的单拷贝基因指令集。基因组可以为多染色体的,使得所述DNA在细胞中分布在多个单独的染色体之间。例如,在人类中,有22对染色体,外加与性别相关联的XX或XY对。

如本文所使用的,“多态性”是指群体中出现两个或更多个遗传确定的替代性序列。所述替代性序列可以包含仅在一个或几个单独的生物体中出现的等位基因(例如自然发生的变异)或自发产生的突变。“多态性位点”可以指一个或多个发生核酸序列差异的核酸位置。多态性可以包括一个或多个碱基改变、插入、重复或缺失。多态性基因座可以与一个碱基对一样小。多态性位点包含限制片段长度多态性、可变串联重复数(VNTR)、高变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复和插入元件。将第一个确定出的变体或等位基因形式任意指定为参考形式,将其它变体或等位基因形式指定为替代性或变体或突变等位基因。在选定核酸群体中出现最频繁的变体或等位基因形式有时被称为野生型形式。当涉及编码多肽的基因时,野生型可以指最常见的基因序列,其编码展现出预期活性的多肽。二倍体生物体的等位基因形式可以为纯合的或杂合的。双列多态性具有两种形式。三链多态性具有三种形式。两种核酸之间的多态性可以自然发生,也可以是由暴露于化学物质、酶或其它药剂或与之接触引起,或者由暴露于对核酸造成损伤的药剂(例如紫外线辐射、诱变剂或致癌物)引起。SNP是人类群体中两个替代性碱基以明显的频率(>1%)出现的位置,并且是最常见的人类遗传变异类型。

如本文所使用的,“阵列”或“微阵列”包括具有连接到所述支持物的核酸探针的支持物。优选的阵列通常包括多个不同的在不同的已知定位偶联到底物表面的核酸探针。这些阵列也被描述为“微阵列”或通俗地称为“芯片”,本领域中已经对其进行了广泛的描述,例如美国专利第5,143,854号、5,445,934号、第5,744,305号、第5,677,195、第5,800,992号、第6,040,193号、第5,424,186号和Fodor等人,《科学(Science)》,251:767-777号(1991)。出于所有目的,其各自通过引用以其整体并入本文。所述探针可以为任何大小或任何序列,并且可以包含合成核酸,及其类似物或衍生物或修饰,只要所得的阵列能够在任何合适的条件下与具有足够特异性的核酸样品杂交以区分样品的不同靶核酸序列即可。在一些实施例中,阵列的探针的长度为至少5、10、20、30、40、50、60、70或80个核苷酸。在一些实施例中,所述探针的长度不超过25、30、50、75、100、150、200或500个核苷酸。例如,所述探针的长度可以介于10与100个核苷酸之间。

阵列通常可以使用多种技术生产,例如机械合成方法或结合光刻方法和固相合成方法的光导向合成方法。在例如美国专利第5,384,261号和第6,040,193号中描述了使用机械合成方法合成这些阵列的技术,所述美国专利出于所有目的以全文引用的方式并入本文中。尽管优选平面阵列表面,但是可以将所述阵列构建在实际上为任何形状的表面上或甚至多个表面上。阵列可以为三维基质、珠、凝胶、聚合物表面、纤维(如光纤)、玻璃或任何其它合适的底物上的核酸。(参见美国专利第5,770,358号、第5,789,162号、第5,708,153号、第6,040,193号和第5,800,992号,所述美国专利出于所有目的以全文引用的方式并入本文中。)

在一些实施例中,可结合本文所描述的方法和系统使用的阵列包含可从赛默飞世尔科技公司(Thermo Fisher Scientific)(前身为艾菲矩阵公司(Affymetrix))商购获得的、品牌名称为

如本文所用的,“基因分型”是指从一个或多个核苷酸位置处的核酸样品中确定核酸序列信息。所述核酸样品可以包含或衍生自任何合适的来源(包含基因组或转录组)。在一些实施例中,基因分型可以包括确定个体在一个或多个多态性位点携带哪个或哪些等位基因。例如,基因分型可以包含或确定个体携带一组多态性位点中的一个或多个SNP的哪个或哪些等位基因。例如,在一些个体中,基因组中的特定核苷酸可以为A,而在其它个体中其可以为B。在所述位置处具有A的个体具有A等位基因,并且具有B的个体具有B等位基因。在二倍体生物体中,个体将具有含有多态性位置的序列的两个拷贝,因此所述个体可以具有A等位基因和B等位基因,或者可替代地具有A等位基因的两个拷贝或B等位基因的两个拷贝。具有A等位基因的两个拷贝的个体对于A等位基因是纯合的,具有B等位基因的两个拷贝的个体对于B等位基因是纯合的,并且具有每种等位基因的一个拷贝的个体是杂合的。因此,在一些实施例中,基因分型包含确定核酸样品或个体中的基因的等位基因组成(例如,AA、BB或AB)。在一些实施例中,基因分型包含确定多个基因(即,两个或更多个基因)的等位基因组成。因此,在询问两个基因(例如,第一基因和第二基因),并且第一基因可以具有A和/或B等位基因并且第二基因可以具有C和/或D等位基因的实例中,本文的方法可以确定两个基因的基因型,例如,AACC、AADD、BBCC或BBDD(如果两个基因均是纯合的)或AACD、BBCD、ABCC、ABDD或ABCD(如果至少一个基因是杂合的)。在一些实施例中,基因分型包含在野生型核酸的背景下检测在基因组中自发出现的单核苷酸突变。在一些实施例中,可以通过其它技术(如测序)处理含有所关注序列(例如,一个或多个SNP或突变)的一个或多个多核苷酸(或多核苷酸的一部分或多个部分、多核苷酸的扩增产物或多核苷酸的补体)。因此,在一些实施例中,可以对多核苷酸进行测序以进行基因分型或确定是否存在多态性或突变。测序可以通过本领域中各种可用的方法完成,例如Sanger测序方法,所述Sanger测序方法可以通过美国应用生物系统公司(Applied Biosystems)的

如本文所使用的,“染色体异常(chromosomal abnormalities/chromosomalabnormality)”可以包含任何遗传异常,包含突变、插入、添加、缺失、易位、点突变,三核苷酸重复病症和/或SNP。尽管本公开描述了与检测实质上不受异常影响的载体中的染色体异常有关的某些实例和实施例,但是应当理解,本文所描述的方法和系统可以用于检测患者的染色体异常,所述患者受异常影响或具有异常的高风险。

如本文所使用的,从生物样品或生物体获得的“样品”包含但不限于几乎任何生物体的任何数量的组织或体液,如血液、尿液、血清、血浆、淋巴液、唾液、粪便和阴道分泌物。在一些实施例中,从生物体获得的样品可以为哺乳动物的样品。并且在一些实施例中,从生物体获得的样品可以为人类的样品。

本文中的术语“mPCR”可以指多重PCR,用于在单个PCR实验中扩增多个靶标的分子生物学技术。在多重分析测定中,可以通过在反应混合物中使用多个引物对来扩增一个以上的靶序列。

本文中的术语“CarrierScan”可以指可从赛默飞世尔公司获得的基因分型产品。CarrierScan包含扩增所关注的精确靶DNA的CarrierScan分析测定以及提供单一颜色读数的等位基因特异性寡核苷酸阵列CarrierScan阵列。

本文中的术语“退火”可以指单链DNA或RNA的互补序列与氢键配对以形成双链多核苷酸。

本文中的术语“载体”可以指与纯合隐性性状相关联的基因型,由于存在至少一个功能等位基因,因此当前未表达所述纯合隐性性状。当携带纯合隐性性状的个体与另一个载体杂交时,50%的后代将表达所述性状。参见图1。

本文中的术语“外显子”可以指在通过RNA剪接除去内含子后将编码所述基因产生的最终成熟RNA的一部分的基因的一部分。术语外显子既指基因中的DNA序列,又指RNA转录物中的对应序列。在RNA剪接中,内含子被除去,并且外显子彼此共价连接,作为生成成熟信使RNA的一部分。就像物种的整个基因集合构成基因组一样,整个外显子集合构成外显子组。

本文中的术语“DNase”可以指脱氧核糖核酸酶,即催化DNA主链中磷酸二酯连接键的水解切割的酶,从而降解DNA。脱氧核糖核酸酶是核酸酶的一种类型,是能够水解连接核苷酸的磷酸二酯键的酶的总称。已知多种脱氧核糖核酸酶,所述多种脱氧核糖核酸酶在底物特异性、化学机制和生物学功能方面不同。

本文中的术语“复制事件”可以指在分子进化期间通过其产生新的遗传物质的机制。可以将所述复制事件定义为含有基因的DNA区域的任何复制。基因复制可以作为DNA复制和修复机制中的若干种类型错误的产物并且通过自私的遗传元件的偶然捕获而出现。基因复制的常见来源包含异位重组、逆转录转座事件、非整倍性、多倍性和复制滑移。

本文中的术语“电路系统”可以指具有至少一个分立电路的电路系统、具有至少一个集成电路的电路系统、具有至少一个专用集成电路的电路系统、形成通过计算机程序配置的通用计算装置(例如,通过至少部分地执行本文所描述的过程或装置的计算机程序配置的通用计算机,或者通过至少部分地执行本文所描述的过程或装置的计算机程序配置的微处理器)的电路系统、形成存储器装置的电路系统(例如,多种形式的随机存取存储器)或形成通信装置的电路系统(例如,调制解调器、通信交换机或光电设备)。

本文中的术语“固件”可以指体现为存储在只读存储器或介质中的处理器可执行指令的软件逻辑。

本文中的术语“硬件”可以指体现为模拟或数字电路系统的逻辑。

本文中的“逻辑”可以指机器存储器电路、非暂存性机器可读介质和/或通过其材料和/或材料-能量配置包括可以施加以影响装置的操作的控制和/或程序信号和/或设置和值(如阻力、阻抗、电容、电感、电流/电压等级等)的电路系统。磁性介质、电子电路、电学存储器和光学存储器(易失性和非易失性两者)以及固件是逻辑的实例。逻辑专门排除纯信号或软件本身(然而不排除包括软件且由此形成物质的配置的机器存储器)。

本文中的术语“软件”可以指被实施为机器存储器(例如,读取/写入易失性或非易失性存储器或介质)中的处理器可执行指令的逻辑。

本文所描述的各种逻辑功能操作可以以使用反映所述操作或功能的名词或名词短语引用的逻辑来实施。举例来说,关联操作可以由“关联器”或“相关器”实行。同样,可以通过“开关”进行切换,通过“选择器”进行选择等等。

遗传分析

遗传分析在许多医疗保健和医疗应用中至关重要。遗传分析可以提供与所关注疾病或病状相关联的一种或多种基因的信息。例如,遗传分析可以提供一种或多种临床相关基因(或一种或多种所关注基因)的基因型,以及任何遗传异常的存在或不存在,如拷贝数变异、缺失、插入、重复和染色体突变。当存在与一种或多种所关注基因高度相似的其它序列时,遗传分析可能会非常困难。在一些情况下,存在假基因,所述假基因是与所关注基因相关的DNA片段。在许多情况下,相对于实际(或真实)基因,假基因在细胞基因表达或蛋白质编码能力中丧失了至少一些功能。假基因通常是由于基因内多个突变的累积而产生的,所述基因的产物对于生物体的存活不是必需的,但是也可能是由基因组拷贝数变异(CNV)引起的,其中片段被复制或缺失。尽管不是完全功能性的,但假基因可以是功能性的,与其它种类的非编码DNA相似,所述非编码DNA可以执行调节功能。给定假基因与实际基因(例如,临床相关基因或与遗传疾病或病状相关联的基因)之间的实质序列相似性,两种序列在如阵列和测序等分析测定中均产生信号,并且与仅在基因组中存在实际基因的情况相比,处理此类混合信号在技术上具有挑战性。本文所提供的方法、组合物、系统、装置和仪器在基因组中存在多个相关基因的遗传分析中特别有用。

在一些实施例中,本公开提供了遗传分析的方法。在一些实施例中,所述方法可用于对具有两个或更多个相关序列(例如,具有实质序列相似性的序列)的核酸进行基因分型。例如,所述方法可以用于对在基因组中具有一个或多个假基因序列的靶基因进行基因分型。在此情况下进行基因分型和确定拷贝数可能在技术上具有挑战性。用于基因分型和拷贝数确定的分析测定,例如基于阵列、基于测序或基于PCR的方法,通常依赖于对靶序列中独特存在的区域的询问。这些分析测定通常询问靶序列的多个区域,以便提供统计上有意义和准确的结果。以基因分型分析测定作为实例,可以通过基于阵列、基于测序或基于PCR的方法来查询靶基因的等位基因中不同的多个多态性位点,并且对从各个多态性位点生成的多个数据点的统计分析可以提供靶基因的全面且可靠的基因型。同样在拷贝数确定的实例中,可以询问靶序列特有的多个区域,并且可以将大量数据点与参考染色体的数据点进行比较。在这些分析测定中,一个或几个数据点可能不足以提供可靠的结果,因为每个数据点的变异都相对较大。测量足够数量的数据点(例如,5个或更多)并且确定多个数据点的主要关系可以为靶基因提供可靠的基因分型和拷贝数结果。因此,确保每个数据点表示单个所关注基因对于在上述类型的分析测定中成功且可靠地进行基因分型和拷贝数确定很重要。然而,如果存在一个以上彼此高度相似的序列,例如基因和其假基因存在于基因组中,那么对数据进行解释并对其进行基因分型处理可能在技术上具有高挑战性。这是因为每个数据点可能是由两个基因的混合物生成的,并且无法对这些混合数据进行统计分析并单独提供单个基因的结果。因此,由于样品中序列的这种复杂性,通常不可能使用本领域中可用的分析测定来确定靶基因的基因型或拷贝数。为了克服上述挑战并提供可靠的遗传分析结果(包含所关注基因的基因分型和拷贝数),本文提供了可用于遗传分析的方法和相关联的组合物、试剂盒、系统、装置和仪器,特别是在存在与样品中的所关注基因相似的一个或多个序列的情况下。在一些实施例中,通过分析测定确定相关基因(例如,所关注基因和其一个或多个假基因)的拷贝数,即相关基因的“组合”拷贝数。另外,通过分析测定确定相关基因的相对量,即相关基因的比率。使用所述组合拷贝数以及所述相关基因的所述比率的数据,可以在高准确度下确定所关注基因的基因型(以及其一个或多个假基因,如果需要的话)。

在一些实施例中,本文提供了对多个多核苷酸(例如,第一多核苷酸和第二多核苷酸)进行基因分型的方法,所述方法具有以下步骤:(a)向阵列提供样品的所述核酸或其扩增产物,所述阵列具有与第一靶多核苷酸和第二靶多核苷酸杂交的第一组探针和第二组探针,(b)检测指示所述第一组探针与所述样品的所述核酸或其扩增产物杂交的信号,(c)检测指示所述第二组探针与所述样品的所述核酸或其扩增产物杂交的信号以及(d)通过分析所述信号来确定所述样品的所述核酸的基因型。在一些实施例中,所述第一组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中有不同的序列的第一区域杂交。在一些实施例中,所述第二组探针与第二区域杂交,所述第二区域在所述第一靶多核苷酸和所述第二靶多核苷酸中相同。所述第一靶多核苷酸和所述第二靶多核苷酸可以具有至少50%的序列同一性。

在一些实施例中,根据本公开的方法用于对具有至少两个靶多核苷酸,例如具有序列相似性的第一多核苷酸和第二多核苷酸的核酸进行基因分型。在一些实施例中,所述第一多核苷酸和所述第二多核苷酸具有至少约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%、约99%或约99.99%或前述的任何中间百分比的序列相似性。在一些实施例中,所述第一多核苷酸和所述第二多核苷酸不是单一基因的等位变体。在一些实施例中,所述第一多核苷酸和所述第二多核苷酸是两个单独的基因。在一些实施例中,第一多核苷酸是具有常染色体隐性遗传的基因,一旦失去两个活性拷贝就引起遗传病状或疾病。在此类实施例的一些实施例中,第二多核苷酸是基因,例如假基因,其在序列上与第一多核苷酸(或第一基因)相似,但是没有活性或比第一基因具有更少的活性。

在一些实施例中,可以通过本公开的方法进行基因分型的两个或更多个靶多核苷酸具有在靶多核苷酸中共同(或相同)的区域和在靶多核苷酸中不同(或变化)的另一个区域。在一些实施例中,共同区域和不同区域独立地为约10个碱基到约几百个碱基。在一些实施例中,共同区域和不同区域独立地为约10个碱基、约20个碱基、约30个碱基、约40个碱基、约50个碱基、约60个碱基、约70个碱基、约80个碱基、约90个碱基、约100个碱基、约110个碱基、约120个碱基、约130个碱基、约140个碱基、约150个碱基、约160个碱基、约170个碱基、约180个碱基、约190个碱基、约200个碱基、约250个碱基、约300个碱基、约400个碱基、约500个碱基或前述的任何中间数量的碱基。在一些实施例中,靶多核苷酸中共同区域中的所有碱基均相同。在一些实施例中,在可变区域中,靶多核苷酸中的碱基中的一些碱基不同,而其它一些碱基相同。换句话说,可变区域具有在靶多核苷酸中不同的至少一个或多个碱基,以及在靶多核苷酸中相同的可变碱基附近(或周围)的序列。在对两个相关基因进行基因分型的一些实施例中,可变区域中的可变碱基含有突变、缺失或插入所述基因中的一个基因而不是另一个基因的一个或多个碱基。在一些实施例中,可变碱基可以在构成基因的基因组中的任何地方发现,不仅包含一个或多个编码区域,而且还包含一个或多个非编码区域(例如,5'和3'调节区域,包含启动子、增强子以及5'和3'非翻译区(UTR))和内含子。在一些实施例中,靶多核苷酸包含非编码序列,如microRNA(miRNA)和小干扰RNA(siRNA)。因此,本文所提供的用于基因分型的方法不限于编码序列,但包含询问基因组中任何地方存在的非编码序列。

在一些实施例中,本公开的用于对多个靶多核苷酸(例如,第一多核苷酸和第二多核苷酸)进行基因分型的方法利用具有多个探针的阵列。在一些实施例中,阵列具有第一组探针和第二组探针。在一些实施例中,第一组探针被配置成询问在靶多核苷酸中不同的区域(即,变化区域)。如上所述,变化区域可以具有在靶多核苷酸中不同的一个或多个碱基(即,可变碱基)。变化区域还可以具有围绕可变碱基的相同序列。在一些实施例中,第一组探针具有可以与可变碱基和周围碱基两者杂交的区域。在一些实施例中,第一组探与靶多核苷酸中的每个靶多核苷酸具有不同的亲和力。在一些实施例中,第一组探针具有与靶多核苷酸中的仅一个靶多核苷酸(例如,第一靶多核苷酸)而不与其它靶多核苷酸(例如,第二靶多核苷酸)完全互补的序列。以序列5'-GAATA

应当理解,基因分型可以以可用于标识核酸样品的多个靶序列中的不同位点的任何方式进行。在一些实施例中,可结合本公开使用的基因分型方法包含可用于SNP检测的那些方法,所述SNP检测通常用于分析同一基因的等位基因。在询问两个或更多个靶基因的一些实施例中,可以检测一个或多个靶基因(例如,临床相关基因和/或其假基因)的SNP。用于SNP检测的平台在本领域中是众所周知的,并且此类平台可以适用于本文所提供的用于分析和询问不是来自同一基因的两个或更多个靶序列的方法。用于本文方法的基因分型的合适方法包含单一核苷酸延伸的变化、靶特异性探针(例如,仅与单一基因杂交的探针)的使用、基于连接的靶区分等。

在一些实施例中,阵列还含有第二组探针,所第二组探针被配置成询问靶多核苷酸中共同或相同的区域。因此,第二组探针与靶序列中所有碱基均不变的区域杂交。

在通过本文所提供的方法询问两个靶基因的实例中,可以将第二组探针设计成与在两个靶基因中相同的区域杂交。在一些实施例中,“在两个靶基因中相同的区域”是指当两个基因均为野生型且不具有任何突变时在两个基因中相同的核酸序列。然而,在一些情况下,如果此类个体的基因组中具有突变、缺失和/或插入,则此区域在一些个体的两个靶基因之间可能会不同。在这些实例中,此区域仍可以通过第二组探针进行询问,以便确定一个或两个靶基因的基因型和拷贝数。

在一些实施例中,根据本公开的基因分型方法被配置成确定样品的核酸中靶多核苷酸的组合拷贝数。在一些实施例中,基于第二组探针与靶多核苷酸的杂交谱来确定靶多核苷酸的总拷贝数。在样品具有两个相关基因(例如,实际基因和假基因)的一些实例中,基于指示第二组探针与样品中的核酸杂交的信号,确定两个基因的组合(或总)拷贝数。可以测量与两个靶基因的丰度相关的这些信号,并且将这些信号归一化为来自参考样品的信号。如果测试样品与参考样品之间的信号比率与预期比率不同,则这可能指示两个基因的拷贝数的变化。参考信号可以是从已知为正常二倍体的样品测量的信号。参考信号可以与测试样品同时测量。可替代地,可以例如以电子方式提供参考信号或指示参考信号的数据。在一些实施例中,可以有更多的步骤来将其它可变因素,如杂交背景和核酸质量归一化。在一些实施例中,通过某些算法、通过如本公开中其它地方所描述的计算机来处理信号的测量以及与处理与测量相关联的数据。

在一些实施例中,根据本公开的基因分型方法被配置成确定各个靶多核苷酸之间的量的比率。例如,如果询问两个靶基因以进行基因分型,则所述方法确定这两个基因的相对量(即比率),例如1:1、2:0、3:2或更大。基于指示第一组探针与样品中核酸杂交的信号确定靶基因的此相对量。来自第一探针组的这些信号与核酸样品中一个靶基因相对于另一个靶基因的相对丰度相关。在一些实施例中,测量来自第一靶基因的信号和来自第二靶基因的信号并且彼此比较以确定两个基因的比率。在一些其它实施例中,所述比率是指一个靶基因相对于两个靶基因的总量的量。因此,在一个实例中,可以通过将来自第一靶基因的信号除以来自第一靶基因和第二靶基因的信号之和来确定第一靶基因的相对量。可以通过相同的方式确定第二靶基因的相对量,除了将来自第二靶基因的信号除以信号之和。在一些实施例中,使用一个靶基因(例如,作为临床相关基因如SMN1的第一靶基因)的相对量,并且足以进行基因型和拷贝数确定。在一些其它实施例中,利用了两个靶基因(例如,临床相关基因和其假基因,如SMN1和SMN2)的相对量。在一些实施例中,通过某些算法、通过如本公开中其它地方所描述的计算机来处理信号的测量以及与处理与测量相关联的数据。

在基于阵列的分析测定的上下文中,可以使用多种基因分型方法。在一些实施例中,将阵列表面分成多个特征,每个特征包含多个位点,这些位点包括被配置为结合到特定靶核酸序列的实质相同的寡核苷酸的拷贝。可以检测和定量核酸分子与阵列上不同定位的杂交。一种合适的方法是使用含有靶特异性探针的任何阵列,所述靶特异性探针仅选择性结合到某个或某些靶而不结合到其它靶。在其它实施例中,阵列含有与所有不同形式的靶序列非选择性地结合的探针,但是随后以靶特异性方式扩展或以其它方式修饰以生成靶特异性产物。例如,可以通过模板依赖性核苷酸聚合将阵列的探针延长。可替代地,可以通过标签寡核苷酸的序列依赖性连接将探针延长,所述标签寡核苷酸可以含有信号产生部分。仍然可以在阵列外产生靶特异性产物(例如,靶特异性核苷酸延伸产物或连接产物),然后与含有在各种延伸产物之间进行区分的探针的阵列杂交。可以检测和定量从阵列发出的指示核酸分子与特定阵列探针杂交的信号。基因分型阵列产品的实例包含Affymetrix

在一些实施例中,本文所提供的方法中使用的探针的长度为约10个或更多个碱基。在一些实施例中,探针的长度为约10个碱基、约20个碱基、约30个碱基、约40个碱基、约50个碱基、约50个碱基、约60个碱基、约70个碱基、约80个碱基、约90个碱基、约100个碱基、约200个碱基、约300个碱基、约400个碱基、约500个碱基或上述的任何中间数量的碱基。在一些实施例中,探针的长度为20个碱基、21个碱基、22个碱基、23个碱基、24个碱基、25个碱基、26个碱基、27个碱基、28个碱基、29个碱基、30个碱基、31个碱基、32个碱基、33个碱基、34个碱基和35个碱基。

在一些实施例中,通过本公开的方法进行基因分型的核酸包含从生物来源(或生物样品)或个体获得的DNA和RNA。生物样品或来源可以是例如几乎任何生物体的任何数量的组织或体液如血液、尿液、血清、血浆、淋巴液、唾液、粪便和阴道分泌物。用于基因分型的核酸可以是基因组DNA、无细胞DNA和任何类型的RNA,包含mRNA。

在一些实施例中,通过本公开的方法询问的核酸被扩增,并且扩增产物用于与阵列杂交。在使用基因组DNA作为核酸样品的实施例中,可以在与阵列杂交之前扩增全基因组序列。在实施例案中,使用随机引物通过聚合酶链反应(PCR)完成全基因组扩增。

在一些实施例中,根据本公开的基因分型方法包含靶扩增的步骤。在一些实施例中,多重PCR(mPCR)用于选择性扩增靶基因。在一些实施例中,在包含临床相关基因和其紧密相关的假基因的靶基因中,仅选择性地扩增临床相关基因或其一部分。在一些替代性实施例中,选择性地扩增包含临床相关基因(或其一部分)以及其相关基因(或其一部分)的多个靶基因。在一些实施例中,在与阵列杂交之前,将可以任选地稀释的多重PCR产物添加到核酸样品,例如全基因组DNA或其扩增产物。可替代地或组合地,使用与可收集的手段(例如,生物素珠或抗体)相关联的序列特异性探针分离靶多核苷酸。可以通过使用任何合适的捕获手段(例如,亲和色谱法)拉动生物素珠或抗体来分离与靶序列结合的序列特异性探针。

在一些实施例中,根据本公开的基因分型方法包含使核酸样品或其扩增产物片段化的步骤。应当理解,片段化(或裂解)可以根据本领域已知的适用于结合本公开的任何方法(例如,物理方法,如剪切、超声处理、热处理等,以及化学方法如酶处理)来完成。在一些实施例中,一种或多种序列特异性或序列非特异性酶用于使核酸样品或其扩增产物片段化。在一些实施例中,可以使用一种或多种限制酶来使核酸片段化以进行询问。在一些实施例中,可以通过添加一种或多种酶,例如核酸酶如DNA酶和/或限制酶,来催化片段化的步骤。合适的限制酶包含但不限于AatII、Acc65I、AccI、AciI、AclI、AcuI、AfeI、AflII、AflIII、AgeI、AhdI、AleI、AluI、AlwI、AlwNI、ApaI、ApaLI、ApeKI、ApoI、AscI、AseI、AsiSI、AvaI、AvaII、AvrII、BaeGI、BaeI、BamHI、BanI、BanII、BbsI、BbvCI、BbvI、BccI、BceAI、BcgI、BciVI、BclI、BfaI、BfuAI、BfuCI、BglI、BglII、BlpI、BmgBI、BmrI、BmtI、BpmI、Bpul0I、BpuEI、BsaAI、BsaBI、BsaHI、BsaI、BsaJI、BsaWI、BsaXI、BscRI、BscYI、BsgI、BsiEI、BsiHKAI、BsiWI、BslI、BsmAI、BsmBI、BsmFI、BsmI、BsoBI、Bsp1286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BspQI、BsrBI、BsrDI、BsrFI、BsrGI、BsrI、BssHII、BssKI、BssSI、BstAPI、BstBI、BstEII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、BtgI、BtgZI、BtsCI、BtsI、Cac8I、ClaI、CspCI、CviAII、CviKI-1、CviQI、DdcI、DpnI、DpnII、DraI、DraIII、DrdI、EacI、EagI、EarI、EciI、Eco53kI、EcoNI、EcoO109I、EcoP15I、EcoRI、EcoRV、FatI、FauI、Fnu4HI、FokI、FseI、FspI、HaeII、HaeIII、HgaI、HhaI、HincII、HindIII、HinfI、HinPlI、HpaI、HpaII、HphI、Hpy166II、Hpy188I、Hpy188III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、KasI、KpnI、MboI、MboII、MfeI、MluI、MlyI、MmeI、MnlI、MscI、MseI、MslI、MspAlI、MspI、MwoI、NaeI、NarI、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、NciI、NcoI、NdeI、NgoMIV、NheI、NlaIII、NlaIV、NmeAIII、NotI、NruI、NsiI、NspI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、PacI、PaeR7I、PciI、PflFI、PflMI、PhoI、PleI、PmeI、PmlI、PpuMI、PshAI、PsiI、PspGI、PspOMI、PspXI、PstI、PvuI、PvuII、RsaI、RsrII、SacI、SacII、SalI、SapI、Sau3AI、Sau96I、SbfI、ScaI、ScrFI、SexAI、SfaNI、SfcI、SfiI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、StyD4I、StyI、SwaI、T、TaqαI、TfiI、TliI、TseI、Tsp45I、Tsp509I、TspMI、TspRI、Tth111I、XbaI、XcmI、XhoI、XmaI、XmnI和ZraI。在一些实施例中,向阵列提供所述片段化的核酸或其扩增产物用于进行基因分型。

在一些实施例中,本公开中所描述的方法包含基因分型的步骤。基因分型可以包含确定靶核酸序列内至少一个核苷酸的序列。在一些实施例中,基因分型的步骤涉及分析来自样品的多个(例如,一个、两个或更多个)靶多核苷酸,所述样品可以从生物来源或生物体获得。在一些实施例中,所述靶多核苷酸是不同基因。在一些实施例中,靶核酸包含临床相关基因和共享一些序列同一性的一个或多个其它核酸序列,例如一个或多个相关基因,如假基因。在询问两个或更多个靶基因的一些实施例中,本文所描述的方法用于对靶基因之一进行基因分型,如一个或多个临床相关基因。在一些实施例中,本文描述的方法用于对一个或多个临床不(或更少)相关基因进行基因分型。在一些实施例中,本文所描述的方法用于对一个或多个临床相关基因及其相关的一个或多个临床不(或更少)相关基因进行基因分型。

在一方面,本文所公开的内容提供了用于对核酸混合物进行基因分型的由计算机实施的方法。混合物可以具有与第一靶多核苷酸具有至少50%的序列同一性的第一靶多核苷酸和第二靶多核苷酸。所述方法可以包含:由含处理器的计算机从第一组探针获得强度测量的第一数据;由所述计算机从第二组探针获得强度测量的第二数据以及由所述处理器根据所述第一数据确定所述混合物中的所述第一靶多核苷酸与所述第二靶多核苷酸的比率。然后所述方法通过处理器的操作根据第二数据确定混合物中的第一靶多核苷酸和第二靶多核苷酸的组合拷贝数。然后所述方法通过处理器的操作确定第一靶多核苷酸和第二靶多核苷酸中的至少一个的基因型。

在一些实施例中,第一组探针靶向在第一靶多核苷酸序列和第二靶多核苷酸序列中不同的序列,并且第二组探针靶向在第一靶多核苷酸序列和第二靶多核苷酸序列中相同的序列。

在一些实施例中,所述第一组探针和所述第二组探针可以在阵列中提供。所述第一组探针和所述第二组探针可以与所述阵列上的靶多核苷酸杂交。核苷酸序列可以来自人类。

在一些实施例中,所述第一靶多核苷酸与所述第二靶多核苷酸的所述比率可以是人基因组中的所述第一靶多核苷酸与所述第二靶多核苷酸的比率。所述第一靶多核苷酸和所述第二靶多核苷酸的所述组合拷贝数可以是人基因组中的所述第一靶多核苷酸和所述第二靶多核苷酸的组合基因组拷贝数。

在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。所述第一靶多核苷酸和所述第二靶多核苷酸还可以不是同一基因的等位变体。所述靶多核苷酸可以对应于运动神经元存活1(SMN1)和运动神经元存活2(SMN2)基因或其一部分。所述第一靶多核苷酸可以在所述SMN2基因中和在外显子7中和周围具有突变的SMN1基因的变体中发现。所述第二靶多核苷酸可以在所述SMN1基因中发现。可替代地,所述第二靶多核苷酸可以在所述SMN2基因和在外显子7中和周围具有突变的SMN1基因的变体中发现并且所述第一靶多核苷酸可以在所述SMN1基因中发现。在一些实施例中,所述第一组探针可以包含至少四个探针组,并且每个探针组对应于在SMN1和SMN2基因中不同的序列。在一些实施例中,所述的靶向在外显子7中和周围的SMN1基因的变体的所述至少四个探针组靶向以下区域:含有染色体5:70,247,773C>T位点(图7中的位置27,012)的区域、含有染色体5:70,247,921A>G位点(图7中的位置27,160)的区域、含有染色体5:70,248,036A>G位点(图7中的位置27,275)的区域和含有染色体5:70,248,501G>A(图7中的位置27,740)的区域。在一些实施例中,探针组还可以包含靶向SMN1的多态性区域或位点的一种或多种探针。例如,可以使用含有g.27134T>G位点的区域(染色体5:70,247,901,图7中的位置27,134),所述区域与SMN1的沉默载体突变遗传连接。在一些实施例中,可以通过在区分SMN1与SMN2的单个内含子碱基处的双重归一化深度来调用SMN1的拷贝数。当SMN1中调用染色体5:70,247,773C>T SNP时,只有含有区分SMN1的内含子碱基的那些片段可以填充用于调用染色体5:70,247,773C>T的读段堆积,并且SMN1的拷贝数可以限定要考虑的预期等位基因平衡(例如,在SMN1的三个拷贝下,预期0%、33%、66%或100%的等位基因平衡)。上文引用的所有基因组定位均位于GRCh37/hg19坐标中。

在一些实施例中,所述方法涉及从阵列接收信号的数据。第一组探针可以报告第一靶多核苷酸。可以计算探针组的平均强度值,以及确定平均强度值之间的标准偏差。所述方法可以计算所述靶多核苷酸的原始频率。原始频率可以用于计算靶多核苷酸的居中频率。居中频率可以用于计算靶多核苷酸的缩放居中频率。根据所述靶多核苷酸的每个探针组的亲和力值以及预测拷贝数(CN)可以计算所述靶多核苷酸的中值频率。可以根据数据描绘对应于所述混合物中不存在所述靶多核苷酸的拷贝,所述混合物中存在靶多核苷酸基因的一个拷贝以及所述混合物中存在所述靶多核苷酸的两个拷贝的超平面。然后可以关联所述超平面内的探针组簇的数量,作为所述混合物中的所述靶多核苷酸的拷贝数的统计指示。

在一些实施例中,所述方法可以执行缩放操作,以对应于所述缩放居中频率大于1的情况,通过将所述缩放居中频率设置为1,进一步缩放所述缩放居中频率。所述缩放操作还可以对应于所述缩放居中频率小于0的情况,将所述缩放居中频率设置为0。然后所述缩放操作可以通过减去所述第一靶多核苷酸的中值频率并且使用所述第二靶多核苷酸的中值频率值来确定所述频率的方向。

在一些实施例中,计算所述探针组的原始频率可以包含将所述第二靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。在一些实施例中,此计算是用从第一组探针获得的数据完成的。在一些实施例中,此计算是用从第二组探针获得的数据完成的。

在一些情况下,计算所述探针组的原始频率包含将所述第一靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。在一些实施例中,此计算是用从第一组探针获得的数据完成的。在一些实施例中,此计算是用从第二组探针获得的数据完成的。

在一些实施例中,根据所述原始频率计算所述探针组的居中频率进一步可以涉及从所述原始频率中减去所述标准偏差然后加上理想频率比率0.5,理想频率是介于所述第一靶多核苷酸与所述第二靶多核苷酸之间的频率。

在一些实施例中,根据居中频率计算探针组的缩放居中频率可以涉及对应于所述居中频率小于第一α截止值的情况,将所述居中频率与所述第一α截止值之间的差乘以第一缩放因子然后从所述第一α截止值中减去此值。对应于所述居中频率大于第二α截止值的情况,可以将所述居中频率与所述第二α截止值之间的差乘以第二缩放因子然后将此值与所述第二α截止值相加。对应于所述居中频率等于所述第一α截止值和所述第二α截止值或在由所述第一α截止值和所述第二α截止值形成的范围内的情况,可以将所述居中频率确定为所述缩放居中频率。

在一些实施例中,所述方法涉及将所述探针组的所述缩放居中频率对其预测拷贝数进行绘图。然后可以在所述图中描绘对应于所述混合物中不存在所述靶多核苷酸的拷贝、所述混合物中存在靶核苷酸的一个拷贝以及所述混合物中存在所述靶核苷酸的两个拷贝的超平面。然后可以通过所述混合物中的所述靶核苷酸的拷贝数的统计指示关联所述超平面内的探针组簇的数量。

在一些实施例中,所述方法涉及针对所述探针组进行所述原始频率的归一化。在一些实施例中,针对探针组中的每个探针组进行原始频率的归一化涉及根据所述原始频率计算所述探针组的居中频率,即从所述原始频率中减去所述标准偏差然后加上理想频率比率0.5,理想频率是介于所述第一靶多核苷酸与所述第二靶多核苷酸之间的所述原始频率。在一些实施例中,归一化还可以涉及根据居中频率计算探针组中的每个探针组的缩放居中频率。在一些实施例中,计算缩放居中频率可以涉及对应于所述居中频率小于第一α截止值的情况,将所述居中频率与所述第一α截止值之间的差乘以第一缩放因子然后从所述第一α截止值中减去此值。在一些实施例中,计算缩放居中频率可以涉及对应于所述居中频率大于第二α截止值的情况,将所述居中频率与所述第二α截止值之间的差乘以第二缩放因子然后将此值与所述第二α截止值相加。在一些实施例中,计算缩放居中频率还可以涉及以及对应于所述居中频率等于所述第一α截止值和所述第二α截止值或在由所述第一α截止值和所述第二α截止值形成的范围内的情况,将所述居中频率确定为所述缩放居中频率。

载体筛查

在一些实施例中,本文所提供的本公开可用于诊断病理病状或疾病的个体的载体状态。例如,本文所提供的方法、组合物、试剂盒、系统、装置和仪器可用于确定个体是否可以是常染色体隐性疾病的载体,使得可以获取个体的孩子受到疾病影响的风险。

常染色体隐性遗传是仅出现在已接收到改变的基因的两个拷贝(每个亲本一个拷贝)的个体中的病状。亲本是仅具有基因一个拷贝的载体,并且由于所述基因相对于其正常对应基因是隐性的,因此不展现出所述特性。如图1所展示,如果两个亲本均是载体,则孩子遗传两个异常基因并因此发展成疾病的几率为25%。孩子仅遗传一个异常基因的几率为50%,并且像亲本一样是载体,并且孩子遗传两个正常基因的几率为25%。

遗传性载体(或简称载体)是已为遗传性状或突变的隐性等位基因但未显示所述性状或未示出疾病症状的人或其它生物体。载体能够将等位基因传递给他们的后代,如果后代从两个亲本遗传了隐性等位基因,他们然后可以表达基因。两个载体的孩子患上所述疾病的几率是25%。

存在常染色体隐性遗传决定的多种疾病或病状。一些实例包含囊性纤维化、镰状细胞性贫血、范可尼贫血(fanconi anemia)、丙酮酸脱氢酶缺乏症(pyruvatedehydrogenase deficiency)、着色性干皮症、哈特纳普病(Hartnup's disease)、卡塔格内氏综合症(Kartagener's Syndrome)、戴萨克斯病(Tay-Sachs disease)和脊髓性肌萎缩症(SMN)。尽管对这些疾病或病状的诊断(即确定个体是否是疾病或病状的患者或具有影响风险)至关重要,但对计划不久或以后要生育孩子的个体进行筛查,并且确定所述个体是否是疾病或病状的载体也很重要。此类筛查在例如体外受精(IVT)过程中可能是特别有用的。

在一些实施例中,本文的本公开提供了一种确定个体的常染色体隐性病状的载体状态的方法。所述方法可以包含向阵列提供从个体获得的核酸或其扩增产物的步骤。阵列可以具有与第一靶多核苷酸和第二靶多核苷酸杂交的第一组探针和第二组探针。所述第一组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中有不同的序列的第一区域杂交,并且所述第二组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中是相同的第二区域杂交。所述第一基因和所述第二基因可以具有至少50%的序列同一性。所述方法可以包含检测指示所述第一组探针与所述个体的所述核酸或所述其扩增产物杂交的信号的步骤。所述方法还可以包含检测指示所述第二组探针与所述个体的所述核酸或所述其扩增产物杂交的信号的步骤。所述方法可以进一步包含通过分析所述信号来对所述个体的所述核酸进行基因分型以及基于基因型来确定所述个体的所述载体状态的步骤。

在一些实施例中,通过本文所提供的用于载体筛查的方法询问的第一区域具有在靶多核苷酸中不同(可变)的一个或多个碱基和在一个或多个可变碱基附近或周围的序列。在一些实施例中,所述第一组探针与所述一个或多个可变碱基的紧邻5'或3'的序列杂交。在一些实施例中,所述第一组探针在所述一个或多个变化碱基的紧邻碱基处终止。在一些实施例中,所述第一组探针包含与所述一个或多个可变碱基互补的序列。

在一些实施例中,通过本文的载体状态方法询问的靶多核苷酸来自不同基因。在一些实施例中,所述靶多核苷酸不是基因的等位变体。在一些实施例中,所述方法询问至少两个基因,例如临床相关基因和其相关基因(例如,假基因)。此一对基因的一个实例包含运动神经元存活1(SMN1)和SMN2基因。因此,本文所提供的方法可以用于筛查与SMN 1基因相关联的脊髓性肌萎缩症(SMA)的载体。

在一些实施例中,本文所提供的确定载体状态的方法进一步包含确定个体的核酸中第一靶多核苷酸和第二靶多核苷酸的组合拷贝数的步骤。在一些实施例中,所述方法还包含确定所述个体的所述核酸中的所述第一靶多核苷酸与所述第二靶多核苷酸的量的比率。在一些实施例中,所述方法还包含确定相对于总靶核苷酸的总量的靶多核苷酸的量。因此,例如,可以通过将来自第一靶多核苷酸的信号除以来自第一靶多核苷酸和第二靶多核苷酸的信号之和来确定第一靶多核苷酸的相对量。可以通过相同的方式确定第二靶多核苷酸的相对量,除了将来自第二靶多核苷酸的信号除以信号之和。

在一些实施例中,通过本文所提供的载体筛查方法询问的靶多核苷酸具有至少约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%、约99%或约99.99%或前述的任何中间百分比的序列同一性。

在一些实施例中,通过本文的载体筛查方法询问的核酸具有从个体获得的基因组DNA。在一些其它实施例中,其它类型的核酸,如浮动DNA(例如,无细胞DNA)或RNA(例如,mRNA、siRNA或miRNA)可以用作所述方法的核酸样品。

在一些实施例中,本文所提供的确定载体状态的方法进一步包含扩增靶多核苷酸的步骤。此扩增步骤可以包含扩增靶多核苷酸的核酸。如本公开中其它地方所描述的,可以通过例如具有序列特异性引物的聚合酶链反应(PCR)来完成扩增。可替代地或组合地,使用与可收集的手段(例如,生物素珠或抗体)相关联的序列特异性探针分离靶多核苷酸。可以通过使用任何合适的捕获手段(例如,亲和色谱法)拉动生物素珠或抗体来分离与靶序列结合的序列特异性探针。

在一些实施例中,本文所提供的确定载体状态的方法进一步包含使从个体获得的核酸或其扩增产物片段化,由此生成片段化的核酸的步骤。可以根据本领域已知的适用于结合本公开的任何方法来完成此片段化。在一些实施例中,一种或多种序列特异性或序列非特异性酶用于使核酸样品或其扩增产物片段化。在一些实施例中,可以使用一种或多种限制酶来使核酸片段化。在一些实施例中,可以通过添加一种或多种酶,例如核酸酶如DNA酶或限制酶,来催化片段化的步骤。在一些实施例中,可以使用两种或更多种酶来使核酸或其扩增产物片段化。在一些实施例中,向阵列提供所述片段化的核酸或其扩增产物用于进行载体状态筛查。

在一些实施例中,本文所提供的确定载体状态的方法进一步包含确定靶多核苷酸(例如,临床相关基因)中存在或不存在突变、插入和/或缺失,以便确定所述个体中存在或不存在所述靶多核苷酸的功能性拷贝的步骤。基因的功能性拷贝可以指具有基因的野生型拷贝的活性的至少约30%的基因拷贝。在一些实施例中,基因的功能性拷贝包含基因拷贝,所述基因拷贝具有至少约35%、约40%、约45%、约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%、约97%、约99%、约100%或前述的任何中间百分比的基因的野生型拷贝的活性。确定基因拷贝的功能性(或活性)的各种方法是本领域可用的。例如,在本领域中有多种计算预测方法,例如虚拟基因肿瘤学(VIRGO)服务(NaveedMassjouni、Corban Rivera和T.M.Murali,“VIRGO:基因功能的计算预测(VIRGO:computational prediction of gene functions)”,《核酸研究(Nucleic AcidsRsearch)》(2006),第34卷,第W340-W344页)和SynFPS系统(Jason Li、Saman Halgamuge、Christopher Kells和Sen-Lin Tang,“基于基因组上下文聚类和判别学习的基因功能预测:在噬菌体中的应用(Gene function prediction based on genomic contextclustering and discriminative learning:an application to bacteriophages)”,《BMC生物信息学(BMC Bioinformatics)》(2007),8(增刊4):S6,这些文献以其整体并入本文)。另外,在本领域中可以使用各种实验方法来测试和/或测量基因的特定形式的功能,包含酶活性分析测定、结合亲和力分析测定、基于报告子的分析测定或互补分析测定等。因此,在一些实施例中,一旦通过本文所提供的方法分析了测试样品中靶基因的特定拷贝的结构,就可以以计算方式预测或以实验方式测试所述基因的特定拷贝的功能(或活性)。

在一些实施例中,本文所提供的确定载体状态的方法进一步包含确定个体是否是所关注常染色体隐性病状的载体的步骤。在一些实施例中,如果来自个体的靶多核苷酸(例如,与所关注病状临床相关的基因)的拷贝数为1,则确定所述个体为载体。在一些实施例中,如果他或她具有靶基因的一个功能性拷贝,例如具有至少约30%到约100%的野生型靶基因的功能的拷贝,则确定所述个体为载体。在一些实施例中,测试的个体具有靶基因的两个或更多个拷贝,其中只有一个拷贝是功能性拷贝,并且另一个或另一些拷贝是靶基因的非功能性拷贝。在此情况下,测试的个体仍可被视为仅具有靶基因的一个功能性拷贝的载体。

在另一方面,本文的本公开提供了一种操作载体检测算法的方法,所述方法可以涉及接收具有第一组探针和第二组探针的阵列的探针组数据,所述第一组探针靶向第一靶多核苷酸和第二靶多核苷酸的可变序列并且所述第二组探针靶向所述靶多核苷酸的相同序列,所述数据包括每个探针组的针对所述靶多核苷酸的平均信号强度,每个探针组的所述平均信号强度的标准偏差、第一缩放因子、第二缩放因子和拷贝数区域。在一些实施例中,所述方法涉及根据来自所述探针组的所述平均信号强度计算所述靶多核苷酸中的一个或两个靶多核苷酸的原始频率。在一些实施例中,根据相应的原始频率、理想频率比率和所述标准偏差可以计算所述靶多核苷酸的居中频率。在一些实施例中,根据相应的居中频率、第一α截止值、第二α截止值、所述第一缩放因子和所述第二缩放因子计算所述靶多核苷酸的缩放居中频率。在一些实施例中,根据所述靶多核苷酸的每个探针组的亲和力值和以及预测拷贝数(CN)计算所述靶多核苷酸的中值频率。在一些实施例中,描绘对应于不存在所述靶多核苷酸的拷贝、存在所述靶多核苷酸的一个拷贝以及存在所述靶多核苷酸的两个拷贝的超平面。在一些实施例中,使所述超平面内的探针组簇的数量与所述靶多核苷酸的拷贝数的统计指示相关。在一些情况下,所述靶多核苷酸是人序列。

在一些实施例中,所述靶多核苷酸的所述拷贝数可以是人基因组中的所述靶多核苷酸的基因组拷贝数。所述第一靶多核苷酸和所述第二靶多核苷酸可以具有至少50%的序列同一性。在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸来自不同的基因。在一些实施例中,所述第一靶多核苷酸和所述第二靶多核苷酸不是基因的等位变体。

在一些实施例中,所述靶多核苷酸可以是运动神经元存活1(SMN1)和运动神经元存活2(SMN2)基因或其一部分。在一些实施例中,所述第一靶多核苷酸在所述SMN2基因中和在外显子7中和周围具有突变的SMN1基因的变体中发现。在一些实施例中,所述第二靶多核苷酸在所述SMN1基因中发现。可替代地,所述第二靶多核苷酸可以在所述SMN2基因中和在外显子7中和周围具有突变的SMN1基因的变体中发现并且所述第一靶多核苷酸可以在所述SMN1基因中发现。所述第一组探针可以包含至少四个探针组,并且每个探针组对应于可以在SMN1和SMN2基因中不同的序列。

在一些实施例中,所述的靶向在外显子7中和周围的SMN1基因的变体的所述至少四个探针组靶向以下区域:含有染色体5:70,247,773C>T位点的区域、含有染色体5:70,247,921A>G位点的区域、含有染色体5:70,248,036A>G位点的区域和含有染色体5:70,248,501G>A的区域。

在一些实施例中,对应于所述缩放居中频率大于1的情况,通过将所述缩放居中频率设置为1,缩放所述缩放居中频率。在一些实施例中,对应于所述缩放居中频率小于0的情况,通过将所述缩放居中频率设置为0,缩放所述缩放居中频率。在一些实施例中,然后所述方法涉及通过减去所述第一靶多核苷酸的中值频率值并且使用第二靶核苷酸的中值频率值来确定所述原始频率的方向。

在一些情况下,计算所述探针组的原始频率涉及将所述第二靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。

在一些实施例中,计算所述探针组的原始频率涉及将所述第一靶多核苷酸的强度除以所述第一靶多核苷酸的强度与所述第二靶多核苷酸的强度之和。

在一些实施例中,根据所述原始频率计算所述探针组的居中频率涉及从所述原始频率中减去所述标准偏差然后加上理想频率比率0.5,理想频率是介于所述第一靶多核苷酸与所述第二靶多核苷酸之间的所述原始频率。

在一些实施例中,根据居中频率计算探针组中的每个探针组的缩放居中频率涉及对应于所述居中频率小于第一α截止值的情况,将所述居中频率与所述第一α截止值之间的差乘以第一缩放因子然后从所述第一α截止值中减去此值。在一些实施例中,根据居中频率计算探针组中的每个探针组的缩放居中频率涉及对应于所述居中频率大于第二α截止值的情况,将所述居中频率与所述第二α截止值之间的差乘以第二缩放因子然后将此值与所述第二α截止值相加。在一些实施例中,根据所述居中频率计算所述探针组中的每个探针组的缩放居中频率还涉及以及对应于所述居中频率等于所述第一α截止值和所述第二α截止值或在由所述第一α截止值和所述第二α截止值形成的范围内的情况,将所述居中频率确定为所述缩放居中频率。

在一些实施例中,所述方法涉及将所述靶多核苷酸的所述缩放居中频率对其预测拷贝数进行绘图。在一些实施例中,所述方法然后在所述图中描绘对应于不存在所述靶多核苷酸的拷贝、存在所述靶多核苷酸的一个拷贝以及存在所述靶多核苷酸的两个拷贝的超平面。在一些实施例中,所述方法然后关联所述超平面内的探针组簇的所述数量,作为人基因组中的所述靶多核苷酸的所述拷贝数的所述统计指示。

在另一方面,本文的本公开提供了确定受试者的常染色体隐性病状的载体基因型的方法。所述方法可以涉及针对第一组探针获得第一数据,所述第一组探针靶向在第一多核苷酸序列和第二多核苷酸序列中不同的第一标志物序列,其中所述第一多核苷酸序列和所述第二多核苷酸序列可以具有至少50%的序列同一性并且所述常染色体隐性病状是由基因组中不存在第一多核苷酸序列的功能性拷贝引起的。所述方法还可以涉及针对第二组探针获得第二数据,所述第二组探针靶向可以在所述第一多核苷酸序列和所述第二多核苷酸序列中相同的第二标志物序列。根据所述第一数据和所述第二数据可以计算至少一个多核苷酸序列的拷贝数和计算用于确定所述第一多核苷酸序列和所述第二多核苷酸序列的相对存在度的比率。当所述第一多核苷酸序列的所述拷贝数小于2时,和/或当所述比率指示所述第二多核苷酸序列相对于所述第一多核苷酸序列有更高存在度时,可以确定载体基因型。

在一些实施例中,本文所提供的确定载体基因型的方法可用于获取由SMN1的常染色体遗传所引起的SMA风险。人基因组序列具有SMN2,SMN2在序列上与SMN1高度相似。图4展示了基因组浏览器300,所述基因组浏览器示出了SMN2与设置为参考序列的SMN1的比对。基因组浏览器300示出了标志物302,所述标志物确定每个基因中不变的28千碱基的26个变体定位。

参考图5,基因组浏览器400展示了比较SMN1和SMN2的外显子7的增强视图。在外显子7的区域内,存在四个标志物。标志物402确定区分SMN1的功能拷贝与SMN2的基因转化位点。标志物402在chr5:70,247,773处发现,并且是C>T转化。标志物402还指示SMN1的共同载体变体。标志物404是区分SMN1与SMN2的另一个点突变。标志物404在chr5:70,247,921处发现,并且是A>G转化。标志物406是区分SMN1与SMN2的另一个点突变。标志物406在Chr5:70,248,036处发现,并且是A>G转化。标志物408是区分SMN1与SMN2的另一个点突变。标志物408在Chr5:70,248,501处发现,并且是G>A转化。

图6展示了SMN1碱基序列500。小写字母的蓝色碱基是SMN1特异性的。外显子7具有54个碱基对(以大写字母示出)。示出为红色C(标志物502)的外显子7SNP指示在SMN2中显示为T的基因转化位点。可以将等位基因特异性引物设计成靶向这些差异的序列,用于评估作为SMN1拷贝数(CN)函数的扩增子大小和强度。

在一些实施例中,利用一个或多个引物组来制备扩增子SMN1和/或SMN2。每个引物都有四种不同的错配设计,导致总共有64种不同的用于测试的引物组合。在一些实施例中,仅扩增SMN1或其一部分。可替代地,扩增SMN1和SMN2两者或其一部分。

图7展示了外显子7上游的SMN1的区域和SMN2的对应区域之间的序列比对。序列比对示出了两个基因的外显子7区域的上游的序列比对。两个序列之间的变异可以用于区分两个基因。

图8展示了选择的SMN1-SMN2序列变体基因型700。SMN1和SMN2具有几乎相同的序列,并且将表现得类似于四倍体。所选择的变体在SMN1和SMN2中是非多态性的,并且因此,典型样品将为‘aabb’并且属于正常簇702。本文中的“a”和“b”分别表示SMN1和SMN2的拷贝。正常簇702包含非载体基因型214,如‘1+1’基因型202,其中在两个拷贝上发现SMN1,和‘2+1’基因型204,其中DNA链之一包含SMN1基因的两个工作版本(参见图3)。两种非载体基因型214均满足在每条DNA链上具有至少一个SMN1基因的工作拷贝的要求。载体基因型216与非载体基因型214的区别在于具有至少一条DNA链而不具有SMN1基因的工作拷贝。例如,‘1+0’基因型212是其中DNA链之一缺少SMN1基因的载体,或者是‘1+1*’基因型208,其中DNA链之一包含SMN1基因的非功能拷贝。这些特定基因型被认为是常见的载体。与‘1+0’基因型212和‘1+1*’基因型208不同,‘2+0’基因型210被称为沉默载体,因为它在蛋白质生产方面能够与非载体基因型相似地发挥作用,但在其DNA链之一上缺少SMN1基因,导致50%的配子没有SMN1基因。相似地,‘2+1*’基因型206在同一DNA链上共享复制基因,但是在另一条DNA链上缺少SMN1的工作拷贝。

根据所利用的探针,具有突变的SMN1的‘1+1*’基因型208(参见图3)可以属于拷贝数为4的变体簇704或变体簇706。具有缺失的SMN1的‘1+0’基因型212将属于变体簇708或变体簇710,因为‘1+0’基因型的拷贝数为3。

在一些实施例中,系统检测变体簇中的基因型以及SMN1和SMN2基因的拷贝数。基因型簇确定各种拷贝数和基因型。系统可以聚合(例如,26个)变体上的数据,以建立SMN1和SMN2基因数量的共识。可以设置期望,例如,50个样品中有1个将来自载体,并且因此,例如,每个分析板有大约两个样品将被确定为载体。样品应包括高重复计数,以确保簇是“紧密”的(低扩散)。平均而言,系统应在主簇(正常簇702)之外检测一个或两个样品。

图9展示了拷贝数确定过程800的实施例。基于26个基因特异性核苷酸,以16次重复构建26个等位基因特异性探针组(框802)。还用非多态性探针覆盖所述区域(框804)。计算每个探针组的对数比(框806)。

在一些实施例中,使用非多态性探针计算对数比。

在一些实施例中,根据非多态性探针计算基因特异性中值对数比,以计算SMN1和SMN2的拷贝数(框804)。

在一些实施例中,对数比计算通常避免映射到基因组中一个以上定位的探针。在图9所示的一个实施例中,选择探针以获得SMN1和SMN2基因的“组合”拷贝数。在一些实施例中,SMN1和SMN2基因的组合拷贝数意指来源基因组(例如,从其获得核酸样品的个体的基因组)中两个基因的组合基因组拷贝数。

参考图10,系统900展示了根据一个实施例的实施SMA载体检测算法的系统。在系统900中,将包括靶核苷酸序列916、聚合酶、引物和核苷酸的样品904装载到反应板902上。反应板包括运行平行反应的多个阵列。第一组探针912和第二组探针914存在于每个阵列中并且用于检测靶核苷酸序列916。第一组探针912靶向在第一靶多核苷酸序列和第二靶多核苷酸序列中不同的序列。第二组探针914靶向在第一靶多核苷酸序列和第二靶多核苷酸序列中相同的序列。然后将带有样品的反应板902装载到仪器908中,以进行几个循环的复制,所述复制包含高热阶段(94-98℃(201-208℉)),所述高热阶段使打破互补碱基之间的氢键的DNA链变性,从而产生两个单链DNA分子。变性阶段之后是退火阶段,在所述退火阶段,反应温度降低到50-65℃(122-149℉)持续20-40秒。退火阶段允许将探针组退火到DNA中的靶序列。退火阶段之后是例如通过并入一个或多个标记的核苷酸进行标记。检测每个探针的信息并且将所述信息报告为第一数据或第二数据。在一些配置中,仪器908可以按设置操作,在所述设置中,通过第一信号通道926报告第一数据,并且通过第二信号通道924报告第二数据。向包括处理器920和存储器918的计算机系统910报告第一数据和第二数据报告,其中存储器918包括对应于SMA载体检测算法922的指令。通过SMA载体检测算法922的操作,系统900能够生成基因型图谱928,所述基因型图谱指示第一靶核苷酸序列和第二靶核苷酸序列的频率相对于这两个靶核苷酸序列的总预测拷贝数。SMA载体检测算法922基于探针中的每个探针与靶核苷酸序列的亲和力来调整数据。当绘制数据时,可以基于两个靶序列的频率和两者的预测总拷贝数在簇组之间作出指示超平面区域的描绘。这些超平面区域指示对应于载体和非载体的特定SMN1基因型。

在一些实施例中,第一组探针912可以靶向不同的序列,使得第一组或探针指示SMN1基因和SMN2基因的存在。在一些实施例中,各个探针靶向外显子7处的点突变,所述点突变区分SMN1的功能拷贝与SMN2的拷贝。

在一些实施例中,SMA载体检测算法利用通过多重PCR反应收集的数据。在一些实施例中,在多重PCR反应中扩增SMN1基因序列或其一部分。在一些实施例中,在多重PCR反应中扩增SMN2基因序列或其一部分。在一些实施例中,在多重PCR反应中扩增SMN1基因序列和SMN2基因序列或其一部分。

PCR复用可能会有益处,这些益处中的三个益处包含通量(每个板潜在地分析测定更多的样品)增加、样品使用量减少和试剂使用量减少(取决于实验中的靶数量)。例如,如果定量实验仅由一个靶分析测定组成,则将靶分析测定与归一化器分析测定(如内源性对照分析测定)作为双工运行将增加通量、减少所需样品并且将试剂使用量减少一半。如果定量实验由两个靶分析测定组成,则有可能在三重反应中将两个靶分析测定和归一化器分析测定组合。在所述情况下,通量增加、样品减少和试剂减少将甚至更大。

参考图11,图1400示出了靶序列的报告数据相对于探针组的预测拷贝数的初始分布。示出了指示SMN1相对于SMN2的频率的描绘,其中SMN2在描绘之上,而SMN1在描绘之下。尽管结果示出了基因之间的区别,但存在可能指示潜在的载体变异的一些重叠部分。在图11和12中,y轴表示SMN1/SMN2的等位基因频率,并且x轴表示组合的SMN1和SMN2拷贝数。

参考图12,图1500展示了在实施一个实施例的SMA载体检测算法之后所报告的数据中的清晰描绘。调整的数据可以允许进行描绘,指示SMA的不同载体基因型。顶部描绘指示相对于SMN1和SMN2的比率的SMN1的低值,这基于预测的拷贝数指示顶部区域仅对应于SMN2的拷贝。中间的描绘的区域指示存在可能对应于‘1+1*’或‘1+0’载体基因型的SMN1的仅一个拷贝。

图13是可以结合本公开的一些实施例的计算装置1600的示例框图。图13仅说明进行本文中所描述的技术过程的各方面的机器系统且不限制权利要求书的范围。本领域的技术人员将认识到其它变化、修改以及替代方案。在一个实施例中,计算装置1600通常包含监视器或图形用户界面1602、数据处理系统1620、通信网络接口1612、一个或多个输入装置1608、一个或多个输出装置1606等。

如图13所描绘,数据处理系统1620可以包含一个或多个处理器1604,它们通过总线子系统1618与许多外围装置进行通信。在一些实施例中,这些外围装置包含一个或多个输入装置1608、一个或多个输出装置1606、通信网络接口1612以及存储子系统如易失性存储器1610和非易失性存储器1614。

在一些实施例中,易失性存储器1610和/或非易失性存储器1614存储计算机可执行指令,和因此的形成逻辑1622,所述逻辑在应用于一个或多个处理器1604并由其执行时实施本文所公开的过程的实施例。

在一些实施例中,一个或多个输入装置1608包含用于将信息输入到数据处理系统1620的装置和机构。这些可以包含键盘、小键盘、并入监视器或图形用户界面1602中的触摸屏、音频输入装置如语音识别系统、麦克风和其它类型的输入装置。在各个实施例中,一个或多个输入装置1608可以被体现为计算机鼠标、轨迹球、轨迹板、操纵杆、无线遥控器、绘图板、语音命令系统、眼睛跟踪系统等。一个或多个输入装置1608通常允许用户通过命令如单击按钮等来选择出现在监视器或图形用户界面1602上的对象、图标、控制区域、文本等。

在一些实施例中,一个或多个输出装置1606包含用于将信息从数据处理系统1620输出的装置和机构。这些可以包含在本领域中是众所周知的监视器或图形用户界面1602、扬声器、打印机、红外LED等。

在一些实施例中,通信网络接口1612提供到数据处理系统1620外部的通信网络(例如,通信网络1616)和装置的接口。通信网络接口1612可以充当用于从其它系统接收数据且将数据传输到其它系统的接口。通信网络接口1612的实施例可以包含以太网接口、调制解调器(电话、卫星、电缆、ISDN)、(异步)数字订户线(DSL)、火线、USB、无线通信接口如蓝牙或WiFi、近场通信无线接口、蜂窝接口等。

在一些实施例中,通信网络接口1612通过天线、电缆等耦接到通信网络1616。在一些实施例中,通信网络接口1612可以物理地集成在数据处理系统1620的电路板上,或在一些情况下可以在软件或固件如“软调制解调器”等中实施。

在一些实施例中,计算装置1600包含允许使用方案如HTTP、TCP/IP、RTP/RTSP、IPX、UDP等通过网络通信的逻辑。

易失性存储器1610和非易失性存储器1614是有形介质的实例,所述有形介质被配置成存储计算机可读数据和指令以实施本文所描述的过程的各个实施例。其它类型的有形介质包含可移动存储器(例如,可插拔USB存储器装置、移动装置SIM卡)、光存储介质如CD-ROMS、DVD、半导体存储器如闪存、非暂时性只读存储器(ROMS)、电池支持的易失性存储器、联网存储装置等。在一些实施例中,易失性存储器1610和非易失性存储器1614被配置成存储基本编程和数据构造,所述基本编程和数据构造提供所公开的过程及其属于本公开的范围内的其它实施例的功能。

实施本公开的实施例的逻辑1622可以存储在易失性存储器1610和/或非易失性存储器1614中。所述逻辑1622可以从易失性存储器1610和/或非易失性存储器1614中读取,并且由一个或多个处理器1604执行。易失性存储器1610和非易失性存储器1614还可以提供用于存储由逻辑1622所使用的数据的存储库。

在一些实施例中,易失性存储器1610和非易失性存储器1614包含多个存储器,所述多个存储器包含用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)以及其中存储只读非暂时性指令的只读存储器(ROM)。在一些实施例中,易失性存储器1610和非易失性存储器1614包含文件存储子系统,所述文件存储子系统为程序和数据文件提供持久性(非易失性)存储。在一些实施例中,易失性存储器1610和非易失性存储器1614包含可移动存储系统,如可移动闪存。

在一些实施例中,总线子系统1618提供用于允许数据处理系统1620的各种组件和子系统根据需要彼此通信的机构。虽然将通信网络接口1612示意性地描绘为单个总线,但总线子系统1618的一些实施例可以利用多个相异的总线。

本领域的技术人员将容易地显而易见,计算装置1600可以是装置,如智能电话、台式计算机、膝上型计算机、机架安装式计算机系统、计算机服务器或平板计算机装置。如本领域中通常已知的,计算装置1600可以被实施为一系列多个联网计算装置。进一步地,计算装置1600将通常包含操作系统逻辑(未展示),其类型和性质在本领域中众所周知。

试剂盒

在一些实施例中,本文的本公开提供了用于对样品的核酸进行基因分型的试剂盒。试剂盒可以包含具有与多个靶多核苷酸杂交的第一组探针和第二组探针的阵列。在一些实施例中,多个靶多核苷酸包含两个或更多个不同的靶多核苷酸,例如,第一靶多核苷酸和第二靶多核苷酸。所述第一组探针可以与具有在所述第一靶多核苷酸和所述第二靶多核苷酸中不同的序列的第一区域杂交,并且所述第二组探针与在所述第一靶多核苷酸和所述第二靶多核苷酸中是相同的第二区域杂交。所述第一靶多核苷酸和所述第二靶多核苷酸可以具有至少50%的序列同一性。

在一些实施例中,通过本文所提供的试剂盒询问(或分析)的第一区域具有在靶多核苷酸中不同(可变)的一个或多个碱基和在一个或多个可变碱基附近或周围的序列。在一些实施例中,所述第一组探针与所述一个或多个可变碱基的紧邻5'或3'的序列杂交。在一些实施例中,第一组探针在一个或多个可变碱基的紧邻碱基处终止。在一些实施例中,所述第一组探针包括与所述一个或多个可变碱基互补的序列。

在一些实施例中,通过本文的试剂盒询问的靶多核苷酸来自不同基因。在一些实施例中,所述靶多核苷酸不是基因的等位变体。在一些实施例中,所述试剂盒可以用于询问至少两个基因,例如临床相关基因和其相关基因(例如,假基因)。在一些实施例中,通过本文的试剂盒询问的靶多核苷酸具有至少约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%或约99%的序列同一性。

在一些实施例中,本文所提供的试剂盒进一步包含有关数据收集和其分析的说明。在一些实施例中,指令在计算机可读介质中或在计算机中。在一些实施例中,指令含有用于接收指示第一组探针和第二组探针与样品的核酸或其应用产物杂交的数据的代码。在一些实施例中,指令还包含用于确定靶多核苷酸的组合拷贝数,例如样品的核酸中第一多核苷酸和第二多核苷酸的总拷贝数的代码。在一些实施例中,指令包含用于确定靶多核苷酸的量的比率,例如来自样品的核酸的第一多核苷酸和/或第二多核苷酸的相对量,的代码。在一些实施例中,所述比率是指两个靶多核苷酸的相对量,如1:1、3:0或1:2。在一些其它实施例中,所述比率是指一个靶多核苷酸相对于靶多核苷酸的总量的量。因此,在一个实例中,可以通过将来自第一靶核苷酸的信号除以来自第一靶核苷酸和第二靶核苷酸的信号之和来确定第一靶多核苷酸的相对量。除了将第二靶多核苷酸的信号除以信号之和以外,使用相同的方式,可以确定第二靶多核苷酸的相对量。在一些实施例中,使用一个靶多核苷酸(例如,临床相关基因)的相对量并且足以用于载体筛查。在一些其它实施例中,两个或多个靶多核苷酸(例如,临床相关基因和及其假基因)的相对量用于载体筛查。在一些实施例中,指令还包含用于确定靶多核苷酸的基因型,例如来自样品的核酸的第一靶多核苷酸和/或第二靶多核苷酸的基因型,的代码。

在一些实施例中,本文的本公开提供了制造用于对具有多个靶多核苷酸的核酸进行基因分型的阵列的方法。在一些实施例中,多个靶多核苷酸包含两个或更多个不同的靶多核苷酸,例如,第一靶多核苷酸和第二靶多核苷酸。第一多核苷酸和第二多核苷酸可以具有至少50%的序列同一性。所述制造方法可以包含向底物提供第一组探针。第一组探针可以与包括在靶多核苷酸中不同的序列的第一区域杂交。所述方法还可以包含向底物提供第二组探针。第二组探针可以与在靶多核苷酸中是相同的第二区域杂交。在一些实施例中,第一组探针和第二组探针在底物上合成。在替代性实施例中,所述第一组探针和所述第二组探针在合成后附接到所述底物。在一些实施例中,所述第一区域具有在所述靶多核苷酸中可变的一个或多个碱基位置,以及围绕所述一个或多个可变碱基的序列。在一些实施例中,所述第一组探针与所述一个或多个可变碱基的紧邻5'的序列杂交。在一些实施例中,第一组探针在一个或多个可变碱基的紧邻碱基处终止。在一些实施例中,所述第一组探针具有与所述一个或多个可变碱基互补的序列。

虽然已经在本文示出并描述了本公开的优选实施例,但是对本领域的普通技术人员而言应当显而易见的是此类实施例仅以举例方式提供。在不背离本公开的情况下,本领域的普通技术人员现在将会想到众多变体、变化以及取代。应当理解,本文所述的本公开的实施例的多种替代方案可以用于实践本公开。预期的是以下权利要求限定了本公开的范围以及由此覆盖在这些权利要求和其等效物的范围内的方法和结构。

实例

脊髓性肌萎缩症载体的筛查

脊髓性肌萎缩症(SMA)是罕见的但毁灭性的疾病,所述疾病具有常染色体隐性遗传。在一些群体中,50个人中有1个人携带SMN1基因中的突变,所述SMN1基因编码有缺陷的运动神经元存活(SMN)蛋白。载体筛查需要准确确定个体中功能性SMN1基因的数量。高度同源但大部分非功能性SMN2基因的存在使载体检测复杂。在SMN1和SMN2基因的28,081bp中,只有27个位置不同(21个单核苷酸取代和6个小插入缺失),仅占SMN1和SMN2基因序列之间不同的38个核苷酸。

在本文所提供的实例中,设计并进行了根据一些实施例的用于对SMA载体进行基因分型和筛查的基于阵列的分析测定。具体地,本文所使用的阵列具有探针组,所述探针组被设计成基于这些序列差异来区分SMN1基因和SMN2基因。另外,所述阵列进一步含有1,181个探针组,所述探针组覆盖SMN1基因和SMN2基因,用于确定组合的基因拷贝数。数据示出,这些探针设计可以检测SMN1基因和SMN2基因的相对数目以及总拷贝数。这些数据的组合用于新型算法,以标识携带SMA突变的个体,与本领域任何其它可用方法相比,提供高度准确和改进的筛查结果。

实例1-探针组的设计

SMN1基因和SMN2基因组DNA序列的比较标识了27个位置,其中这两个基因之间存在序列差异。这些差异用于设计基因特异性探针组。这些位置大多是内含子,但一个位于外显子7内,并且一个位于外显子8内。(参见图5)外显子7定位既是SMN1与SMN2之间的序列差异,又是将SMN1转化为非功能性SMN2基因的突变的位点。此突变会干扰外显子剪接连接,并且导致不含外显子7的转录物。最常见的载体类型是外显子7缺失突变,但基因转化突变也会发生。图2示出了带有探针组的四个基因组位置,所述探针组用于检测SMN1和SMN2的相对拷贝数。

载体确定需要准确评估SMN1和SMN2的总拷贝数。1,181个拷贝数探针组与两个基因(SMN1和SMN2)的野生型均等杂交,因此假定的基线拷贝数为4(每个基因两个)。由于最常见的缺失是外显子7,因此设计着眼于外显子7和其周围的35个拷贝数探针组。

实例2-样品制备

实例2.1-基因组扩增和靶扩增期间

通常通过遵循赛默飞世尔科技公司的CarrierScan

实例2.2-扩增的DNA的片段化

全基因组扩增和mPCR反应完成后,将96板的每个孔中的10μL mPCR反应产物小心地转移到全基因组扩增板的对应孔中。通过上下移液和脉冲旋转沉降将样品充分混合。将含有Axiom Frag酶(赛默飞世尔科技公司)的用于片段化的主混合物等分到混合的DNA样品的每个孔中。将样品在37℃下温育45分钟以进行片段化反应。一旦片段化反应结束,就将按照制造商的方案的终止溶液添加到样品板上以终止片段化反应。片段化反应完成后,将用于沉淀样品DNA的主混合物添加到板的各个孔中,此后向每个孔中添加2-丙醇。将每个孔中沉淀的DNA团粒干燥并且储存直到下一步骤。

实例3-片段化DNA的变性

将重悬缓冲液添加到含有沉淀的DNA的样品板的每个孔中。随后按照制造商的方案,将杂交主混合物添加到已使DNA悬浮的每个孔中。然后,如制造商所建议的,使用热循环仪将样品板继续进行变性步骤(10分钟,95℃和3分钟,48℃)。

实例4-杂交和染色

使用GeneTitan MC仪器(赛默飞世尔科技公司)和制造商提供的方案进行杂交、染色和连接步骤。按照方案,预先制备用于染色、连接和稳定化的主混合物。在本文所呈现的此实例中,由于分析测定采用利用两个标记分子进行染色的2通道系统,因此染色主混合物具有两种单独的溶液。

将具有变性的DNA的板与具有探针的杂交阵列一起装载到GeneTitan MC仪器中。仪器的自动化过程将变性的DNA转移到杂交阵列板上并且在受控可控条件下将阵列板温育以进行杂交。杂交后,将阵列板用洗涤缓冲液洗涤几次并且进行两个单独的染色步骤(染色1和染色2),作为自动化过程的一部分。杂交和洗涤后,将用于第一染色步骤(染色1)的主混合物添加到阵列板中,此后添加连接主混合物。第一染色主混合物用第一标记来标记A/T,并且如果模板具有A或T,则将第一标记添加到探针中。用于染色2的第二染色主混合物已用第二标记来标记G/C,并且如果模板具有G或C,则将标记的G或C添加到探针中。此模板特异性连接将标记与其对应的靶多核苷酸杂交的探针。

实例5-扫描

一旦阵列板经过上述过程的应用流体学阶段,就将阵列板移动到仪器的成像站并扫描以进行数据收集。

使用包含参考基因组DNA的多个对照来获取每个反应步骤的质量以及样品质量。

实例6-算法

本文提供了对在计算机系统上作为程序操作的SMN检测算法的一种实施方案的描述。在此特定实例中,如下文所指示的,通过两通道系统(通道a和b)检测到了SMN1和SMN2(参见以下txt输入文件的最后两列)。在此实例中,将针对在每个通道中测量的靶序列测量和计算的频率指示为等位基因频率。例如,从通道B测量的频率在下文示出为B等位基因频率(BAF)。然而,应该注意的是,此频率是针对从每个通道测量的不同基因,而不是针对不同等位基因。因此,本文的本公开中提供的等位基因频率,例如B等位基因频率(BAF)应被认为是假BAF,所述假BAF指示相关基因之一的频率,而不是单个基因的等位基因变体。

示例CarrierScan.SMN.v1.AB_probesets.txt输入文件:

当将SMN1列为A通道时,所述方法将结束计算1-BAF=A/(A+B),但在本文档中将此计算描述为计算BAF,然后,在最后(在计算出每个给定标志物的探针组之后),此计算得到补充。

通道A是从所述探针组的通道A的基因分型概要文件获得的信号。

下文的假代码中的另一项是希望最终的BAF介于0与1之间。由于缩放,最终的BAF可以低于0或高于1,在这种情况下,仅重置BAF。

此处示出了针对六个探针组的程序,对应于3个标志物(affy_snp_id)

1.原始“B等位基因频率”(rBAF)计算

a.在来自*AB_probesets.txt中probeset_id列的所有探针组中读取

b.从AxiomGT1.summary.a5(hdf5格式)中找到强度A和强度B值

i.RowNames表

1.强度A=-A

2.强度B=-B

ii.ColNames表

1.每行的索引将按照数据表中示出的左右顺序给出cel_file名称

c.对于每个样品,使用数据表计算rBAF:

2.中心原始BAF

a.从*AB_probesets.txt中的因子1列中找到相关联的居中因子

b.对于每个样品:探针组rBAF中心:

cBAF=居中原始BAF=0.5+(rBAF-因子1)

在一些实施例中,因子1可以是基线Bi。在一些实施例中,rBAF是针对具有2个SMN1拷贝和2个SMN2拷贝的样品计算的并且因此可以被视为具有2个A等位基因和2个B等位基因。在此类实施例中,因子1是跨这些样品的中值rBAF。结果,跨这些样品的中值BAF为0.5。

3.缩放居中BAF

a.如果cBAF<0.485,则找到*AB_probesets.txt中的因子2列

i.对于每个样品:探针组cBAF缩放:`

scBAF=缩放的居中原始BAF=0.485-(0.485-cBAF)×因子2

b.如果cBAF>0.515,则找到*AB_probesets.txt中的因子3列

i.对于每个样品:探针组cBAF缩放:

scBAF=缩放的居中原始BAF=(cBAF-0.515)×因子3+0.515

c.否则(0.515≥cBAF≥0.485)

scBAF=缩放的居中原始BAF=cBAF

d.将scBAF缩放到介于0与1之间:

i.如果scBAF>1,请将scBAF设置为1,

ii.如果scBAF<0,请将scBAF设置为0,

iii.否则,在以下步骤中使用计算出的scBAF。

在此,算法开始将测量完全相同的标志物的探针组分组在一起。Affy_snp_if是参考给定标志物的ID。因此,在计算给定标志物的所有scBAF之后,取每个标志物的所述测量结果的中值。

4.affy_snp_id的中值scBAF

a.对于每个probeset_id,找到*AB_probesets.txt中相关联的affy_snp_id

b.针对每个样品=mBAF,计算affy_snp_id的中值

在下文的此步骤中,如果中值朝相反方向移动,则中值得到补充。

5.通过针对每个affy_snp_id检查smn1_channel列,检查通道以确定“真实BAF”方向:

a.如果smn1_channel=A:

i.mBAF_=1–mBAF

b.如果smn1_channel=B:

i.mBAF_=mBAF

ii.

在此查看了多个标志物,并且确定了跨区域中的多个标志物的中值的中值。为了进行最后的调用,使用了3个测量结果。

6.cn_region的中值mBAF

a.对于每个cn_region,找到*AB_probesets.txt中相关联的affy_snp_id

b.通过使用每个样品=mBAF_的每个的中值BAF,计算所基于的每个cn_region的中值

中值(mBAF_、mBAF_、……)

在步骤7中,每个affy_snp_is的值(计算标志物以及跨标志物的中值)在下文中被称为cn_region的mBAF。

7.报告

a..SMN_ABreport.txt(example:mPCR90.SMN_ABreport.txt)

i.cel_files=cel文件名称

ii.mAB_=affy_snp_id的mBAF

iii.mAB_=cn_region的中值mBAF

示例分析报告mPCR90.SMN_ABreport.txt

实例8-报告调用

针对区域计算(SMN1+SMN2的)拷贝数(CN)状态。每个拷贝数状态具有不同的阈值,在所述阈值下,调用“SMN1具有少于2个拷贝”,如下表所示:表1:阈值。

表1

另外的表(下文)示出了SMN1的每个CN和状态的预期BAF。表2:每个CN状态的预期值。

表2

注意,表1中的阈值是根据经验得到的,并且虽然所述阈值是由表2中的理论值驱动的,但是没有根据理论值来计算使用的实际阈值的公式。

如下应用阈值,并且报告了四个可能的结果。

1)当cn_region的中值mBAF小于或等于上表中针对相应拷贝数列出的值时,将样品指定为“载体”,例如SMN1的CN为1或更小。

或者

2)当Affx-206872225的BAF小于上表中的阈值时,“调用转化事件”。

这被解释为“转化”事件。报告转化事件——并且样品也是载体,SMN1存在,但以上标志物的关键等位基因突变至SMN2所具有的值——从而使基因失活。

或者

3)外显子8内部有一个标志物——当仅所述标志物的BAF小于上表中的对应阈值时,调用“外显子8缺失”。不确定客户是否将此解释为载体,但客户要求对其进行报告。

或者

4)没有报告任何事情。

参数/选项

实例9-调用SMN1/SMN2拷贝数

图14示出了96个代表性样品的拷贝数的分布。log2比率为0.0的峰表示具有组合的SMN1和SMN2的4个拷贝的个体。本文实例中使用的CNVMix算法在这组样品2、3、4和5中确定了4个拷贝数状态。令人惊讶地,大量样品具有这些基因的3个拷贝。总拷贝数很重要。例如,在总拷贝数为2下,具有相等量的SMN1和SMN2的样品显然是载体,但在总拷贝数为4下,所述比率意味着非载体。

实例10-SMA的载体的确定

SMN1和SMN2基因的频率,即在本文呈现的实例中标记为BAF(B等位基因频率),是报告SMN1和SMN2相对量的度量。图15的左图示出仅BAF无法将载体(红点)与非载体分开。通过按总拷贝数和BAF对数据进行分层,存在载体与非载体(虚线)的清楚分开,构成了载体检测算法的基础。SMA检测算法在493个样品的数据集上的初步应用没有假阴性调用。产生了一定比率的假阳性调用,但这在屏幕上是可接受的。本文所呈现的所述实例清楚地证明了本文所提供的分析测定和算法为载体筛查提供了高度准确且显著改善的筛查结果。

实例11-显示SMA基因的拷贝数

在一些实施例中,根据实例10计算的拷贝数可以例如在如图16中所示的图中显示(例如,在y轴处的SMN1拷贝数和在x轴处的SMN2拷贝数)。基于每个基因的频率,以超平面格式对从频率推断出的拷贝数进行绘图。在一个实例中,将怀疑是SMN1载体的样品在y轴上绘图为值1.5或以下。因此,怀疑在图16中标记为三角形的样品是载体。每个怀疑的载体具有SMN2的不同的拷贝数,如x轴所示。通过这种将数据转换为更容易理解、用户友好的格式或界面的显示,可以容易地确定样品的载体状态。

在一些实施例中,靶基因中的一种或多种靶基因的拷贝数可以以任何用户界面形式显示在屏幕上(本地或通过网络远程创建)或印刷品中。这种显示可以是表格或文本的形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号