首页> 中国专利> 用于从全基因组测序数据进行诊断的方法和系统

用于从全基因组测序数据进行诊断的方法和系统

摘要

本文所公开的包括用于旁系同源物基因分型诸如确定运动神经元存活1基因的拷贝数以及使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型对细胞色素P450家族2亚家族D成员6基因进行基因分型的系统、装置、计算机可读介质和方法。

著录项

  • 公开/公告号CN113228192A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利权人 因美纳有限公司;

    申请/专利号CN202080007492.0

  • 发明设计人 M·A·埃贝勒;陈晓;

    申请日2020-08-26

  • 分类号G16B20/10(20190101);C12Q1/6869(20180101);C12Q1/6883(20180101);G16B10/00(20190101);G16B30/10(20190101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王勇

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 12:07:15

说明书

相关申请的交叉引用

本申请要求2019年9月5日提交的美国临时专利申请第62/896,548号、2019年9月30日提交的美国临时专利申请第62/908,555号和2020年4月7日提交的美国临时专利申请第63/006,651号的优先权权益。相关申请中的每篇申请的内容全文以引用方式并入本文。

背景技术

技术领域

本公开整体涉及旁系同源物基因分型领域,并且更具体地涉及使用测序数据的旁系同源物基因分型。

基因分型具有挑战性。例如,脊髓性肌萎缩是由运动神经元存活1(SMN1)基因的功能丧失但旁系同源SMN2基因保留所引起的。由于SMN1及其旁系同源SMN2的序列几乎相同,因此对该区域的分析一直有挑战性。又如,CYP2D6参与所有药物的25%的代谢。由于CYP2D6的高多态性、共同结构变体(SV)的存在以及与基因的假基因旁系同源物CYP2D7的高序列相似性,因此对其进行基因分型具有挑战性。

发明内容

本文所公开的包括用于确定运动神经元存活1(SMN1)基因的拷贝数的方法。在一些实施方案中,一种用于确定SMN1基因的拷贝数的方法在处理器(诸如硬件处理器或虚拟处理器)的控制下,并且包括:接收序列数据,该序列数据包括获自受试者的样本且与SMN1基因或运动神经元存活2(SMN2)基因比对的多个序列读段。该方法可包括:确定(i)与分别包含SMN1基因或SMN2基因的外显子1至外显子6中的至少一者的第一SMN1或SMN2区域比对的该多个序列读段的序列读段的第一数量和(ii)与分别包含SMN1基因或SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区域比对的该多个序列读段的序列读段的第二数量。该方法可包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量。该方法可包括:分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)各自为完整SMN1基因、完整SMN2基因、截短SMN1基因或截短SMN2基因的总运动神经元存活(SMN)基因的拷贝数和(ii)各自为完整SMN1基因或完整SMN2基因的任何完整SMN基因的拷贝数。该方法可包括:对于与完整SMN1基因相关联的多个SMN1基因特异性碱基中的一个碱基,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合中的最可能组合。该方法可包括:使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因的拷贝数。

在一些实施方案中,测序数据包括全基因组测序(WGS)数据或短读段WGS数据。在一些实施方案中,受试者为胎儿受试者、新生儿受试者、儿童受试者、青少年受试者或成人受试者。样本可包含细胞或无细胞DNA。样本可包含胎儿细胞或无细胞胎儿DNA。

在一些实施方案中,将该多个序列读段的序列读段与第一SMN1或SMN2区域或第二SMN1或SMN2区域进行比对,其中比对质量得分为约零。第一SMN1或SMN2区域可分别包含SMN1基因或SMN2基因的外显子1至外显子6,并且长度为约22.2kb。第二SMN1或SMN2区域可分别包含SMN1基因或SMN2基因的外显子7和外显子8,并且长度为约6kb。

在一些实施方案中,确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度。确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量可包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一SMN1或SMN2区域长度归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二SMN1或SMN2区域长度归一化数量。确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量可包括:使用除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度,分别根据(i)第一SMN1或SMN2区域长度归一化数量和(ii)第二SMN1或SMN2区域长度归一化数量来确定(i)与第一区域SMN1或SMN2比对的序列读段的第一归一化深度以及(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化深度,与第一SMN1或SMN2区域比对的序列读段的第一归一化数量以及与第二SMN1或SMN2区域比对的序列读段的第二归一化数量分别为第一归一化深度和第二归一化深度。

在一些实施方案中,确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量包括:分别使用(i)第一SMN1或SMN2区域的GC含量和(ii)第二SMN1或SMN2区域的GC含量来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度,以及确定(iv)基因组的区域的GC含量。

在一些实施方案中,该区域的深度包括测序数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的平均深度或中值深度。该区域可包含约3000个长度为约2kb且各自跨受试者的基因组的预选区域。在一些实施方案中,(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和/或(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量为约30至约40。

在一些实施方案中,高斯混合模型包括一维高斯混合模型。高斯混合模型的该多个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值可以为由高斯函数表示的整数拷贝数。

在一些实施方案中,确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数包括分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,使用高斯混合模型和第一预先确定的后验概率阈值来确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数。第一预先确定的后验概率阈值可以为0.95。

在一些实施方案中,该方法包括:使用(i)所确定的总SMN基因的拷贝数和(ii)所确定的完整SMN基因的拷贝数来确定截短SMN基因的拷贝数。截短SMN基因的拷贝数可以为(i)所确定的总SMN基因的拷贝数与(ii)所确定的完整SMN基因的拷贝数的差值。

在一些实施方案中,SMN1基因特异性碱基为剪接增强子。SMN1基因特异性碱基可以为SMN1基因的c.840处的碱基。在一些实施方案中,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,相对于该多个组合中的其他组合,SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合与最高后验概率相关联。

在一些实施方案中,确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合包括:考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中的最可能组合。确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合可包括:确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量;确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率;以及基于(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率来确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中的最可能组合。

在一些实施方案中,确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合包括:对于该多个SMN1基因特异性碱基中的每个碱基,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合中的与最高后验概率相关联的最可能组合。确定SMN1基因的拷贝数可包括:基于对于该多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合的SMN1基因的可能拷贝数来确定SMN1基因的拷贝数。

在一些实施方案中,SMN1基因特异性碱基与除超出预先确定的一致性阈值的SMN1基因特异性碱基之外的该多个SMN1基因特异性碱基中的每个碱基具有一致性。一致性阈值可以为97%。该多个SMN1基因特异性碱基可包括8个SMN1基因特异性碱基。该多个SMN1基因特异性碱基中的每个碱基可位于SMN1基因的内含子6、外显子7、内含子7或外显子8上。如果受试者为第一种族,则该多个SMN1基因特异性碱基可不同,如果受试者为第二种族,则该多个SMN1基因特异性碱基可不同,并且如果受试者为未知种族,则该多个SMN1基因特异性碱基可不同。受试者的种族可能未知,并且该多个SMN1基因特异性碱基可能不是种族特异性的。受试者的种族可能已知,并且该多个SMN1基因特异性碱基可能特定于受试者的种族。在一些实施方案中,该方法包括:接收受试者的种族信息。该方法可包括:基于所接收的种族信息,从多个SMN1基因特异性碱基中选择该多个SMN1基因特异性碱基。

在一些实施方案中,确定SMN1基因的拷贝数包括:使用对于该多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因的拷贝数和SMN2基因的拷贝数。确定拷贝数可包括:使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合以及SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的组合的第二预先确定的后验概率阈值来确定SMN1基因的拷贝数。第二预先确定的后验概率阈值可以为0.6或0.8。

在一些实施方案中,所确定的SMN1基因的大部分可能拷贝数一致。所确定的SMN1基因的拷贝数可以为SMN1基因的一致可能拷贝数。该方法可包括:考虑到(a)具有支持该多个SMN1基因特异性碱基中的任一个碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持该多个对应SMN2基因特异性碱基中的任一个碱基的碱基的该多个序列读段的序列读段的数量,确定包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的可能组合。该方法可包括:确定可能组合的可能拷贝数为SMN1基因的一致可能拷贝数。

在一些实施方案中,确定SMN1基因的拷贝数包括:确定SMN1基因的拷贝数为零、一或多于一。在一些实施方案中,该方法包括:基于SMN1基因的拷贝数确定受试者的脊髓性肌萎缩(SMA)状态。受试者的SMA状态可包括SMA、SMA携带者而不是SMA,以及不是SMA携带者。在一些实施方案中,该方法包括:使用与SMN1基因的g.27134比对的该多个序列读段的序列读段的数量以及与SMN1基因的g.27134比对的序列读段的碱基确定受试者是沉默SMA携带者。

在一些实施方案中,该方法包括:基于所确定的SMN1基因的拷贝数来确定对受试者的治疗建议。该治疗建议可包括向受试者施用Nusinersen和/或Zolgensma。

本文所公开的包括用于对细胞色素P450家族2亚家族D成员6(CYP2D6)基因进行基因分型的方法。在一些实施方案中,用于对CYP2D6基因进行基因分型的方法在处理器(诸如硬件处理器或虚拟处理器)的控制下,并且包括:接收序列数据,该序列数据包括获自受试者的样本且与CYP2D6基因或细胞色素P450家族2亚家族D成员7(CYP2D7)基因比对的多个序列读段。该方法可包括:确定(i)与CYP2D6基因或CYP2D7基因比对的该多个序列读段的序列读段的第一数量。该方法可包括:分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量。该方法可包括:考虑到(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。该方法可包括:对于多个CYP2D6基因特异性碱基中的一个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的多个可能组合中的最可能组合。该方法可包括:使用对于CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的等位基因。

在一些实施方案中,测序数据包括全基因组测序(WGS)数据或短读段WGS数据。受试者可以为胎儿受试者、新生儿受试者、儿童受试者、青少年受试者或成人受试者。样本可包含细胞或无细胞DNA。样本可包含细胞或无细胞DNA。

在一些实施方案中,将该多个序列读段的序列读段与CYP2D6基因或CYP2D7基因进行比对,其中比对质量得分为约零。在一些实施方案中,确定(i)与CYP2D6基因或CYP2D7基因比对的该多个序列读段的序列读段的第一数量包括:确定(i)与CYP2D6基因的至少一个外显子或内含子或者CYP2D7基因的外显子或内含子中的至少一者比对的该多个序列读段的序列读段的第一数量。

在一些实施方案中,确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量包括:分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,以及确定(iii)在序列数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的深度。确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量可包括:分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一CYP2D6基因或CYP2D7基因长度归一化数量。确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量可包括:使用除包含CYP2D6基因和CYP2D7的基因座之外的受试者的基因组的区域的序列读段的深度根据(i)CYP2D6基因或CYP2D7基因长度归一化数量来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化深度,与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化深度为分别与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量。

在一些实施方案中,确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量包括:使用(i)CYP2D6基因或CYP2D7基因的GC含量来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,以及确定(iii)在序列数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的深度,以及(iv)确定基因组的区域的GC含量。该区域的深度可包括测序数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的平均深度或中值深度。该区域可包含约3000个长度为约2kb且各自跨受试者的基因组的预选区域。在一些实施方案中,(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和/或(ii)与第二区域比对的序列读段的第二归一化数量为约30至约40。

在一些实施方案中,高斯混合模型包括一维高斯混合模型。高斯混合模型的该多个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值可以为由高斯函数表示的整数拷贝数。

在一些实施方案中,确定(i)CYP2D6基因和CYP2D7基因的总拷贝数包括:考虑到(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,使用高斯混合模型和第一预先确定的后验概率阈值来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。第一预先确定的后验概率阈值可以为0.95。

在一些实施方案中,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量,相对于该多个组合中的其他组合,CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合与最高后验概率相关联。

在一些实施方案中,确定包括CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合包括:考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的该多个可能组合中的最可能组合。确定包括CYP2D6基因的可能拷贝数和可能拷贝数的最可能组合可包括:确定(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量;确定(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率;以及考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的该多个可能组合中的最可能组合。

在一些实施方案中,确定受试者具有的CYP2D6基因的等位基因包括:使用对于CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的一个或多个结构变体。在一些实施方案中,确定CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合包括:对于该多个CYP2D6基因特异性碱基中的每个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持CYP2D7基因的与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的多个可能组合中的与最高后验概率相关联的最可能组合。确定受试者具有的CYP2D6基因的该一个或多个结构变体可包括:使用对于该多个CYP2D6基因特异性碱基中的每个碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定该一个或多个结构变体。在一些实施方案中,确定受试者具有的CYP2D6基因的该一个或多个结构变体包括:基于对于该多个CYP2D6基因特异性碱基中不同的两个或更多个碱基以及该两个或更多个CYP2D6基因特异性碱基的位置所确定的最可能组合的CYP2D6基因的拷贝数来确定受试者具有的CYP2D6基因的一个或多个结构变体。

在一些实施方案中,CYP2D6基因特异性碱基与除超出预先确定的一致性阈值的CYP2D6基因特异性碱基之外的该多个CYP2D6基因特异性碱基中的每个碱基具有一致性。一致性阈值可以为97%。该多个CYP2D6基因特异性碱基可包括118个CYP2D6基因特异性碱基。如果受试者为第一种族,则该多个CYP2D6基因特异性碱基可不同,如果受试者为第二种族,则该多个CYP2D6基因特异性碱基可不同,并且如果受试者为未知种族,则该多个CYP2D6基因特异性碱基可不同。受试者的种族可能未知,并且该多个CYP2D6基因特异性碱基可能不是种族特异性的。受试者的种族可能已知,并且该多个CYP2D6基因特异性碱基可能特定于受试者的种族。在一些实施方案中,该方法包括:接收受试者的种族信息。该方法可包括:基于所接收的种族信息,从多个CYP2D6基因特异性碱基中选择该多个CYP2D6基因特异性碱基。

在一些实施方案中,该方法包括:确定(ii)与CYP2D7基因和CYP2D7基因下游的重复元件REP7之间的间隔区比对的该多个序列读段的序列读段的第二数量。该方法可包括:使用(ii)该间隔区的长度来确定(ii)与该间隔区比对的序列读段的第二归一化数量。该方法可包括:考虑到(ii)与该间隔区比对的序列读段的第二归一化数量,使用高斯混合模型来确定(ii)该间隔区的拷贝数。确定受试者具有的CYP2D6基因的该一个或多个结构变体可包括:使用对于CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数以及该间隔区的拷贝数的最可能组合来确定受试者具有的CYP2D6基因的该一个或多个结构变体。该一个或多个结构变体可包含具有间隔区的CYP2D6/CYP2D7融合等位基因和CYP2D6/CYP2D7融合等位基因下游的重复元件REP7。

在一些实施方案中,该方法包括:使用所接收的序列数据确定受试者具有的CYP2D6基因的一个或多个小变体。在一些实施方案中,确定受试者具有的CYP2D6基因的该一个或多个小变体包括:对于CYP2D6基因的与CYP2D6基因的小变体等位基因相关联的小变体位置,考虑到(a)具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因的参考等位基因的可能拷贝数的最可能组合,最可能组合的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数指示CYP2D6基因的该一个或多个小变体。在一些实施方案中,确定受试者具有的CYP2D6基因的该一个或多个小变体包括:对于CYP2D6基因的多个小变体位置中的每个小变体位置,该小变体位置与CYP2D6基因的小变体等位基因相关联,考虑到(a)具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合,最可能组合的CYP2D6基因在该多个小变体位置处的小变体等位基因的可能拷贝数指示CYP2D6基因的该一个或多个小变体。

在一些实施方案中,该方法包括:对于CYP2D6基因的与CYP2D6基因的小变体等位基因相关联的小变体位置,考虑到(a)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合;以及使用所确定的最可能组合的CYP2D6基因的小变体等位基因的可能拷贝数来确定CYP2D6基因的一个或多个小变体。在一些实施方案中,该方法包括:对于CYP2D6基因的多个小变体位置中的每个小变体位置,该小变体位置与CYP2D6基因的小变体等位基因相关联,考虑到(a)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合;以及使用在所确定的最可能组合的CYP2D6基因在该多个小变体位置处的小变体等位基因的可能拷贝数来确定CYP2D6基因的一个或多个小变体。

在一些实施方案中,小变体位置处于CYP2D6/CYP2D7同源区中,考虑到(a)与CYP2D6基因或CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与CYP2D6基因或CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定最可能组合包括确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合。在一些实施方案中,小变体位置不处于CYP2D6/CYP2D7同源区中,考虑到(a)与CYP2D6基因并且不与CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与CYP2D6基因并且不与CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定最可能组合包括确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合。

在一些实施方案中,该方法包括确定CYP2D6基因在小变体位置处的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括CYP2D6基因的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括所确定的最可能组合的CYP2D6基因的可能拷贝数的CYP2D6基因的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括所确定的最可能组合并且最接近小变体位置的CYP2D6基因的可能拷贝数的CYP2D6基因的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括CYP2D6基因在小变体位置的5'位置或3'位置处的拷贝数。在一些实施方案中,该方法包括:(a)确定具有支持CYP2D6基因的小变体等位基因的碱基的序列读段的数量;以及(b)确定具有支持CYP2D6基因的参考等位基因的碱基的序列读段的数量。

在一些实施方案中,确定受试者具有的CYP2D6基因的等位基因包括:确定受试者具有的CYP2D6基因的等位基因(例如,2个、3个、4个、5个或更多个等位基因)。在一些实施方案中,确定受试者具有的CYP2D6基因的等位基因包括:使用所确定的CYP2D6基因的该一个或多个结构变体和/或所确定的CYP2D6基因的该一个或多个小变体来确定受试者具有的CYP2D6基因的星形等位基因和/或单倍型,任选地该星形等位基因与已知功能相关联。

在一些实施方案中,该方法包括:使用所确定的CYP2D6基因的等位基因来确定受试者的CYP2D6酶活性的水平。该酶活性可以为不良的、中等的、正常的或超强的。在一些实施方案中,该方法包括基于受试者具有的CYP2D6基因的等位基因来确定受试者的治疗剂量建议和/或治疗建议。

本文所公开的包括用于旁系同源物基因分型的系统。在一些实施方案中,用于旁系同源物基因分型的系统包括:非暂态存储器,该非暂态存储器被配置为存储可执行指令和序列数据,该序列数据包括获自受试者的样本且与第一旁系同源物或第二旁系同源物比对的多个序列读段。该系统可包括:与非暂态存储器通信的处理器(诸如硬件处理器或虚拟处理器),该处理器由可执行指令编程以执行:考虑到(i)与第一区域比对的序列读段的第一数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定第一类型的旁系同源物的拷贝数。该硬件处理器由可执行指令编程以执行:对于多个第一旁系同源特异性碱基中的一个碱基,考虑到(a)具有支持第一旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持第二旁系同源物的与第一旁系同源特异性碱基对应的第二旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的第一类型的旁系同源物的拷贝数的第一类型的第一旁系同源物的可能拷贝数和第一类型的第二旁系同源物的可能拷贝数的多个可能组合中的最可能组合。该硬件处理器由可执行指令编程以执行:使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数或等位基因。在一些实施方案中,第一旁系同源物和第二旁系同源物具有至少90%的序列同一性。

在一些实施方案中,该硬件处理器由可执行指令编程以执行:确定(i)序列数据中获自受试者的样本且与第一区域比对的多个序列读段的序列读段的第一数量。该方法可包括:使用(i)第一区域的长度来确定(i)与第一区域比对的序列读段的第一归一化数量,其中确定第一类型的旁系同源物的拷贝数包括:考虑到(i)与第一区域比对的序列读段的第一归一化数量,使用高斯混合模型来确定第一类型的旁系同源物的拷贝数。该硬件处理器可由可执行指令编程以执行:可包括:接收包括与第一区域比对的该多个序列读段的序列数据。

在一些实施方案中,该硬件处理器由可执行指令编程以执行:考虑到(ii)与第二区域比对的序列读段的第二数量,使用高斯混合来确定第二类型的一个或多个旁系同源物的拷贝数。确定第一旁系同源物的拷贝数或等位基因可包括:使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合以及第二类型的该一个或多个旁系同源物的拷贝数来确定第一旁系同源物的拷贝数或等位基因。该方法可包括:从第一类型的旁系同源物的拷贝数和第二类型的旁系同源物的拷贝数确定第三类型的旁系同源物的拷贝数。确定第一旁系同源物的拷贝数或等位基因可包括:使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数或等位基因。

在一些实施方案中,第一旁系同源物为运动神经元存活1(SMN1)基因。第二旁系同源物可以为运动神经元存活2(SMN2)基因。第一区域可包含SMN1基因的至少一个外显子1至外显子6和SMN2基因的至少一个外显子1至外显子6。第二区域可包含SMN1基因的外显子7和外显子8中的至少一者和SMN2基因的外显子7和外显子8中的至少一者。第一类型的旁系同源物可包含完整SMN1基因和完整SMN2基因。第二类型的该一个或多个旁系同源物可包含完整SMN1基因、完整SMN2基因、截短SMN1基因或截短SMN2基因。第一旁系同源物的拷贝数可包括SMN1基因的拷贝数。

在一些实施方案中,第一旁系同源物为细胞色素P450家族2亚家族D成员6(CYP2D6)基因。第二旁系同源物可以为细胞色素P450家族2亚家族D成员7(CYP2D7)基因。第一区域可包含CYP2D6基因和CYP2D7基因。第二区域可包含CYP2D7基因和CYP2D7基因下游的重复元件REP7之间的间隔区。第一类型的旁系同源物可包含CYP2D6基因和CYP2D7基因。第二类型的该一个或多个旁系同源物可包含具有间隔区的CYP2D6/CYP2D7融合等位基因和CYP2D6/CYP2D7融合等位基因下游的重复元件REP7。第一旁系同源物的拷贝数可包含受试者具有的CYP2D6基因的等位基因,该等位基因是CYP2D6基因的小变体或结构变体。

本文所公开的包括系统(例如,计算系统)的实施方案,该系统包括被配置为存储可执行指令的非暂态存储器;和与该非暂态存储器通信的处理器(例如,硬件处理器或虚拟处理器),该硬件处理器由可执行指令编程以执行本文所公开的任何方法。本文所公开的包括设备(例如,电子设备)的实施方案,该设备包括被配置为存储可执行指令的非暂态存储器;和与该非暂态存储器通信的处理器(例如,硬件处理器或虚拟处理器),该硬件处理器由可执行指令编程以执行本文所公开的任何方法。本文所公开的包括计算机可读介质的实施方案,该计算机可读介质包括可执行指令,这些可执行指令当由系统或设备的处理器(例如,硬件处理器或虚拟处理器)执行时使得硬件处理器执行本文所公开的任何方法。

本说明书中描述的主题的一个或多个具体实施的细节在附图和以下描述中进行阐述。根据说明书、附图和权利要求,其他特征、方面和优点将变得显而易见。本发明内容和以下具体实施方式均不旨在限定或限制本发明主题的范围。

附图说明

图1A至图1E示出了根据本文所公开的方法的一个实施方案的SMA和SMN拷贝数调用的原因。

图2A至图2C示出了使用本文所公开的方法的一个实施方案所确定的SMN1/2拷贝数的群体分布。

图3示出了在下一代儿童项目的两个三人组中识别的并且使用MLPA验证的SMA。

图4示出了使用本文所公开的方法的一个实施方案确定的群体频率与先前的研究一致。

图5为示出CYP2D6为高度多态性的并且位于CYP2D7(CYP2D6的假基因旁系同源物)下游的非限制性示例性IGV快照。

图6为CYP2D6/7基因缺失、重复和融合基因的非限制性示例性示意图。

图7为示出通过该方法确定的等位基因频率与来自药物基因变异(PharmVar)联盟的PharmVar数据库一致的非限制性示例性曲线图。

图8为示出使用测序数据确定运动神经元存活1(SMN1)基因的拷贝数的示例性方法的流程图。

图9为显示使用测序数据对细胞色素P450家族2亚家族D成员6(CYP2D6)基因进行基因分型的示例性方法的流程图。

图10为示出使用测序数据进行旁系同源物基因分型的示例性方法的流程图。

图11为被配置为使用测序数据实现旁系同源物基因分型的示例性计算系统的框图。

图12A和图12B示出了说明影响SMN1/SMN2基因座的常见CNV的非限制性示例性曲线图。图12A示出了跨SMN1/SMN2区域的深度谱图。具有2个、3个、4个和5个总SMN1+SMN2拷贝数的样本分别以圆点示出。对于每个CN类别,对50个样本的深度求和。每个点表示100bp窗口中的归一化深度值。在每个100bp窗口中计算读段计数,对SMN1和SMN2二者的读段求和,并归一化为野生型样本的深度(CN=4)。SMN外显子表示为紫色框。两个x轴示出SMN1(底部)和SMN2(上部)中的坐标。图12B示出了由携带外显子7和8缺失的50个样本聚集而来的深度谱图,以圆点示出。以与图12A中相同的方式计算读段深度。

图13示出了总SMN(SMN1+SMN2)拷贝数(x轴,由外显子1至6中的读段深度调用)和完整SMN拷贝数(y轴,由外显子7至8中的读段深度调用)的非限制性示例性散点图。

图14A至图14D示出了SMN1/SMN2/SMN

图15示出了非限制性示例性曲线图,每个曲线图示出了使用不同读段深度处的单个位点以及SMN1:SMN2 CN组合的模拟SMN1 CN的后验概率分布。

图16示出了具有外显子7至8缺失的样本中SMN2区域的非限制性示例性IGV快照。水平线在中心对齐轨道中将两个读段成对连接起来。跨越断点的两个断裂读段的BLAT结果在底部轨道中示出,其示出了与缺失断点的任一侧对齐的相同读段的两个片段。

图17示出了非限制性示例性曲线图,其示出了在c840.C>T附近的15个碱基差异处的原始SMN1 CN和在c840.C>T位点处的原始SMN1 CN之间的相关性。将每个位点处的原始SMN1 CN计算为完整SMN的CN乘以支持SMN1+SMN2的读段计数中支持SMN1的读段计数的分数。相关系数在每个曲线图的标题中列出。

图18A和图18B示出了非限制性示例性曲线图,其示出了在1kGP中具有SMN1:2SMN2:0和SMN1:2SMN2:1的样本中的SMN1/SMN2单倍型。y轴示出了如图16所定义的原始SMN1 CN。x轴示出了16个位点,其索引在表8中列出并解释。指数#13表示c840.C>T位点。具有SMN1:2SMN2:0的样本一起示于左上图中。具有SMN1:2SMN2:1的样本被示出为5簇。图18A。非非洲人。图18B。非洲人。

图19示出了显示MB509中SMN1的1.9kb缺失的非限制性示例性IGV快照。

图20示出了非限制性示例性曲线图,其示出了1kGP和NIHR队列中SMN1/SMN2/SMN

图21A和图21B示出了验证样本中的差异和无调用。

图22示出了从BWA和Isaac BAM导出的CN调用。

图23为示出CYP2D6/7区域中WGS数据质量的非限制性示例性曲线图。针对CYP2D6/7区域中的每个位置绘制1kGP样本的平均映射质量。在200bp窗口中应用中值滤波器。REP6、REP7和CYP2D6/7的9个外显子在左框(CYP2D6)和右框(CYP2D7)上以框示出。CYP2D6(REP6)和CYP2D7(REP7)下游的两个2.8kb重复区是相同的并且基本上不可比对。虚线框表示CYP2D7和REP7之间的间隔区。基因内的两个主要同源性区域加了阴影。

图24示出了通过PacBio CCS读段验证的结构变体。PacBio读段支持缺失(

图25为非限制性示例性曲线图,其示出了对于具有改变的CYP2D6功能的十个最常见单倍型在五个族群群体中的CYP2D6等位基因的频率。一个单倍型(

图26示出了CYP2D6/CYP2D7碱基差异位点在群体中具有高可变性。Y轴示出了其中在总CYP2D6+CYP2D7 CN为4的所有样本中CYP2D6碱基的CN被调用为2的样本频率。X轴示出了hg38中的基因组坐标。CYP2D6外显子被绘制为图上方的灰色框。黑色水平线表示98%截止值。

图27示出了在具有SV的示例中跨CYP2D6/7区分位点的原始CYP2D6 CN。将原始CYP2D6 CN计算为总CYP2D6+CYP2D7 CN乘以CYP2D6和CYP2D7支持读段中的CYP2D6支持读段的比率。大菱形表示在基因末端的CYP2D6衍生的基因(可以为完整CYP2D6或CYP2D6结尾的融合基因)的拷贝数,计算为CYP2D6+CYP2D7的总CN减去CYP2D7间隔区的CN(参见图23)。为了检测SV,在每个位点调用CYP2D6 CN,并且基因内CYP2D6 CN的变化指示SV的存在。例如,在HG01161中,CYP2D6 CN在外显子7和外显子9之间从2变为1,表明CYP2D7-CYP2D6杂交基因。在HG00553中,CYP2D6 CN在外显子1和外显子2之间从2变为3,表明CYP2D6-CYP2D7杂交基因。

图28示出了PacBio数据确认了HG00421中的

图29示出了PacBio数据具有由Aldy在HG02622中作出的假

图30A和图30B示出了HG00597中的新型

图31A和图31B在1kGP和pharmGKB频率之间进行比较。每个点代表1kGP或pharmGKB中频率大于或等于0.5%的单倍型。标记了SV相关的单倍型,包括具有最大偏差的两个单倍型(在东亚人中

图32为非限制性示例性IGV快照,其示出了不包括

在整个附图中,参考标号可重复用于指示参考元件之间的对应关系。提供附图以示出本文所述的示例性实施方案,并非旨在限制本公开的范围。

具体实施方式

在以下具体实施方式中,参考了附图,附图形成具体实施方式的一部分。在附图中,除非上下文另有规定,否则类似的符号通常标识类似的组分。具体实施方式、附图和权利要求书中所述的示例性实施方案并非旨在为限制性的。在不脱离本文所提出的主题的精神或范围的情况下,可利用其他实施方案,并且可作出其他改变。将容易理解的是,如本文大体所述并且如附图所示,本公开的各方面可被布置、替代、组合、分离和设计成多种不同的构型,所有这些构型均明确涵盖于本文中并成为本公开的一部分。

所有专利、公布的专利申请、其他出版物和来自GenBank的序列、以及本文提及的其他数据库均相对于相关技术全文以引用方式并入。

本文所公开的包括用于确定运动神经元存活1(SMN1)基因的拷贝数和/或运动神经元存活2(SMN2)基因的拷贝数的方法。在一些实施方案中,一种用于确定SMN1基因和/或SMN2基因的拷贝数的方法在处理器(诸如硬件处理器或虚拟处理器)的控制下,并且包括:接收序列数据,该序列数据包括获自受试者的样本且与SMN1基因或SMN2基因比对的多个序列读段。该方法可包括:确定(i)与分别包含SMN1基因或SMN2基因的外显子1至外显子6中的至少一者的第一SMN1或SMN2区域比对的该多个序列读段的序列读段的第一数量和(ii)与分别包含SMN1基因或SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区域比对的该多个序列读段的序列读段的第二数量。该方法可包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量。该方法可包括:分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)各自为完整SMN1基因、完整SMN2基因、截短SMN1基因或截短SMN2基因的总运动神经元存活(SMN)基因的拷贝数和(ii)各自为完整SMN1基因或完整SMN2基因的任何完整SMN基因的拷贝数。该方法可包括:对于与完整SMN1基因相关联的多个SMN1基因特异性碱基中的一个碱基,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合中的最可能组合。该方法可包括:使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因和/或SMN2基因的拷贝数。

本文所公开的包括用于对细胞色素P450家族2亚家族D成员6(CYP2D6)基因进行基因分型的方法。在一些实施方案中,用于对CYP2D6基因进行基因分型的方法在处理器(诸如硬件处理器或虚拟处理器)的控制下,并且包括:接收序列数据,该序列数据包括获自受试者的样本且与CYP2D6基因或细胞色素P450家族2亚家族D成员7(CYP2D7)基因比对的多个序列读段。该方法可包括:确定(i)与CYP2D6基因或CYP2D7基因比对的该多个序列读段的序列读段的第一数量。该方法可包括:分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量。该方法可包括:考虑到(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。该方法可包括:对于多个CYP2D6基因特异性碱基中的一个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的多个可能组合中的最可能组合。该方法可包括:使用对于CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的等位基因。

本文所公开的包括用于旁系同源物基因分型的方法。在一些实施方案中,用于旁系同源物基因分型的方法在处理器(诸如硬件处理器或虚拟处理器)的控制下,并且包括:接收序列数据,该序列数据包括获自受试者的样本且与第一旁系同源物或第二旁系同源物比对的多个序列读段。该方法可包括:考虑到(i)与第一区域比对的序列读段的第一数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定第一类型的旁系同源物的拷贝数。该方法可包括:对于多个第一旁系同源特异性碱基中的一个碱基,考虑到(a)具有支持第一旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持第二旁系同源物的与第一旁系同源特异性碱基对应的第二旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的第一类型的旁系同源物的拷贝数的第一类型的第一旁系同源物的可能拷贝数和第一类型的第二旁系同源物的可能拷贝数的多个可能组合中的最可能组合。该方法可包括:使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数或等位基因。

本文所公开的包括系统(例如,计算系统)的实施方案,该系统包括被配置为存储可执行指令的非暂态存储器;和与该非暂态存储器通信的处理器(例如,硬件处理器或虚拟处理器),该硬件处理器由可执行指令编程以执行本文所公开的任何方法。本文所公开的包括设备(例如,电子设备)的实施方案,该设备包括被配置为存储可执行指令的非暂态存储器;和与该非暂态存储器通信的处理器(例如,硬件处理器或虚拟处理器),该硬件处理器由可执行指令编程以执行本文所公开的任何方法。本文所公开的包括计算机可读介质的实施方案,该计算机可读介质包括可执行指令,这些可执行指令当由系统或设备的处理器(例如,硬件处理器或虚拟处理器)执行时使得硬件处理器执行本文所公开的任何方法。

脊髓性肌萎缩(SMA)的特征在于随意肌无力,并且是儿童早期死亡的主要遗传原因,发病率为每6000至10,000名活产儿中有1例,携带者频率为1:40至801,2。SMA由SMN1(运动神经元存活1)基因中的突变引起(图1A)。重复基因SMN2与SMN1的不同之处仅在于几个碱基对,其中一个(外显子7中的c.840C>T剪接变体)具有功能结果。通过中断剪接增强子,c.840C>T突变导致外显子7的跳跃增加和SMN23中全长转录物的减少(图1B至图1D)。基因组区域经受不等的交换和基因转换,从而产生SMN1和SMN2的可变拷贝数(图1B)。由于高发生率和疾病严重性,推荐了全人群的SMA筛查,并且该筛查的关键是确定SMN1的拷贝数,以用于SMA诊断和携带者测试。另外,SMN2的拷贝数定义了SMA的严重性并且对于临床分类和预后是重要的。

常规的SMA携带者测试使用基于PCR的方法,诸如多重连接依赖性探针扩增(MLPA)、定量PCR(qPCR)和数字PCR。这些方法主要针对c.840C>T位点。将SMA筛查结合到基于高通量NGS的测试中可同时对大量基因或甚至整个基因组进行谱图分析可能是有利的。SMN1和SMN2之间几乎完全的序列同一性使得变体调用对于标准的基于GSS的方法具有挑战性。

本文所公开的是基于生物信息学方法的SMN拷贝数调用器,该方法利用全基因组测序(WGS)数据确定SMN1和SMN2的拷贝数(图1E)。该方法可包括通过将SMN1和SMN2中的读段相加,在两个区域(外显子1至6和外显子7至8)中调用SMN1+SMN2拷贝数。该方法可包括使用在固定碱基差异处的读段计数来区分SMN1与SMN2。在一些实施方案中,该方法不包括将比对序列与修饰的参考进行重新比对。该方法是能够从WGS数据中识别具有SMA的患者和携带者两者的第一SMN拷贝数调用工具。该方法的一些实施方案不限于外显子7和8,并且不主要关注c.840C>T。该方法采用全基因方法并提供最全面的调用集,包括全长SMN1和SMN2的拷贝数,以及外显子7和8缺失的截短形式的SMN。该方法可容易地适用于任何WGS数据,并且将成为用于SMA诊断和携带者筛查的有价值的工具以结合到高通量群体范围的WGS筛查中。

图1A至图1E示出了根据本文所公开的生物信息学方法的一个实施方案的SMA SMN拷贝数调用的原因。表1示出了根据本方法的实施方案,基于固定的单核苷酸多态性(SNP)区分SMN1与SMN2。SMN1拷贝数调用在c.840C>T附近的16个站点处进行。选择与c.840C>T具有高百分比一致性的九个位点以对SMN1拷贝数进行联合调用。图2A至图2C和表2示出了所确定的SMN1/2拷贝数的总体分布。当SMN2的拷贝较少时,观察到更多SMN1的拷贝,从而表明基因转换是SMN1和SMN2的CN可变性的机制。表3示出了使用生物信息学方法测定的拷贝数调用相对于使用数字PCR测定的拷贝数的验证。对于数字PCR的验证在SMN1 CN中显示出100%的一致性,并且在SMN2 CN中显示出98%的一致性。图3示出了在下一代儿童项目的两个三人组中识别的并且使用MLPA验证的SMA。图4和表4示出了使用生物信息学方法确定的群体频率与先前的研究一致。

*非洲裔美国人

群体规模的全基因组测序(WGS)数据越来越可用。例如,来自1000基因组项目(1kGP)的>2,500个样本的公共序列数据诸如高深度(>30x)WGS数据是可用的。这极大地改善了简单单核苷酸变异(SNV)和插入/缺失(插入缺失)的临床解释。然而,许多医学上重要的区域和变体诸如三联体重复和同源物不包括在基于WGS的数据库中,因为注释这些区域和变体需要专门的生物信息学方法。为此,需要已知临床变体的群体水平表征以使群体测序实验的影响最大化。在一些实施方案中,本文所公开的方法解决了标准二次分析管线的三个缺点:1)脊髓性肌萎缩(SMA)的检测和携带者筛查,2)用于药物遗传学应用的CYP2D6基因分型,以及3)三联体重复扩增的检测。该方法能够被靶向用于调用SMN1/2拷贝数、CYP2D6星形等位基因和1kGP群体中的重复扩增并定量亚群之间的差异。本文描述了亚群的频率分布和使用从高质量长读段生成的验证数据对这些方法的垂直验证。

CYP2D6是高度多态性的重要药物代谢酶(图5)。CYP2D6与其假基因旁系同源物(CYP2D7)具有高序列相似性。使用WGS进行CYP2D6基因分型具有挑战性,这是由于CYP2D6和CYP2D7之间的共同基因转换(下文称为CYP2D6/7)、共同SV(基因缺失、重复和CYP2D6/7融合基因;参见图6用于举例说明),以及CYP2D/7之间的序列相似性,这导致与任一基因的模糊读段比对(图5)。本文公开的是基于生物信息学方法的CYP2D6调用器,该生物信息学方法可以调用(例如,明确调用)以具有已知功能的星形等位基因(例如,所有星形等位基因)为目标的双倍型。在一些实施方案中,该方法包括以下动作

1.调用CYP2D6+CYP2D7的总拷贝数。

2.基于跨CYP2D6/CYP2D7区分位点的拷贝数调用来调用CNV/杂交体。

3.调用56个来自BAM的SNP/插入缺失(或包含序列读段的另一个文件)。

-使用拷贝数信息。

-对同源区中CYP2D6和CYP2D7位置处的读段进行计数。

4.基于所有被调用的变体调用星形等位基因和双倍型。

表5示出了通过该方法进行的CYP2D6星形等位基因调用的验证结果。通过该方法对96个样本中的92个进行的CYP2D6星形等位基因调用与来自多个平台的GeT-RM共有序列调用一致。该方法胜过调用器,诸如Aldy(CYP2D6星形等位基因调用96个样本中的89个,与GeT-RM共有序列一致)和Stargazer(CYP2D6星形等位基因调用96个样本中的83个,与GeT-RM共有序列一致)

图7示出了通过该方法确定的等位基因频率与来自药物基因变异(PharmVar)联盟的PharmVar数据库一致。

图8为示出使用测序数据(诸如全基因组测序数据)确定运动神经元存活1基因的拷贝数的示例性方法800的流程图。方法800可包括在存储在计算系统的计算机可读介质(诸如一个或多个磁盘驱动器)上的一组可执行程序指令中。例如,图11所示并且在下文更详细地描述的计算系统1100可执行一组可执行程序指令以实施方法800。当方法800被发起时,可将可执行程序指令加载到存储器诸如RAM中,并由计算系统1100的一个或多个处理器执行。尽管相对于图11所示的计算系统1100描述了方法800,但该描述仅仅是示例性的,并非旨在进行限制。在一些实施方案中,方法800或其部分可由多个计算系统串行地或并行地执行。

在方法800在框804处开始之后,方法800前进至框808,在该框处计算系统(诸如参考图11描述的计算系统1100)确定:(i)与分别包含运动神经元存活1(SMN1)基因或运动神经元存活2(SMN2)基因的外显子1至外显子6中的至少一者的第一SMN1或SMN2区域比对的多个序列读段的序列读段的第一数量和(ii)与分别包含SMN1基因或SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区域比对的该多个序列读段的序列读段的第二数量。与第一SMN1或SMN2区域比对的序列读段的第一数量(或与第二SMN1或SMN2区域比对的序列读段的第二数量)可以为或为约例如5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000或更高。

SMN1基因的外显子1至外显子6中的至少一者可包括SMN1基因的外显子1、外显子2、外显子3、外显子4、外显子5和/或外显子6。SMN2基因的外显子1至外显子6中的至少一者可包括SMN2基因的外显子1、外显子2、外显子3、外显子4、外显子5和/或外显子6。第一SMN1或SMN2区域可分别包含SMN1基因或SMN2基因的外显子1至外显子6,并且长度可以为约22.2kb。第二SMN1或SMN2区域可分别包含SMN1基因或SMN2基因的外显子7和外显子8,并且长度可以为约6kb。

在一些实施方案中,计算系统接收序列数据,该序列数据包括获自受试者的样本且与SMN1基因或SMN2基因比对的多个序列读段。测序数据可包括全基因组测序(WGS)数据或短读段WGS数据。在一些实施方案中,受试者为胎儿受试者、新生儿受试者、儿童受试者、青少年受试者或成人受试者。样本可包含细胞或无细胞DNA。样本可包含胎儿细胞或无细胞胎儿DNA。

在一些实施方案中,将该多个序列读段的序列读段与第一SMN1或SMN2区域或第二SMN1或SMN2区域进行比对,其中比对质量得分为约零。比对质量可以为或为约例如0、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.10或更高(在比对得分的0至1的标度上)。

方法800从框808前进至框812,其中计算系统分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量。与第一SMN1或SMN2区域比对的序列读段的第一归一化数量(或与第二SMN1或SMN2区域比对的序列读段的第二归一化数量)可以为或为约例如1、2、3、4、5、6、7、9、10、20、30、40、50、60、70、80、90、100或更高。第一SMN1或SMN2区域的长度可以为或为约例如3kb、6kb、9kb、12kb、15kb、18kb、21kb、22.2kb、24kb或更长的长度。第二SMN1或SMN2区域的长度可以为或为约例如3kb、6kb或更长的长度。

在一些实施方案中,为了确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量,计算系统可分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度。序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度可以为或为约例如3、4、5、10、20、30、40、50、60、70、80、90、100或更高。

为了确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,计算系统分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一SMN1或SMN2区域长度归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二SMN1或SMN2区域长度归一化数量。计算系统可使用除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度,分别根据(i)第一SMN1或SMN2区域长度归一化数量和(ii)第二SMN1或SMN2区域长度归一化数量来确定(i)与第一区域SMN1或SMN2比对的序列读段的第一归一化深度和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化深度。与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和与第二SMN1或SMN2区域比对的序列读段的第二归一化数量可以分别为第一归一化深度和第二归一化深度。

在一些实施方案中,为了确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量,计算系统可分别使用(i)第一SMN1或SMN2区域的GC含量和(ii)第二SMN1或SMN2区域的GC含量来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度,以及确定(iv)基因组的区域的GC含量。第一SMN1或SMN2区域的GC含量(或第二SMN1或SMN2区域的GC含量)可以为或为约例如40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%或60%。序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度可以为或为约例如3、4、5、10、20、30、40、50、100或更高。序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的GC含量可以为或为约例如40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%或60%。

在一些实施方案中,该区域的深度包括测序数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的平均深度。该区域的深度可包括测序数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的中值深度。该区域的深度可以为或为约例如3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更高。该区域可包含约500个、1000个、1500个、2000个、2500个、3000个、3500个、4000个或更多个长度各自跨受试者基因组的约0.5kb、1kb、1.5kb、2kb、2.5kb或3kb的预选区域。例如,该区域可包含约3000个长度为约2kb且各自跨受试者的基因组的预选区域。

在一些实施方案中,与第一SMN1或SMN2区域比对的序列读段的第一归一化数量(或与第二SMN1或SMN2区域比对的序列读段的第二归一化数量)为或为约10、20、30、40、50、60、70、80、90、100或更高。例如,(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和/或(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量为约30至约40。

方法800从框812前进至框816,其中分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,计算系统使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型,确定(i)总运动神经元存活(SMN)基因的拷贝数和(ii)任何完整SMN基因的拷贝数。总运动神经元存活基因可包括完整SMN1基因、完整SMN2基因、截短SMN1基因和/或截短SMN2基因。任何完整SMN基因可包含完整SMN1基因和/或完整SMN2基因。总SMN基因(或本公开的任何基因)的拷贝数可以为或约为例如1、2、3、4、5、6、7、8、9、10或更高。任何完整SMN基因(或本公开的任何基因)的拷贝数可以为或约为例如1、2、3、4、5、6、7、8、9、10或更高。

在一些实施方案中,高斯混合模型包括一维高斯混合模型。高斯混合模型的该多个高斯函数可表示整数拷贝数,例如0至5、0至6、0至7、0至8、0至9、0至10、0至11、0至12、0至13、0至14或0至15。例如,高斯混合模型的该多个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值(例如,1、2、3、4、5、6、7、8、9、10或更大)可以为由高斯函数表示的整数拷贝数(例如,1、2、3、4、5、6、7、8、9、10或更高的拷贝数)。高斯函数的标准偏差可以为或约为例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1或更高。

在一些实施方案中,为了确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数,计算系统可分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,使用高斯混合模型和第一预先确定的后验概率阈值来确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数。第一预先确定的后验概率阈值(或本公开的任何预先确定的后验概率阈值)可以为或约为例如0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99或更高。例如,第一预先确定的后验概率阈值可以为0.95。

方法800从框816前进至框820,其中对于与完整SMN1基因相关联的多个SMN1基因特异性碱基(在本文中也称为SMN区分碱基)中的一个碱基,考虑到(a)该多个序列读段的具有支持SMN1基因特异性碱基的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)和(b)该多个序列读段的具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量),计算系统确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合中的最可能组合。SMN1基因的可能拷贝数可以为或约为例如1、2、3、4、5、6、7、8、9、10或更高。SMN2基因的可能拷贝数可以为或约为例如1、2、3、4、5、6、7、8、9、10或更高。

在一些实施方案中,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,相对于该多个组合中的其他组合,SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合与最高后验概率相关联。最高后验概率(或本公开的任何概率)可以为或为约例如60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高。后验概率(或本公开的任何概率)的差异可以为或为约例如1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%或更高。

在一些实施方案中,为了确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,计算系统可确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中的最可能组合。为了确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合,计算系统可确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量。计算系统可确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率。基于(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,计算系统可确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中的最可能组合。

在一些实施方案中,为了确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合,对于该多个SMN1基因特异性碱基中的每个碱基,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,计算系统确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合中的与最高后验概率相关联的最可能组合。与SMN1基因特异性碱基(或SMN2基因特异性碱基)比对的序列读段的数量可以为或为约例如3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更高。为了确定SMN1基因的拷贝数,计算系统可基于对于该多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合的SMN1基因的可能拷贝数来确定SMN1基因的拷贝数。

在一些实施方案中,SMN1基因特异性碱基为剪接增强子。SMN1基因特异性碱基可以为SMN1基因的c.840处的碱基。在一些实施方案中,SMN1基因特异性碱基与除超出预先确定的一致性阈值的SMN1基因特异性碱基之外的该多个SMN1基因特异性碱基中的每个碱基具有一致性。预先确定的一致性阈值(或本公开的任何阈值)可以为或为约例如80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高。例如,一致性阈值可以为97%。该多个SMN1基因特异性碱基可包含或包含约4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个或更多个SMN1基因特异性碱基。例如,该多个SMN1基因特异性碱基可包括8个SMN1基因特异性碱基。该多个SMN1基因特异性碱基中的每个碱基可位于SMN1基因的内含子6、外显子7、内含子7或外显子8上。

如果受试者为第一种族(或族群),则该多个SMN1基因特异性碱基可不同,如果受试者为第二种族(或族群),则该多个SMN1基因特异性碱基可不同,并且如果受试者为未知种族,则该多个SMN1基因特异性碱基可不同。种族可以为例如白种人、非洲人、非洲裔美国人、美洲印度安人、阿拉斯加土著、亚洲人、南亚人、东亚人、夏威夷土著、太平洋岛民或它们的组合。受试者的种族(或族群)可能未知,并且该多个SMN1基因特异性碱基可能不是种族特异性的(或族群非特异性的)。受试者的种族(或族群)可能已知,并且该多个SMN1基因特异性碱基可能特定于受试者的种族(或族群)。在一些实施方案中,计算系统可接收受试者的种族(或族群)信息。计算系统可基于所接收的种族(或族群)信息,从多个SMN1基因特异性碱基中选择该多个SMN1基因特异性碱基。

方法800从框820前进至方框824,其中计算系统使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因的拷贝数。另选地或除此之外,计算系统使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN2基因的拷贝数。

在一些实施方案中,为了确定SMN1基因的拷贝数,计算系统可使用对于该多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因的拷贝数和SMN2基因的拷贝数。为了确定拷贝数,计算系统可使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合以及SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的组合的第二预先确定的后验概率阈值来确定SMN1基因的拷贝数。第二预先确定的后验概率阈值(或本公开的任何预先确定的后验概率阈值)可以为或为约例如0.50、0.51、0.52、0.53、0.54、0.55、0.56、0.57、0.58、0.59、0.60、0.61、0.62、0.63、0.64、0.65、0.66、0.67、0.68、0.69、0.70、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79,0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99或更高。例如,第二预先确定的后验概率阈值可以为0.6或0.8。

在一些实施方案中,所确定的SMN1基因的大部分可能拷贝数一致。所确定的SMN1基因的拷贝数可以为SMN1基因的一致可能拷贝数。考虑到(a)具有支持SMN1基因特异性碱基中的任何碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持该多个对应SMN2基因特异性碱基中的任一个碱基的碱基的该多个序列读段的序列读段的数量,计算系统可确定包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的可能组合。计算系统可确定可能组合的可能拷贝数为SMN1基因的一致可能拷贝数。

在一些实施方案中,为了确定SMN1基因的拷贝数,计算系统可确定SMN1基因的拷贝数为零、一或多于一。在一些实施方案中,计算系统可基于SMN1基因的拷贝数确定受试者的脊髓性肌萎缩(SMA)状态。受试者的SMA状态可包括SMA、SMA携带者而不是SMA,以及不是SMA携带者。在一些实施方案中,计算系统可使用与SMN1基因的g.27134比对的该多个序列读段的序列读段的数量以及与SMN1基因的g.27134比对的序列读段的碱基确定受试者是沉默SMA携带者。

例如,框820处的计算系统可识别SMN1与SMN2的读段重叠位置的比率,其中基因具有不同碱基序列。对于SMN1不同于SMN2的位置,计算系统可基于SMN1或SMN2提取重叠的读段。从这些读段中,计算系统可对SMN1-特异性碱基的数量和SMN2-特异性碱基的数量进行计数。计算系统可确定SMN1或SMN2读段的分数。计算系统可在SMN1不同于SMN2的位置处计算SMN1和SMN2的CN。计算系统可将全长CN与SMN1与SMN2的比率组合以调用SMN1的CN和SMN2的CN。框824处的计算系统可组合来自SMN1和SMN2之间的多个固定差异的CN,以获得SMN1的准确CN和SMN2的准确CN。

方法800在框828处结束。

图9为显示使用测序数据(诸如全基因组测序数据)对细胞色素P450家族2亚家族D成员6基因进行基因分型的示例性方法900的流程图。方法900可包括在存储在计算系统的计算机可读介质(诸如一个或多个磁盘驱动器)上的一组可执行程序指令中。例如,图11所示并且在下文更详细地描述的计算系统1100可执行一组可执行程序指令以实施方法900。当方法900被发起时,可将可执行程序指令加载到存储器诸如RAM中,并由计算系统1100的一个或多个处理器执行。尽管相对于图11所示的计算系统1100描述了方法900,但该描述仅仅是示例性的,并非旨在进行限制。在一些实施方案中,方法900或其部分可由多个计算系统串行地或并行地执行。

与CYP2D6基因或CYP2D7基因比对的序列读段的数量(例如,序列读段的未归一化或归一化数量)可用于使用高斯混合模型确定CYP2D6基因和CYP2D7基因的总拷贝数(CN)。CYP2D6基因和CYP2D7基因的总CN可用于通过在CYP2D6/CYP2D7区分碱基处对CYP2D6 CN和CYP2D7CN的所有可能组合进行迭代来确定在各种CYP2D6/CYP2D7区分碱基(本文也称为CYP2D6基因特异性碱基)处的CYP2D6的CN。在各种CYP2D6/CYP2D7区分碱基处的CYP2D6 CN可用于调用结构变体。例如,在每个CYP2D6/CYP2D7区分碱基(本文中也称为CYP2D6基因特异性碱基)处,携带CYP2D6基因的染色体的数量和携带CYP2D7基因的染色体的数量可以通过将CYP2D6基因和CYP2D7基因的总CN与支持基因特异性碱基中的每个碱基的读段计数进行组合来调用。基于调度的总CN,CYP2D6 CN和CYP2D7 CN的所有可能的组合可以进行迭代,以导出对于观察到的支持CYP2D6和CYP2D7读段的数量产生最高后验概率的组合。可通过识别CYP2D6基因的CN改变的碱基来调用结构变体。

可确定一个或多个小变体。对于小变体的每个小变体位置,可通过对变体等位基因CN和参考(非变体)等位基因CN的所有可能的组合进行迭代以使用与CYP2D6或CYP2D7基因中的小变体位置重叠的序列读段确定最可能的变体等位基因CN来确定小变体。例如,如果总共有三个CYP2D6基因拷贝并且有10个支持变体等位基因的读段和20个支持参考等位基因的读段,则可确定变体等位基因CN为一,即,有一个携带小变体的CYP2D6基因拷贝。例如,可搜索在序列数据中(例如,在BAM文件中)限定星形等位基因的小变体。可将感兴趣的小变体分成属于CYP2D6/CYP2D7同源区的那些和不属于这些同源区的那些。对于前者,可搜索与CYP2D6基因或CYP2D7基因比对并与感兴趣的CYP2D6基因的每个小变体位置或CYP2D7基因中的对应位置重叠的变体读段。对于后者,可搜索与CYP2D6基因比对并与感兴趣的CYP2D6基因的小变体位置重叠的读段。该区域中调用的CN也可在小的变体调用期间加以考虑。所调用的结构变体和小变体能够与星形等位基因的定义匹配以命名星形等位基因,这些星形等位基因能够被进一步分组为单倍型。

在方法900在框904处开始之后,方法900前进至框908,其中计算系统(例如,参考图11所述的计算系统1100)确定(i)与细胞色素P450家族2亚家族D成员6(CYP2D6)基因或细胞色素P450家族2亚家族D成员7(CYP2D7)基因比对的多个序列读段的序列读段的第一数量。与第一CYP2D6基因或CYP2D7基因(或本公开的任何基因)比对的序列读段的第一数量可以为或为约例如5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000或更高。

计算系统可接收序列数据,该序列数据包括获自受试者的样本且与CYP2D6基因或CYP2D7基因比对的多个序列读段。在一些实施方案中,测序数据包括全基因组测序(WGS)数据或短读段WGS数据。受试者可以为胎儿受试者、新生儿受试者、儿童受试者、青少年受试者或成人受试者。样本可包含细胞或无细胞DNA。样本可包含细胞或无细胞DNA。

在一些实施方案中,将该多个序列读段的序列读段与CYP2D6基因或CYP2D7基因进行比对,其中比对质量得分为约零。比对质量可以为或为约例如0、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.10或更高(在比对得分的0至1的标度上)。

在一些实施方案中,为了确定(i)与CYP2D6基因或CYP2D7基因比对的该多个序列读段的序列读段的第一数量,计算系统可确定(i)与CYP2D6基因的至少一个外显子或内含子(例如,CYP2D6基因的外显子1至9中的一者或内含子1至8中的一者)和/或CYP2D7基因的外显子或内含子中的至少一者(例如CYP2D7基因的外显子1至9中的一者或内含子1至8中的一者)比对的多个序列读段的序列读段的第一数量。

方法900从框908前进至框912,其中计算系统分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量。与CYP2D6基因或CYP2D7基因(或本公开的任何基因)比对的序列读段的第一归一化数量可以为或为约例如1、2、3、4、5、6、7、9、10、20、30、40、50、60、70、80、90、100或更高。CYP2D6基因的长度可以为或为约例如4.4kb。CYP2D7基因的长度可以为或为约例如4.9kb。

在一些实施方案中,为了确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,计算系统可分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,以及确定(iii)在序列数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的深度。序列数据中除包含CYP2D6基因和CYP2D7基因(或本发明的任何基因)的基因座之外的受试者的基因组的区域的序列读段深度可以为或为约例如3、4、5、10、20、30、40、50、60、70、80、90、100或更高。

为了确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量,计算系统可分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一CYP2D6基因或CYP2D7基因长度归一化数量。计算系统可使用除包含CYP2D6基因和CYP2D7的基因座之外的受试者的基因组的区域的序列读段深度根据(i)CYP2D6基因或CYP2D7基因长度归一化数量来确定与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化深度。与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化深度可以为分别与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量。

在一些实施方案中,为了确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,计算系统可使用(i)CYP2D6基因或CYP2D7基因的GC含量来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,以及确定(iii)在序列数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的深度,以及(iv)确定基因组的区域的GC含量。CYP2D6基因或CYP2D7基因(或本公开的任何基因)的GC含量可以为或为约例如40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%或60%。序列数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的深度可以为或为约例如3、4、5、10、20、30、40、50、100或更高。序列数据中除包含CYP2D6基因和CYP2D7基因(或本发明的任何基因)的基因座之外的受试者的基因组的区域的GC含量可以为或为约例如40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%或60%。

该区域的深度可包括测序数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的平均深度。该区域的深度可包括测序数据中除包含CYP2D6基因和CYP2D7基因的基因座之外的受试者的基因组的区域的序列读段的中值深度。该区域的深度可以为或为约3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更高。该区域可包含约500个、1000个、1500个、2000个、2500个、3000个、3500个、4000个或更多个长度各自跨受试者基因组的约0.5kb、1kb、1.5kb、2kb、2.5kb或3kb的预选区域。例如,该区域可包含约3000个长度为约2kb且各自跨受试者的基因组的预选区域。

在一些实施方案中,(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和/或(ii)与第二区域比对的序列读段的第二归一化数量为或为约10、20、30、40、50、60、70、80、90、100或更高。例如,(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和/或(ii)与第二区域比对的序列读段的第二归一化数量为约30至约40。

方法900从框912前进至框916,其中考虑到(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,计算系统使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。CYP2D6基因和CYP2D7基因(或本发明的任何基因)的总拷贝数可以为或为约1、2、3、4、5、6、7、8、9、10或更高。

在一些实施方案中,高斯混合模型包括一维高斯混合模型。高斯混合模型的该多个高斯函数可表示整数拷贝数,例如0至5、0至6、0至7、0至8、0至9、0至10、0至11、0至12、0至13、0至14或0至15。例如,高斯混合模型的该多个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值(例如,1、2、3、4、5、6、7、8、9、10或更大)可以为由高斯函数表示的整数拷贝数(例如,1、2、3、4、5、6、7、8、9、10或更高的拷贝数)。高斯函数的标准偏差可以为或约为例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1或更高。

在一些实施方案中,为了确定(i)CYP2D6基因和CYP2D7基因的总拷贝数,考虑到(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,计算系统可使用高斯混合模型和第一预先确定的后验概率阈值来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。第一预先确定的后验概率阈值(或本公开的任何预先确定的后验概率阈值)可以为或约为例如0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99或更高。例如,第一预先确定的后验概率阈值可以为0.95。

方法900从框916前进至框920,其中对于多个CYP2D6基因特异性碱基(在本文中也称为CYP2D6/CYP2D7区分碱基)中的一个碱基,考虑到(a)该多个序列读段的具有支持CYP2D6基因特异性碱基的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)和(b)该多个序列读段的具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量),计算系统确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的多个可能组合中的最可能组合。CYP2D6基因的可能拷贝数可以为或约为例如1、2、3、4、5、6、7、8、9、10或更高。CYP2D7基因的可能拷贝数可以为或约为例如1、2、3、4、5、6、7、8、9、10或更高。

在一些实施方案中,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量,相对于该多个组合中的其他组合,CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合与最高后验概率相关联。最高后验概率(或本公开的任何概率)可以为或为约例如60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高。后验概率(或本公开的任何概率)的差异可以为或为约例如1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%或更高。

在一些实施方案中,为了确定包括CYP2D6基因的可能拷贝数和可能拷贝数的最可能组合,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,计算系统可确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的该多个可能组合中的最可能组合。为了确定包括CYP2D6基因的可能拷贝数和可能拷贝数的最可能组合,计算系统可确定(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量。计算系统可确定(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率。考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,计算系统可确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的该多个可能组合中的最可能组合。

在一些实施方案中,为了确定CYP2D6基因的可能拷贝数和CYP2D7基因的可能组合的最可能组合,对于该多个CYP2D6基因特异性碱基中的每个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持CYP2D7基因的与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量,计算系统确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的多个可能组合中的与最高后验概率相关联的最可能组合。与SMN1基因特异性碱基(或SMN2基因特异性碱基)比对的序列读段的数量可以为或为约例如3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更高。为了确定受试者具有的CYP2D6基因的等位基因,计算系统可使用对于该多个CYP2D6基因特异性碱基中的每个碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的等位基因是CYP2D6基因的小变体或结构变体,或者两者都不存在。

在一些实施方案中,CYP2D6基因特异性碱基与除超出预先确定的一致性阈值的CYP2D6基因特异性碱基之外的该多个CYP2D6基因特异性碱基中的每个碱基具有一致性。一致性阈值(或本公开的任何阈值)可以为或为约例如80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高。例如,预先确定的一致性阈值可以为97%。该多个CYP2D6基因特异性碱基可包含或包含约例如10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、110个、118个、120个、130个、140个、150个、160个、170个或更多个CYP2D6基因特异性碱基。例如,该多个CYP2D6基因特异性碱基可包括118个CYP2D6基因特异性碱基。

方法900从框920前进至方框924,其中计算系统使用对于CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的一个或多个结果变体。例如,计算系统可识别CYP2D6与CYP2D7的读段重叠位置的比率,其中基因具有不同碱基序列。对于CYP2D6不同于CYP2D7的位置,计算系统可基于CYP2D6或CYP2D7提取重叠的读段。从这些读段中,计算系统可对CYP2D6-特异性碱基的数量和CYP2D7-特异性碱基的数量进行计数。计算系统可确定CYP2D6或CYP2D7读段的分数。计算系统可在CYP2D6不同于CYP2D7的位置处计算CYP2D6和CYP2D7的CN。计算系统可以将CYP2D6和CYP2D7的总CN与CYP2D6与CYP2D7的比率组合,以调用CYP2D6的CN和CYP2D7的CN。计算系统可在CYP2D6和CYP2D7之间的一个或多个固定差异下使用CYP2D6和CYP2D7的CN进行小的变异调用。计算系统可通过以CYP2D6和CYP2D7之间的多个固定差异组合CYP2D6和CYP2D7的CN进行结构变体调用,以确定CYP2D6和CYP2D7处的CN之间转变的存在,该转变限定了样本中结构变体的类型。

方法900从框924前进至框928,其中对于CYP2D6基因的与CYP2D6基因的小变体等位基因相关联的小变体位置,考虑到(a)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)和(b)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量),计算系统可确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合。在小变体位置处最可能组合的CYP2D6基因的小变体等位基因的可能拷贝数可以指示CYP2D6基因的该一个或多个小变体。

对于CYP2D6基因的多个小变体位置中的每个小变体位置,该小变体位置与CYP2D6基因的小变体等位基因相关联,考虑到(a)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)和(b)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量),计算系统可确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合。在该多个小变体位置处最可能组合的CYP2D6基因的小变体等位基因的可能拷贝数可以指示CYP2D6基因的该一个或多个小变体。

在一些实施方案中,计算系统可确定CYP2D6基因在小变体位置处的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括CYP2D6基因的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括所确定的最可能组合的CYP2D6基因的可能拷贝数的CYP2D6基因的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括所确定的最可能组合并且最接近小变体位置的CYP2D6基因的可能拷贝数的CYP2D6基因的拷贝数。CYP2D6基因在小变体位置处的拷贝数可包括CYP2D6基因在小变体位置的5'位置或3'位置处的拷贝数。

在一些实施方案中,计算系统可(a)确定具有支持CYP2D6基因的小变体等位基因的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)。计算系统可(b)确定具有支持CYP2D6基因的参考等位基因的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)。

方法900从框928前进至框932,其中计算系统使用所确定的最可能组合的CYP2D6基因的小变体等位基因的可能拷贝数来确定CYP2D6基因的一个或多个小变体。计算系统可使用在所确定的最可能组合的CYP2D6基因在该多个小变体位置处的小变体等位基因的可能拷贝数来确定CYP2D6基因的一个或多个小变体。

在一些实施方案中,小变体位置在CYP2D6/CYP2D7同源区中。为了确定最可能组合,考虑到(a)与CYP2D6基因或CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与CYP2D6基因或CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,计算系统可确定最可能组合包括确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合。在一些实施方案中,小变体位置不在CYP2D6/CYP2D7同源区中。为了确定最可能组合,考虑到(a)与CYP2D6基因(并且不与CYP2D7基因)比对的具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与CYP2D6基因(并且不与CYP2D7基因)比对的具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,计算系统可确定最可能组合包括确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组合。

例如,计算系统可首先基于旁系同源特异性碱基的CN来确定SV(结构变体,例如缺失或重复)模式和断点。除此之外或另选地,计算系统然后可基于在第一步确定的读段比对、总CN和(有时)SV模式和断点来调用预定义的一组小变体(这些变体为感兴趣的基因特异性的变体,例如CYP2D6,并且为与旁系同源区分碱基不同的一组变体)。由于比对并不总是准确的,因此计算系统可在与任一旁系同源物比对的读段中提取出感兴趣的碱基。

方法900从框932前进至框936,其中计算系统使用所确定的CYP2D6基因的该一个或多个结构变体和/或所确定的CYP2D6基因的该一个或多个小变体来确定受试者具有的CYP2D6基因的星形等位基因和/或单倍型。星形等位基因可与已知功能相关联。CYP2D6基因的星形等位基因和/或单倍型可包括例如CYP2D6

方法900在框940处结束。

图10为示出使用测序数据诸如全基因组测序数据进行旁系同源物基因分型的示例性方法1000的流程图。方法1000可包括在存储在计算系统的计算机可读介质(诸如一个或多个磁盘驱动器)上的一组可执行程序指令中。例如,图11所示并且在下文更详细地描述的计算系统1100可执行一组可执行程序指令以实施方法1000。当方法1000被发起时,可将可执行程序指令加载到存储器诸如RAM中,并由计算系统1100的一个或多个处理器执行。尽管相对于图11所示的计算系统1100描述了方法1000,但该描述仅仅是示例性的,并非旨在进行限制。在一些实施方案中,方法1000或其部分可由多个计算系统串行地或并行地执行。

在方法1000在框1004处开始之后,方法1000前进至框1008,其中计算系统(例如,参考图11描述的计算系统1100)接收序列数据,该序列数据包括获自受试者的样本且与第一旁系同源物或第二旁系同源物比对的多个序列读段。用于生成序列读段的技术包括使用例如来自加利福尼亚州圣地亚哥的因美纳公司(Illumina,Inc.,San Diego,CA)的MINISEQ、MISEQ、NEXTSEQ、HISEQ和NOVASEQ测序仪器来边合成边测序。

方法1000从框1008前进至框1012,其中考虑到(i)与第一区域比对的序列读段的第一数量,计算系统使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定第一类型的旁系同源物的拷贝数。第一类型(或本公开的任何类型)的旁系同源物的拷贝数可以为或为约例如1、2、3、4、5、6、7、8、9、10或更高。

高斯混合模型的该多个高斯函数可表示整数拷贝数,例如0至5、0至6、0至7、0至8、0至9、0至10、0至11、0至12、0至13、0至14或0至15。例如,高斯混合模型的该多个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值(例如,1、2、3、4、5、6、7、8、9、10或更大)可以为由高斯函数表示的整数拷贝数(例如,1、2、3、4、5、6、7、8、9、10或更高的拷贝数)。高斯函数的标准偏差可以为或约为例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1或更高。

在一些实施方案中,计算系统可确定(i)序列数据中获自受试者的样本且与第一区域比对的多个序列读段的序列读段的第一数量。序列数据中获自受试者的样本且与第一区域(或本公开的任何区域)比对的该多个序列读段的序列读段的第一数量可以为或为约例如5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000或更高。计算系统可使用(i)第一区域的长度来确定(i)与第一区域比对的序列读段的第一归一化数量。与第一区域(或本公开的任何区域)比对的序列读段的第一归一化数量可以为或为约例如1、2、3、4、5、6、7、9、10、20、30、40、50、60、70、80、90、100或更高。第一区域的长度可以为或为约例如1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb或更高。为了确定第一类型的旁系同源物的拷贝数,考虑到(i)与第一区域比对的序列读段的第一归一化数量,计算系统可使用高斯混合模型确定第一类型的旁系同源物的拷贝数。

在一些实施方案中,考虑到(ii)与第二区域比对的序列读段的第二数量,计算系统可使用高斯混合确定第二类型的一个或多个旁系同源物的拷贝数。第二类型(或本公开的任何类型)的该一个或多个旁系同源物的拷贝数可以为或为约例如1、2、3、4、5、6、7、8、9、10或更高。为了确定第一旁系同源物的拷贝数或等位基因,计算系统可使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合以及第二类型的该一个或多个旁系同源物的拷贝数来确定第一旁系同源物的拷贝数或等位基因。计算系统可从第一类型的旁系同源物的拷贝数和第二类型的旁系同源物的拷贝数确定第三类型的旁系同源物的拷贝数。第三类型(或本公开的任何类型)的旁系同源物的拷贝数可以为或为约例如1、2、3、4、5、6、7、8、9、10或更高。为了确定第一旁系同源物的拷贝数,计算系统可使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数或等位基因。

用于将序列读段与参考基因组序列比对的方法可利用比对器,诸如Burrows-Wheeler比对器(BWA)和iSAAC。其他比对方法包括BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP和GSNAP、Geneious Assembler、LAST、MAQ、mrFAST和mrsFAST、MOM、MOSAIK、MPscan、Novoaligh&NovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3和SOAP3-dp、SOCS、SSAHA和SSAHA2、Stampy、SToRM、Subread和Subjunc、Taipan、UGENE、VelociMapper、XpressAlign和ZOOM。

方法1000从框1012前进至框1016,其中对于多个第一旁系同源特异性碱基中的一个碱基,考虑到(a)具有支持第一旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持第二旁系同源物的与第一旁系同源特异性碱基对应的第二旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量,计算系统确定各自包括共计为所确定的第一类型的旁系同源物的拷贝数的第一类型的第一旁系同源物的可能拷贝数和第一类型的第二旁系同源物的可能拷贝数的多个可能组合中的最可能组合。

方法1000从框1016前进至框1020,其中计算系统使用对于第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数或等位基因。

在一些实施方案中,第一旁系同源物为运动神经元存活1(SMN1)基因。第二旁系同源物可以为运动神经元存活2(SMN2)基因。第一区域可包含SMN1基因的至少一个外显子1至外显子6和SMN2基因的至少一个外显子1至外显子6。第二区域可包含SMN1基因的外显子7和外显子8中的至少一者和SMN2基因的外显子7和外显子8中的至少一者。第一类型的旁系同源物可包含完整SMN1基因和完整SMN2基因。第二类型的该一个或多个旁系同源物可包含完整SMN1基因、完整SMN2基因、截短SMN1基因或截短SMN2基因。第一旁系同源物的拷贝数可包括SMN1基因的拷贝数。计算系统可确定实现参考图8所述的方法800(或其一部分)的SMN1基因的拷贝数。

在一些实施方案中,第一旁系同源物为细胞色素P450家族2亚家族D成员6(CYP2D6)基因。第二旁系同源物可以为细胞色素P450家族2亚家族D成员7(CYP2D7)基因。第一区域可包含CYP2D6基因和CYP2D7基因。第二区域可包含CYP2D7基因和CYP2D7基因下游的重复元件REP7之间的间隔区。第一类型的旁系同源物可包含CYP2D6基因和CYP2D7基因。第二类型的该一个或多个旁系同源物可包含具有间隔区的CYP2D6/CYP2D7融合等位基因和CYP2D6/CYP2D7融合等位基因下游的重复元件REP7。第一旁系同源物的等位基因可包含受试者具有的CYP2D6基因的等位基因,该等位基因是CYP2D6基因的小变体或结构变体。计算系统可确定实现参考图9所述的方法900(或其一部分)的CYP2D6基因的等位基因。

在不同的实施方案中,第一旁系同源物和第二旁系同源物可以不同。第一旁系同源物和第二旁系同源物的示例包括但不限于SMN1基因和SMN2基因;CYP2D6基因和CYP2D7基因;双同源盒4(DUX4)基因、DUX4c基因、DUX4样2(DUX4L2)基因、DUX4样3(DUX4L3)基因、DUX4样4(DUX4L4)基因、DUX4样5(DUX4L5)基因、DUX4样6(DUX4L6)基因、DUX4样7(DUX4L7)基因和双同源盒2(DUX2)基因;以及核糖体蛋白S17(RpS17)基因和RpS17样(RpS17L)基因。在一些实施方案中,计算系统可确定实现参考图8所述的方法800(或其一部分)和/或参考图9所述的方法900(或其一部分)的第一旁系同源物的拷贝数或等位基因。

在一些实施方案中,第一旁系同源物和第二旁系同源物具有或具有约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性。例如,第一旁系同源物和第二旁系同源物具有至少90%的序列同一性。

方法1000在框1024处结束。

在图11中描绘了被配置用于旁系同源物基因分型的示例计算设备1100的一般架构。图11所描绘的计算设备1100的一般架构包括计算机硬件和软件部件的布置。计算设备1100可包括比图11所示的那些更多(或更少)的元件。然而,为了提供使能的公开内容,没有必要示出所有这些一般常规的元件。如图所示,计算设备1100包括处理单元1110、网络接口1120、计算机可读介质驱动器1130、输入/输出设备接口1140、显示器1150和输入设备1160,所有这些设备都可以通过通信总线彼此通信。网络接口1120可提供与一个或多个网络或计算系统的连接。因此,处理单元1110可经由网络从其他计算系统或服务接收信息和指令。处理单元1110还可经由输入/输出设备接口1140与存储器1170进行通信,并且还为任选的显示器1150提供输出信息。输入/输出设备接口1140还可接受来自任选的输入设备1160(诸如键盘、鼠标、数字笔、麦克风、触摸屏、手势识别系统、语音识别系统、游戏板、加速度计、陀螺仪或其他输入设备)的输入。

存储器1170可包含处理单元1110执行以便实施一个或多个实施方案的计算机程序指令(在一些实施方案中被分组为模块或部件)。存储器1170通常包括RAM、ROM和/或其他持久性、辅助或非暂态计算机可读介质。存储器1170可存储操作系统1172,该操作系统提供计算机程序指令以供处理单元1110在计算设备1100的一般管理和操作中使用。存储器1170还可包括用于实现本公开的各方面的计算机程序指令和其他信息。

例如,在一个实施方案中,存储器1170包括用于使用测序数据对一个或多个旁系同源物进行基因分型的旁系同源物基因分型模块1174,诸如参考图10所述的方法1000。另选地或除此之外,旁系同源物基因分型模块1174可以为或可包括用于使用测序数据确定SMN1拷贝数的模块,诸如参考图8所述的方法800。另选地或除此之外,旁系同源物基因分型模块1174可以为或可包括用于使用测序数据对CYP2D6基因进行基因分型的模块,诸如参考图9所述的方法900。此外,存储器1170可包括数据存储库1190和/或存储测序数据和/或对一个或多个旁系同源物进行基因分型的结果的一个或多个其他数据存储库或者与该数据存储库和/或该一个或多个其他数据存储库进行通信。

以上讨论的实施方案的一些方面在以下实施例中进一步详细公开,这些实施方案并非旨在以任何方式限制本公开的范围。

由SMN1基因的功能丢失但旁系同源SMN2基因的保留引起的脊髓性肌萎缩(SMA)是儿童早期死亡的主要遗传原因。由于SMN1及其旁系同源SMN2的序列几乎相同,所以通过基于下一代测序(NGS)的管线对该区域的分析一直具有挑战性。美国医学学院推荐对潜在父母进行妊娠前全群体SMA筛查以定量SMN1的拷贝数(CN)。

该实施例描述了使用全基因组测序(WGS)数据准确识别SMN1和SMN2的CN的生物信息学方法。该方法使用SMN1和SMN2之间的读段深度和八个信息性参考基因组差异来计算SMN1和SMN2的CN。

表征在五个族群群体中测序至高深度(>30x)的总共12,747个短读段全基因组中的SMN1/2的状态。在这些样本中,识别了总共251(1317)个具有SMN1的全基因损失(增益)的样本和6241(374)个具有SMN2损失(增益)的样本。计算出2%的泛族群携带者频率,这与先前的研究一致。另外,验证了CN调用,并且所有(48/48)个SMN1和98%(47/48)个SMN2的CN调用与用数字PCR测量的那些一致。

该基于WGS的SMN拷贝数调用方法可用于识别携带者和受影响的SMA状态,使得能够提供SMA测试作为新生儿护理中的全面测试,并且也能够提供用于大规模WGS测序项目中的携带者状态的准确筛查工具。

随着下一代测序(NGS)的最新进展,现在有可能在临床相关的时间段内以高通量对大量基因甚至整个基因组进行谱图分析。在这些进展的驱动下,许多国家正在开展大规模的群体测序工作,其中对罕见遗传疾病(包括携带者状态)的测试将是主要驱动因素之一。脊髓性肌萎缩(SMA)是一种常染色体隐形神经肌肉疾病,以α运动神经元丢失为特征,导致出生时或出生后不久出现严重的肌无力和萎缩。SMA是婴儿在囊性纤维化后死亡的主要遗传原因。SMA的发病率为每6000至10,000名活产儿中有1例,并且不同族群中的携带者频率为1:40至80。基于发病年龄和疾病严重性将SMA分为四种临床类型:非常虚弱而无法在无支撑的情况下坐立的婴儿(I型)、可虚弱地坐立但无法站立者(II型)、腿比手臂弱的行走患者(III型)以及相当良性的成年发病SMA(IV型)。由于可使用已获得FDA批准用于改善SMA的两种早期治疗(Nusinersen和Zolgensma),因此SMA的早期检测可对长期生活质量至关重要。

SMN区域包括两种旁系同源基因:SMN1和SMN2。SMN2在5q上与SMN1相距875kb,并且由人系独特的祖先基因重复形成。SMN1/2周围的基因组区域经受不等交换和基因转换,导致SMN1和SMN2的拷贝数(CN)可变。SMN2与SMN1具有大于99.9%的序列同一性,并且碱基差异中的一个碱基差异(外显子7中的c.840C>T)具有重要的功能结果。通过中断剪接增强子,c.840T促进了外显子7的跳跃,导致绝大多数SMN2衍生的转录物(70%-85%,取决于组织)不稳定并且不完全起作用。大约95%的SMA病例起因于由SMN1的缺失或向SMN2的基因转换(c.840T)引起的功能性c.840C核苷酸的双等位基因缺失。在其余5%的SMA病例中,患者在SMN1中具有c.840C缺失的等位基因反式的其他致病变体。SMN2可产生少量的功能蛋白,个体中SMN2的拷贝数改变疾病严重性并且与上述临床类型高度相关。

由于SMA的高发病率和疾病严重性,美国医学遗传学学院建议进行全群体SMA筛查。全群体携带者筛查的效用已在中试研究中得到证明。筛查SMA包括:1)确定SMN1的拷贝数以用于SMA诊断和携带者测试,以及2)确定SMN2的拷贝数以用于临床分类和预后。传统上讲,利用基于聚合酶链反应(PCR)的测定法进行SMA测试和携带者测试,这些测定法诸如定量PCR(qPCR)、多重连接依赖性探针扩增(MLPA)和数字PCR。这些方法主要基于SMN1和SMN2之间不同的c.840C>T位点来确定SMN1的拷贝数。该实施例证明WGS可达到或超过这些测试的性能,并表明当前和未来的精准医疗研究计划均可利用基因组数据进行群体水平筛查。

由于SMN1和SMN2之间几乎完全的序列同一性,复制当前的SMA测试方案给高通量WGS带来了问题。此外,认为SMN1和SMN2之间频繁的基因转换会导致产生杂交基因。这些挑战需要能够克服该区域的困难的生物信息学方法。已报道了用于SMA携带者检测的两种基于NGS的测试。Larson等人(Validation of a high resolution NGS method fordetecting spinal muscular atrophy carriers among phase 3participants in the1000Genomes Project,BMC Med Genet.,2015年,第16卷:第100页,doi:10.1186/s12881-015-0246-2)使用贝叶斯分级模型来计算SMN1衍生读段在SMN1和SMN2之间的三个碱基差异处的分数等于或小于1/3的概率。Larson所公开的方法可测试SMA;然而,由于该方法不执行拷贝数调用,因此该方法不是用于筛查携带者的理想解决方案。相反,Feng等人(The nextgeneration of population-based spinal muscular atrophy carrier screening:comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis bymassively parallel sequencing,Genet Med Off J Am Coll Med Genet.,2017年,第19卷第8章:第936-944页,doi:10.1038/gim.2016.215)描述了基于接近模拟当前qPCR方法的靶向测序数据的用于SMN1和SMN2两者的拷贝数调用器。Feng的方法被设计用于靶向测序,因此需要专门的归一化,这将该方法限制为在一个位点进行一次测定。该方法从外显子7中的读段覆盖率导出SMN(包括SMN1和SMN2两者)的总拷贝数,并且基于c.840C>T位点处支持SMN1和SMN2的读段的数量来计算SMN1:SMN2比率。使用总覆盖率和SMN1:SMN2比率,该方法导出了SMN1和SMN2的绝对拷贝数。由于该方法仅依赖于单个基因座,因此其对于每个基因座深度可变性可能非常高的WGS数据来说是不可靠的。

与靶向测序相比,WGS提供了跨基因组的更均匀的覆盖率,并且提供用于检测拷贝数变体(CNV)的偏倚性较小的方法。此外,WGS提供了对在序列水平上了解不佳的SMN区域中的群体变异谱进行全面分析的机会。该实施例描述了一种使用WGS数据检测SMN1和SMN2两者的CN的新型方法。虽然大多数常规测定仅测试c.840C的缺失作为“外显子7缺失”的缺失的代表,但该实施例描述了可更全面地表征区域的可变性的方法,包括:1)DNA缺失,包括整个基因缺失/重复和包括外显子7和8的区域的部分缺失;和2)小变体检测,包括与SMA“沉默”携带者(相同单倍型上SMN1的两个拷贝)相关的g.27134T>G SNP。通过将使用数字PCR的调用与实施例的基于WGS的调用进行比较来证明该方法的准确性。显示了SMN1的一致性为100%(48/48),SMN2的一致性为98%(47/48)。另外,将该方法应用于来自1000基因组项目的2,504个不相关的样本和来自NIHR生物资源项目的10,243个不相关的样本,以报告SMN1和SMN2拷贝数的群体分布。使用该实施例的方法确定的SMA的携带者频率与先前基于PCR的研究所报告的SMA的携带者频率一致。除了证明该方法对SMN区域中的变体进行定量的准确性之外,该实施例还强调了在开发新型信息学方法以解决基因组的临床相关困难区域时,使用不同族群群体的重要性。

使用数字PCR验证的样本采集自运动神经元疾病研究实验室(Nemours AlfredI.duPont儿童医院)并由细胞系生成,如前文所述。该队列含有29个SMA样本(14个I型SMA、1个I/II型SMA、10个II型SMA、3个III型SMA和1个临床等级未知的SMA)、6个非SMA神经肌肉疾病样本(包括遗传性感觉和自主神经病变3、肌强直性营养不良I型、远端遗传性运动神经元病变I型和Charcot-Marie-Tooth周围神经病变IA型)和13个正常样本。利用TruSeq DNA无PCR的样本制备进行SMA测试和携带者测试,其中150bp配对读段在Illumina(SanDiego,CA)HiSeq X仪器上进行测序。使用基因组构建GRCh37进行读段比对。

对于群体研究,从NIHR生物资源罕见疾病项目(EGAS00001001012)查询了13,343个个体,该项目对患有罕见疾病的个体及其近亲进行的WGS。还研究了来自下一代儿童项目(EGAD00001004357)的另外个体(n=840),该项目在英国对来自新生儿和儿科重症监护病房的患者及其父母进行诊断性三人组WGS。这些研究中的WGS使用Illumina TruSeq DNA无PCR样本制备试剂盒进行,其中100bp或125bp配对读段在Illumina HiSeq 2500上进行测序,或者150bp配对读段在HiSeq X仪器上进行测序。使用基因组构建GRCh37进行读段比对。当进行群体分析时,排除了相关的个体和来历不明的个体,留下10,243个不相关的个体。

对于1000基因组项目(1kGP)数据,WGS BAM从ncbi.nlm.nih.gov/bioproject/PRJEB31736/下载。通过在平均测序深度为至少30X的Illumina NovaSeq 6000仪器上对来自无PCR文库的2×150bp读段进行测序,并使用BWA-MEMv0.7.15(大于30X平均基因组覆盖率)将它们与人参考序列hs38DH比对,来生成这些BAM文件。

对于验证样本,利用QuantStudio 3D数字PCR系统(LifeTechnologies,Carlsbad,CA),使用等位基因特异性外显子7探针测量SMN1和SMN2 CN,如前文所述。SMN1和SMN2拷贝数针对RPPH1(RNase P)的拷贝数进行归一化。使用标准MLPA(SALSA MLPA P060SMA携带者探针混合物,MRC-Holland)确认下一代儿童项目中检测到的SMA样本。

SMN1和SMN2基因座受两种常见CNV的影响,即全基因CNV以及外显子7和8的部分基因缺失(参见本实施例的结果)。将外显子7和8部分缺失的截短形式的SMN命名为SMN

通过将总SMN CN与支持基因特异性碱基中的每个碱基的读段计数组合来调用携带SMN1和SMN2碱基的染色体数量。基于每个位置处完整SMN的所调用拷贝数,该方法通过SMN1和SMN2拷贝数的所有可能组合进行迭代,并导出针对所观察到的支持SMN1和SMN2的读段的数量产生最高后验概率的组合。除了调用特异于SMN1或SMN2的碱基CN之外,该方法还可应用于变体位置以识别已知特异于两个基因中的一个基因(例如g27134T>G)的SNP的拷贝数,如下文所述。

对于参考基因组中SMN1和SMN2之间不同的16个位置(定位在内含子6到外显子8),通过将这些位置的SMN1等位基因的CN调用与剪接变体碱基SMN1 c.840C的CN调用进行比较来测试这些位点是否在群体中真正固定。基于与剪接变体碱基的一致性,识别了SMN1碱基在群体中固定或接近固定的八个位置,包括c.840C>T(参见本实施例的结果部分,图14A)。其余位点在群体中可能是多态的,用于CN调用可能不可靠。

为了作出最终CN调用,该方法要求:1)SMN1 CN调用跨后验概率截止值为0.8的8个位点中的至少5个位点一致,或2)8个位点(后验概率>0.6)中的至少5个位点与从重叠所有8个位点(后验概率>0.9)的读段导出的CN调用一致。否则,SMN1 CN和SMN2 CN两者均产生无调用。SMA样本被识别为具有完整SMN1的零拷贝,并且携带者样本被识别为具有完整SMN1的一个拷贝。

在较高的CN值下,预期读段深度会有较大的可变性,从而导致各个位点的CN调用置信度较低(后验概率较低),并且位点之间的不一致较大。因此,在具有高SMN1/SMN2 CN(即两个值均大于或等于2)的样本中更有可能产生无调用(参见图15)。然而,在此类样本中,置信地确定SMN1 CN是否为0(SMA)或是否为1(携带者)仍然是可能的,这允许调用SMA/非SMA或携带者/非携带者。当SMN1拷贝数为无调用时,如果SMN1 CN调用中的至少七个调用确信大于零,则将该样本称为“非SMA”。类似地,如果SMN1 CN中的至少七个调用确信大于1,则将该样本被称为“非携带者”。另外,当SMN1 CN为无调用时,直接测试指示SMA的c.840C等位基因的缺失。这通过测试支持SMN1碱基(c.840C)的读段的数量是否更可能从SMN1的零个或一个拷贝导出来完成。

基因SMN1和SMN2位于参考基因组中的~2Mb区域中,具有大量复杂的节段和反向节段重复。虽然现有方法(例如,基于PCR的方法)主要关注c.840C>T位点,但该实施例示出了基于来自全基因的测序数据的拷贝数方法。SMN1拷贝数定义为携带c.840C等位基因的SMN基因数,SMN2拷贝数定义为带有c.840T等位基因的SMN基因数。使用来自1000基因组项目(1kGP)的2504个样本的高深度(>30x)WGS数据以及来自NIHR生物资源项目的10,243个不相关样本来进行序列分析(参见本实施例的方法)。

为了制定CN调用策略,首先表征导致DNA缺失的两种常见CNV。评估的初级CNV涉及整个SMN1/SMN2基因区域。检查跨包含SMN1和SMN2基因的~30kb同源区域的读段深度。图12A示出了在100bp滑动窗口中,在具有跨该区域(表示SMN1和SMN2两者)的不同SMN1+SMN2CN的样本中的归一化读段深度。深度谱图表明,在这些样本中,该整个区域为缺失的或重复的。由于该区域内外广泛的序列同源性,预期该CNV的确切断点因样本而异,并且只能用长读段测序以高分辨率进行解析。对于SMA测试,分析仅限于包含SMN基因(SMN1或SMN2)的(~30kb)区域。

除了全基因CNV之外,还发现了包含外显子7和8两者的6.3kb部分基因缺失(图12B、图16)。断点处的序列在SMN1和SMN2之间是相同的,因此该缺失发生在SMN1中的chr5:70244114-70250420处或SMN2中的chr5:69368689-69375000处(图16,hg19)。然而,在限定该缺失末端的断点下游约500bp处,SMN1和SMN2基因座之间存在三个碱基差异(70250881A>69375425C、70250981A>69375525G、70250991A>69375535G)。在包含该缺失的样本中,识别了来自237个样本的245个读段对,其中一个读段跨越断点,并且另一个读段跨越三个SMN区分碱基中的至少两个碱基。这些读段对的分析表明,100%与发生在SMN2序列背景上的缺失一致。SMN2的这种截短形式被命名为“SMN

图12A和图12B示出了说明影响SMN1/SMN2基因座的常见CNV的非限制性示例性曲线图。图12A示出了跨SMN1/SMN2区域的深度谱图。具有2个、3个、4个和5个总SMN1+SMN2拷贝数的样本分别以圆点示出。对于每个CN类别,对50个样本的深度求和。每个点表示100bp窗口中的归一化深度值。在每个100bp窗口中计算读段计数,对SMN1和SMN2二者的读段求和,并归一化为野生型样本的深度(CN=4)。SMN外显子表示为紫色框。两个x轴示出SMN1(底部)和SMN2(上部)中的坐标。图12B示出了由携带外显子7和8缺失的50个样本聚集而来的深度谱图,以圆点示出。以与图12A中相同的方式计算读段深度。

在搜索异常读段对之后,未在SMN区域中发现其他常见CNV。将该信息组合在一起,通过将基因分成两个区域(包含外显子7-8的6.3kb区域和包含外显子1-6的22.2kb区域)来调用SMN基因的CN以特异性识别完整形式和截短形式的数量。这两个区域的CN根据读段深度进行计算,如本实施例的方法部分所述。计算的来自外显子7-8区域的CN提供了完整SMN基因的数量。具有SMN

图13示出了总SMN(SMN1+SMN2)拷贝数(x轴,由外显子1至6中的读段深度调用)和完整SMN拷贝数(y轴,由外显子7至8中的读段深度调用)的非限制性示例性散点图。

在计算SMN基因的拷贝总数后,如下所述区分SMN1和SMN2。由于c.840C>T是SMN1和SMN2之间最重要的功能差异,因此这两个基因的绝对拷贝数理论上可使用在该位点支持SMN1和SMN2的读段的数量之间的比率导出。然而,对于WGS数据集,在一个二倍体位置处的读段深度通常为30-40X,并且有时无法提供足够的能力来清楚地区分不同的CN状态(参见图15)。因此,利用c.840C>T附近的另外的碱基差异,使得当作出CN调用时,这些位点处的信息可与c.840C>T组合。由于需要区分完整SMN1与SMN2,因此考虑了发生在6.3kb缺失内的变体。排除可能更容易出错的均聚物中的SNP和短串联重复序列(STR),从而导致SMN1和SMN2之间的16个碱基差异(表8)。

对于这16个碱基差异,独立地调用SMN1和SMN2等位基因的CN(参见本实施例的方法部分),并将每个位置的CN调用与剪接变体位点处的CN调用进行比较(图14A、图17)。在非洲群人体和非非洲人群体中调用一致性之间存在显著差异(图14A)。对于非非洲人样本,存在13个位点与剪接位点具有高(>85%)CN一致性。相反地,对于非洲人样本,仅存在七个位点与剪接位点具有高CN一致性,并且一致性值低于非非洲人群体。这与这些位置中的许多位置处的基因内变异和这些非参考等位基因在非洲人群体中的较高频率是一致的。在非洲人和非非洲人群体中选择与剪接变体高度一致的剪接变体和七个位置以对SMN1和SMN2作出CN调用。通过限制在允许容易地识别杂交等位基因的两种CN状态(SMN1=CN2和SMN2=CN0或SMN1=CN2和SMN2=CN1),估计SMN1和SMN2基因上这些位点的等位基因频率(表9、图18A和图18B)是可能的。基于这一分析,在这八个位置中,估计至多0.5%的SMN1基因包含SMN2等位基因。相反地,估计至多0.9%的SMN2基因携带SMN1等位基因。这些观察结果可能是基因转换的结果,或者这八个位点中的许多位点在群体中是多态的。这些杂交等位基因中的大部分来自非洲人群体(表9)。

图14A至图14D示出了SMN1/SMN2/SMN

引入更多的碱基差异改善了区分SMN1与SMN2的能力。然而,因为这些位点在各自的基因中不是真正不变的,并且在单个位点处的CN调用可能会出错,所以单独调用中的一个调用会偏离真实拷贝数状态的可能性会增加。为了作出最终调用,SMN1 CN调用需要在8个位点中的5个或更多个位点处彼此一致(关于CN调用规则的完整描述,参见本实施例的方法部分)。在后验概率截止值为0.8的情况下,大多数样本在八个位点中的至少五个位点处具有一致的调用,并且仅1.4%的样本具有少于5个一致的位点(表10)。在这些样本的80%中,基于第二个共有序列规则作出置信的CN调用(需要与通过对所有8个位点处的读段求和而作出的CN调用一致)。由于后验概率较低而非调用有差异,因此“不一致”的位点更多的是无调用,并且这些位点中仅15.3%是与其他位点的共有序列不一致的置信调用。同样,大部分不一致来自非洲人群体(表10)。与使用八个位点相比,使用较少位点进行多数规则产生更多数量的无调用和错误调用(表11)。

为了测试该方法,对48个具有已知SMN1和SMN2 CN的样本(包括29个SMA先证者、6个SMA携带者和13个SMN1 CN大于1的样本)进行测序。在48个病例的所有病例中,SMN1 CN调用与数字PCR结果一致,在48个病例的47个病例中,SMN2 CN调用一致(97.9%)(表6A和6B)。在该单个差异病例(MB509)中,该方法调用的SMN2 CN为3,而数字PCR显示了SMN2 CN为2(表12)。在仔细检查后,发现该样本中的SMN1中有一个1884bp缺失(chr5:70247145-70249029,hg19)(图19)。缺失较小(不会显著改变用于确定完整SMN CN的6kb区域中的深度),并且此前未报道(也未在群体数据中发现),因此该方法未被设计成对其进行检测。因此,该样本被正确地识别为SMA,但SMN2CN被高估了一个。缺失与在8个SMN1-SMN2差异位点中作出的CN调用一致,其中前2个位点不在缺失中并且在SMN1 CN=1处被调用,后6个位点在缺失中并且在SMN1 CN=0处被调用。

分析了来自下一代儿童项目组队列的258个三人组中SMN1/SMN2/SMN

考虑到通过对数字PCR结果进行验证来证明的高准确度,将该方法应用于来自1kGP和NIHR生物资源项目的12,747个不相关样本的高深度(>30x)WGS数据(表14)。CN分布按群体(欧洲人、非洲人、东亚人、南亚人和由白种人、墨西哥裔美国人、秘鲁人和波多黎各人组成的混血美国人)进行分析。图14B示出了具有完整SMN1、完整SMN2和SMN

在表7和表15中汇总了在群体中识别的SMA携带者的数量。在具有置信SMN1/SMN2CN调用的12,683个个体中,欧洲人具有2.2%的最高携带者频率,其次是混血美国人(2.05%)、东亚人(1.35%)和南亚人(1.67%)。非洲人具有最低携带者频率(0.44%)。在该实施例中观察到的CN频率分布与此前对一般人群中SMN1/SMN2 CN分布的研究一致。此外,测定了群体中外显子7-8缺失(SMN

在下一代儿童项目队列(参见本实施例的方法部分)中,识别了独立确认的来自三人组分析的两个新生儿先证者中的SMA。此外,对每个三人组成员的SMN1 CN、SMN2 CN和SMN

基于泊松分布模拟在样本中值深度为30X、35X和40X的一个单个位点处的读段数量,并且基于具有SMN1 CN和SMN2 CN的所有可能组合的二项模型对支持SMN1的读段进行采样,其中总SMN CN在2和6之间。根据支持SMN1和SMN2的读段的数量,导出模拟的SMN1 CN的后验概率(参见本实施例的方法部分)。当SMN1 CN或SMN2 CN中的至少一个值较低(小于或等于1)时,后验概率较高(大于0.9)(图16)。当两个值均大于2时,即在2:2、2:3、2:4、3:2、3:3和4:2的SMN1:SMN2组合中,后验概率往往变低并降至0.9以下。这是由于当预期的CN较高时,读段深度的可变性更大。因此,在这些场景中,使用一个单个位点作出SMN1和SMN2 CN调用可能不太准确。

存在一个样本MB509,其在我们的CN调用和数字PCR结果之间存在差异。在进一步检测时,发现该样本具有SMN2的两个拷贝和SMN1的一个拷贝,具有1884bp缺失(chr5:70247145-70249029,hg19,图20)。虽然SMN1/2区域中的读段比对并不总是准确的,但对断裂读段的仔细分析表明这些读段或它们的配偶与SMN1特有的碱基重叠。不旨在受理论的限制,假设该缺失正确地位于SMN1上。缺失较小(不会显著改变用于确定完整SMN CN的6.3kb区域中的深度),并且此前未报道(也未在1kGP样本中发现,因此是非常罕见的变体),因此该方法未被设计成检测缺失。因此,该方法调用的SMN1+SMN2的总拷贝数为3。缺失与在8个SMN1-SMN2差异位点中作出的CN调用一致,其中前2个位点不在缺失中并且在SMN1 CN=1处被调用,后6个位点在缺失中并且在SMN1 CN=0处被调用(图21A)。基于多数规则,该方法调用的SMN1拷贝数为0,正确地识别样本为SMA。SMN2拷贝数计算为总拷贝数减去SMN1拷贝数,因此该方法调用的SMN2拷贝数为3,高估了1。

四个其他样本MB231、MB367、MB383和LP2101748在作出的CN调用和来自数字PCR或MLPA的结果之间具有差异。8个碱基差异位点处的读段计数和归一化深度值(读段计数除以单倍体样本深度)支持我们的CN调用(图21A),并且差异可能是由正交方法中的误差引起的。在两个样本中,基因组测序(GS)调用和数字PCR调用相差两倍(MB231:GS-0,2,PCR-0,4和MB383:GS-3,1,PCR-6,2)。数字PCR可能存在归一化问题,导致拷贝数高估了两倍。

当比较在1109个1kGP样本中作出的CN调用与MLPA结果时,排除了由于总SMN CN的后验概率低而作出了SMN2Δ7-8的无调用一个样本,以及由于在不满足共有序列规则的8个选择位点中的CN调用不一致而作出了SMN1和SMN2 CN的无调用(图22B)的三个样本。

g.27134T>G SNP可与2+0SMA沉默携带者状态相关联,其中一个染色体携带SMN1的两个拷贝(通过SMN1重复或SMN2向SMN1的基因转换),而另一个染色体的SMN1不具有拷贝。该实施例的方法还可检测该SNP的存在,因此可用于筛选潜在的沉默携带者。该SNP与非洲人中的双拷贝SMN1等位基因密切相关,其中84.5%的具有SMN1的三个拷贝的个体和92.6%的具有SMN1的四个拷贝的个体具有g.27134T>G SNP(表7)。调用该SNP极大地提高了非洲人的携带者检出率,因为非洲人具有携带SMN1的两个拷贝的等位基因的更高频率(表17和表18)。然而,33%的具有SMN1的两个拷贝的个体也具有g.27134T>G SNP,表明单拷贝SMN1等位基因的很大一部分也携带该SNP。计算携带g.27134T>G的单拷贝和双拷贝SMN1等位基因的百分比的最大似然估计(表17)以及CN和SNP调用的组合的残余风险的最大似然估计(表18)。所计算的估计值类似于先前的研究,但在这些估计值的所有估计值中存在相当大的可变性。该可变性可由群体可变性引起,例如非洲人(该实施例)相比于非裔美国人(先前的研究)和北欧人(在该实施例中占比过高)相对于采样更多样的白种人(先前的研究)。

该实施例的方法允许对SMN1和SMN2两者中的读段进行分析,因此对比对器如何区分这两个基因不敏感。因此,使用不同的比对器应产生类似的结果。在该实施例中分析的BAM数据使用两种不同的比对器生成:用于1kGP数据的BWA和用于其余数据的各种版本的Isaac。1kGP和NIHR之间一致的SMN1/2CN分布(表19,图20)样本表明我们的方法对比对器不敏感。另外,通过用BMA和Isaac两者对117个样本(包括5个SMA样本和3个携带者)进行比对来测试该方法的一致性。利用该实施例的方法,所有117个样本产生了完全相同的调用(SMN1/SMN2/SMN2Δ7-8CN),并且外显子1-6和外显子7-8两者的归一化深度几乎相同(Pearson的r>0.999,图22)。

将在该实施例的1kGP样本中作出的携带者调用(N=37)与Larson等人报告的携带者调用(N=36)进行比较,发现有26个重叠调用(表15)。假定通过该实例的方法作出的调用是正确的,Larson等人作出了10次假阳性(FP)和11次假阴性(FN)调用。Larson等人通过确定支持SMN1的读数的分数是否小于或等于1/3来识别携带者。该研究使用将预期会导致一些错误的低深度测序数据,但更重要的是,他们的方法在不调用总拷贝数的情况下容易出错。例如,具有SMN1的一个拷贝和SMN2的一个拷贝的样本将被称为非携带者(SMN1分数为1/2),并且具有SMN1的两个拷贝和SMN2的四个拷贝的样本将被称为携带者(SMN1分数为1/3),导致假阳性和假阴性(表16)。

图15示出了非限制性示例性曲线图,每个曲线图示出了使用不同读段深度处的单个位点以及SMN1:SMN2 CN组合的模拟SMN1 CN的后验概率分布。

图16示出了具有外显子7至8缺失的样本中SMN2区域的非限制性示例性IGV快照。水平线在中心对齐轨道中将两个读段成对连接起来。跨越断点的两个断裂读段的BLAT结果在底部轨道中示出,其示出了与缺失断点的任一侧对齐的相同读段的两个片段。

图17示出了非限制性示例性曲线图,其示出了在c840.C>T附近的15个碱基差异处的原始SMN1 CN和在c840.C>T位点处的原始SMN1 CN之间的相关性。将每个位点处的原始SMN1 CN计算为完整SMN的CN乘以支持SMN1+SMN2的读段计数中支持SMN1的读段计数的分数。相关系数在每个曲线图的标题中列出。

图18A和图18B示出了非限制性示例性曲线图,其示出了在1kGP中具有SMN1:2SMN2:0和SMN1:2SMN2:1的样本中的SMN1/SMN2单倍型。y轴示出了如图16所定义的原始SMN1 CN。x轴示出了16个位点,其索引在表8中列出并解释。指数#13表示c840.C>T位点。具有SMN1:2SMN2:0的样本一起示于左上图中。具有SMN1:2SMN2:1的样本被示出为5簇。图18A。非非洲人。图18B。非洲人。

图19示出了显示MB509中SMN1的1.9kb缺失的非限制性示例性IGV快照。

图20示出了非限制性示例性曲线图,其示出了1kGP和NIHR队列中SMN1/SMN2/SMN

图21A和图21B示出了验证样本中的差异和无调用。图21A示出GS调用与数字PCR或MLPA结果之间具有差异的五个样本。x轴示出了16个位点,其索引在表8中列出并解释。指数#13表示c840.C>T位点。条形图的左侧y轴示出了支持SMN1和SMN2的读段计数。条形图的右侧y轴示出了SMN1和SMN2的归一化读段深度(拷贝数的代表,读段计数除以单倍体深度)。每个分图的标题示出了每个样本的SMN1和SMN2的GS和数字PCR/MLPA调用,用逗号隔开。图21B示出了三个1kGP验证样本,其中SMN调用器由于SMN1/SMN2碱基差异位点之间的不一致而对SMN1和SMN2 CN作出无调用。用于所述方法的共有序列规则的八个位点是#7-8和#10-15。y轴示出了如图17所定义的原始SMN1 CN。

图22示出了从BWA和Isaac BAM导出的CN调用。

表9.在两种简单CN状态下(SMN1=CN2和SMN2=CN0或SMN1=CN2和SMN2=CN1),具有SMN2等位基因的SMN1单倍型和具有SMN1等位基因的SMN2单倍型的频率。括号中的数字表示由非洲人群体贡献的单倍型。

由于SMN1与SMN2之间的高序列同源性,SMN区域难以用短读测序和长读测序两者进行解析,迄今为止,该重要区域已被排除在标准WGS分析之外。该实施例证明了可使用短读段WGS数据独立地解析SMN1和SMN2的CN的方法,从而填补的SMA诊断和携带者筛查中的重要空缺以实现精准医疗研究计划。SMN1和SMN2 CN的准确测量不仅对于SMA的诊断很重要,而且也是预后指标和治疗选择的基础。SMN2 CN已被用作许多SMA临床试验(包括Nusinersen和Zolgensma)的标准。

作为该方法的证明,使用来自涵盖五个不同亚群的12,747个样本的测序数据对SMN1和SMN2作出了CN调用。识别以下样本:具有SMN1的全基因损失(少于两个拷贝)的251个样本和具有全基因增益(多于两个拷贝)的1317个样本;具有SMN2的全基因损失的6241个样本和具有全基因增益的1274个样本;携带截短形式SMN

在该实施例中,CN调用被优化以适用于任何祖先的个体,并因此将SMN1/2分化限制为与在所有群体中的剪接变体高度一致的功能上重要的剪接变体加上七个位点(图14A)。通过对参考差异中的所有差异和剪接变体之间的一致性进行定量,该方法能够识别这些固定差异的变化,如果这些变化没有被适当地考虑(例如,从我们的分析中移除),则可能导致我们的CN调用出错。在分析非洲人时不考虑固定差异将尤其成问题,因为这些非洲人具有更多样的单倍型。群体遗传学研究(例如包括使用长读段测序)可有助于更直接地对群体间的单倍型多样性进行谱图分析,并鉴定可进一步改善SMN1/SMN2分化准确性的新变体位点。

当个体具有SMN1基因的两个拷贝但它们均在同一单倍型上时,出现一种类型的“沉默”携带者。SNP(g.24134T>G)已用于识别当SMN1 CN为2时,成为携带者的风险增加的个体,但与该SNP相关联的风险在研究和群体之间可能存在很大差异(表17)。当个体仅具有SMN1的一个拷贝时,该个体可被确定地识别为携带者,但是该变体仅指示当SMN1 CN为2时成为携带者的几率为2%至8%。利用WGS,对SMN1和SMN2的不同CN组合出现的不同变体进行分类是可能的,并且识别可用于改善我们识别这些“沉默”携带者的能力的附加标记是可能的。此外,当前c.840C>T剪接变体的丢失解释了约95%的SMA病例,其余病例包括其他病原变体。这些其他病原变体代表另一种类型的“沉默”携带者。该方法可直接对这些其他病原变体进行基因分型,作为测试过程的一部分,从而进一步改善检测SMA携带者和病例的能力。

虽然基因组中存在正常WGS管线不递送变体调用的困难区域,但该实施例证明了应用与靶向生物信息学方法配对的WGS来解决一个此种困难区域的能力。该靶向策略(WGS+专业生物信息学)可以应用于许多困难的变体,诸如本文所公开的重复扩展和CYP2D6。传统上讲,对每个个体进行所有已知的基因测试和携带者筛查具有成本效益,因此使用信息诸如携带者比率和家族史来识别用于特定基因测试的候选者。然而,该过程意味着原本可以受益于了解其SMA状态的许多无家族史的人通常不能访问该数据。一旦WGS分析能够准确地检测所有临床相关基因中的所有SNV和CNV,那么通过单次测试就可以实现更普遍的全群体基因测试策略。改善WGS,使其成为一种当前遗传测试的经济替代品,将有助于促进更多遗传测试和携带者筛查整合到WGS中,从而使全人群更普遍地获得基因测试。WGS为评估整个基因组的遗传变异提供了宝贵的机会,并且利用为困难区域开发更具靶向性的生物信息学解决方案将有助于使个体化医疗的前景离现实更进一步。

本实施例和附录A描述了使用全基因组测序数据对CYP2D6进行基因分型。附录A的内容全文以引用方式并入本文。

CYP2D6参与所有药物中25%的代谢,是个体化用药的关键目标。由于CYP2D6的高多态性、共同结构变体(SV)的存在以及与基因的假基因旁系同源物CYP2D7的高序列相似性,因此对其进行基因分型具有挑战性。本文公开了能够使用全基因组测序(WGS)数据准确地对CYP2D6进行基因分型的生物信息学方法,在本文中也称为Cyrius。在具有GeT-RM共有序列调用的138个样本和具有Pacific Biosciences of California,Inc.(Menlo Park,CA),也称为PacBio,测序数据的50个另外的样本中,该方法(97.9%与事实一致)与其他方法(85.6%至88.8%)相比具有优异的性能。该方法的特定区别是调用结构变体星形等位基因的能力。该方法正确地识别了97.2%(70/72)结构变体星形等位基因,相比之下,其他方法识别了77.8%-88.9%(56/72和64/72)结构变体星形等位基因。将该方法应用于来自1000基因组计划(1kGP)的2504个样本,其中估计涉及SV的CYP2D6星形等位基因比先前报道的一些群体的频率高32.2%。该实施例提供了针对迄今为止最大验证数据集的基准测试结果。在一些实施方案中,该方法是用于WGS的药物遗传学应用的有用工具。该方法可有助于使实现精准医疗的前景离现实更进一步。

个体对大量临床处方药物的响应存在显著差异。导致这种差异药物响应的一个强有力的因素是药物代谢基因的遗传组成。精准医疗需要对药物基因进行基因分型,以实现个体化治疗。细胞色素P450 2D6(CYP2D6)是最重要的药物代谢基因之一,并且参与25%药物的代谢。CYP2D6基因是高度多态的,具有由药物基因变异(PharmVar)联盟定义的106个星形等位基因(Pharmvar.org/gene/CYP2D6)。CYP2D6星形等位基因是由小变体(诸如单核苷酸变异(SNV)和插入/缺失(插入缺失))和结构变体(SV)的组合限定的CYP2D6基因拷贝,并且对应于不同水平的CYP2D6酶活性,诸如不良的、中等的、正常的或超强的代谢剂。

对CYP2D6的基因分型受到非功能旁系同源物CYP2D7的存在的挑战,该旁系同源物位于CYP2D6的上游并且与几个接近相同的区域具有94%的序列相似性。CYP2D6的缺失和重复以及CYP2D6与其假基因旁系同源物CYP2D7之间的融合是常见的。传统上讲,CYP2D6基因分型已利用基于阵列或聚合酶链反应(PCR)的方法进行,这些方法诸如TaqMan测定、微滴数字PCR(ddPCR)和长片段PCR。这些测定法的区别在于它们靶向的星形等位基因(变体)的数量不同,从而导致不同测定法中的基因分型结果的存在差异。这些方法的常见限制是:1)当未检测到靶向变体时野生型等位基因

通过下一代测序(NGS)可能在临床相关的时间段内以高通量对整个基因组进行谱图分析。已经进行了大规模群体测序工作,并且药物遗传学测试可以是期望的目标。利用NGS进行CYP2D6基因分型特别具有挑战性,这是由于CYP2D6和CYP2D7(下文称为CYP2D6/7)之间的共同基因转换、共同SV(基因缺失、重复和CYP2D6/7融合基因)以及CYP2D/7之间的序列相似性,这导致这两个基因的读段比对不明确。一些现有的调用器不能检测复杂的结构变体,并且已显示具有低性能。其他现有的调用器,诸如Aldy(Numanagic等人,Allelicdecomposition and exact genotyping of highly polymorphic and structurallyvariant genes,Nat Commun.,2018年,第9卷第1章:第1-11页,Doi:10.1038/s41467-018-03273-1)和Stargazer(Lee等人,Stargazer:a software tool for calling staralleles from next-generation sequencing data using CYP2D6 as a model,GenetMed.,2019年,第21卷第2章:第361页,Doi:10.1038/s41436-018-0054-0)依赖于序列读段与CYP2D6的精确读段比对,以便基于深度检测SV并基于观察到的小变体和SV导出单倍型构型。然而,对CYP2D6的序列读段的准确读段比对通常在整个基因的许多位置处是不可能的,因为该序列与CYP2D7高度相似或甚至由于基因转换而无法区分。因此,深度图案可以是模糊的,并且调用器可以做出假阳性/阴性小变体调用。一些调用器不支持hg38,因此许多研究将需要与hg37重新比对才能使用这些工具。

CDC遗传测试参考材料计划提供的一组参考样本(GeT-RM;Gaedigk等人,Characterization of Reference Materials for Genetic Testing of CYP2D6Alleles:A GeT-RM Collaborative Project,J Mol Diagn JMD,2019年8月,Doi:10.1016/j.jmoldx.2019.06.007)使得新开发的方法的基因分型准确性能够得到评估,其中主要药物遗传学基因的共有基因型是使用多个基因分型平台导出。GeT-RM涵盖106个CYP2D6星形等位基因的43个星形等位基因。另外,用于这些共有基因型的单标记方法中的许多方法可能容易出错,导致方法之间的冲突。可用高质量长读段提供CYP2D6的完整图像,以改进对复杂变体和单倍型的验证。本文公开了Cyrius,它是一种克服CYP2D6和CYP2D7(本文称为CYP2D6/7)挑战的基于WGS的CYP2D6基因分型方法。Cyrius在138个GeT-RM参考样本和50个具有全基因组PacBio测序数据的样本中的基因分型准确性优于Aldy和Stargazer,涵盖106个已知星形等位基因中的41个星形等位基因。将该方法应用于来自1000基因组计划(1kGP)的2504个不相关样本的高深度序列数据,以报告星形等位基因在五个族群群体中的分布。该分析证明了PharmGKB中频率的差异,突出了与使用设计成识别已知星形等位基因的特定亚组的多种技术进行的合并有限星形等位基因调用相关联的潜在误差。该分析扩展了目前对CYP2D6基因多样性的理解,尤其是对具有SV的复杂星形等位基因的理解。

分析以下样本:138个GeT-RM参考样本(包括在初始GeT-RM研究中进行基因分型并在最新GeT-RM版本中更新的96个样本)的WGS数据以及在最新GeT-RM版本中新增的42个另外的样本。对于第一批的96个样本,利用TruSeq DNA无PCR的样本制备进行WGS,其中150bp配对读段在Illumina,Inc.(SanDiego,CA)HiSeq X仪器上进行测序。使用基因组构建GRCh37进行读段比对。从ebi.ac.uk/ena/data/view/PRJEB19931下载了这些样本中70个样本的序列数据。从NYGC下载了第二批的42个样本的WGS数据,作为1000基因组项目的一部分(参见下文)。

对于群体研究,使用1000基因组项目(1kGP)数据,其中2504个样本的WGS BAM从ncbi.nlm.nih.gov/bioproject/PRJEB31736/下载。通过在Illumina NovaSeq 6000仪器上对来自无PCR文库的2×150bp读段进行测序并将它们与人参考序列hs38D进行比对来生成这些BAM文件。从ebi.ac.uk/ena/data/view/PRJEB19931下载了70个GeT-RM样本的WGS数据。

gDNA样本购自科里尔医学研究所(Coriell,NJ,USA)。通过Nanodrop(ThermoFisher,MA,USA)评估gDNA样本的质量。A280/A260比率需要在1.8-2.0的范围内,并且A260/230比率≥2.0。通过飞秒脉冲系统(Agilent CA,USA)评估gDNA的分子量。大多数DNA片段大小应>40kb。如果来自Coriell的gDNA样本的质量低于方案要求,则利用QiagenDNA提取试剂盒(Qiagen,CA,USA)从B-淋巴细胞(Coriell,NJ,USA)中提取新鲜DNA。

按照制造商的说明书(Covaris,MA,USA),使用Covaris g管将10μg gDNA片段化为15kb。根据制造商的说明书,使用0.45×AMPure XP珠粒(Beckman Coulter,IN,USA)纯化DNA。通过飞秒脉冲系统(Agilent CA,USA)确认剪切的DNA尺寸。

按照PacBio“使用SMRTbell模板制备试剂盒1.0制备HiFi

该实施例中所述的方法Cyrius首先按照与实施例1中所述类似的方法调用CYP2D6/7拷贝数(CN)的总和。使用映射到CYP2D6或CYP2D7的所有读段(包括映射质量为零的读段),直接从WGS比对的BAM文件计算读段计数,以说明具有高序列同源性的区域。读段计数之和通过区域长度归一化。然后对跨基因组的3000个预选2kb区域进行GC校正。从基因组中随机选择这3000个归一化区域以用于跨群体样本的稳定覆盖率,以推断测序深度并捕获GC偏差。利用11个高斯的一维混合物对整个群体的归一化深度值进行建模,其中以每个整数CN值为中心的约束均值表示0至10范围内的CN状态。从高斯混合模型(GMM)中调用CYP2D6+CYP2D7的CN,其中后验概率阈值为0.95。使用相同的方法调用重复REP7和CYP2D7之间的1.5kb间隔区的CN来推断含REP7的融合基因的CN(图23)。

图23为示出CYP2D6/7区域中WGS数据质量的非限制性示例性曲线图。针对CYP2D6/7区域中的每个位置绘制1kGP样本的平均映射质量。在200bp窗口中应用中值滤波器。REP6、REP7和CYP2D6/7的9个外显子在左侧(CYP2D6)和右侧(CYP2D7)上以框示出。CYP2D6(REP6)和CYP2D7(REP7)下游的两个2.8kb重复区是相同的并且基本上不可比对。虚线框表示CYP2D7和REP7之间的间隔区。基因内的两个主要同源性区域加了阴影。

该方法识别了118个CYP2D6/CYP2D7区分碱基(参见该实施例的附加信息,图26)。在这些区分碱基位置的每一个位置处,Cyrius通过将总CYP2D6+CYP2D7 CN与支持基因特异性碱基中的每个碱基的读段计数组合来调用携带CYP2D6的染色体和携带CYP2D7的染色体的数量。基于所调用的总CN,Cyrius通过CYP2D6CNs和CYP2D7 CN的所有可能组合进行迭代,并且导出针对所观察到的支持CYP2D6和CYP2D7的读段的数量产生最高后验概率的组合。当CYP2D6的CN在基因内改变时,通过识别碱基来调用基因融合体(图27)。

Cyrius解析了读段比对以识别限定星形等位基因的小变体。将感兴趣的变体分成属于CYP2D6/CYP2D7同源区(即,图23上的低映射质量区)的变体和在CYP2D6的独特区中出现的变体。对于前者,Cyrius寻找CYP2D6中的变体读段及其在CYP2D7中的对应位点。对于后者,Cyrius使用与CYP2D6进行比对的读段。该区域中调用的CN也在小的变体调用期间加以考虑。例如,在已经识别出

最后,Cyrius将所调用的结构变体和小变体与星形等位基因的定义(从PharmVar下载并解析,pharmvar.org/gene/CYP2D6,最后一次访问时间为2019年3月)进行匹配,以调用星形等位基因,当例如存在CYP2D6的多于两个拷贝时,将星形等位基因进一步分组为单倍型。对于此先验,包括了定义确切的单倍型的信息,例如,

在PharmVar(最后一次访问时间为2020年3月)中定义的131个星形等位基因中,有25个星形等位基因仍在等待整筛选,因此该实施例排除了这些等位基因并主要关注106个筛选过的星形等位基因(在Cyrius中提供了另一种选项,以包括那些未筛选的星形等位基因)。在这106个星形等位基因中,从我们的目标列表中移除四个星形等位基因,这四个星形等位基因都不在GeT-RM中。移除的星形等位基因包括

当将Cyrius、Aldy和Stargazer作出的CYP2D6调用与GeT-RM提供的共有基因型进行比较时,只要真实基因型的星形等位基因中的所有星形等位基因都存在,即使单倍型分配不同,基因型也被认为是匹配的。这种情况的示例发生在GeT-RM列为

当验证对PacBio数据的基因型调用时,分析覆盖整个CYP2D6基因的PacBio读段以识别已知限定星形等位基因的小变体。长(~10kb)读段允许将这些变体完全定相为单倍型,并且这些单倍型与星形等位基因表进行匹配以确定每个读段代表哪个星形等位基因。通过将读段与一组参考等位基因进行比对来确定携带结构变异的读段,这组参考等位基因被构建成代表已知的结构变异(

使用命令“aldy genotype-p illumina-g CYP2D6”运行Aldy v2.2.5。

使用VDR作为对照基因,以GDF和VCF文件作为输入,运行Stargazer v1.0.7以对CYP2D6进行基因分型。

由于Aldy和Stargazer仅支持GRCh37,对于最初是与hs38DH进行比对的1kGP样本,使用Isaac进行与GRCh37的重新比对。

Cyrius、Aldy和Stargazer对188个样本进行了CYP2D6调用,其中获得了高质量的地面事实。这些188个样本包括138个GeT-RM样本,并且比较了50个具有来自PacBio全基因组测序的事实样本(表20、表21)。PacBio CCS数据允许定位和可视化该区域中常见的和罕见的结构变体的断点(图24),并且因此用作研究复杂星形等位基因的有价值的资源并确认星形等位基因的变体的定相。在具有短读段的情况下,具有SV的这些样本示出允许准确调用SV的不同深度信号(图27)。

通过与GeT-RM样本进行比较,发现了三个样本,其中所有三个调用器的调用都与GeT-RM共有序列一致或不一致。全基因组PacBio测序确认了三个调用器的调用是正确的,并且应更新GeT-RM共有序列(图24)。

图24示出了通过PacBio CCS读段验证的结构变体。PacBio读段支持缺失(

Cyrius最初进行了来自事实GeT-RM的四个不一致调用,从而显示出97.9%的灵敏度。在这些差异中包括样本NA19908(GeT-RM定义为

在Cyrius与事实不一致的其余三个样本中,确定产生的误差,并且改善Cyrius以调用正确的基因型。首先,在NA23275(

相比之下,当与这些样本进行比较时,两种其他CYP2D6调用器的灵敏度均小于90%。Aldy的灵敏度为88.8%。具体地讲,Aldy过度调用CYP2D6/CYP2D7融合体,诸如

该实施例中使用的188个验证样本一起确认了48个不同单倍型(表23)中CYP2D6调用的准确性,包括41个星形等位基因以及几种常见和罕见的SV结构,诸如重复、

考虑到前面部分中证明的高准确性,除了验证样本之外,还使用Cyrius来研究全局群体中的CYP2D6。对2504个1kGP样本中的群体(欧洲人、亚洲人、东亚人、南亚人和由白种人、墨西哥裔美国人、秘鲁人和波多黎各人组成的混血美国人)的单倍型分布进行了分析(图25,表23)。Cyrius在调用46个不同星形等位基因的2504个样本的2445(97.6%)个样本中进行了明确的双型调用,其中41个星形等位基因与已包括在验证数据中的那些等位基因重叠。这41个先前验证的星形等位基因调用占1kGP样本中调用的所有星形等位基因的96.5%(表23)。

图25为非限制性示例性曲线图,其示出了具有改变的CYP2D6功能的十个最常见单倍型在五个族群群体中的CYP2D6等位基因的频率。一个单倍型(

在59个样本中,其中Cyrius不进行明确的双型调用,10个样本具有不明确的SV调用,30个样本具有不匹配已知星形等位基因中的任一个已知星形等位基因的变体调用,四个样本具有与上文验证样本NA19908中所述相同的

在大多数情况下,单倍型频率与pharmGKB一致(图31A和图31B,表24)。例如,非洲人具有

有几种其他单倍型报道了比PharmGKB低的频率(图31A和图31B),从而突出了使用不同技术将来自多个研究的数据进行合并的难度。这些包括非洲人和南亚人的

从参考基因组中提取出CYP2D6/7之间的总共208个单核苷酸差异。在其中CYP2D6+CYP2D7的总CN为4即未被调用的结构变异的1kGP样本中,查询了其中CYP2D6碱基的CN在208个位点中被调用为2的样本的百分比(图26)。许多位点显示出具有CYP2D6碱基的两个拷贝的样本的低百分比,从而表明CYP2D6/CYP2D7碱基差异在群体中不是固定的,因此碱基差异不能用于区分这两个基因。依赖与这些位点的读段比对将在区分两个基因时产生大量噪声。选择了总共118个高度稳定的位点,其中>98%的样本显示CYP2D6碱基的两个拷贝用于CYP2D6/CYP2D7区分,这允许获得用于调用SV的最干净信号。

图26示出了CYP2D6/CYP2D7碱基差异位点在群体中具有高可变性。Y轴示出了其中在总CYP2D6+CYP2D7 CN为4的所有样本中CYP2D6碱基的CN被调用为2的样本频率。X轴示出了hg38中的基因组坐标。CYP2D6外显子被绘制为图上方的灰色框。黑色水平线表示98%截止值。

图27示出了在具有SV的示例中跨CYP2D6/7区分位点的原始CYP2D6 CN。将原始CYP2D6 CN计算为总CYP2D6+CYP2D7 CN乘以CYP2D6和CYP2D7支持读段中的CYP2D6支持读段的比率。大菱形表示在基因末端的CYP2D6衍生的基因(可以为完整CYP2D6或CYP2D6结尾的融合基因)的拷贝数,计算为CYP2D6+CYP2D7的总CN减去CYP2D7间隔区的CN(参见图23)。为了检测SV,在每个位点调用CYP2D6 CN,并且基因内CYP2D6 CN的变化指示SV的存在。例如,在HG01161中,CYP2D6 CN在外显子7和外显子9之间从2变为1,表明CYP2D7-CYP2D6杂交基因。在HG00553中,CYP2D6 CN在外显子1和外显子2之间从2变为3,表明CYP2D6-CYP2D7杂交基因。

图28示出了PacBio数据确认了HG00421中的

图29示出了PacBio数据具有由Aldy在HG02622中作出的假

图30A和图30B示出了HG00597中的新型

图31A和图31B在1kGP和pharmGKB频率之间进行比较。每个点代表1kGP或pharmGKB中频率>=0.5%的单倍型。标记了SV相关的单倍型,包括具有最大偏差的两个单倍型(在东亚人中

图32为非限制性示例性IGV快照,其示出了不包括

这些实施例描述了Cyrius,一种能够准确地将困难的CYP2D6区域进行双型分化的方法。该实施例的独特特征为使用长读段据来验证单倍型和SV两者。长读段提供了独特的机会来确认常见SV(CYP2D6缺失和重复,以及CYP2D6/7融合基因)的断点区并确认CYP2D6基因的定相。使用188个样本(包括具有长读段验证数据的50个样本)作为正交验证数据集,示出Cyrius胜过其他CYP2D6基因分型器,实现了97.9%的准确性,而Aldy达到了88.8%,并且Stargazer达到了85.6%。具体地讲,与这些现有的CYP2D6调用器比,Cyrius允许在CYP2D6/7具有高相似性的区域中读段可能未比对的可能性。这些区域中的模糊读段比对可导致不正确的拷贝数估计和小变体调用中的错误。通过考虑可能的错误比对读段并选择一组可靠的CYP2D6/7区分位点,Cyrius能够更好地识别具有SV的星形等位基因,从而达到97.2%的准确性,相比之下,Aldy达到88.9%的准确性,并且Stargazer达到77.8%的准确性。

在这些188个验证样本中,验证了总共41个不同的星形等位基因,占PharmGKB中列出的所有星形等位基因的38.7%,包括53.4%的具有已知功能状态的星形等位基因。即使验证集仅包括总已知星形等位基因的38.7%,但基于该实施例中对1kGP样本的分析,估计这些等位基因占全基因组群体中星形等位基因的96.5%。一般来讲,针对来自五个族群群体的2504个1kGP样本计算的等位基因频率与先前对简单星形等位基因的研究一致。相反地,对于由SV的存在定义的星形等位基因中的一些星形等位基因,识别出相当不同的频率,这可能是因为许多受SV影响的星形等位基因难以用常规测定分辨。这突出了来自使用多种不同CYP2D6测定的研究的合并结果的固有误差,其中一些可被设计成仅调用星形等位基因的子集。例如,在用于生成GeT-RM共有基因型的5个测定中,与共有序列相比,单个准确性在47.1%至75.2%的范围内(表25)。能够从单一测定中解析所有已知星形等位基因的单一方法是构建群体水平数据库的更好选择。

此外,Cyrius被用于分析来自五个族群群体的2504个1kGP样本以确定星形等位基因频率。所计算的等位基因频率与先前对简单星形等位基因的研究一致,并且Cyrius极大地改善了对涉及结构变体的星形等位基因的等位基因频率估计,这些结构变体可能难以通过常规方法检测。

一些现有的方法依赖于准确的读段比对来区分CYP2D6和CYP2D7,由于两个基因之间的几个高序列相似性区域,特别是内含子1-外显子2和外显子7-外显子9区域,这可能容易出错。模糊比对可导致深度图谱中的噪声,从而导致错误的CNV调用。另外,错误的读段比对会导致假阳性或阴性变体调用。相比之下,Cyrius首先通过对与任一基因比对的所有读段进行计数来调用CYP2D6+CYP2D7的总CN,并且总CN不等于4清楚地表明存在SV。为了确定SV的确切位置,并非使用基于参考基因组的所有差异。许多CYP2D6/CYP2D7碱基差异不是固定的,因此不是所有这些位置都可用于可靠地区分CYP2D6与CYP2D7(图26)。Cyrius使用所选择的118个CYP2D6/CYP2D7区分位置来确定SV的确切位置。通过首先调用总CN,然后使用良好区分碱基的子集对它们进行区分,Cyrius能够实现更准确的SV调用。对于小变体调用,Cyrius通过寻找CYP2D6位置和CYP2D7中对应位置处的变体读段二者来克服对明确比对的依赖性,从而得到最准确的小变体调用。

在该实施例中,使用长读段数据来验证单倍型和SV调用两者。该实施例中的PacBio数据提供了具有高质量长读段(10kb至20kb)的CYP2D6-CYP2D7区域的清晰图像。具体地讲,PacBio数据有助于解析常见结构变体(CYP2D6缺失和重复,以及CYP2D6-CYP2D7融合基因)的断点区。即使对于PacBio读段,对CYP2D6进行基因分型可能不是直接的并且可能需要靶向分析,尤其是对于涉及重复的结构变体(CYP2D6重复和CYP2D6-CYP2D7重复融合体),其中重复区域>10kb。例如,从头组装方法不能捕获样本HG00733中的

在1kGP样本的分析中,Cyrius能够在大于97.6%的样本中调用明确的基因型。在一些实施方案中,Cyrius可解决剩余2.4%的样本。例如,在多个单倍型构型是可能的样本中,考虑到观察到的变体,采用概率方法导出最可能的基因型可能是有用的。此外,继续测序并测试更多的样本将有助于确认对罕见的星形等位基因进行基因分型的能力,并且也将识别能够用于区分模糊双倍型的新变体。在该实施例中展示了该过程,其中进行了改善以更好地调用在188个验证样本中最初错误调用的三个星形等位基因。这些改善有益于群体水平基因分型,因为这三个星形等位基因存在于几乎1%(2504个中的23个)的1kGP样本中。

随着识别出新星形等位基因,这些新星形等位基因能够被添加到Cyrius数据库中。添加由新变体定义的新星形等位基因的一个考虑因素是,这些变体不太可能在先前的星形等位基因定义中考虑。因此,可能存在新的和现有的变体的新型组合,这些新型组合不能匹配任何已知的组合,从而导致无调用。例如,Cyrius包括针对PharmVar v4(不包括在GeT-RM、Aldy或Stargazer中)中添加的25个新星形等位基因进行基因分型的选项。然而,25个新星形等位基因中的五个(

WGS提供了对整个基因组的所有遗传变异进行图谱分析的宝贵机会,但临床上重要的许多区域/变体超出了大多数二次分析管线的能力。CYP2D6是基因组中既临床上重要又需要除正常WGS管线之外的靶向生物信息学解决方案的困难区域之一。此类靶向方法已成功应用于一些困难区域,诸如负责脊髓性肌萎缩的SMN1基因,如实施例1中所示。更靶向的方法如Cyrius可加速药物遗传学,从而实现个体化用药。

在前述实施方案中的至少一些实施方案中,在一个实施方案中使用的一个或多个元件可在另一个实施方案中互换使用,除非这种替换在技术上不可行。本领域的技术人员应当理解,在不脱离要求保护的主题的范围的情况下,可对上述方法和结构进行各种其他省略、添加和修改。所有此类修改和更改旨在落入由所附权利要求所限定的主题的范围内。

本领域技术人员将理解,对于本文所公开的这种过程和方法和其他过程和方法,在这些过程和方法中执行的功能可以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且这些步骤和操作中的一些步骤和操作可以是任选的,组合成更少的步骤和操作,或者扩展成附加的步骤和操作,而不减损所公开的实施方案的实质。

关于本文中基本上任何复数和/或单数术语的使用,本领域的技术人员可根据上下文和/或应用适当地从复数转换成单数和/或从单数转换成复数。为清楚起见,本文可明确示出各种单数/复数排列。如在本说明书和所附权利要求书中所用的,单数形式“一个”、“一种”和“所述”包括复数指代物,除非上下文另有明确规定。因此,短语诸如“一个设备被配置为”旨在包括一个或多个所述设备。此类一个或多个所述设备还可以被共同配置为执行所述表述。例如,“被配置为执行表述A、B和C的处理器”可包括被配置为执行表述A并与被配置为执行表述B和C的第二处理器协同工作的第一处理器。除非另外指明,否则本文中对“或”的任何提及旨在包括“和/或”。

本领域的技术人员应当理解,一般来讲,本文所用的术语,尤其是所附权利要求(例如,所附权利要求的主体)中的术语一般旨在作为“开放的”术语(例如,术语“包括”应解释为“包括但不限于”,术语“具有”应解释为“至少具有”,术语“包含”应解释为“包含但不限于”等)。本领域的技术人员还应当理解,如果引入的权利要求表述的具体数量是有意的,则这种意图将在权利要求中明确表述,并且在不存在这种表述的情况下,不存在这种意图。例如,为了有助于理解,以下所附权利要求可包含使用引导短语“至少一个”和“一个或多个”来引入权利要求表述。然而,即使当同一权利要求包括引导短语“一个或多个”或“至少一个”和不定冠词诸如“一个”或“一种”(例如,“一个”和/或“一种”应被解释为意指“至少一个”或“一个或多个”)时,此类短语的使用不应理解为暗示通过不定冠词“一个”或“一种”引入权利要求表述将包含这种引入的权利要求表述的任何特定权利要求限制为仅包含一个这种表述的实施方案;这同样适用于使用定冠词来引入权利要求表述。此外,即使明确表述了引入的权利要求表述的具体数量,本领域的技术人员也将认识到,这种表述应被解释为意指至少所表述的数量(例如,在没有其他修饰语的情况下,对“两个表述”的直接表述意指至少两个表述、或者两个或更多个表述)。此外,在使用类似于“A、B和C等中的至少一者”的惯例的那些情况下,一般来讲,这种惯例意图在本领域的技术人员将理解该惯例的意义上使用(例如,“具有A、B和C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一者”的惯例的那些情况下,一般来讲,这种惯例意图在本领域的技术人员将理解该惯例的意义上使用(例如,“具有A、B或C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。本领域的技术人员还应当理解,事实上,无论在说明书、权利要求书还是附图中,呈现两个或更多个另选术语的任何转折的词语和/或短语都应当理解为考虑包括术语中的一者、术语中的任一者或这两个术语的可能性。例如,短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。

此外,在以马库什群组描述本公开的特征或方面的情况下,本领域的技术人员将认识到,也由此以马库什群组的任何单个成员或成员子组来描述本公开。

如本领域技术人员将理解的,出于任何和所有目的,诸如就提供书面描述而言,本文所公开的所有范围还包括任何和所有可能的子范围及其子范围的组合。任何列出的范围均可容易地被识别为充分地描述并使得同一范围能够被分解为至少相等的二分之一、三分之一、四分之一、五分之一、十分之一等。作为非限制性示例,本文所讨论的每个范围可容易地分解为下三分之一、中三分之一和上三分之一等。如本领域的技术人员还将理解的,所有语言诸如“至多”、“至少”、“大于”、“小于”等包括所引用的数字并且是指可随后分解为如上所述的子范围的范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个条款的组是指具有1、2或3个条款的组。类似地,具有1-5个条款的组是指具有1、2、3、4或5个条款等的组。

应当理解,出于说明的目的,本文已描述了本公开的各种实施方案,并且可在不脱离本公开的范围和实质的情况下作出各种修改。因此,本文所公开的各种实施方案并非旨在进行限制,其中真实范围和实质由以下权利要求书指示。

应当理解,并非所有目标或优点都可根据本文所述的任何具体实施方案来实现。因此,例如,本领域的技术人员将认识到,某些实施方案可被配置为以实现或优化如本文所提出的一个优点或一组优点而不一定实现如本文可能提出或建议的其他目的或优点的方式操作。

本文所述的过程中的所有过程可包括在由包括一个或多个计算机或处理器的计算系统执行的软件代码模块中,并且通过这些软件代码模块实现完全自动化。代码模块可存储在任何类型的非暂态计算机可读介质或其他计算机存储设备中。一些或所有方法可包括在专用计算机硬件中。

从本公开可以看出除本文所述的那些变型之外的许多其他变型。例如,根据实施方案,本文所述的算法中的任一算法的某些动作、事件或功能可以不同的顺序执行,可以添加、合并或完全省略(例如,并非所有所述动作或事件对于算法的实践都是必要的)。此外,在某些实施方案中,动作或事件可例如通过多线程处理、中断处理、或多个处理器或处理器内核或者在其他并行架构上同时执行而非顺序地执行。此外,不同的任务或过程可由可一起运行的不同机器和/或计算系统执行。

结合本文所公开的实施方案描述的各种示例性逻辑框和模块可由被设计成执行本文所述功能的机器实现或执行,该机器诸如处理单元或处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散栅极或晶体管逻辑部件、分立硬件部件或它们的任何组合。处理器可以是微处理器,但在替代方案中,处理器可以是控制器、微控制器或状态机、它们的组合等。处理器可包括被配置为处理计算机可执行指令的电路。在另一个实施方案中,处理器包括在不处理计算机可执行指令的情况下执行逻辑操作的FPGA或其他可编程器件。处理器也可被实现为计算设备的组合,例如DSP和微处理器的组合、多个微处理器、与DSP内核结合的一个或多个微处理器或任何其他此类配置。尽管本文主要相对于数字技术进行描述,但处理器也可主要包括模拟部件。例如,本文所述的信号处理算法中的一些或全部算法可在模拟电路或混合模拟和数字电路中实现。举例来说,计算环境可包括任何类型的计算机系统,包括但不限于基于微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、设备控制器或设备内的计算引擎。

本文所述和/或附图中所示的流程图中的任何过程描述、元件或框应被理解为潜在地表示包括用于在该过程中实现特定逻辑功能或元件的一个或多个可执行指令的代码的模块、区段或部分。如本领域的技术人员将理解的,另选的具体实施包括在本文所述的实施方案的范围内,其中元件或功能可被删除,按所示或所讨论的顺序(包括基本上同时或以相反顺序)执行,这取决于所涉及的功能。

应当强调的是,可对上述实施方案进行许多变型和修改,其中的元件应被理解为在其他可接受的示例中。所有此类修改和变型旨在包括在本公开的范围内并且受以下权利要求保护。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号