首页> 中国专利> 用于通过肿瘤分数和覆盖率调整肿瘤突变负荷的方法和系统

用于通过肿瘤分数和覆盖率调整肿瘤突变负荷的方法和系统

摘要

本文提供了用于检测受试者的肿瘤突变负荷(tumor mutational burden,TMB)的方法。在一个方面,该方法包括根据从来自受试者的样品中的核酸获得的序列信息确定观察到的突变计数,并确定肿瘤分数和/或核酸的覆盖率以生成测序参数。该方法还包括在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布以生成预期结果,并在给定预期结果的情况下调整观察到的突变计数以生成调整的结果,从而检测受试者的TMB。其他方面涉及选择用于治疗受试者的癌症的定制治疗的方法,以及治疗受试者的癌症的方法。又其他方面包括用于检测受试者的TMB的相关系统和计算机可读介质。

著录项

说明书

相关申请的交叉引用

本申请要求以下美国临时专利申请的权益并基于其提交日期:2018年7月23日提交的第62/702,280号;2018年10月5日提交的第62/741,770号;2018年12月20日提交的第62/782,894号;和2019年3月26日提交的第62/824,246号,以上申请的全部公开内容通过引用并入本文。

背景

肿瘤是细胞的异常生长。例如,当正常细胞和/或癌细胞死亡时,DNA通常被释放到体液中,作为无细胞DNA和/或循环肿瘤DNA。肿瘤可以是良性或恶性的。恶性肿瘤通常被称为癌症。

癌症为全世界疾病的主要原因。每年,世界各地有数千万人被诊断为患有癌症,并且多于一半的人最终因其死亡。在许多国家,癌症列为继心血管疾病之后第二大最常见的死亡原因。早期检测与许多癌症的改善结果相关。

癌症通常由个体的正常细胞内的突变的积累引起,其中的至少一些引起不当调控的细胞分裂。这样的突变通常包括单核苷酸变异(SNV)、基因融合、插入和缺失(indel)、颠换、易位和倒位。癌症内的突变数目可以是癌症对免疫治疗的易感性的指示物。

癌症通常通过肿瘤的活组织检查,随后分析细胞病理学、生物标志物或从细胞提取的DNA来检测。但最近已经提出,癌症还可以根据体液诸如血液或尿液中的无细胞核酸(例如,循环核酸、循环肿瘤核酸、外泌体(exosome)、来自凋亡细胞和/或坏死细胞的核酸)检测(参见,例如,Siravegna等人,Nature Reviews,14:531-548(2017))。这样的检测具有的优点在于它们是非侵入性的,可以在不通过活组织检查鉴定疑似的癌细胞和鉴定来自癌症的所有部分的样品核酸的情况下进行。然而,这样的测试因以下事实而是复杂的:释放到体液的核酸的量低且可变,从这样的液体回收可分析形式的核酸的量同样低且可变。这些变异来源可以使样品间肿瘤突变负荷(tumor mutational burden,TMB)的比较的预测值模糊。

TMB是肿瘤基因组中由肿瘤细胞携带的突变的量度。TMB是一种类型的生物标志物,其可以被用于评价被诊断具有癌症或疑似具有癌症的迹象的受试者是否将受益于特定类型的癌症治疗,诸如免疫-肿瘤(I-O)治疗。

发明概述

本申请公开了可用于确定和分析患者样品中的肿瘤突变负荷(TMB)并有助于指导癌症治疗决策的方法、计算机可读介质和系统。传统上,当肿瘤分数(例如,突变等位基因分数(MAF))和/或覆盖率低时,通过计算突变率获得的TMB通常是不准确的,因为用于调用突变的测定灵敏度降低了。因此,在某些方面,观察到的TMB根据测定灵敏度的各种量度进行调整,诸如肿瘤分数(其设定给定样品中突变的MAF)、覆盖率等等。例如,在没有这种调整的情况下,TMB-高,但具有低肿瘤分数和/或低覆盖率的样品通常会被错误地报告为TMB-低。当根据这样的结果做出治疗决策时,这样的结果可能对患者产生重大影响下游。因此,在实施本文公开的调整方法和相关方面之前,对照样品中的平均突变计数通常取决于最大MAF和覆盖率。在实施这些方法和相关方面后,对照或比较样品中的平均突变计数基本上与最大MAF和覆盖率无关。

从以下详述的描述,本公开内容的另外的方面和优势对本领域技术人员而言将变得明显,详细描述中仅示出和描述了本公开内容的说明性实施方案。如将会意识到的,本公开内容能够具有其他和不同的实施方案,并且其若干细节能够在多于一种明显的方面进行修改,所有这些都不偏离本公开内容。相应地,附图和描述被认为是本质上是说明性的而不是限制性的。

在一个方面,本公开内容提供了确定受试者的肿瘤突变负荷(TMB)的方法,该方法包括:(a)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(b)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(c)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;以及(d)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果,从而确定受试者的TMB。在本文公开的方法和相关实施方式的一些实施方案中,基于与那些计数相关的新抗原的可能性来调整观察到的突变计数。例如,根据给定受试者的单体型,特定突变或突变群在该特定受试者中可能比在其他受试者中更具新抗原性。在一些实施方案中,本文公开的方法包括在多于一个时间点确定给定受试者的TMB,例如,以随时间评价或监测受试者的治疗过程。

在另一方面,本公开内容提供了确定受试者的肿瘤突变负荷(TMB)的方法,该方法包括:(a)提供来自受试者的样品;(b)扩增样品中的核酸以生成扩增的核酸;(c)对扩增的核酸测序以生成序列信息;(d)从序列信息确定观察到的突变计数;(e)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(f)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;以及(g)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果,从而确定受试者的TMB。

在另一方面,本公开内容提供了一种选择一种或更多种定制治疗来治疗受试者的癌症的方法,该方法包括:(a)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(b)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(c)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;(d)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果;以及(e)将调整的结果与用一种或更多种治疗索引的一个或更多个比较器结果(comparator result)进行比较,以为受试者鉴定一种或更多种定制治疗。

在另一方面,本公开内容提供了治疗受试者的癌症的方法,该方法包括:(a)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(b)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(c)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;(d)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果;(e)将调整的结果与用一种或更多种治疗索引的一个或更多个比较器结果进行比较,以为受试者鉴定一种或更多种定制治疗;以及(f)当调整的结果与比较器结果之间实质匹配时,向受试者施用至少一种所鉴定的定制治疗,从而治疗受试者的癌症。

在另一方面,本公开内容提供了一种治疗受试者的癌症的方法,该方法包括向受试者施用一种或更多种定制治疗,从而治疗受试者的癌症,其中定制治疗已经通过以下进行了鉴定:(a)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(b)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(c)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;(d)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果;(e)将调整的结果与用一种或更多种治疗索引的一个或更多个比较器结果进行比较;以及(f)当调整的结果和比较器结果之间实质匹配时,为受试者鉴定一种或更多种定制治疗。

在一些实施方案中,观察到的突变计数和/或肿瘤分数包括核酸中鉴定的许多同义突变、许多非同义突变和/或许多非编码突变。在一些实施方案中,观察到的突变计数和/或肿瘤分数包括选自由以下组成的组的许多突变:单核苷酸变体(SNV)、插入或缺失(indel)、拷贝数变体(CNV)、融合、颠换、易位、移码(frame shifts)、重复、重复扩增和表观遗传变体。在一些实施方案中,观察到的突变计数和/或肿瘤分数排除了驱动突变和/或非肿瘤相关突变(例如,克隆造血衍生突变(clonal hematopoiesis-derived mutations)–CH突变)。

在一些实施方案中,该方法包括使用低于给定单核苷酸变体(SNV)或给定插入或缺失(indel)的检测极限的一个或更多个可能突变的汇集证据来确定观察到的突变计数。

在一些实施方案中,该方法包括生成预期突变分数,该预期突变分数是实际突变计数的观察分数。在一些实施方案中,观察到的突变计数和/或肿瘤分数包括在核酸中鉴定的许多体细胞突变。在一些实施方案中,观察到的突变计数排除了一个或更多个已知的癌症驱动突变和/或乘客突变。

在一些实施方案中,该方法包括将序列信息与一个或更多个参考序列进行比较,以鉴定观察到的突变计数。

在一些实施方案中,参考序列至少包含hg19和/或hg38的子序列。

在一些实施方案中,肿瘤分数包括在核酸中鉴定的所有体细胞突变的最大突变等位基因分数(MAF)。在一些实施方案中,肿瘤分数低于样品中所有核酸的约0.05%、约0.1%、约0.2%、约0.5%、约1%、约2%、约3%、约4%或约5%。

在一些实施方案中,该方法包括鉴定核酸中包含给定核苷酸位置的许多独特的cfDNA片段,以确定覆盖率。在一些实施方案中,该方法包括鉴定核酸中包含给定核苷酸位置的独特无细胞DNA(cfDNA)分子的中值数目,以确定覆盖率。

在一些实施方案中,在样品中存在的核酸中的给定核苷酸位置,覆盖率在10和50,000个cfDNA片段之间。

在一些实施方案中,预期突变分数和/或预期突变分数的预期分布包括突变分数的约95%或更多的置信区间。在一些实施方案中,该方法包括使用预期突变分数的95%置信区间的上限来生成观察到的突变计数的下限。

在一些实施方案中,该方法包括计算在预期突变等位基因分数(MAF)分布中鉴定给定MAF中的突变的概率,以确定预期突变分数。在一些实施方案中,该方法包括将预期相对MAF的分布乘以肿瘤分数以生成MAF。如本文所用,术语“MAF”不仅限于分数,而是在某些实施方案中还可以包括突变分子计数。在一些实施方案中,使用以下二项式比例置信区间来计算预期MAF的分布:

其中f是调用的突变的预期分数,n_true是预期的实际突变,等于给定f时观察到的突变数目,并且z是置信水平。在一些实施方案中,如果f小于阈值

在一些实施方案中,方法包括使用以下等式确定预期结果:

观察到的突变分数=∑

其中P是概率,并且MAF是突变等位基因分数。

在一些实施方案中,相对MAF的预期分布从对照样品数据集的一个或更多个数据集获得。在一些实施方案中,对照样品数据集包括至少约25、至少约50、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1,000、至少约5,000、至少约10,000、至少约15,000、至少约20,000、至少约25,000、至少约30,000或更多个对照样品。在一些实施方案中,在对照样品数据集中使用的对照样品可以是癌症类型特异性的和/或治疗特异性的。

在一些实施方案中,在对照样品数据集中观察到的最大MAF包括约0.5%、约1%、约2%、约5%或约10%。

在一些实施方案中,该方法包括使用以下等式将相对MAF拟合到曲线:

F=1/(1+(P_50/相对-MAF)

其中F是累积分布函数,P_50是相对MAF中值,相对-MAF是相对MAF,并且n是拟合相对分布形状的指数。

在一些实施方案中,该方法包括将观察到的突变计数除以样品中的预期突变分数或预期突变分数的置信区间的上限/下限,以生成调整的结果。在一些实施方案中,调整的结果包括在一系列突变等位基因分数在核酸中检测到的许多突变。在一些实施方案中,该方法包括将观察到的突变计数除以预期结果,以产生调整的结果。在一些实施方案中,调整的结果包括最高可能实际突变计数的预测。在一些实施方案中,调整的结果包括最低可能实际突变计数的预测。在一些实施方案中,调整的结果包括调整的突变计数。在一些实施方案中,调整的突变计数大于或等于观察到的突变计数。在一些实施方案中,调整的突变计数/调整的结果除以所分析的靶基因组区域的大小和外显子组校准因子的乘积,以确定TMB评分。在某些实施方案中,外显子组校准因子是至少1.01、1.02、1.03、1.04、1.05、1.06、1.07、1.08、1.09、1.10或更高的值,而在其他实施方案中,外显子组校准因子包括小于1.0的值(例如,约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9)。在一些实施方案中,从癌症数据库(例如,TCGA等)中样品的外显子突变率确定外显子组校准因子。在某些实施方案中,特定于所考虑的给定癌症类型的外显子组校准因子和外显子组突变率从具有该癌症类型的样品确定。

在一些实施方案中,该方法还包括将样品分类为TMB-高样品。在一些实施方案中,如果样品的TMB评分大于阈值TMB

在一些实施方案中,该方法包括从来自受试者的样品中的核酸获得序列信息。在一些实施方案中,序列信息从核酸的靶向区段获得。在一些实施方案中,靶向区段包含约1和约100,000个之间的不同和/或重叠的基因组区域。

在一些实施方案中,方法包括从受试者获得样品。在一些实施方案中,样品选自由以下组成的组:组织、血液、血浆、血清、痰、尿液、精液、阴道液、粪便、滑液、脊髓液和唾液。在一些实施方案中,样品包括组织。在一些实施方案中,样品包括血液、血浆和/或血清。在一些实施方案中,受试者是哺乳动物受试者。在一些实施方案中,哺乳动物受试者是人类受试者。在一些实施方案中,核酸包括无细胞核酸。在一些实施方案中,核酸包括细胞核酸。在一些实施方案中,核酸包括循环肿瘤核酸。在一些实施方案中,核酸从循环肿瘤细胞获得。在一些实施方案中,核酸包括脱氧核糖核酸(DNA)和/或核糖核酸(RNA)。

在一些实施方案中,该方法包括扩增样品中核酸的至少一个区段以生成至少一种扩增的核酸。在一些实施方案中,方法包括对扩增的核酸测序以产生序列信息。在一些实施方案中,该方法包括对核酸的至少约50,000、约100,000、约150,000、约200,000、约250,000、约500,000、约750,000、约1,000,000、约1,500,000、约2,000,000或更多个核苷酸测序,以生成序列信息。在一些实施方案中,测序选自由以下组成的组:靶向测序、内含子测序、外显子组测序和全基因组测序。

在一些实施方案中,定制治疗包括至少一种免疫治疗。在一些实施方案中,免疫治疗包括至少一种检查点抑制剂抗体。在一些实施方案中,免疫治疗包括针对以下的抗体:PD-1、PD-2、PD-L1、PD-L2、CTLA-40、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27或CD40。在一些实施方案中,免疫治疗包括施用针对至少一种肿瘤类型的促炎性细胞因子。在一些实施方案中,免疫治疗包括施用针对至少一种肿瘤类型的T细胞。

在一些实施方案中,癌症包括至少一种选自由以下组成的组的肿瘤类型:胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生性癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠直肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑色素瘤、葡萄膜黑色素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓细胞白血病(CML)、慢性髓单核细胞白血病(CMML)、肝癌、肝上皮癌、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞性淋巴瘤/白血病、外周T细胞淋巴瘤、多发性骨髓瘤、鼻咽癌(NPC)、成神经细胞瘤、口腔癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、腺泡细胞癌、前列腺癌、前列腺腺癌、皮肤癌、黑色素瘤、恶性黑色素瘤、皮肤黑色素瘤、小肠癌、胃癌、胃上皮癌、胃肠间质瘤(GIST)、子宫癌和子宫肉瘤。

在一些实施方案中,序列信息包括由核酸测序仪生成的核酸的序列读段。在一些实施方案中,核酸测序仪对所述核酸进行焦磷酸测序、单分子测序、纳米孔测序、半导体测序、合成测序、连接测序或杂交测序,以生成测序读段。

在一些实施方案中,该方法还包括在测序之前选择性地富集来自基因组或转录组的一个或更多个区域。在一些实施方案中,方法还包括在测序之前扩增选择性地富集的区域。在一些实施方案中,序列信息从核酸的靶向区段获得,其中靶向区段通过在测序之前选择性地富集来自基因组或转录组的一个或更多个区域获得。在一些实施方案中,方法还包括在测序之前扩增获得的靶向区段。

在一些实施方案中,该方法还包括在测序之前将一个或更多个包含分子条形码的衔接子附接到核酸。在一些实施方案中,核酸被独特地加条形码。在一些实施方案中,核酸被非独特地加条形码。在一些实施方案中,衔接子包括在2与1,000,000之间个分子条形码。在一些实施方案中,衔接子包括在2与100之间个分子条形码。在一些实施方案中,衔接子包括在2与200之间个分子条形码。在一些实施方案中,衔接子包括在2与100之间个分子条形码。在一些实施方案中,该方法包括将包含分子条形码的衔接子随机附接到核酸的每一末端。在一些实施方案中,衔接子通过平末端连接或粘性端连接附接到核酸。在一些实施方案中,衔接子是T尾和/或C尾衔接子。

在一些实施方案中,该方法还包括将序列读段分组为序列读段家族,每个家族包括从样品中的核酸生成的序列读段。

在一些实施方案中,所述方法的至少一部分是计算机实现的。在一些实施方案中,该方法还包括生成提供一个或更多个TMB评分的电子格式的报告。

在另一方面,本公开内容提供了一种系统,该系统包括控制器,该控制器包括或能够访问包括非暂时性计算机可执行指令的计算机可读介质,当由至少一个电子处理器执行时,该指令至少进行:(i)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(ii)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(iii)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;以及(iv)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果,从而确定受试者的肿瘤突变负荷(TMB)。

在一些实施方案中,该系统包括可操作地连接到控制器的核酸测序仪,该核酸测序仪被配置为提供来自受试者的样品中核酸的序列信息。在一些实施方案中,核酸测序仪被配置为对所述核酸进行焦磷酸测序、单分子测序、纳米孔测序、半导体测序、合成测序、连接测序或杂交测序,以生成测序读段。在一些实施方案中,核酸测序仪或另一系统组件被配置成将由核酸测序仪生成的序列读数分组为序列读段家族,每个家族包括从样品中的核酸生成的序列读段。

在一些实施方案中,该系统包括可操作地连接到控制器的数据库,该数据库包括用一种或更多种治疗索引的一个或更多个比较器结果,并且其中电子处理器还至少进行:(v)将调整的结果与一个或更多个比较器结果进行比较,其中调整的结果和比较器结果之间的实质匹配表明受试者对治疗的预测响应。

在一些实施方案中,该系统包括可操作地连接到控制器的样品制备组件,该样品制备组件被配置成制备样品中的核酸以由核酸测序仪测序。在一些实施方案中,样品制备组件被配置成选择性地富集样品中来自基因组或转录组的区域。在一些实施方案中,样品制备组件被配置为将一个或更多个包含分子条形码的衔接子附接到核酸。

在一些实施方案中,该系统包括可操作地连接到控制器的核酸扩增组件,该核酸扩增组件被配置成扩增来自受试者的样品中的核酸。在一些实施方案中,核酸扩增组件被配置成扩增从样品中的基因组或转录组选择性地富集的区域。

在一些实施方案中,该系统包括可操作地连接到控制器的材料转移组件,该材料转移组件被配置成在至少核酸测序仪和样品制备组件之间转移一种或更多种材料。

在另一方面,本公开内容提供了一种包括非暂时性计算机可执行指令的计算机可读介质,当由至少一个电子处理器执行时,该指令至少进行:(i)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(ii)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(iii)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;以及(iv)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果,从而确定受试者的肿瘤突变负荷(TMB)。在一些实施方案中,使用预期突变分数来确定调整的突变计数。

使用本文公开的系统和计算机可读介质实现的方法包括许多不同的实施方案。在一些实施方案中,例如,观察到的突变计数和/或肿瘤分数包括核酸中鉴定的许多同义突变、许多非同义突变和/或许多非编码突变。在某些实施方案中,观察到的突变计数和/或肿瘤分数包括选自由以下组成的组的许多突变:单核苷酸变体(SNV)、插入或缺失(indel)、拷贝数变体(CNV)、融合、颠换、易位、移码、重复、重复扩增和表观遗传变体。在其他示例性实施方案中,观察到的突变计数和/或肿瘤分数排除了驱动突变和/或非肿瘤相关突变(例如,克隆造血衍生突变)。任选地,使用低于给定单核苷酸变体(SNV)或给定插入或缺失(indel)的检测极限的一个或更多个可能突变的汇集证据来确定观察到的突变计数。

在一些实施方案中,使用预期突变分数来确定调整的突变计数。典型地,观察到的突变计数和/或肿瘤分数包括在核酸中鉴定的许多体细胞突变。在这些实施方案中的一些中,观察到的突变计数排除了一个或更多个已知的癌症驱动突变和/或乘客突变。在某些实施方案中,通过将序列信息与一个或更多个参考序列(例如,hg19、hg38的至少子序列等)进行比较来确定观察到的突变计数。

在某些实施方案中,肿瘤分数包括在核酸中鉴定的所有体细胞突变的最大突变等位基因分数(MAF)。通常,肿瘤分数低于样品中所有核酸的约0.05%、约0.1%、约0.2%、约0.5%、约1%、约2%、约3%、约4%或约5%。在一些实施方案中,通过鉴定核酸中包含给定核苷酸位置的独特无细胞DNA(cfDNA)分子的中值数目来确定覆盖率。在一些实施方案中,例如,在样品中存在的核酸中的给定核苷酸位置,覆盖率在10和50,000个cfDNA片段之间。

在一些实施方案中,预期突变分数和/或预期突变分数的预期分布包括突变分数的约95%或更多的置信区间。在某些实施方案中,使用预期突变分数的95%置信区间的上限来生成观察到的突变计数的下限。在一些实施方案中,预期突变分数通过计算在预期MAF分布中鉴定给定突变等位基因分数(MAF)中突变的概率来确定。任选地,通过将相对MAF的分布乘以肿瘤分数来生成MAF。在一些实施方案中,使用以下二项式比例置信区间来计算预期MAF的分布:

其中f是调用的突变的预期分数,n_true是预期的实际突变,等于给定f时观察到的突变数目,并且z是置信水平。本文公开的系统或计算机可读介质的某些实施方式包括使用以下等式来确定预期结果:

观察到的突变分数=∑

在某些实施方案中,MAF的预期分布从在至少一个对照样品数据集中观察到的相对MAF获得。在一些实施方案中,比较器结果包括至少约25、至少约50、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1,000、至少约5,000、至少约10,000、至少约15,000、至少约20,000、至少约25,000、至少约30,000或更多个对照样品。在某些实施方案中,对照样品数据集中的对照样品包括最大MAF的约0.5%、约1%、约2%、约5%或约10%。在本文公开的系统或计算机可读介质的一些实施方式中,包括使用以下等式将相对MAF拟合到曲线:

F=1/(1+(P_50/相对-MAF)

其中F是累积分布函数,P_50是相对MAF中值,相对-MAF是相对MAF,并且n是拟合相对分布形状的指数。在一些实施方案中,通过将观察到的突变计数除以样品中的预期突变分数或预期突变分数的置信区间的上限/下限来生成调整的结果。在某些实施方案中,调整的结果包括在一系列突变等位基因分数在核酸中检测到的许多突变。在一些实施方案中,通过将观察到的突变计数除以预期结果来生成调整的结果。在某些实施方案中,调整的结果包括最高可能实际突变计数的预测。在一些实施方案中,调整的结果包括最低可能实际突变计数的预测。在某些实施方案中,调整的结果包括调整的突变计数。在这些实施方案的一些中,调整的突变计数大于或等于观察到的突变计数。在一些实施方案中,调整的突变计数/调整的结果除以所分析的靶基因组区域的大小和外显子组校准因子的乘积,以确定TMB评分。在某些实施方案中,外显子组校准因子是至少1.01、1.02、1.03、1.04、1.05、1.06、1.07、1.08、1.09、1.10或更高的值,而在其他实施方案中,外显子组校准因子包括小于1.0的值(例如,约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9)。在一些实施方案中,从癌症数据库(例如,TCGA等)中样品的外显子突变率确定外显子组校准因子。在某些实施方案中,特定于所考虑的给定癌症类型的外显子组校准因子和外显子组突变率从具有该癌症类型的样品确定。在一些实施方案中,如果给定样品的TMB评分大于阈值TMB

在另一方面,本公开内容提供了一种系统,包括通信接口,该通信接口通过通信网络获得来自受试者的样品中的一个或更多个核酸的测序信息;以及与所述通信接口通信的计算机,其中所述计算机包括至少一个计算机处理器和包含机器可执行代码的计算机可读介质,所述机器可执行代码在由至少一个计算机处理器执行时实施一种方法,所述方法包括:(i)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(ii)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(iii)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;以及(iv)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果,从而检测受试者的肿瘤突变负荷(TMB)。

在一些实施方案中,测序信息由核酸测序仪提供。在一些实施方案中,核酸测序仪对所述核酸进行焦磷酸测序、单分子测序、纳米孔测序、半导体测序、合成测序、连接测序或杂交测序,以生成测序读段。在一些实施方案中,核酸测序仪使用来源于测序文库的克隆单分子阵列产生测序读段。在一些实施方案中,核酸测序仪包括芯片,所述芯片具有用于对测序文库进行测序以产生测序读段的微孔阵列。

在一些实施方案中,计算机可读介质包括存储器、硬盘驱动器或计算机服务器。在一些实施方案中,通信网络包括能够进行分布式计算的一个或更多个计算机服务器。在一些实施方案中,分布式计算是云计算。在一些实施方案中,计算机位于计算机服务器上,所述计算机服务器位于核酸测序仪的远程位置。

在一些实施方案中,计算机可读介质还包括:通过网络与计算机通信的电子显示器,其中电子显示器包括用于在实现(i)–(iv)后显示结果的用户界面。在一些实施方案中,用户界面是图形用户界面(GUI)或基于网络的用户界面。在一些实施方案中,电子显示器在个人计算机中。在一些实施方案中,电子显示器在支持互联网的计算机中。在一些实施方案中,支持因特网的计算机位于远离计算机的位置。在一些实施方案中,计算机可读介质包括存储器、硬盘驱动器或计算机服务器。在一些实施方案中,通信网络包括远程通信网络、互联网、外联网或内联网。

在一些实施方案中,观察到的突变计数和/或肿瘤分数不包括小于最大MAF的约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约15%、约20%、约25%或约30%的体细胞突变。在一些实施方案中,预期/调整的突变计数使用外显子组校准因子来调整。在一些实施方案中,将调整的突变计数除以外显子组校准因子。

在一些实施方案中,突变计数在包含表2中列出的基因的一组基因或基因组区域(a set of genes or genomic regions)中确定。

在另一方面,本公开内容提供了一种表征来自患有癌症或怀疑患有癌症的受试者的无细胞核酸分子样品的方法,包括对样品进行测定,以确定在选自表2中所列的那些基因的至少100、200、300、400或500个基因或基因组区域中是否存在遗传变异。在一些实施方案中,该方法对不超过1,000个基因进行。在一些实施方案中,该方法还包括向受试者施用癌症治疗,所述癌症治疗由表2中测定的至少一个基因中的遗传变异的存在来确定。在一些实施方案中,该方法还包括从样品分离核酸分子,并用含有来自至少100、200、300、400或500个基因的区段的探针富集对应于至少100、200、300、400或500个基因的核酸分子。

在又另一个方面,本公开内容提供了一种用于分析来自患有癌症或怀疑患有癌症的受试者的无细胞DNA样品的方法,包括选择性地富集来自由表2中列出的基因组成的组的至少100、200、300、400或500个基因组区域,以产生富集的文库;扩增所述富集的文库并进行测序反应;以及分析所述基因组区域中遗传变体的存在。

本文公开的方法和相关系统以及计算机可读介质实现包括各种实施方案。这些方法和相关方面通常包括为样品生成TMB评分。在某些应用中,使用了亚克隆性过滤器(subclonality filter)。在这些实施方案中的某些中,观察到的突变计数和/或肿瘤分数通过过滤掉具有低MAF的体细胞突变来排除体细胞突变。在一些实施方案中,例如,亚克隆性过滤器用于排除小于最大MAF的约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约15%、约20%、约25%或约30%的体细胞突变。在一些实施方案中,不是被排除/过滤掉,而是基于克隆性对体细胞突变进行加权(即,每个突变获得某一权重,而不仅仅是低MAF突变)。在其他示例性实施方案中,预期的和/或调整的突变计数使用外显子组校准因子来调整。在这些实施方案的一些中,将调整的突变计数除以外显子组校准因子。在某些实施方案中,外显子组校准因子是至少1.01、1.02、1.03、1.04、1.05、1.06、1.07、1.08、1.09、1.10或更高的值,而在其他实施方案中,外显子组校准因子包括小于1.0的值(例如,约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9)。在一些实施方案中,从癌症数据库(例如,TCGA等)中样品的外显子突变率确定外显子组校准因子。在某些实施方案中,特定于所考虑的给定癌症类型的外显子组校准因子和外显子组突变率从具有该癌症类型的样品确定。

在一些实施方案中,使用除了使用最大MAF之外的替代方式来估计肿瘤分数。在一些实施方案中,例如,使用基因组区域的预定集的覆盖率和标准最大似然方法来估计肿瘤分数。在某些实施方案中,使用基因组区域的预定集和样品中具有拷贝数变化的区域的cfDNA片段大小分布的差异来确定肿瘤分数。任选地,通过将种系和/或体细胞变体的MAF调整到在样品中观察到的拷贝数变化来估计肿瘤分数。通常,种系变体被排除在确定的TMB评分之外。在一些实施方案中,种系/体细胞状态使用β-二项分布模型确定,该模型估计位于所考虑的候选变体附近的普通种系SNP(common germline SNPs)的MAF的平均值和方差。任选地适用于实现本文公开的方法和相关方面的β-二项分布模型相关的另外细节描述在例如,[2018年9月20日提交的PCT/US2018/052087]中,该文献通过引用并入。此外,覆盖率也使用各种方法确定。在一些实施方案中,覆盖率被掺入作为给定样品中每个碱基的独特cfDNA片段的中值。在这些实施方案的某些中,例如,可以使模型为碱基特异性的,并且该方法包括使用每个碱基处独特cfDNA片段的数目来计算该碱基处的灵敏度。典型地,在给定的碱基位置,覆盖率可以是至少10、50、100、500、1000、5000、10,000、20,000、50,000或更多的cfDNA片段。

在一些实施方案中,体细胞突变的计数(观察到的突变计数)不包括(i)不代表背景外显子组突变率或TMB的驱动突变等,(ii)可能来自克隆造血而不是所考虑的肿瘤的突变,和/或(iii)抗性突变。在一些实施方案中,某些类型的体细胞突变被加权,而不是从观察到的突变计数中排除或过滤掉。在某些实施方案中,克隆造血突变通过以下来鉴定:(i)使用基于文献和癌症数据库(例如,COSMIC等)在血液相关癌症中经常观察到的突变的精选列表,(ii)使用它们在样品中的上下文(例如,MAF)(例如,在相似的MAF或相似的MAF范围内存在其他克隆造血变异体)和/或通过分析先前研究的样品数据库中的克隆造血突变,和/或(iii)通过对衍生自血液的患者样品(例如白血细胞)中的DNA测序。克隆造血(例如,“不确定潜能的克隆造血”或“CHIP”)突变也可以基于其他因素来鉴定,诸如患者年龄、甲基化状态、某些群体中突变的富集、本文还公开的估计肿瘤分数的方法等。在某些实施方案中,可以使用例如基于文献和癌症数据库在患者样品中频繁观察到的突变的精选列表,和/或通过分析先前研究样品的数据库来鉴定抗性突变。抗性机制或任何其他过程可在基因中引入大量突变或突变的簇(例如,结肠直肠癌中的KRAS或PARP抑制剂治疗的前列腺癌中的BRCA1/2逆转)。在一些实施方案中,观察到的突变计数排除了特定基因中的至少一些突变,例如,如果基于总样品突变计数和给定组中的基因大小,该特定基因中的突变数量显著大于该基因中的预期突变数目。在某些实施方案中,体细胞突变的计数还包括在未被报告为所使用的特定组的一部分的位点的SNV和插入缺失。

TMB评分通常用于预测患者是否会对免疫治疗响应。例如,某些基因中特定类型的突变(例如,STK11、KEAP1、PTEN等的功能丧失)和/或分析的一组基因中患者的突变特征(例如,患者具有C>T转变等)的存在,可以联合TMB评分使用来预测对治疗的可能响应。典型地,基因/驱动突变的功能丧失优先,并且患者将对治疗不响应。也就是说,当观察到某些基因(诸如但不限于STK11、KEAP1和PTEN)的功能丧失时,无论TMB评分如何,患者都可能对免疫治疗不响应。

在一些实施方案中,某些因素,诸如特定基因的突变(例如,DNA修复系统基因-MLH1、MLH2&MLH3、MSH2&MSH3、MSH6、PMS1&PMS2;聚合酶E)和DNA修复系统基因启动子区域中特异性的某些区域的甲基化状态可以与TMB评分组合使用,将样品分类为TMB-高样品或TMB-低样品。

根据特定情况,诸如TMB评分、癌症类型和/或分期等,任选地向给定患者施用基本上任意治疗或治疗组合。此类治疗的实例包括免疫治疗,诸如CAR-T细胞治疗、疫苗(例如,通用或患者新抗原特异性)、寡核苷酸或基于载体的遗传治疗、远位效应干预(例如,放射治疗)、免疫疗法治疗/药物(例如,抗TIGIT)、免疫检查点抑制剂和/或抗体(例如,抗TIGIT;针对PD-1、PD-2、PD-L1、PD-L2、CTLA-40、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27或CD40的抗体)和/或联合治疗(例如免疫治疗+PARPi+化疗等),以及本文进一步举例说明的或本领域普通技术人员另外已知的许多其他治疗。

本文所述的TMB确定也任选地与其他评价或技术组合,以进一步告知治疗决定。这些的一些实例包括评估细胞的机械缺陷(例如,对给定治疗缺乏响应),评价增加的非整倍体(例如,以测量对IO治疗的潜在降低的响应),还确定患者状态的其他非TMB特征(例如,年龄、单体型、种族、性别等),将确定TMB评分与人类白细胞抗原(HLA)缺失、HLA测序(例如,作为新抗原预测的机制)、转录组学、免疫谱库(repertoire)测序和/或其他分析方法组合,以预测治疗响应的缺乏或这种响应的可能性。

在一些实施方案中,本文公开的系统和方法的结果被用作输入以生成报告。报告可以是纸质或电子格式。例如,通过本文公开的方法和系统获得的调整的结果可以直接展示在这样的报告中。可选地或另外地,基于调整的结果的诊断信息或治疗建议可以被包括在报告中。

本文公开的方法的多于一个步骤,或由本文公开的系统进行的步骤,可以在相同或不同的时间、在相同或不同的地理位置例如国家、和/或由相同或不同的人进行。

在另一方面,本公开内容提供了一种将受试者分类为免疫治疗的候选对象的方法,该方法包括:a)根据从来自受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数;(b)确定肿瘤分数和/或核酸的覆盖率以生成测序参数;(c)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果;(d)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果;和(e)使用调整的结果确定TMB评分,以及(f)将TMB评分与阈值TMB

在另一方面,本公开内容涉及至少部分地使用计算机生成新抗原-孤儿免疫受体信息的方法(即,使用计算机执行一些或所有步骤)。该方法包括(a)通过计算机接收从获自被诊断患有癌症的受试者的血液样品中的核酸获得的序列信息,其中序列信息的至少第一部分包括从血液样品中的无细胞核酸(cfNA)获得的测序读段,并且其中序列信息的至少第二部分包括从来源于血液样品中的一种或更多种免疫细胞的核酸获得的测序读段。该方法还包括(b)从序列信息的至少第一部分确定受试者的肿瘤突变负荷(TMB)评分,和(c)在序列信息的至少第二部分中鉴定免疫谱库的一种或更多种克隆型。此外,该方法还包括(d)将TMB评分与一种或更多种克隆型相关联,以鉴定受试者中的一种或更多种新抗原-孤儿免疫受体,从而生成新抗原-孤儿免疫受体信息。

在一些实施方案中,该方法还包括使用新抗原-孤儿免疫受体信息为受试者鉴定一种或更多种定制治疗。在这些实施方案的某些中,该方法还包括向受试者施用一种或更多种定制治疗。在一些实施方案中,该方法包括鉴定序列信息的第一部分中的一种或更多种变体以确定TMB评分,其中所述变体包括一种或更多种选自由以下组成的组的突变:单核苷酸变体(SNV)、插入或缺失、拷贝数变体(CNV)、融合、颠换、易位、移码、复制、重复变体和表观遗传变体。在这些实施方案的一些中,重复变体包含一个或更多个微卫星变体。在这些实施方案的某些中,该方法还包括在序列信息的第二部分中鉴定一种或更多种其他变体以确定TMB评分,其中所述其他变体包含来源于血液样品中一种或更多种免疫细胞的核酸中的一种或更多种体细胞突变。

在另一方面,本公开内容涉及一种分析来自被诊断患有癌症的受试者的血液样品中的多于一种分析物的方法。该方法包括:(a)分离血液样品中无细胞核酸(cfNA)的第一集合和来自血液样品中的一种或更多种免疫细胞的核酸的第二集合,和(b)扩增核酸的第二集合中编码T细胞受体的α和/或β亚单位的至少一部分的一个或更多个区域,以产生富集的核酸的第二集合。该方法还包括(c)对cfNA的第一集合的一个或更多个区域和富集的核酸的第二集合的一个或更多个区域测序,以产生序列信息,和(d)根据序列信息确定受试者的肿瘤突变负荷(TMB)评分。此外,该方法还包括(e)根据序列信息鉴定免疫谱库的一种或更多种克隆型,和(f)将TMB评分与一种或更多种克隆型相关联,以鉴定受试者中的一种或更多种新抗原-孤儿免疫受体,从而分析来自被诊断患有癌症的受试者的血液样品中的多于一种分析物。

在另一方面,本公开内容涉及至少部分地使用计算机分析来自受试者的血液样品中的核酸的方法。该方法包括(a)通过计算机接收从来自受试者的血液样品中的核酸获得的序列信息,其中序列信息的至少第一部分包括从血液样品中的无细胞核酸(cfNA)获得的测序读段,并且其中序列信息的至少第二部分包括从来源于血液样品中的一种或更多种免疫细胞的核酸获得的测序读段。该方法还包括(b)鉴定序列信息的第一部分中的一种或更多种变体和序列信息的第二部分中的免疫谱库的一种或更多种克隆型,从而分析来自受试者的血液样品中的核酸。

在一些实施方案中,该方法包括(i)确定序列信息的第一部分中观察到的突变计数,(ii)确定序列信息的第一部分中的肿瘤分数和/或至少cfNA的覆盖率以生成测序参数,(iii)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布以生成预期结果,和(iv)在给定预期结果的情况下调整观察到的突变计数以生成调整的结果,从而确定受试者的肿瘤突变负荷(TMB)。在某些实施方案中,该方法包括(i)从序列信息的第一部分和/或序列信息的第二部分定量存在于多于一个重复核酸位点的每一个的许多不同重复长度,以生成多于一个重复核酸位点的每一个的位点评分,其中序列信息包括重复核酸位点的群体,(ii)当给定重复核酸位点的位点评分超过给定重复核酸位点的位点特异性训练阈值时,将给定重复核酸位点调用为不稳定,以生成包括来自多于一个重复核酸位点的许多不稳定重复核酸位点的重复核酸不稳定性评分,和(iii)当重复核酸不稳定性评分超过血液样品中重复核酸位点群体的群体训练阈值时,将血液样品的重复核酸不稳定性状态分类为不稳定,从而确定血液样品的重复核酸不稳定性状态。

在某些实施方案中,该方法包括(i)从序列信息的第一部分和/或序列信息的第二部分定量存在于多于一个重复脱氧核糖核酸(DNA)位点的每一个的许多不同重复长度,以生成多于一个重复DNA位点的每一个的位点评分,其中序列信息包括重复DNA位点的群体,(ii)将给定重复DNA位点的位点评分与多于一个重复DNA位点中每一个的给定重复DNA位点的位点特异性训练阈值进行比较,(iii)当给定的重复DNA位点的位点评分超过给定的重复DNA位点的位点特异性训练阈值时,将给定的重复DNA位点调用为不稳定的,以生成包括来自多于一个重复DNA位点的许多不稳定的重复DNA位点的重复DNA不稳定性评分,以及(iv)当所述重复DNA不稳定性评分超过血液样品中重复DNA位点群体的群体训练阈值时,将血液样品的重复DNA不稳定性状态分类为不稳定,从而确定血液样品的重复DNA不稳定性状态。在一些实施方案中,该方法包括(i)从序列信息的第一部分和/或序列信息的第二部分定量存在于多于一个微卫星位点的每一个的许多不同重复长度,以生成多于一个微卫星位点的每一个的位点评分,其中序列信息包括微卫星位点的群体,(ii)当给定重复核酸位点的位点评分超过给定重复核酸位点的位点特异性训练阈值时,将给定重复核酸位点调用为不稳定,以生成包括来自多于一个重复核酸位点的许多不稳定重复核酸位点的重复核酸不稳定性评分,和(iii)当重复核酸不稳定性评分超过血液样品中重复核酸位点群体的群体训练阈值时,将血液样品的重复核酸不稳定性状态分类为不稳定,从而确定血液样品的重复核酸不稳定性状态。

在一些实施方案中,该方法包括(i)从序列信息的第一部分和/或序列信息的第二部分定量存在于多于一个重复脱氧核糖核酸(DNA)位点的每一个的许多不同重复长度,以生成多于一个重复DNA位点的每一个的位点评分,其中序列信息包括重复DNA位点的群体,(ii)将给定重复DNA位点的位点评分与多于一个重复DNA位点中每一个的给定重复DNA位点的位点特异性训练阈值进行比较,(iii)当给定的重复DNA位点的位点评分超过给定的重复DNA位点的位点特异性训练阈值时,将给定的重复DNA位点调用为不稳定的,以生成包括来自多于一个重复DNA位点的许多不稳定的重复DNA位点的重复DNA不稳定性评分,以及(iv)当所述重复DNA不稳定性评分超过血液样品中重复DNA位点群体的群体训练阈值时,将血液样品的重复DNA不稳定性状态分类为不稳定,从而确定血液样品的重复DNA不稳定性状态。在另一种实施方案中,该方法包括(i)从序列信息的第一部分和/或序列信息的第二部分定量存在于多于一个微卫星位点的每一个的许多不同重复长度,以生成多于一个微卫星位点的每一个的位点评分,其中序列信息包括微卫星位点的群体,(ii)对于多于一个微卫星位点中每一个,将给定微卫星位点的位点评分与给定微卫星位点的位点特异性训练阈值进行比较,(iii)当给定的微卫星位点的位点评分超过给定的微卫星位点的位点特异性训练阈值时,将给定的微卫星位点调用为不稳定的,以生成包括来自多于一个微卫星位点的许多不稳定的微卫星位点的微卫星不稳定性评分,以及(iv)当所述微卫星不稳定性评分超过血液样品中微卫星位点群体的群体训练阈值时,将血液样品的微卫星不稳定性(MSI)状态分类为不稳定,从而确定血液样品的MSI状态。

在一些实施方案中,该方法包括捕获无细胞DNA(cfDNA)的多组靶区域,其中所述多组靶区域包括序列可变靶区域组和表观遗传靶区域组,由此产生捕获的cfDNA分子组,其中对应于序列可变靶区域组的cfDNA分子以比对应于表观遗传靶区域组的cfDNA分子更高的捕获产率在捕获的cfDNA分子组中被捕获。在某些实施方案中,cfNA包括无细胞DNA(cfDNA)。在一些实施方案中,来源于血液样品中一种或更多种免疫细胞的核酸包括mRNA和/或gDNA。在一些实施方案中,其中来源于血液样品中一种或更多种免疫细胞的核酸编码选自由以下组成的组的免疫多肽的至少部分:抗体、B细胞受体和T细胞受体。在一些实施方案中,该方法包括从血液样品的血浆或血清级分获得cfNA。在某些实施方案中,该方法包括从血液样品的血沉棕黄层级分获得来源于一种或更多种免疫细胞的核酸。

在另一方面,本公开内容涉及一种系统,该系统包括通信接口,该通信接口通过通信网络获得来自受试者的样品中的一个或更多个核酸的测序信息。该系统还包括与通信接口通信的计算机,其中该计算机包括至少一个计算机处理器和包含机器可执行代码的计算机可读介质,该机器可执行代码在由至少一个计算机处理器执行时实现一种方法,该方法包括:(i)接收从获自被诊断患有癌症的受试者的血液样品中的核酸获得的序列信息,其中序列信息的至少第一部分包括从血液样品中的无细胞核酸(cfNA)获得的测序读段,并且其中序列信息的至少第二部分包括从来源于血液样品中的一种或更多种免疫细胞的核酸获得的测序读段,(ii)根据序列信息的至少第一部分确定受试者的肿瘤突变负荷(TMB)评分,(iii)在序列信息的至少第二部分中鉴定免疫谱库的一种或更多种克隆型,以及(iv)将TMB评分与一种或更多种克隆型相关联,以鉴定受试者中的一种或更多种新抗原-孤儿免疫受体。

附图简述

并入本说明书并构成其一部分的附图示出了某些实施方案,并与书面描述一起用于解释本文公开的方法、计算机可读介质和系统的某些原理。当结合附图阅读时,可以更好地理解本文提供的描述,附图以示例的方式而非限制的方式被包括在内。应当理解,除非上下文另有说明,否则在所有附图中,相同的附图标记表示相同的部件。还应当理解,一些或所有附图可以是出于说明目的的示意性表示,并不一定描绘所示元件的实际相对尺寸或位置。

图1是示意性描绘根据本发明一些实施方案的调整TMB的示例性方法步骤的流程图。

图2是适用于本发明某些实施方案的示例性系统的示意图。

图3是示出根据本公开内容的一种实施方案,来自同一测试样品的无细胞DNA分析和免疫谱库测序的组合工作流程的流程图。来自免疫谱库谱系分析与TMB分析的综合结果提供了增强的免疫治疗响应评分。

图4A和图4B是示意图,显示了根据本公开内容的一种实施方案的用于TCR gDNA测定(图4A)和免疫受体RNA测定(图4B)的样品制备方法。

图5是示出根据本公开内容的一种实施方案,来自同一测试样品的无细胞DNA分析和免疫谱库测序的组合工作流程的流程图。

图6是使用(o)和不使用(Δ)本文公开的TMB校正或调整方法,较低肿瘤分数和较低覆盖率样品的TMB评分图。

图7是示意性描绘根据本发明一些实施方案的示例性TMB工作流程的流程图。

图8A和图8B是显示与非同义编码单核苷酸变体(SNV)相关的突变类型的图。具体地,图8A是显示与非同义SNV相关的同义SNV的图(Pearson’s r=0.90;非同义SNV的数目(x轴);同义SNV的数目(y轴))。图8B是显示与非同义SNV相关的插入缺失(Pearson’s r=0.71;非同义SNV的数目(x轴);插入缺失的数目(y轴))。图8C是显示内含子SNV的比率与外显子SNV的比率相关的图(Pearson’s r=0.89;内含子SNV的比率(x轴);外显子SNV的比率(y轴))。

图9A-图9D是小提琴图(violin plot),显示了大组(large panel)测定的肿瘤脱落校正消除了突变计数对(图9A(最大MAF箱(bin)(%)(x轴);突变计数(y轴)))肿瘤脱落和(图9B(分子覆盖率(x1000))(x轴);突变计数(y轴)))输入cfDNA的依赖性,导致pTMB在很大程度上独立于这些输入度量(图9C(最大MAF箱(%)(x轴);TMB(mut/Mb)(y轴))和图9D(分子覆盖率(x1000)(x轴);TMB(mut/Mb)(y轴))。

图10A(TMB(mut/Mb)(x轴);样品分数(%)(y轴))和图10B(TMB(mut/Mb)(x轴);肿瘤类型(y轴))是分别显示队列(cohort)中以及肿瘤类型之间的TMB分布的图。

图11A(主成分(PC)1(x轴);PC2(y轴))和图11B(TMB(mut/Mb)(x轴);种族(y轴))是分别显示主成分分析(PCA)聚类和TMB评分的图。

图12是显示TMB与致癌突变的相关性的图(TMB(mut/Mb)(x轴);驱动突变(y轴))。

图13A是显示体细胞突变的克隆性和染色体不稳定性在整个TMB景观(landscape)高度可变的图。图13B是显示在TMB-高样品子集中检测到高评分微卫星不稳定性(MSI-高)的图表。

定义

为了更容易地理解本公开内容,以下首先定义某些术语。以下术语和其他术语的另外定义可通过说明书进行阐述。如果下面阐述的术语的定义与通过引用并入的申请或专利中的定义不一致,则本申请中阐述的定义应该用于理解该术语的含义。

如本说明书和所附权利要求书中使用的,除非上下文另有明确指示,否则单数形式“一(a/an)”和“该(the)”包括复数的指代物。因此,例如,提及“一种(a)方法”包括一种或更多种方法和/或本文描述的类型的和/或对本领域普通技术人员而言在阅读本公开内容等后将变得明显的步骤。

还应当理解,本文使用的术语仅为了描述特定实施方案的目的,并且不被意图是限制性的。此外,除非另外定义,否则本文使用的所有技术术语和科学术语具有与本公开内容所属的领域的普通技术人员所通常理解的相同的含义。在描述和要求保护这些方法、计算机可读介质和系统时,将根据下面阐述的定义使用下面的术语及其语法变体。

约.如本文所用的,应用于一个或更多个感兴趣的值或要素的“约”或“大约”是指与所述参考值或要素相似的值或要素。在某些实施方案中,术语“约”或“大约”是指在所述参考值或要素的任一方向上(大于或小于)落在25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%或更小的范围内的值或要素,除非另有说明或从上下文明显(除非该数目将超过可能值或要素的100%)。

调整的肿瘤突变负荷:如本文所用,“调整的肿瘤突变负荷(adjusted tumormutational burden)”、“调整的肿瘤突变负荷(adjusted tumor mutation burden)”或“调整的结果”是指已被校正以说明肿瘤分数、覆盖率和/或另一个测序参数的观察到的突变计数。

施用:如本文所用,向受试者“施用(administer)”或“施用(administering)”治疗剂(例如,免疫治疗剂)是指给予、提供组合物或使组合物与受试者接触。施用可以通过许多途径中的任何一种来完成,包括例如局部、口服、皮下、肌内、腹膜内、静脉内、鞘内和皮内。

衔接子.如本文所用,“衔接子”是指通常是至少部分双链的并用于连接给定样品核酸分子的任一末端或两个末端的短核酸(例如,长度小于约500个核苷酸、小于约100个核苷酸或小于约50个核苷酸)。衔接子可以包含允许扩增在两个末端侧翼均为衔接子的核酸分子的引物结合位点,和/或测序引物结合位点,包括用于测序应用诸如各种下一代测序(NGS)应用的引物结合位点。衔接子还可以包含对于捕获探针,诸如附接至流通池支持物等等的寡核苷酸的结合位点。衔接子还可以包含如本文描述的核酸标签。核酸标签通常被相对于扩增引物和测序引物结合位点定位,使得核酸标签被包含在给定的核酸分子的扩增子和测序读段中。相同或不同的衔接子可以连接至核酸分子的相应末端。在一些实施方案中,除了核酸标签不同之外,相同的衔接子连接到核酸分子的相应末端。在一些实施方案中,衔接子是Y形衔接子,其中一个末端是如本文描述的平末端或加尾的以便连接至核酸分子,该核酸分子也是平末端或用一个或更多个互补核苷酸加尾的。在又其他示例实施方案中,衔接子是钟形衔接子,包含平末端或加尾的末端以便连接至待分析的核酸分子。衔接子的其他实例包括T尾(T-tailed)和C尾(C-tailed)衔接子。

扩增.如本文所用,核酸上下文中的“扩增(amplify)”或“扩增(amplification)”是指通常从少量多核苷酸(例如,单个多核苷酸分子)开始产生多拷贝的多核苷酸或多核苷酸的一部分,其中扩增产物或扩增子通常是可检测的。多核苷酸的扩增包括各种化学和酶促过程。

条形码.如本文所用,核酸上下文中的“条形码”或“分子条形码”是指包含可用作分子标识符的序列的核酸分子。例如,在下一代测序(NGS)文库制备过程中,通常将单个“条形码”序列添加到每个DNA片段,以便在最终数据分析之前可以对每个读段进行鉴定和分选。

癌症类型.如本文所用,“癌症类型”是指例如由组织病理学定义的癌症类型或亚型。癌症类型可以由任何常规标准来定义,诸如基于给定组织中的发生(例如,血癌、中枢神经系统(CNS)癌、脑癌、肺癌(小细胞和非小细胞)、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、乳腺癌、前列腺癌、卵巢癌、肺癌、肠癌、软组织癌、神经内分泌癌、胃食管癌、头颈癌、妇科癌症、结肠直肠癌、尿路上皮癌、固态癌、异质癌、同质癌)、未知原发性起源的癌症等,和/或相同细胞谱系的癌症(例如,上皮癌(carcinoma)、肉瘤、淋巴瘤、胆管癌、白血病、间皮瘤、黑色素瘤或胶质母细胞瘤)和/或显示癌症标志物诸如Her2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、激素受体和NMP-22的癌症。癌症还可以通过分期(例如,1、2、3或4期)和是否为原发性或继发性起源来分类。

无细胞核酸.如本文所用,“无细胞核酸”是指不包含在细胞内或不以其他方式与细胞结合的核酸,或在一些实施方案中,是指在去除完整细胞后保留在样品中的核酸。无细胞核酸可以包括,例如,来源于来自受试者的体液(例如,血液、血浆、血清、尿液、脑脊液(CSF)等)的所有未包封的核酸。无细胞核酸包括DNA(cfDNA)、RNA(cfRNA)及其杂合体,包括基因组DNA、线粒体DNA、循环DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、小核仁RNA(snoRNA)、Piwi-相互作用RNA(piRNA)、长非编码RNA(长ncRNA)和/或这些的任一种的片段。无细胞核酸可以是双链、单链或其杂合体。无细胞核酸可以通过分泌或细胞死亡程序,例如细胞坏死、凋亡等等,释放到体液中。一些无细胞核酸从癌细胞释放到体液中,例如循环肿瘤DNA(ctDNA)。其他从健康细胞释放。CtDNA可以是未包封裹的肿瘤衍生的片段化DNA。无细胞核酸可以具有一种或更多种表观遗传修饰,例如,无细胞核酸可以被乙酰化、5-甲基化、泛素化、磷酸化、类泛素化(sumoylated)、核糖基化和/或瓜氨酸化。

细胞核酸.如本文所用,“细胞核酸”是指至少在从受试者采集或收集样品时被置于一个或更多个细胞内的核酸,即使这些核酸随后作为给定分析过程的一部分被取出(例如,通过细胞裂解)。

克隆造血衍生突变.如本文所用,“克隆造血衍生突变”是指造血干细胞和/或祖细胞中导致克隆扩增的基因组突变的体细胞获取。

克隆型.如本文所用,免疫细胞受体上下文中的“克隆型”是指由编码该受体的核苷酸序列的突变或基因重排过程产生的独特核苷酸序列(例如,编码T细胞受体(TCR)多肽链的CDR3序列的独特核苷酸序列)。

比较器结果.如本文所用,“比较器结果”是指一个结果或一组结果,给定的测试样品或测试结果可以与其进行比较,以鉴定测试样品或结果的一个或更多个可能的特性,和/或为从中取得或以其他方式获得测试样品的受试者鉴定一个或更多个可能的预后结果和/或一种或更多种定制的治疗方法。比较器结果通常从一组参考样品获得(例如,从与测试受试者具有相同癌症类型的受试者和/或从正在接受或已经接受与测试受试者相同治疗的受试者获得)。在某些实施方案中,例如,将调整的TMB评分与比较器结果进行比较,以鉴定为测试样品确定的调整的TMB评分和为一组参考样品确定的TMB评分之间的实质匹配。为该组参考样品确定的TMB评分通常用一种或更多种定制治疗进行索引。因此,当鉴定出实质匹配时,相应的定制治疗因此也被鉴定为从其获取测试样品的受试者的潜在治疗途径。

置信区间.如本文所用,“置信区间”是指如此定义的值的范围,使得给定参数的值以特定概率处于该值范围内。

对照样品:如本文所用,“对照样品”是指具有已知组成和/或具有已知性质和/或已知参数(例如,已知肿瘤分数、已知覆盖率、已知TMB等)的样品,其与测试样品一起分析或比较,以评价分析程序的准确性。在一些实施方案中,在对照样品数据集中使用的对照样品可以是癌症类型特异性的和/或治疗特异性的。

对照样品数据集.如本文所用,“对照样品数据集”是指肿瘤分数大于预定

拷贝数变体.如本文所用,“拷贝数变体”、“CNV”或“拷贝数变异”是指基因组的某些部分重复,并且基因组中重复的数目在所考虑的群体中的个体之间变化,以及在个体的两种状况或状态之间变化的现象(例如,在接受治疗之前和之后,个体中的CNV可以变化)。

覆盖率.如本文所用,“覆盖率”是指代表特定碱基位置的核酸分子的数目。

定制治疗.如本文所用,“定制治疗”是指与具有给定TMB评分或在TMB评分的限定范围内的受试者或受试者群体的期望治疗结果相关联的治疗。

脱氧核糖核酸或核糖核酸.如本文所用,“脱氧核糖核酸”或“DNA”是指在糖部分的2′-位置具有氢基团的天然或修饰的核苷酸。DNA通常包括包含四种类型的核苷酸碱基的核苷酸链:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。如本文所用,“核糖核酸”或“RNA”是指在糖部分的2′-位置具有羟基的天然或修饰的核苷酸。RNA通常包括包含四种类型的核苷酸的核苷酸链:A、尿嘧啶(U)、G和C。如本文所用,术语“核苷酸”是指天然核苷酸或修饰的核苷酸。核苷酸的某些对以互补方式彼此特异性结合(称为互补碱基配对)。在DNA中,腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中,腺嘌呤(A)与尿嘧啶(U)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸构成的第二核酸链结合时,两条链结合形成双链。如本文所用,“核酸测序数据”、“核酸测序信息”、“序列信息”、“核酸序列”、“核苷酸序列”、“基因组序列”、“遗传序列”或“片段序列”或“核酸测序读段”表示指示核酸诸如DNA或RNA的分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸或片段)中核苷酸碱基(例如,腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶或尿嘧啶)顺序和身份的任何信息或数据。应当理解,本教导设想了使用包括但不限于以下的所有可用的各种技术、平台或科技(technologies)获得的序列信息:毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统以及基于电子特征(electronicsignature)的系统。

驱动突变.如本文所用,“驱动突变”是指驱动癌症进展的突变。

预期突变分数的预期分布.如本文所用,“预期突变分数的预期分布”是指由统计分布模型(例如二项分布等)确定的预期突变分数的范围。

预期突变计数.如本文所用,“预期突变计数(expected mutational count)”或“预期突变计数(expected mutation count)”或“调整的突变计数(adjusted mutationcount)”或“调整的突变计数(adjusted mutational count)”是指调整的观察到的突变计数。

预期突变分数(f).如本文所用,“预期突变分数”是指样品中被调用的实际体细胞突变的分数,其来源于生物信息学分析的灵敏度和来源于对照样品数据集中由生物信息学分析确定的所有突变的相对MAF的数据库的相对MAF的分布。

预期结果.如本文所用,“预期结果”是指可能的、有希望的或预测的结果。

免疫谱库.如本文所用,“免疫谱库(immune repertoire)”是指组成受试者适应性免疫系统的T细胞受体和B细胞受体(即免疫球蛋白)的总和。

免疫治疗.如本文所用,“免疫治疗”是指用一种或更多种以下的剂治疗,所述剂起作用以刺激免疫系统,从而杀伤癌细胞或至少抑制癌细胞的生长,并且优选地降低癌症的进一步增长,降低癌症的大小和/或消除癌症。一些这样的剂与呈递在癌细胞上的靶结合;一些与呈递到免疫细胞上而不是癌细胞上的靶结合;一些与呈递在癌细胞和免疫细胞二者上的靶结合。这样的剂包括但不限于,检查点抑制剂和/或抗体。检查点抑制剂是免疫系统的途径的抑制剂,其维持自我耐受性并且调节外周组织中生理免疫响应的持续时间和幅度,以最小化旁组织损伤(参见例如,Pardoll,Nature Reviews Cancer 12,252–264(2012))。示例性剂包括针对以下中任何一种的抗体:PD-1、PD-2、PD-L1、PD-L2、CTLA-40、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27或CD40。其他示例性剂包括促炎性细胞因子,诸如IL-1β、IL-6和TNF-α。其他示例性剂是针对肿瘤活化的T细胞,诸如通过表达嵌合抗原而活化的T细胞,所述嵌合抗原靶向由该T细胞识别的肿瘤抗原。

插入缺失.如本文所用,“插入缺失(indel)”是指涉及受试者基因组中核苷酸插入或缺失的突变。

索引的.如本文所用,“索引的”指的是与第二要素(例如,给定治疗)关联的第一要素(例如,TMB评分)。

最大MAF.如本文所用,“最大MAF(maximum MAF)”或“最大MAF(max MAF)”是指样品中所有体细胞变体的最大MAF。

次要等位基因频率.如本文所用,“次要等位基因频率”指在给定核酸群体诸如从受试者获得的样品中次要等位基因(例如,不是最常见的等位基因)出现的频率。处于低次要等位基因频率的遗传变异通常具有样品中存在的相对低频率。

突变等位基因分数.如本文所用,“突变等位基因分数”、“突变剂量”或“MAF”是指在给定样品中给定基因组位置含有等位基因改变或突变的核酸分子的分数。MAF通常被表示为分数或百分比。例如,MAF通常小于给定位点存在的所有体细胞变体或等位基因的约0.5、0.1、0.05或0.01%(即,小于约50%、10%、5%或1%)。

突变.如本文所用,“突变”是指从已知参考序列的变异,并且包括突变,诸如单核苷酸变体(SNV)、拷贝数变体或变异(CNV)/畸变、插入或缺失(indel)、基因融合、颠换、易位、移码、复制、重复扩增和表观遗传变体。突变可以是种系突变或体细胞突变。在一些实施方案中,用于比较目的的参考序列是提供测试样品的受试者的物种的野生型基因组序列,通常是人类基因组。

突变调用器.如本文所用,“突变调用器”是指用于鉴定测试样品数据(例如,从受试者获得的序列信息)中的突变的算法(通常以软件或其他计算机实现的方式实现)。

突变计数.如本文所用,“突变计数(mutation count)”或“突变计数(mutationalcount)”是指核酸样品的整个基因组或外显子组或靶向区域中的体细胞突变的数目。

新抗原-孤儿免疫受体信息.如本文所用,“新抗原-孤儿免疫受体信息”是指与给定受试者的免疫系统先前未识别的抗原相关的信息。典型地,新抗原-孤儿免疫受体信息从由一种或更多种肿瘤相关突变形成的改变的多肽或编码多核苷酸获得。在某些实施方案中,新抗原-孤儿免疫受体信息来源于与那些改变的多肽或编码多核苷酸相关的序列信息。

赘生物.如本文所用,术语“赘生物”和“肿瘤”可互换地使用。它们是指受试者体内细胞的异常生长。赘生物或肿瘤可以是良性的、潜在恶性的或恶性的。恶性肿瘤被称为癌症或癌性肿瘤。

下一代测序.如本文所用,“下一代测序”或“NGS”是指与传统的基于Sanger和毛细管电泳的方法相比具有增加的通量的测序技术,例如,具有一次产生成千上万个相对小的序列读段的能力。下一代测序技术的一些实例包括但不限于合成测序、连接测序和杂交测序。

非同义突变.如本文所用,“非同义突变”是指改变编码多肽的氨基酸序列的突变。

核酸标签.如本文所用,“核酸标签”是指短核酸(例如,长度小于约500个核苷酸、约100个核苷酸、约50个核苷酸或约10个核苷酸),用于区分来自不同样品的核酸(例如,代表样品指数),或同一样品中的不同核酸分子(例如,代表分子条形码),不同类型的或经过不同处理的短核酸。核酸标签包含预定的、固定的、非随机的、随机的或半随机的寡核苷酸序列。这种核酸标签可用于标记不同的核酸分子或不同的核酸样品或子样品。核酸标签可以是单链的、双链的或至少部分双链的。核酸标签任选地具有相同的长度或不同的长度。核酸标签还可以包括具有一个或更多个平末端的双链分子,包括5’或3’单链区域(例如,突出端),和/或在给定分子内的其他位置包括一个或更多个其他单链区域。核酸标签可以附接在其他核酸(例如,待扩增和/或测序的样品核酸)的一个末端或两个末端。核酸标签可以被解码以揭示信息,诸如给定核酸的样品来源、形式或处理。例如,核酸标签也可用于实现汇集和/或并行处理包含带有不同分子条形码和/或样品索引的核酸的多于一个样品,其中核酸随后通过检测(例如,读取)核酸标签被解卷积。核酸标签也可以称为标识符(例如分子标识符、样品标识符)。另外地或可选地,核酸标签可以用作分子标识符(例如,用于区分同一样品或子样品中不同亲本分子的不同分子或扩增子)。例如,这包括对给定样品中的不同核酸分子独特地加标签,或对这些分子非独特地加标签。在非独特地加标签应用的情况下,可以使用有限数目的标签(即分子条形码)来对每个核酸分子加标签,使得可以基于它们的内源序列信息(例如,它们映射到所选参考基因组的起始和/或终止位置、序列一个末端或两个末端的子序列和/或序列长度)联合至少一个分子条形码来区分不同的分子。典型地,使用足够数目的不同分子条形码,使得任何两个分子可能具有相同的内源序列信息(例如,起始和/或终止位置、序列的一个末端或两个末端的子序列和/或长度)以及还具有相同的分子条形码的概率低(例如,小于约10%、小于约5%、小于约1%或小于约0.1%)。

观察到的突变计数.如本文所用,“观察到的突变计数(observed mutationcount)”或“观察到的突变计数(observed mutational count)”是指通过本文所述的生物信息学分析确定的体细胞突变的数目。

乘客突变.如本文所用,“乘客突变”是指不改变适合性(fitness)但发生在巧合地或随后获得驱动突变的细胞中的突变。

多核苷酸.如本文所用,“多核苷酸”、“核酸”、“核酸分子”或“寡核苷酸”是指核苷(包括脱氧核糖核苷、核糖核苷或其类似物)通过核苷间键合连接的线性聚合物。通常,多核苷酸包含至少三个核苷。寡核苷酸的尺寸范围通常从几个单体单元例如3-4个到几百个单体单元。除非另外注明,否则每当多核苷酸以字母序列诸如“ATGCCTG”表示时,应该理解,该核苷酸从左到右是5'→3'的顺序,并且在DNA的情况下,“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示脱氧胸苷。字母A、C、G和T可以用于指碱基本身、指包含该碱基的核苷或核苷酸,这是本领域的标准。

处理.如本文所用,术语“处理”、“计算”和“比较”可互换使用。在某些应用中,这些术语指确定差异,例如,数量或序列的差异。例如,可以处理基因表达、拷贝数变异(CNV)、插入缺失和/或单核苷酸变体(SNV)值或序列。

相对MAF.如本文所用,“相对MAF”是指特定变量的MAF相比于样品中最大MAF的估计值。

参考序列.如本文所用,“参考序列”是指用于与实验确定的序列比较的目的的已知序列。例如,已知序列可以是整个基因组、染色体或其任何区段。参考通常包括至少约20个、至少约50个、至少约100个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、至少约500个、至少约1000个或更多个核苷酸。参考序列可以与基因组或染色体的单个连续序列比对,或者可以包括与基因组或染色体的不同区域比对的非连续区段。示例性的参考序列包括,例如,人类基因组,诸如hG19和hG38。

样品.如本文所用,“样品”是指能够通过本文公开的方法和/或系统进行分析的任何事物。

检测极限(LoD).如本文所用,“检测极限”是指可以通过给定的测定或分析方法测量的样品中物质(例如核酸)的最小量。

灵敏度.如本文所用,“灵敏度”是指在给定的MAF和覆盖率,检测到突变存在的概率。

测序.如本文所用,“测序”是指用于确定生物分子,例如核酸,诸如DNA或RNA的序列(例如,单体单元的身份和顺序)的许多技术中的任一种。示例性测序方法包括但不限于靶向测序、单分子实时测序、外显子或外显子组测序、内含子测序、基于电子显微术的测序、panel测序、晶体管介导的测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模并行特征测序(massively parallel signaturesequencing)、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、配对末端测序、近末端测序(near-term sequencing)、外切核酸酶测序、连接测序、短读段测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiD

序列信息.如本文所用,核酸聚合物上下文中的“序列信息”是指该聚合物中单体单元(例如核苷酸等)的顺序和身份。

单核苷酸变体.如本文所用,“单核苷酸变体”或“SNV”是指发生在基因组中特定位置的单核苷酸的突变或变异。

体细胞突变.如本文所用,“体细胞突变”是指在受孕后发生的基因组中的突变。体细胞突变可以发生在身体的除了生殖细胞以外的任何细胞中,并且因此不会传递给后代。

实质匹配.如本文所用的,“实质匹配”是指,至少第一值或要素至少近似等于至少第二值或要素。在某些实施方案中,例如,当调整的结果(例如,调整的TMB评分)和比较器结果(例如,从一个或更多个对照或参考样品确定的TMB评分)之间至少存在实质或近似匹配时,鉴定了定制治疗。

受试者.如本文所用,“受试者”是指动物,诸如哺乳动物物种(例如人类)或禽类(例如鸟)物种或其他生物体,诸如植物。更具体地,受试者可以是脊椎动物,例如哺乳动物诸如小鼠、灵长类动物、猿或人类。动物包括农场动物(例如,生产牛(production cattle)、奶牛、家禽、马、猪等)、运动动物和伴侣动物(例如,宠物或支持动物)。受试者可以是健康个体、具有或怀疑具有疾病或有患该疾病倾向的个体、或需要治疗或怀疑需要治疗的个体。术语“个体”或“患者”旨在与“受试者”可互换地使用。

例如,受试者可以是已经被诊断患有癌症、将接受癌症治疗和/或已经接受至少一种癌症治疗的个体。受试者可以是处于癌症的缓解中。作为另一个实例,受试者可以是被诊断患有自身免疫性疾病的个体。作为另一个实例,受试者可以是怀孕或计划怀孕的女性个体,其可能已经被诊断或怀疑患有疾病,例如癌症、自身免疫性疾病。

同义突变.如本文所用,“同义突变”是指不改变编码多肽的氨基酸序列的突变。

阈值.如本文所用,“阈值”是指用于表征不同样品的相同参数的实验确定值的预定值,取决于它们与阈值的关系。

阈值最大

阈值TMB

阈值肿瘤

阈值

肿瘤分数.如本文所用,“肿瘤分数”是指对给定样品中源自肿瘤的核酸分子的分数的估计。例如,样品的肿瘤分数可以是衍生自样品的最大MAF或样品的测序覆盖率模式或样品中的cfDNA片段的长度或样品的任何其他选择特征的量度。在一些情况下,样品的肿瘤分数等于样品的最大MAF。

肿瘤突变负荷.如本文所用,术语“肿瘤突变负荷(tumor mutation burden,TMB)”、“肿瘤突变负荷(tumor mutational burden,TMB)”或“癌症突变负荷(cancermutation burden)”或“突变负荷(mutational load)”或“突变负荷(mutation load)”可互换使用。它们是指存在于肿瘤基因组的经测序的部分中的突变例如体细胞突变的总数目。TMB可以指每兆碱基被检查的肿瘤基因组或外显子组或基因组的靶向区域的编码、碱基替换、插入缺失或其他突变的数目。它们可以指示检测、评价、计算或预测对癌症治疗剂或药物例如免疫检查点抑制剂、抗体等的敏感性和/或耐受性。具有较高水平的TMB的肿瘤可能表达更多的新抗原(一种类型的癌症特异性抗原),可能允许更稳健的免疫响应并且因此允许对免疫治疗更持久的响应。因为免疫系统依赖于足够数目的新抗原以适当进行响应,所以体细胞突变的数目可以用作用于确定肿瘤中新抗原的数目的代表物。TMB可以被用于推断受试者中对药物治疗的免疫响应的稳健性和药物治疗的效力。种系变体和体细胞变体可以通过生物信息学区分以鉴定抗原性体细胞变体。

变体:如本文所用,“变体”可以被称为等位基因。取决于等位基因是杂合的或纯合的,变体通常以50%(0.5)或100%(1)的频率出现。例如,种系变体是遗传性的并且通常具有0.5或1的频率。然而,体细胞变体是获得性变体并且通常具有<0.5的频率。遗传位点的主要等位基因和次要等位基因是指具有其中位点分别被参考序列的核苷酸和不同于参考序列的变体核苷酸占据的位点的核酸。位点处的测量可以采取等位基因分数(AF)的形式,它测量在样品中观察到等位基因的频率。

详细描述

引言

癌症包括一大组遗传疾病,其共同特征是细胞生长异常,并有可能转移到体内细胞的原发部位以外。该疾病的潜在分子基础是导致转化的细胞表型的突变和/或表观遗传变化,无论这些有害变化是通过遗传获得的还是具有体细胞基础。更复杂的是,这些分子变化通常是不同的,不仅在患有同一类型癌症的患者之间不同,甚至在给定患者自身的肿瘤内不同。

鉴于在大多数癌症中观察到的突变可变性,癌症护理的挑战之一是在给定其个体化癌症类型的情况下,鉴定患者最有可能响应的治疗。各种生物标志物被用于将癌症患者与适当的治疗相匹配,包括癌症免疫治疗。响应的一种生物标志物是肿瘤突变负荷(TMB),它是给定癌症基因组每个编码区突变总数目的定量量度。迄今为止,这种响应生物标志物的应用部分地受到TMB测量和分析方法的限制。

本公开内容提供了可用于确定和分析患者样品中的TMB并有助于指导癌症治疗决策的方法、计算机可读介质和系统。传统上,当肿瘤分数(例如,突变等位基因分数(MAF))和/或覆盖率低时,通过计算突变率获得的TMB通常是不准确的,因为用于调用突变的测定灵敏度降低了。因此,在某些方面,观察到的TMB根据测定灵敏度的各种量度,诸如肿瘤分数(其设定给定样品中突变的MAF)、覆盖率等等进行调整。例如,在没有这种调整的情况下,实际为TMB-高,但具有低肿瘤分数和/或低覆盖率的样品经常会被错误地报告为TMB-低。当根据这样的结果做出治疗决策时,这样的结果可能对患者产生重大下游影响。

肿瘤突变负荷调整方法

本申请公开了调整TMB的各种方法,以解决给定测定中肿瘤分数和/或覆盖率的可变性,否则该可变性可能导致不准确的TMB报告。在某些实施方案中,该方法包括通过模型对所考虑的组上该特定的生物信息学管道会调用的样品的实际突变的分数的预测来调整原始体细胞突变计数(例如,由给定的生物信息学管道或工作流程调用的SNV和插入缺失)。在某些实施方案中,该模型使用生物信息学突变(例如,SNV、插入缺失等)调用器的逻辑和二项式采样解决方案来计算在样品覆盖率设置下和/或该样品中MAF的预期分布上突变调用器的灵敏度。在一些实施方案中,样品中的预期MAF分布从对照样品数据集的对照样品中调用的所有突变的相对MAF导出。在这些实施方案的一些中,模型计算观察到的突变的预期分数,以及该分数的概率分布,该概率分布可以概括为例如该分数的95%置信区间。这可用于输出预期突变计数的高灵敏度(例如,最高可能实际突变计数)和/或高特异性(例如,最低可能实际突变计数)计算。在这些实施方案的某些中,然后将预期突变计数除以分析的基因组区域的大小,以给出突变率(即,TMB或TMB评分)。与TMB的“金标准”或者如果样品处于高肿瘤分数计算的TMB相比,通过实施本文所述的调整计算的TMB将比在没有这些调整的情况下测量的TMB更准确,所述的“金标准”从例如来自肿瘤的组织样品的完整外显子组测序计算。

为了进一步说明,图1提供了示意性描绘根据本发明一些实施方案的调整TMB的示例性方法步骤的流程图。如图所示,方法100包括在步骤110中从来自受试者的样品中的一个或更多个核酸获得的序列信息确定观察到的突变计数。方法100还包括在步骤112中确定肿瘤分数和/或核酸的覆盖率以生成测序参数,和在步骤114中确定给定测序参数的预期突变分数和/或预期突变分数的预期分布以生成预期结果。此外,方法100还包括在步骤116中在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果,从而确定受试者的TMB。

在某些实施方案中,方法100包括另外的上游和/或下游步骤。在一些实施方案中,例如,方法100从步骤102开始,在步骤104中提供来自受试者的样品(例如,提供取自受试者的血液样品)。在这些实施方案中,方法100的工作流程通常还包括在步骤106中扩增样品中的核酸以生成扩增的核酸,和在步骤108中对扩增的核酸进行测序以生成序列信息,然后在步骤110中根据序列信息确定观察到的突变计数。本文还描述了核酸扩增(包括相关样品制备)、核酸测序和相关数据分析。

在一些实施方案中,方法100包括在步骤116中生成的调整的结果下游的各种步骤。这些的一些示例包括在步骤118中将调整的结果与用一种或更多种治疗索引的一个或更多个比较器结果进行比较,以为受试者鉴定一种或更多种定制治疗。在一些实施方案中,方法100包括向受试者或医生报告结果。在其他示例性实施方案中,方法100还包括当在步骤122中结束之前,在步骤120中调整的结果和比较器结果之间存在实质匹配时,向受试者施用至少一种所鉴定的定制治疗(例如,以治疗受试者的癌症或另一种疾病或状况)。

为了进一步说明,对于任何给定的样品,在模型中输入肿瘤分数(例如,体细胞突变的最大MAF(“次要AF”)或肿瘤分数的另一个估计)和/或覆盖率的一些指标(例如,每个碱基的独特分子中值)。该模型使用基于所使用的突变(例如SNV、插入缺失等)调用算法的计算,以输出在这些条件预期被调用的组空间上的突变的分数,以及预期被观察到的突变的分数的分布(例如,可以用预期被观察到的突变的分数的范围的95%置信区间来概括)。在一些实施方案中,生物信息学分析在给定组上调用的实际突变的预期分数通过以下来计算:评价在预期MAF范围内以给定MAF(即灵敏度)调用突变的概率(即通过使MAF乘以样品肿瘤分数将MAF转换成相对MAF的分布)。

通常,突变调用器的灵敏度使用本文所述的生物信息学分析的算法,从在给定MAF和覆盖率调用突变的概率来估计。在一些实施方案中,可以使用基于先前数据的经验分布(即,这样的运行实验:其中样品具有在不同覆盖率的不同MAF处的已知的突变,并测试检测突变的频率,这提供了“经验”突变调用灵敏度)来计算概率。在一些实施方案中,可以使用二项分布来计算概率。在一些实施方案中,可以使用基于突变调用的多于一个要求(例如,支持突变的分子数目以及突变的先前预期的一些其他考虑;使用突变调用灵敏度以及突变是否存在于癌症热点区域-可以使用基于所有这些组分的组合)的多组分分布来计算概率。在一些实施方案中,突变调用器的灵敏度可以基于特定的基础要求来估计,诸如变体的类型(例如,SNV、短插入缺失或长插入缺失)、基因组背景(例如,热点区域、主链区域、局部GC含量等)、或样品上下文(例如,测序度量,诸如GC、MAPD、覆盖率概况;或肿瘤类型的样品度量)。

在一些实施方案中,该方法包括定义特定样品内MAF的预期分布。在这些实施方案的某些中,相对MAF的分布根据经验拟合到对照样品数据集中所有对照样品的曲线。经验拟合曲线由以下等式描述:

F=1/(1+(P_50/相对-MAF)

其中F是累积分布函数,P_50是相对MAF中值,相对-MAF是相对MAF,并且n是拟合相对分布形状的指数。在某些实施方案中,预期突变分数的预期分布从在至少一个对照样品数据集中观察到的相对突变等位基因分数(MAF)的一个或更多个数据集获得。对照样品数据集通常包括至少约25至至少约30,000个或更多个对照样品。在一些实施方案中,对照样品数据集包括约50、75、100、150、200、300、400、500、600、700、800、900、1,000、2,500、5,000、7,500、10,000、15,000、20,000、25,000、50,000、100,000、1,000,000个或更多个对照样品。在一些实施方案中,在对照样品中观察到的最大MAF包括约0.5%、约1%、约2%、约5%、约10%或更多。在一些实施方案中,阈值用于最大MAF(即,阈值最大

在一些实施方案中,使用以下等式来确定预期结果:

观察到的突变分数(f)=∑

由于该分数本质上是二项式取样概率,因此该分数的分布(和置信区间)的上限和下限使用二项式比例置信区间来估计:

其中f是调用的突变的预期分数,n_true是预期的实际突变计数,等于给定f时观察到的突变数目,并且z是置信水平(例如,对于95%置信区间为1.96)。预期实际突变计数的计算通过以下等式提供:n_true=n_observe/f。因此,例如,如果观察到6个突变(即n_observe=6),并且观察到60%的突变(即f=60%),那么预期的实际突变计数是10(即n_true=10)。在某些实施方案中,如果

在这些实施方案的一些中,然后将原始体细胞突变计数(观察到的突变计数)除以该模型的这一输出,以获得在样品处于高肿瘤分数和/或高覆盖率的情况下在组上将调用的突变的预期数目。分数的估计可以用作实际/预期突变计数的最佳估计。任选地,分数的95%置信区间的上限(f

典型地,观察到的突变计数和/或肿瘤分数包括在核酸中鉴定的许多体细胞突变。在这些实施方案中的一些中,观察到的突变计数和/或肿瘤分数排除了一个或更多个已知的癌症驱动和/或乘客突变。在某些实施方案中,观察到的突变计数和/或肿瘤分数包括核酸中鉴定的许多同义突变、许多非同义突变和/或许多非编码突变。任选地,观察到的突变计数和/或肿瘤分数包含许多突变,包括单核苷酸变体(SNV)、插入或缺失(indel)、拷贝数变体(CNV)、融合、颠换、易位、移码、重复、重复扩增、表观遗传变体等。在某些实施方案中,观察到的突变计数和/或肿瘤分数不包括克隆造血衍生的突变。任选地,预期突变分数被用作实际突变计数的观察分数。

在某些实施方案中,使用了掺入肿瘤分数的替代方法,例如,除了使用所有体细胞突变的最大突变等位基因分数(最大MAF)(例如,来源于SNV和插入缺失数据)。一些示例性替代方案包括使用基于覆盖率的肿瘤分数、基于cfDNA片段长度的肿瘤分数、基于种系和/或体细胞变体的肿瘤分数,或者这些方法的任意组合。在一些实施方案中,可以使用基因组区域的预定集的测序覆盖率模式和标准最大似然方法来估计肿瘤分数。在一些实施方案中,肿瘤分数可以从基因组区域的预定集和样品中具有拷贝数变化的区域的cfDNA片段大小分布的差异来估计。在一些实施方案中,肿瘤分数可以通过将种系和/或体细胞变体的MAF调整到在样品中观察到的拷贝数变化来估计。在一些实施方案中,用于捕获靶基因组区域的一组cfDNA分子的探针的测序覆盖率可用于估计肿瘤分数(即,体细胞分数)。在一些实施方案中,肿瘤分数可以基于样品中cfDNA分子的甲基化状态来估计。在一些实施方案中,肿瘤分数可以使用最大MAF估计,但是针对特定基因组位置的拷贝数进行调整。在一些实施方案中,样品中的体细胞MAF可以被组合用于肿瘤分数估计。在一些实施方案中,甲基化可用于基于使用甲基化模式鉴定源自肿瘤的分子来估计肿瘤分数,并因此用于鉴定肿瘤分子的分数以估计肿瘤分数。在一些情况下,所有上述实施方案的组合或上述实施方案的至少一个子集的组合可用在模型中以估计肿瘤分数。

在一些实施方案中,给定样品的肿瘤分数可以低于所有核酸的约0.05%、约0.1%、约0.2%、约0.5%、1%、约2%、约3%、约4%、约5%。

在一些实施方案中,种系变体被排除在确定TMB评分之外。在一些实施方案中,变体的种系/体细胞状态可以使用β-二项分布模型来确定。β-二项分布用于对位于候选变体附近的普通种系单核苷酸多态性(SNP)的突变等位基因计数的平均值和方差建模。如果候选变体偏离了这些局部种系SNP的分布,那么该变体将被调用为“体细胞变体”,否则,该变体将被调用为“种系变体”。在PCT/US2018/052087和美国临时申请62/726,182、62/823,578和62/857,048中描述的方法和系统通过引用并入。

覆盖率也通过各种方式任选地掺入模型。在一些实施方案中,覆盖率可以被掺入作为每个碱基的独特cfDNA片段的中值。在这些实施方案中,可以使模型为碱基特异性的,并且该方法包括使用每个碱基处独特cfDNA片段的数目来计算该碱基处的灵敏度。在某些实施方案中,该方法包括鉴定核酸中包含给定核苷酸位置的许多独特的测序读段,以确定覆盖率。在又其他示例性实施方案中,该方法包括鉴定核酸中包含给定核苷酸位置的独特无细胞DNA(cfDNA)分子的中值数目,以确定覆盖率。覆盖率可以是在碱基位置至少10、50、100、500、1000、5000、10,000、20,000或50,000个cfDNA片段。

本申请中公开的方法通常包括从取自受试者的样品中的核酸获得序列信息。在某些实施方案中,序列信息从核酸的靶向区段获得。基本上任意数目的基因组区域被任选地靶向。靶向区段可以包括至少10、至少50、至少100、至少500、至少1000、至少2000、至少5000、至少10,000、至少20,000、至少50,000或至少100,000(例如25、50、75、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、25,000、30,000、35,000、40,000、45,000、50,000或100,000)个不同和/或重叠的基因组区域。

在某些实施方案中,该方法包括将观察到的突变计数除以预期结果,以产生调整的结果。通常,调整的结果包括在一系列突变等位基因分数在核酸中检测到的许多突变。调整的结果通常包括最高可能实际突变计数的预测和/或最低可能实际突变计数的预测。在某些实施方案中,预期结果包括预期突变分数。在某些实施方案中,调整的结果包括调整的突变计数。通常,调整的突变计数大于或等于观察到的突变计数。

在其他示例性实施方案中,体细胞突变(例如,SNV、插入缺失等)的计数排除了不代表背景外显子组突变率或TMB的驱动突变等。在一些实施方案中,体细胞突变的计数排除了可能来自克隆造血的突变,而不是所考虑的肿瘤。基于文献和癌症数据库(例如COSMIC),可以使用在血液相关癌症中经常观察到的突变的精选列表来鉴定源自克隆造血的突变。在一些实施方案中,克隆造血突变可以使用它们在样品中的上下文(例如,MAF)来鉴定(例如,在相似的MAF或相似的MAF范围内存在其他克隆造血变体),或者通过分析先前研究的样品数据库中的克隆造血突变来鉴定。在一些实施方案中,克隆造血突变可以通过对来源于血液的患者样品(例如,白血细胞)中的DNA进行测序来鉴定。在某些实施方案中,体细胞突变的计数还包括在未被报告为所使用的特定组的一部分的位点的SNV和插入缺失。例如,这种突变可以在给定应用中“未报告”突变的区域(例如内含子)中。这意味着,例如,用于计数体细胞突变的组较大,因此取样误差较小,并且突变率信号较高。在一些实施方案中,克隆造血衍生的突变可以通过使用概率/可能性模型来鉴定,该模型利用这些参数中的至少一些作为输入-患者年龄、肿瘤类型、在该位置的甲基化状态、支持该突变的分子片段大小和该样品中的任何其他突变。在一些实施方案中,这些输入参数可用于建立每个突变是否是克隆造血衍生突变的模型或先验。在一些实施方案中,机器学习算法如逻辑回归、随机森林等,可以应用于鉴定克隆造血衍生的突变。也可以使用在PCT/US2019/035214中描述的方法和系统,并通过引用将其并入。

在其他示例性实施方案中,该方法包括使用以下突变的汇集证据,所述突变落入低于任何特定SNV、插入缺失和/或其他类型突变的检测极限(LOD),但是给出了在该碱基比大多数其他碱基更高的突变可能性的指示。在这些实施方案中,TMB-高样品通常比TMB-低样品具有更多的这种证据。一些实施方案包括扩大给定组上具有与TMB相关的突变的位点的数目和/或进一步改善肿瘤分数的估计。在某些实施方案中,通过包括片段组学(fragmentomics)的潜在高信息量位点,肿瘤分数的估计或确定也得到进一步改善。

在一些实施方案中,通过过滤掉具有低MAF的体细胞突变,观察到的突变计数排除了亚克隆突变。在一些实施方案中,观察到的突变计数不包括小于最大MAF的约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约15%、约20%、约25%或约30%的体细胞突变。

在一些实施方案中,使用外显子组校准因子来调整预期/调整的突变计数,其中外显子组校准因子是被分析的组的突变率与外显子组突变率的比率。在一些实施方案中,将预期/调整的突变计数除以外显子组校准因子。在一些实施方案中,外显子组校准因子是1.01、1.02、1.03、1.04、1.05、1.06、1.07、1.08、1.09或至少1.10。在一些实施方案中,从癌症数据库,例如TCGA(The Cancer Genome Atlas)中的样品的外显子组突变率来确定外显子组校准因子。在一些实施方案中,外显子组校准因子可以对癌症类型特异,并且外显子组突变率可以从具有特定癌症类型的样品(在数据库中)确定。

在一些实施方案中,观察到的突变计数排除了抗性突变。在少数实施方案中,抗性突变可以使用基于文献和癌症数据库(例如,COSMIC、TCGA)在患者样品中经常观察到的突变的精选列表来鉴定。在一些实施方案中,抗性突变可以通过分析先前研究的样品的数据库来鉴定。

在一些实施方案中,抗性机制或任何其他过程可以在基因中引入大量突变(例如,在CRC中的KRAS或在PARP抑制剂治疗的前列腺癌中的BRCA1/2逆转),并且在观察到的突变计数中计数所有这些突变可能不能反映整个外显子组突变率。在这样的实施方案中,观察到的突变计数排除了特定基因中的一些突变,如果基于总样品突变计数和组中的基因大小,该特定基因中的突变数量显著大于该基因中的预期突变数目。术语“显著更大”可以基于统计取样模型进行评估。例如,如果样品具有的突变率为每Mb 10个突变(通过分析一组癌症相关基因观察到的),其中5个突变在KRAS基因中(在该组中),KRAS内的突变率比基于样品突变率预期的高得多。被计入观察到的突变计数的来自KRAS的突变数目将被抑制为更接近基于样品突变率的预期率。

在一些实施方案中,TMB评分可用于预测患者是否会对免疫治疗响应。在某些实施方案中,某些基因中特定类型的突变(例如,STK11、KEAP1、PTEN等的功能丧失)和/或分析的一组基因中患者的突变特征(例如,患者具有C>T转变)的存在,可以联合TMB评分使用来预测患者是否将响应于免疫疗法治疗。在一些实施方案中,如果患者具有某些基因(诸如但不限于STK11、KEAP1和PTEN)的功能丧失,无论TMB评分如何,患者将对免疫治疗不响应。例如,如果患者有(i)高TMB评分和(ii)STK11功能丧失,则功能丧失/驱动突变优先,并且患者将对治疗不响应。

在一些实施方案中,本文公开的调整方法包括从受试者(例如,人类或其他哺乳动物受试者)获得样品。本文还描述了任选地使用的示例性样品类型。基本上任何类型的核酸(例如,DNA和/或RNA)可以根据本申请中公开的方法进行评价。一些实例包括无细胞核酸(例如,肿瘤来源的cfDNA等)、细胞核酸,包括循环肿瘤细胞(例如,通过裂解样品中的完整细胞获得)、循环肿瘤核酸。

在一些实施方案中,TMB校正模型不能应用于具有指示低于特定截止值的肿瘤脱落和/或具有低于特定截止值的覆盖率的肿瘤分数或任何参数的样品,这将导致非常低的突变预期分数。在一些实施方案中,TMB校正模型不能应用于主要包含CHIP突变的样品,这将干扰准确的TMB估计。检查TMB校正模型是否可应用于样品的标准包括用于计算样品是否主要包含CHIP突变的方法。这样的方法包括,例如:(a)已知高比例的突变是CHIP(使用精选的数据库,或其他鉴定CHIP的方法,例如测序法(buffy)、片段组学等);(b)缺乏实体肿瘤的证据,例如,样品肿瘤类型的已知驱动突变;(c)上述任何组合。在一些实施方案中,TMB校正模型不能应用于包含低肿瘤脱落或主要是CHIP的样品。

在这些实施方案中,该方法通常还包括各种样品或文库制备步骤,以制备用于测序的核酸。许多其他样品制备技术是本领域技术人员熟知的。基本上,在执行本文所述的方法时,使用或适合使用这些技术中的任何一种。例如,除了从给定样品中的其他组分分离核酸的各种纯化步骤之外,制备用于测序的核酸的典型步骤包括用分子条形码对核酸加标签,添加衔接子(例如,其可包括分子条形码),将核酸扩增一次或更多次,富集核酸的靶向区段(例如,使用各种靶捕获策略等),等等。本文还描述了示例性的文库制备过程。关于核酸样品/文库制备的其他细节也在例如以下中描述:van Dijk等人,Library preparationmethods for next-generation sequencing:Tone down the bias,Experimental CellResearch,322(1):12-20(2014),Micic(Ed.),Sample Preparation Techniques forSoil,Plant,and Animal Samples(Springer Protocols Handbooks),1

通过本文公开的方法确定的调整的TMB任选地用于诊断受试者中疾病或状况,特别是癌症的存在,以表征这种疾病或状况(例如,对给定的癌症进行分期,确定癌症的异质性等),监测对治疗的响应,评价发展给定疾病或状况的潜在风险,和/或评估疾病或状况的预后。调整的肿瘤突变负荷还任选地用于表征特定形式的癌症。由于癌症在组成和分期两者中通常是异质的,TMB数据可以允许表征癌症的具体亚型,从而有助于诊断和治疗选择。该信息还可以为受试者或医疗保健从业者提供关于癌症的具体类型的预后的线索,并且允许受试者或医疗保健从业者根据疾病的进展调整治疗选项。一些癌症随着进展,变得更具侵袭性和遗传不稳定。其他癌症保持为良性的、非活动的或休眠的。

调整的TMB还可用于确定疾病进展和/或监测复发。例如,在某些情况下,随着癌细胞死亡和脱落核酸数量的增加,成功的治疗最初可能增加调整的TMB。在这些情况下,随着治疗的进展,调整的TMB然后将通常随着肿瘤尺寸的继续减小而减小。在其他情况下,成功的治疗也可以降低TMB和/或次要等位基因分数,而无肿瘤突变负荷的初始增加。另外,如果观察到癌症在治疗之后缓解,则调整的TMB可以用于监测患者中残留的疾病或疾病的复发。

样品

样品可以是从受试者分离的任何生物样品。样品可以包括身体组织、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检(例如,来自已知或疑似实体瘤的活检)、脑脊液、滑液、淋巴液、腹水、组织间隙液或细胞外液(例如,来自细胞间隙中的流体)、齿龈液、龈沟液、骨髓、胸膜渗出物、脑脊液、唾液、粘液、痰、精液、汗液、尿液。样品优选地为体液,特别地血液及其级分,以及尿液。这样的样品包括从肿瘤脱落的核酸。核酸可以包括DNA和RNA并且可以是双链和单链形式。样品可以呈最初从受试者分离出来的形式,或者可以已经经历另外的处理以去除或添加组分,诸如细胞,相对于另一种组分富集一种组分,或将一种形式的核酸转化为另一种,诸如RNA至DNA,或单链核酸至双链。因此,例如,用于分析的体液是含有无细胞核酸例如无细胞DNA(cfDNA)的血浆或血清。

在一些实施方案中,取自受试者的体液样品体积取决于对测序的区域的期望的读段深度。示例性体积为约0.4ml-40ml、约5ml-20ml、约10ml-20ml。例如,体积可以是约0.5ml、约1ml、约5ml、约10ml、约20ml、约30ml、约40ml或更多毫升。取样的血浆的体积通常在约5ml至约20ml之间。

样品可包含不同量的核酸。典型地,给定样品中核酸的量等于多于一个基因组当量。例如,约30ng DNA的样品可以含有约10,000(10

在一些实施方案中,样品包含来自不同来源的核酸,例如来自细胞和来自无细胞来源的核酸(例如血液样品等)。典型地,样品包括携带突变的核酸。例如,样品任选地包含携带种系突变和/或体细胞突变的DNA。通常,样品包含携带癌症相关突变(例如,癌症相关的体细胞突变)的DNA。

扩增前的样品中的无细胞核酸的示例性的量通常在从约1飞克(fg)至约1微克(μg),例如约1皮克(pg)至约200纳克(ng)、约1ng至约100ng、约10ng至约1000ng的范围。在一些实施方案中,样品包含高达约600ng、高达约500ng、高达约400ng、高达约300ng、高达约200ng、高达约100ng、高达约50ng或高达约20ng的无细胞核酸分子。任选地,该量是至少约1fg、至少约10fg、至少约100fg、至少约1pg、至少约10pg、至少约100pg、至少约1ng、至少约10ng、至少约100ng、至少约150ng或至少约200ng的无细胞核酸分子。在某些实施方案中,该量为高达约1fg、约10fg、约100fg、约1pg、约10pg、约100pg、约1ng、约10ng、约100ng、约150ng或约200ng的无细胞核酸分子。在一些实施方案中,方法包括从样品中获得约1fg至约200ng之间的无细胞核酸分子。

无细胞核酸通常具有长度约100个核苷酸和长度约500个核苷酸之间的大小分布,长度约110个核苷酸至长度约230个核苷酸的分子代表样品中约90%的分子,模式为长度约168个核苷酸,并且第二个次要峰在长度约240个至约440个核苷酸之间的范围内。在某些实施方案中,无细胞核酸的长度为约160至约180个核苷酸,或长度为约320至约360个核苷酸,或长度为约440至约480个核苷酸。

在一些实施方案中,无细胞核酸通过分配步骤(partitioning step)从体液分离,在该分离步骤中,如存在于溶液中的无细胞核酸与体液的完整细胞和其他非可溶性组分分开。在这些实施方案的一些中,分配包括诸如离心或过滤的技术。可选地,体液中的细胞被裂解,并且一起处理无细胞核酸和细胞核酸。通常,在添加缓冲液和洗涤步骤后,无细胞核酸用例如乙醇沉淀。在某些实施方案中,使用另外的净化(clean up)步骤,诸如基于二氧化硅的柱来去除污染物或盐。例如,任选地在整个反应中添加非特异性批量(bulk)载体核酸,以优化示例性程序的某些方面诸如收率。在这样的处理后,样品通常包括各种形式的核酸,包括双链DNA、单链DNA和/或单链RNA。任选地,单链DNA和/或单链RNA转化为双链形式,因此它们被包括在随后的处理和分析步骤中。

核酸标签

在一些实施方案中,核酸分子(来自多核苷酸样品)可以用样品索引和/或分子条形码(通常称为“标签”)加标签。标签可以通过化学合成、连接(例如,平末端连接或粘端连接)或重叠延伸聚合酶链式反应(PCR)等方法掺入或以其他方式连接到接头。这样的衔接子可以最终连接到靶核酸分子。在其他实施方案中,通常应用一轮或更多轮扩增循环(例如,PCR扩增)来使用常规核酸扩增方法将样品索引引入核酸分子。扩增可以在一种或更多种反应混合物中进行(例如,阵列中的多于一个微孔)。分子条形码和/或样品索引可以同时引入,或者以任何顺序引入。在一些实施方案中,在执行序列捕获步骤之前和/或之后引入分子条形码和/或样品索引。在一些实施方案中,在探针捕获之前仅引入分子条形码,并且在执行序列捕获步骤之后引入样品索引。在一些实施方案中,在执行基于探针的捕获步骤之前,分子条形码和样品索引都被引入。在一些实施方案中,在执行序列捕获步骤之后引入样品索引。在一些实施方案中,分子条形码通过连接(例如,平末端连接或粘端连接)通过衔接子掺入到样品中的核酸分子(例如,cfDNA分子)。在一些实施方案中,通过重叠延伸聚合酶链式反应(PCR)将样品索引掺入样品中的核酸分子(例如cfDNA分子)。典型地,序列捕获方案包括引入与靶向的核酸序列互补的单链核酸分子,例如基因组区域的编码序列,并且这样的区域的突变与癌症类型相关。

在一些实施方案中,标签可以位于样品核酸分子的一个末端或两个末端。在一些实施方案中,标签是预定的或随机的或半随机的序列寡核苷酸。在一些实施方案中,标签的长度可以小于约500个、200个、100个、50个、20个、10个、9个、8个、7个、6个、5个、4个、3个、2个或1个核苷酸。标签可以随机或非随机地连接至样品核酸。

在一些实施方案中,每个样品用样品索引或样品索引的组合独特地加标签。在一些实施方案中,样品或子样品的每个核酸分子用分子条形码或分子条形码的组合独特地加标签。在其他实施方案中,可以使用多于一个分子条形码,使得分子条形码在所述多于一个条形码中相对于彼此不必是独特的(例如,非独特分子条形码)。在这些实施方案中,分子条形码通常附接(例如,通过连接)至单独的分子,使得分子条形码与其可以附接的序列的组合产生可以被单独追踪的独特序列。非独特加标签的分子条形码的检测与内源序列信息(例如,对应于样品中原始核酸分子的序列的开始(起始)和/或结束(终止)部分、在一个或两个末端的序列读段的子序列、序列读段的长度和/或样品中原始核酸分子的长度)的组合通常允许将独特的身份指定至特定分子。单独的序列读段的长度或碱基对数目也任选地用于为给定分子指定独特身份。如本文描述的,来自已经指定了独特身份的核酸单链的片段可以从而允许随后识别来自亲本链和/或互补链的片段。

在一些实施方案中,以一组标识符(例如,独特或非独特分子条形码的组合)与样品中分子的预期比率引入分子条形码。一种示例格式使用约2至约1,000,000个不同的分子条形码,或约5至约150个不同的分子条形码,或约20至约50个不同的分子条形码,连接到靶分子的两个末端。可选地,可以使用约25至约1,000,000个不同的分子条形码。例如,可以使用20-50x 20-50个分子条形码。标识符的这样的数目是足够的,使得具有相同起点和终点的不同分子具有接收不同标识符组合的高概率(例如,至少94%、99.5%、99.99%或99.999%)。在一些实施方案中,约80%、约90%、约95%或约99%的分子具有相同的分子条形码组合。

在一些实施方案中,使用例如美国专利申请第20010053519、20030152490和20110160078号以及美国专利第6,582,908、7,537,898、9,598,731和9,902,992号中描述的方法和系统来执行反应中独特或非独特分子条形码的分配,其每一个通过引用以其整体特此并入。可选地,在一些实施方案中,可以仅使用内源序列信息(例如,起始和/或终止位置、序列一个末端或两个末端的子序列和/或长度)来鉴定样品的不同核酸分子。

核酸扩增

侧翼为衔接子的样品核酸通常通过PCR和其他扩增方法来扩增,所述其他扩增方法使用结合至待扩增的DNA分子侧翼的衔接子中的引物结合位点的核酸引物。在一些实施方案中,扩增方法包括由热循环引起的延伸、变性和退火的循环,或者可以是等温的,如在转录介导的扩增中。任选地使用的其他扩增示例性方法包括连接酶链式反应、链置换扩增、基于核酸序列的扩增和基于自我维持序列的复制等等。

通常应用一轮或更多轮扩增循环来使用常规核酸扩增方法将分子条形码和/或样品索引引入核酸分子。扩增通常在一种或更多种反应混合物中进行。分子条形码和样品索引任选地同时引入,或以任何顺序引入。在一些实施方案中,在执行序列捕获步骤之前和/或之后引入分子条形码和样品索引。在一些实施方案中,在探针捕获之前仅引入分子条形码,并且在执行序列捕获步骤之后引入样品索引。在某些实施方案中,在执行基于探针的捕获步骤之前,分子条形码和样品索引都被引入。在一些实施方案中,在执行序列捕获步骤之后引入样品索引。典型地,序列捕获方案包括引入与靶向的核酸序列互补的单链核酸分子,例如基因组区域的编码序列,并且这样的区域的突变与癌症类型相关。典型地,扩增反应产生多于一个非独特或独特加标签的核酸扩增子,其具有分子条形码和样品索引,大小的范围从约200个核苷酸(nt)到约700nt、从250nt到约350nt或从约320nt到约550nt。在一些实施方案中,扩增子具有约300nt的大小。在一些实施方案中,扩增子具有约500nt的大小。

核酸富集

在一些实施方案中,在对核酸测序之前富集序列。富集任选地针对特定靶区域来进行或非特异性地进行(“靶序列”)。在一些实施方案中,感兴趣的靶向区域可以用针对一个或更多个诱饵集组选择的核酸捕获探针(“诱饵”)使用差异性平铺和捕获方案(differential tiling and capture scheme)来富集。差异性平铺和捕获方案通常使用不同相对浓度的诱饵集在与诱饵相关的基因组区域中差异性平铺(例如,以不同的“分辨率”),经受一组限制(例如,测序仪限制,诸如测序载量、每种诱饵的效用等),并以下游测序所需的水平捕获靶向的核酸。这些感兴趣的靶向的基因组区域任选地包括核酸构建体的天然或合成核苷酸序列。在一些实施方案中,具有针对一个或更多个感兴趣区域的探针的生物素标记的珠可以用于捕获靶序列,并任选地随后扩增这些区域,以富集感兴趣区域。

序列捕获通常包括使用与靶核酸序列杂交的寡核苷酸探针。在某些实施方案中,探针集策略包括将探针平铺在感兴趣的区域内。这样的探针的长度可以在例如从约60个至约120个核苷酸。该集可以具有约2x、3x、4x、5x、6x、8x、9x、10x、15x、20x、50x或更大的深度。序列捕获的有效性通常部分地取决于靶分子中与探针序列互补(或几乎互补)的序列的长度。

核酸测序

在进行或不进行先前的扩增的情况下,任选地侧翼为衔接子的样品核酸通常经历测序。测序方法或任选地可使用的商业上可获得的格式包括例如,Sanger测序、高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(NGS)、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Ion Torrent、OxfordNanopore、Roche Genia、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent或Nanopore平台的测序。测序反应可以在各种样品处理单元中进行,样品处理单元可包括多通路、多通道、多孔或基本上同时处理多于一个样品集的其他装置。样品处理单元还可以包括多于一个样品室,使得能够同时处理多于一个运行。

测序反应可以对已知包含癌症或其他疾病的标志物的一种或更多种核酸片段类型或区域进行。测序反应也可以对样品中存在的任何核酸片段进行。测序反应可以对基因组的至少约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%进行。在其他情况下,测序反应可以对基因组的小于约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%进行。

同时测序反应可以使用多重测序技术进行。在一些实施方案中,用至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸测序。在其他实施方案中,无细胞多核苷酸用少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应来测序。测序反应通常顺序地或同时地进行。随后的数据分析通常对所有或部分测序反应进行。在一些实施方案中,对至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。在其他实施方案中,对少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。示例性的读段深度为每位点(碱基位置)约1000至约50000个读段。

在一些实施方案中,核酸群体被制备用于通过在一个末端或两个末端具有单链突出端的双链核酸上酶促形成平末端进行测序。在这些实施方案中,通常用具有5’-3’DNA聚合酶活性和3’-5’核酸外切酶活性的酶在核苷酸(例如,A、C、G和T或U)的存在下处理群体。任选地使用的示例性酶或其催化片段包括Klenow大片段和T4聚合酶。在5’突出端处,酶通常延伸相对链上凹进的3’末端,直到它与5’末端齐平,产生平末端。在3’突出端处,酶通常从3’末端消化直到相对链的5’末端,并且有时超过5’末端。如果这种消化进行到超过相对链的5’末端,空位可以被具有与用于5’突出端相同的聚合酶活性的酶填充。双链核酸上平末端的形成有利于例如衔接子的附接和随后的扩增。

在一些实施方案中,核酸群体经受另外的处理,诸如单链核酸向双链的转化和/或RNA向DNA的转化。这些形式的核酸还任选地连接到衔接子并被扩增。

在有或没有预先扩增的情况下,可以对经历上述形成平末端过程的核酸以及任选地样品中的其他核酸测序,以产生测序的核酸。测序的核酸可以指核酸的序列(即序列信息)或其序列已经确定的核酸。可以进行测序,以从样品中单个核酸分子的扩增产物的共有序列直接或间接提供样品中单个核酸分子的序列数据。

在一些实施方案中,在平末端形成后,样品中具有单链突出物的双链核酸在两个末端被连接到包括分子条形码的衔接子,并且测序确定核酸序列以及由衔接子引入的分子条形码。平末端的DNA分子任选地与至少部分双链的衔接子(例如,Y形衔接子或钟形衔接子)的平末端连接。可选地,样品核酸和衔接子的平末端可以用互补核苷酸加尾,以便于连接(用于例如,粘性末端连接)。

核酸样品通常与足够数目的衔接子接触,使得相同核酸的任何两个拷贝从两个末端连接的衔接子接收到衔接子条形码(即分子条形码)的相同组合的概率低(例如,<1或0.1%)。以这种方式使用衔接子允许鉴定参考核酸上具有相同起始点和终止点并且连接至分子条形码的相同组合的核酸序列的家族。这样的家族代表扩增前样品中核酸的扩增产物的序列。通过平末端形成和衔接子附接修饰,家族成员的序列可以被编译以获得原始样品中核酸分子的一个或多于一个共有核苷酸或完整共有序列。换言之,占据样品中核酸的指定位置的核苷酸被确定为占据家族成员序列中相应位置的共有核苷酸。家族可以包括双链核酸的一条或两条链的序列。如果家族的成员包括来自双链核酸的两条链的序列,出于编译所有序列以获得一个或更多个共有核苷酸或序列的目的,一条链的序列被转化为它们的互补序列。一些家族仅包括单个成员序列。在这种情况下,该序列可以作为扩增前样品中核酸的序列被获取。可选地,仅具有单个成员序列的家族可以从随后的分析消除。

测序的核酸中的核苷酸变异可以通过将测序的核酸与参考序列比较来确定。参考序列通常是已知序列,例如,来自受试者的已知全基因组或部分基因组序列(例如人类受试者的全基因组序列)。参考序列可以是例如hG19或hG38。如上文描述的,测序的核酸可以代表样品中的核酸的直接确定的序列,或这样的核酸的扩增产物的共有序列。可以在参考序列上的一个或更多个指定的位置处进行比较。当相应的序列最大程度地对齐时,可以鉴定测序的核酸的子集,包括与参考序列的指定的位置相对应的位置。在这样的子集内,可以确定哪些(如果有的话)测序的核酸在指定的位置处包括核苷酸变异,以及任选地哪些(如果有的话)包括参考核苷酸(即,与参考序列中的相同)。如果子集中包括核苷酸变体的测序的核酸的数目超过选择的阈值,那么变体核苷酸可以在指定的位置处被调用。阈值可以是单纯的数值,诸如包括核苷酸变体的子集内的至少1个、2个、3个、4个、5个、6个、7个、8个、9个或10个测序的核酸,或者它可以是比率,诸如包括核苷酸变体的子集内的至少0.5个、1个、2个、3个、4个、5个、10个、15个或20个测序的核酸,以及其他可能性。可以对参考序列中任何感兴趣的指定的位置重复比较。有时可以对占据参考序列上至少约20个、100个、200个或300个连续位置例如,约20-500个或约50-300个连续位置处的指定的位置进行比较。

关于核酸测序的另外细节,包括本文描述的格式和应用,也在例如以下中提供:Levy等人,Annual Review of Genomics and Human Genetics,17:95-115(2016),Liu等人,J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1-11(2012),Voelkerding等人,Clinical Chem.,55:641-658(2009),MacLean等人,NatureRev.Microbiol.,7:287-296(2009),Astier等人,J Am Chem Soc.,128(5):1705-10(2006),美国专利第6,210,891号,美国专利第6,258,568号,美国专利第6,833,246号,美国专利第7,115,400号,美国专利第6,969,488号,美国专利第5,912,148号,美国专利第6,130,073号,美国专利第7,169,560号,美国专利第7,282,337号,美国专利第7,482,120号,美国专利第7,501,245号,美国专利第6,818,395号,美国专利第6,911,345号,美国专利第7,501,245号,美国专利第7,329,492号,美国专利第7,170,050号,美国专利第7,302,146号,美国专利第7,313,308号,和美国专利第7,476,503号,其均通过引用以其整体并入。

比较器结果

根据本申请中公开的方法确定的给定受试者的调整的肿瘤突变负荷(TMB),通常与来自参考群体的比较器结果(例如,TMB)的数据库进行比较,以为该受试者鉴定定制的或靶向治疗。在一些实施方案中,测试受试者的TMB和比较器TMB在例如整个基因组或整个外显子组中测量,而在其他实施方案中,这些TMB基于例如基因组或外显子组的子集或靶向区域测量,这些子集或靶向区域任选地被外推以确定整个基因组或整个外显子组的TMB。通常,参考群体包括与测试受试者具有相同癌症类型的患者和/或正在接受或已经接受与测试受试者相同治疗的患者。在一些实施方案中,通过确定预定或选择的一组基因或基因组区域中的突变计数或负荷来测量测试受试者TMB和比较器TMB。任选地选择基本上任何基因(例如致癌基因)用于这种分析。在这些实施方案的一些中,选择的基因或基因组区域包括至少约50、100、200、300、400、500、600、700、800、900、1000、1,500、2,000或更多个选择的基因或基因组区域。在这些实施方案的某些中,选择的基因或基因组区域任选地包括表1中列出的一个或更多个基因。

表1

在某些实施方案中,选择的基因或基因组区域任选地包括表2中列出的一个或更多个基因。

表2

癌症

在某些实施方案中,本文公开的方法和系统用于鉴定定制治疗以治疗患者的给定疾病或状况。通常,所考虑的疾病是一种癌症。这种癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生性癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠直肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑色素瘤、葡萄膜黑色素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓细胞白血病(CML)、慢性髓单核细胞白血病(CMML)、肝癌、肝上皮癌、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞性淋巴瘤/白血病、外周T细胞淋巴瘤、多发性骨髓瘤、鼻咽癌(NPC)、成神经细胞瘤、口腔癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、腺泡细胞癌、前列腺癌、前列腺腺癌、皮肤癌、黑色素瘤、恶性黑色素瘤、皮肤黑色素瘤、小肠癌、胃癌、胃上皮癌、胃肠间质瘤(GIST)、子宫癌或子宫肉瘤。

定制治疗和相关施用

在一些实施方案中,本文公开的方法涉及鉴定并向具有给定的调整的TMB的患者施用定制治疗。基本上任何癌症治疗(例如,外科治疗、放射治疗、化疗等等)被包括作为这些方法的部分。通常,定制治疗包括至少一种免疫治疗(或免疫治疗剂)。免疫治疗通常指增强针对给定癌症类型的免疫应答的方法。在某些实施方案中,免疫治疗是指增强针对肿瘤或癌症的T细胞应答的方法。

在一些实施方案中,免疫治疗或免疫治疗剂靶向免疫检查点分子。某些肿瘤能够通过选择免疫检查点途径来逃避免疫系统。因此,靶向免疫检查点已经成为对抗肿瘤逃避免疫系统的能力和激活针对某些癌症的抗肿瘤免疫的有效方法。Pardoll,Nature ReviewsCancer,2012,12:252-264。

在某些实施方案中,免疫检查点分子是抑制性分子,其减少T细胞对抗原的应答中涉及的信号。例如,CTLA4在T细胞上表达,并通过结合抗原呈递细胞上的CD80(又名B7.1)或CD86(又名B7.2)在下调T细胞活化中起作用。PD-1是另一种在T细胞上表达的抑制性检查点分子。PD-1在炎性应答期间限制外周组织中T细胞的活性。此外,PD-1的配体(PD-L1或PD-L2)通常在许多不同肿瘤的表面上上调,导致肿瘤微环境中抗肿瘤免疫应答的下调。在某些实施方案中,抑制性免疫检查点分子是CTLA4或PD-1。在其他实施方案中,抑制性免疫检查点分子是PD-1的配体,诸如PD-L1或PD-L2。在其他实施方案中,抑制性免疫检查点分子是CTLA4的配体,诸如CD80或CD86。在其他实施方案中,抑制性免疫检查点分子是淋巴细胞活化基因3(LAG3)、杀伤细胞免疫球蛋白样受体(KIR)、T细胞膜蛋白3(TIM3)、半乳凝素9(GAL9)或腺苷A2a受体(A2aR)。

靶向这些免疫检查点分子的拮抗剂可用于增强针对某些癌症的抗原特异性T细胞应答。因此,在某些实施方案中,免疫治疗或免疫治疗剂是抑制性免疫检查点分子的拮抗剂。在某些实施方案中,抑制性免疫检查点分子是PD-1。在某些实施方案中,抑制性免疫检查点分子是PD-L1。在某些实施方案中,抑制性免疫检查点分子的拮抗剂是抗体(例如,单克隆抗体)。在某些实施方案中,抗体或单克隆抗体是抗CTLA4、抗PD-1、抗PD-L1或抗PD-L2抗体。在某些实施方案中,抗体是单克隆抗PD-1抗体。在某些实施方案中,抗体是单克隆抗PD-L1抗体。在某些实施方案中,单克隆抗体是抗CTLA4抗体和抗PD-1抗体、抗CTLA4抗体和抗PD-L1抗体、或抗PD-L1抗体和抗PD-1抗体的组合。在某些实施方案中,抗PD-1抗体是pembrolizumab

在某些实施方案中,免疫治疗或免疫治疗剂是针对CD80、CD86、LAG3、KIR、TIM3、GAL9、TIGIT或A2aR的拮抗剂(例如抗体)。在其他实施方案中,拮抗剂是抑制性免疫检查点分子的可溶性形式,诸如包含抑制性免疫检查点分子的细胞外结构域和抗体的Fc结构域的可溶性融合蛋白。在某些实施方案中,可溶性融合蛋白包含CTLA4、PD-1、PD-L1或PD-L2的细胞外结构域。在一些实施方案中,可溶性融合蛋白包含CD80、CD86、LAG3、KIR、TIM3、GAL9或A2aR的细胞外结构域。在一种实施方案中,可溶性融合蛋白包含PD-L2或LAG3的细胞外结构域。

在某些实施方案中,免疫检查点分子是共刺激分子,其放大T细胞对抗原的应答中涉及的信号。例如,CD28是一种在T细胞上表达的共刺激受体。当T细胞通过其T细胞受体与抗原结合时,CD28与抗原呈递细胞上的CD80(又名B7.1)或CD86(又名B7.2)结合,以放大T细胞受体信号传导并促进T细胞活化。因为CD28与CTLA4结合相同的配体(CD80和CD86),CTLA4能够抵消或调节由CD28介导的共刺激信号传导。在某些实施方案中,免疫检查点分子是选自CD28、诱导性T细胞共刺激因子(ICOS)、CD137、OX40或CD27的共刺激分子。在其他实施方案中,免疫检查点分子是包括例如CD80、CD86、B7RP1、B7-H3、B7-H4、CD137L、OX40L或CD70的共刺激分子的配体。

靶向这些共刺激检查点分子的激动剂可用于增强针对某些癌症的抗原特异性T细胞应答。因此,在某些实施方案中,免疫治疗或免疫治疗剂是共刺激检查点分子的激动剂。在某些实施方案中,共刺激检查点分子的激动剂是激动剂抗体,并且优选地是单克隆抗体。在某些实施方案中,激动剂抗体或单克隆抗体是抗CD28抗体。在其他实施方案中,激动剂抗体或单克隆抗体是抗ICOS、抗CD137、抗OX40或抗CD27抗体。在其他实施方案中,激动剂抗体或单克隆抗体是抗CD80、抗CD86、抗B7RP1、抗B7-H3、抗B7-H4、抗CD137L、抗OX40L或抗CD70抗体。

在某些实施方案中,本文所述的定制治疗通常肠胃外(例如,静脉内或皮下)施用。含有免疫治疗剂的药物组合物通常静脉内施用。某些治疗剂口服施用。然而,定制治疗(例如,免疫治疗剂等)也可以通过本领域已知的任何方法施用,包括例如口腔施用、舌下施用、直肠施用、阴道施用、尿道内施用、局部施用、眼内施用、鼻内施用和/或心房内施用,这些施用可以包括片剂、胶囊、颗粒、水性悬浮液、凝胶、喷雾剂、栓剂、药膏(salves)、软膏(ointments)等。

系统和计算机可读介质

本公开内容还提供了各种系统和计算机程序产品或机器可读介质。例如,在一些实施方案中,至少部分地使用系统、分布式计算硬件和应用(例如,云计算服务)、电子通信网络、通信接口、计算机程序产品、机器可读介质、电子存储介质、软件(例如,机器可执行代码或逻辑指令)等来任选地执行或促进本文描述的方法。为了说明,图2提供了适合用于实现本申请中公开的方法的至少一些方面的示例性系统的示意图。如图所示,系统200包括至少一个控制器或计算机,例如服务器202(例如搜索引擎服务器),其包括处理器204和存储器、存储设备或存储器组件206,以及位于远离远程服务器202的位置,并通过电子通信网络212(诸如因特网或其他互联网络)与远程服务器202通信的一个或更多个其他通信设备214和216(例如客户端计算机终端、电话、平板电脑、笔记本电脑、其他移动设备等)。通信设备214和216通常包括通过网络212与例如服务器202计算机通信的电子显示器(例如,支持互联网的计算机等),其中该电子显示器包括用于在实现本文描述的方法时显示结果的用户界面(例如,图形用户界面(GUI)、基于网络的用户界面等)。在某些实施方案中,通信网络还包括例如使用硬盘驱动器、拇指驱动器或其他数据存储机制将数据从一个位置物理传输到另一个位置。系统200还包括存储在计算机或机器可读介质上的程序产品208,诸如例如一个或更多个各种类型的存储器,诸如服务器202的存储器206,其可由服务器202读取,以便于例如引导搜索应用或可由一个或更多个其他通信设备诸如214(示意性地示出为台式或个人计算机)和216(示意性地示出为平板计算机)执行的其他应用。在一些实施方案中,系统200任选地还包括至少一个数据库服务器,诸如例如,与在线网站相关联的服务器210,该在线网站具有存储在其上的数据(例如,对照样品或比较器结果数据、索引定制治疗等),可直接或通过搜索引擎服务器202搜索。系统200任选地还包括一个或更多个远离服务器202放置的其他服务器,每个服务器任选地与一个或更多个远离或位于每个其他服务器本地的数据库服务器210相关联。其他服务器可以有益地向地理上远程的用户提供服务,并增强地理上分布式的操作。

如本领域普通技术人员所理解的,服务器202的存储器206任选地包括易失性和/或非易失性存储器,包括例如RAM、ROM和磁盘或光盘等。本领域的普通技术人员还应当理解,尽管被示为单个服务器,但是所示的服务器202的配置仅作为示例给出,并且也可以使用根据各种其他方法或架构配置的其他类型的服务器或计算机。图2中示意性示出的服务器202代表服务器或服务器集群(server cluster)或服务器场(server farm),并且不限于任何单独的物理服务器。服务器站点可以部署为由服务器托管提供商管理的服务器场或服务器集群。服务器的数量及其架构和配置可以基于系统200的使用、需求和容量要求而增加。如本领域普通技术人员也理解的,这些实施方案中的其他用户通信设备214和216例如可以是笔记本电脑、台式电脑、平板电脑、个人数字助理(PDA)、手机、服务器或其他类型的计算机。如本领域普通技术人员所知和理解的,网络212可以包括因特网、内联网、远程通信网络、外联网或多于一个计算机/服务器的万维网,这些计算机/服务器通过通信网络与一个或更多个其他计算机通信,和/或本地网或其他局域网的部分。

如本领域普通技术人员进一步理解的,示例性程序产品或机器可读介质208任选地是微码、程序、云计算格式、例程(routines)和/或符号语言的形式,其提供一组或更多组有序操作,这些有序操作控制硬件的功能并指导其操作。根据示例性实施方案,程序产品208也不需要全部驻留在易失性存储器中,而是可以根据本领域普通技术人员已知和理解的各种方法,根据需要选择性地加载。

如本领域普通技术人员进一步理解的,术语“计算机可读介质”或“机器可读介质”是指参与向处理器提供指令以供执行的任何介质。为了说明,术语“计算机可读介质”或“机器可读介质”包括分发介质、云计算格式、中间存储介质、计算机的执行存储器以及能够存储实现本公开内容的各种实施方案的功能或过程的程序产品608的任何其他介质或设备,例如,用于由计算机读取。“计算机可读介质”或“机器可读介质”可以采取许多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘。易失性介质包括动态存储器,诸如给定系统的主存储器。传输介质包括同轴电缆、铜线和光纤,包括构成总线的导线。传输介质也可以采用声波或光波的形式,诸如在无线电波和红外数据通信等期间产生的声波或光波。计算机可读介质的示例形式包括软盘(floppy disk)、软性磁盘(flexible disk)、硬盘、磁带、闪存盘或任何其他磁介质、CD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔模式的任何其他物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、载波、或者计算机可以从其读取的任何其他介质。

程序产品208任选地从计算机可读介质复制到硬盘或类似的中间存储介质。当要运行程序产品208或其部分时,它任选地从它们的分发介质、它们的中间存储介质等加载到一个或更多个计算机的执行存储器中,配置计算机以根据各种实施方案的功能或方法来操作。所有这类操作是例如计算机系统领域普通技术人员熟知的。

为了进一步说明,在某些实施方案中,本申请提供了包括一个或更多个处理器以及与处理器通信的一个或更多个存储器组件的系统。存储器组件通常包括一个或更多个指令,这些指令在被执行时使得处理器提供信息,该信息使得至少一个突变计数、调整的结果/TMB、比较器结果、定制治疗等被显示(例如,经由通信设备214、216等)和/或从其他系统组件和/或从系统用户接收信息(例如,经由通信设备214、216等)。

在一些实施方案中,程序产品208包括非暂时性计算机可执行指令,当由电子处理器204执行时,该指令至少进行:(i)根据从受试者的样品中的一种或更多种核酸获得的序列信息确定观察到的突变计数,(ii)确定肿瘤分数和/或核酸的覆盖率以生成测序参数,(iii)在给定测序参数的情况下确定预期突变分数和/或预期突变分数的预期分布,以生成预期结果,(iv)在给定预期结果的情况下调整观察到的突变计数,以生成调整的结果从而检测受试者中的肿瘤突变负荷(TMB);以及任选地(v)将调整的结果与一个或更多个比较器结果进行比较,其中调整的结果和比较器结果之间的实质匹配指示受试者对治疗的预测响应。

系统200通常还包括被配置成执行本文描述的方法的各个方面的另外系统组件。在这些实施方案的一些中,这些另外系统组件中的一个或更多个远离远程服务器202,并通过电子通信网络212与远程服务器202通信,而在其他实施方案中,这些另外系统组件中的一个或更多个位于本地,并与服务器202通信(即,在没有电子通信网络212的情况下),或者直接与例如台式计算机214通信。

在一些实施方案中,例如,包括样品制备组件218的另外系统组件可操作地连接(直接或间接(例如,通过电子通信网络212))到控制器202。样品制备组件218被配置成制备样品中的核酸(例如,制备核酸文库),以通过核酸扩增组件(例如,热循环仪等)和/或核酸测序仪进行扩增和/或测序。在这些实施方案的某些中,样品制备部件218被配置为从样品中的其他组分分离核酸,将包含分子条形码的一个或更多个衔接子连接到本文所述的核酸,在测序之前选择性地富集来自基因组或转录组的一个或更多个区域,等等。

在某些实施方案中,系统200还包括可操作地连接(直接或间接(例如,通过电子通信网络212))到控制器202的核酸扩增组件220(例如,热循环仪等)。核酸扩增组件220被配置成扩增来自受试者的样品中的核酸。例如,核酸扩增组件220任选地被配置成扩增从本文所述的样品中的基因组或转录组选择性地富集的区域。

系统200通常还包括至少一个核酸测序仪222,其可操作地连接(直接或间接(例如,通过电子通信网络212))到控制器202。核酸测序仪222被配置为提供来自受试者样品中的核酸(例如,扩增的核酸)的序列信息。基本上任何类型的核酸测序仪可以适用于这些系统。例如,核酸测序仪222任选地被配置为对核酸进行焦磷酸测序、单分子测序、纳米孔测序、半导体测序、合成测序、连接测序、杂交测序或其他技术以生成测序读段。任选地,核酸测序仪222被配置成将序列读段分组为序列读段家族,每个家族包括从给定样品中的核酸生成的序列读段。在一些实施方案中,核酸测序仪222使用来源于测序文库的克隆单分子阵列来生成测序读段。在某些实施方案中,核酸测序仪222包括至少一个芯片,该芯片具有用于对测序文库进行测序以产生测序读段的微孔阵列。

为了便于完全或部分系统自动化,系统200通常还包括可操作地连接(直接或间接(例如,通过电子通信网络212))到控制器202的材料转移组件224。材料转移组件224被配置成将一种或更多种材料(例如,核酸样品、扩增子、试剂等)转移到核酸测序仪222、样品制备组件218和核酸扩增组件220和/或从其转移。

与计算机系统和网络、数据库和计算机程序产品相关的另外细节也在例如以下中提供:Peterson,Computer Networks:A Systems Approach,Morgan Kaufmann,5th Ed.(2011),Kurose,Computer Networking:A Top-Down Approach,Pearson,7

免疫谱库测序

除了本文所述的TMB分析,本申请还提供了针对免疫谱库测序的方法。免疫受体(T细胞的T细胞受体(TCR)、B细胞的免疫球蛋白(Ig))是这些淋巴细胞(健康人体内超过10

为了进一步说明,图3提供了流程图,该流程图示意性地描绘了根据本公开内容的一些实施方案,进行无细胞核酸测序(具有TMB分析)与来自相同样品的免疫谱库测序联合的示例性方法步骤。如图所示,方法300包括从受试者获得测试样品(例如,血液样品)。测试样品经历分离或提取步骤以产生包含无细胞核酸的血浆级分和包含淋巴细胞的血沉棕黄层级分。在所描述的实施方案中,血浆样品部分中的ctDNA经历基于ProK的提取步骤,作为鉴定ctDNA中的突变或变异的过程的一部分。任选地,该方法包括靶向组和甲基结合结构域(MBD)分配步骤。例如,在2017年12月22日提交的WO 2018/119452中描述了关于任选地适用于进行本文公开的方法的表观遗传修饰分析的另外细节,该文献通过引用并入。如图所示,ctDNA分析还包括各种文库制备(末端修复、连接、聚合酶链式反应(PCR)扩增等)和富集步骤。方法300包括TCR克隆分型测定,其包括基因组DNA(gDNA)提取步骤、文库制备步骤(例如,TCR加条形码、净化、多重巢式PCR以及进一步的净化和定量步骤)。还如图所示,示例性方法300包括对TCR克隆分型测定任选添加或替代地,免疫受体发现测定/血液癌症检测和最小残留疾病(MRD)测定,其包括RNA提取、逆转录和模板切换,以及净化步骤以及各种PCR和净化步骤。方法300的各种测定的产物被汇集、测序,并通过本文所述的生物信息学管道(BIP)进一步分析。样品制备方法的进一步描述,包括PCR步骤,显示在图4A和图4B中,分别用于TCR克隆分型测定和免疫受体发现测定。

为了进一步举例说明,图5示意性地描绘了方法500,其包括血液样品的血沉棕黄层和血浆部分的分析。如图所示,血沉棕黄层分析包括评价克隆造血(例如,“不确定潜能的克隆造血”或“CHIP”)突变的免疫谱库和其他免疫基因,其通过本文所述的生物信息学管道进一步评价。测定包括评价T细胞受体(TCR)和B细胞受体(BCR)克隆型和评估克隆扩增或新抗原受体。至于样品的血浆部分,使用本文所述的生物信息学管道评价ctDNA文库,包括从样品的血沉棕黄层样品级分获得的CHIP相关信息。作为血浆样品级分评价的一部分,评估单核苷酸变体(SNV)、微卫星不稳定性(MSI)和融合以生成TMB评分。同样如图所示,收集的数据可用于关联突变,以鉴定两种描述的测定途径之间的新抗原孤儿受体。同样如图所示,两种描述的测定途径的结果也用于生成用于鉴定可能的免疫治疗响应的改进评分。

在一些实施方案中,例如,使用标准试剂盒(例如,可从Qiagen或其他供应商市售获得)对血沉棕黄层进行基因组DNA分离,然后用两个巢式PCR来富集扩增子,所述扩增子靶向高度可变区诸如CDR3外的TCR和β亚基。两个PCR中的第二个涉及不仅扩增TCR gDNA,而且还添加部分衔接子用于测序(例如,SP5和SP7衔接子)的引物。在该示例性实施方案中,在最后的第三个“索引”PCR中使用这些部分衔接子,以将全长P5和P7寡核苷酸添加到所需的TCR扩增子,产生可在例如Illumina测序仪上测序的文库。

实施例

实施例1:在具有较低肿瘤分数和较低覆盖率的样品中调整TMB评分

将具有已知的高肿瘤分数和高覆盖率的患者样品的等分试样用非肿瘤cfDNA(即正常cfDNA)稀释3至4倍,以获得较低肿瘤分数和较低覆盖率的样品。处理稀释后的样品,并使用由Guardant Health,Inc.(Redwood City,CA)开发的基于血液的DNA测定进行分析。从生物信息学分析估计突变计数,并且应用TMB校正模型来确定校正的TMB评分。稀释样品的观察到的突变计数、最大MAF和覆盖率被提供作为输入参数。该模型估计了预期突变分数(f)、预期突变分数的95%置信水平的上限(f

表3

实施例2:六种实体瘤类型中基于ctDNA的肿瘤突变负荷的景观和基因组相关性

引言

肿瘤突变负荷(TMB)是响应免疫检查点抑制剂(ICI)治疗的预测性生物标志物。当前基于组的TMB算法聚集来自某些类型的体细胞变体(例如,非同义编码SNV)的信号。因为许多TMB高的患者对ICI不响应,所以研究了另外的变体类型和其他基因组相关性是否会改进TMB的计算。此外,血浆TMB相对于组织提高了可报告的TMB结果的产量,但可能低估了低肿瘤DNA脱落者的TMB。本实施例采用了另外的基因组特征和低DNA脱落的调整,通过研究多于一种癌症类型的数千个样品,利用在高灵敏度500基因cfDNA测序平台(大组测定)上的运行,改进了TMB算法。

方法

开发了一种基于cfDNA的TMB算法,该算法对可变的肿瘤脱落水平是稳健的。在涉及六种实体肿瘤类型,包括肺、结肠直肠和前列腺的超过1,000份血浆样品中对基于cfDNA的TMB进行了评估。检查了沉默的SNV和插入缺失对TMB评分的贡献。研究了TMB肿瘤类型、患者种族和肺肿瘤分子亚型之间的相关性。最后,还研究了TMB的景观和其他基因组特征:亚克隆性、染色体不稳定性和微卫星不稳定性(MSI)。表4中提供了关于大组测定的另外细节。此外,本实施例中使用的TMB工作流程在图7示意地描绘。

表4:500基因cfDNA测序平台(大组测定)

结果

1.大组测定性能

表5提供了基于30ng cfDNA输入的大组测定的分析验证性能和规格的总结。

表5

*分析灵敏度范围取决于靶向区域的临床相关性。这些区域之外或高度重复序列环境中的灵敏度可能变化。

**基于每个样品体细胞变体的预期数目的每个变体PPV。

体细胞/种系状态使用偏离局部种系突变等位基因分数的β二项式统计模型来确定,这在例如Nance等人(2018)A novel approach to differentiate somaticvs.germline variants in liquid biopsies using a betabinomialmodel.AACR.Poster 4272中进一步描述,其通过引用并入。这种方法不依赖于普通种系突变的数据库(例如dbSNP)。

2.基于组的TMB的组成部分

图8A、图8B和图8C是显示与非同义编码SNV相关的突变类型的图:在整个队列中,(图8A)同义SNV,(图8B)插入缺失和(图8C)内含子SNV与非同义编码SNV相关(Pearson’s r=0.90、0.71、0.89)。突变计数的可变性(箱线图)符合基于样品特异性突变率的预期(黑线:粗:中值,细:IQR)。

3.调整的血浆TMB很大程度上独立于输入

图9A-图9D是显示以下的图:大组测定肿瘤脱落校正消除了突变计数对(图9A)肿瘤脱落和(图9B)输入cfDNA的依赖性,导致血浆肿瘤突变负荷(pTMB)在很大程度上独立于这些输入度量(图9C和图9D)。图9A和图9B显示了肿瘤脱落(近似为最大体细胞MAF(最大MAF))或输入体积(导致分子覆盖率)的各箱的突变计数分布。图9C和图9D显示了校正后相同箱的TMB评分。小提琴图显示中值和四分位数范围(IQR)。黑线显示中值趋势。

4.跨肿瘤类型的TMB

图10A和图10B是显示TMB在整个队列中和在肿瘤类型之间的分布的图:(图10A)在整个队列中,TMB评分呈长尾分布,与以前在基于组织和血浆的TMB中的观察结果匹配,肿瘤类型的中值为10muts/Mb,上三分位数为14muts/Mb(黑线)。图10B显示,中值TMB在结肠直肠癌、肺癌和前列腺癌样品之间变化,其趋势与以前基于组织的观察结果一致。

5.TMB独立于种族

图11A和图11B是显示TMB中值在种族之间没有变化的图:使用常见种系突变的主成分分析(PCA)对样品进行聚类,以定义基于种族的聚类。聚类使用一组已知种族的样品进行标记(亚洲人/太平洋岛人(Asian/Pacific Islander):A;黑人/非裔美国人:B,白种人:W)。对于每个基于种族的聚类,随机选择23个肿瘤类型匹配的样品。图11A显示了PCA聚类,并且图11B显示了TMB评分。与一些组织TMB管道不同,各聚类之间的TMB中值是恒定的(使用基于非参数取样的中值比较,A对比W:p=0.78,B对比W:0.77,A对比B:0.99)。

6.TMB与致癌突变的相关性

图12是显示肺样品中TMB(即基于血浆的TMB(pTMB))因驱动状态而异的图:在肺样品中,与所有肺肿瘤(12muts/Mb)相比,EGFR驱动的肺肿瘤和ALK驱动的肺肿瘤中的TMB中值较低(中值为8muts/Mb,对于中值的等同物p<0.01),而具有KRAS或PIK3CA热点突变的肿瘤中的TMB中值较高(14muts/Mb,p=0.04)。具有BRAF驱动的肺肿瘤具有的TMB中值与所有肺肿瘤相似(11muts/Mb,p=0.25)。STK11、KEAP1或PTEN中的功能丧失(LOF)突变是ICI响应的推定阴性预测因子。具有这些突变的肿瘤中的TMB中值(15muts/Mb,p<0.01)略高于所有肺肿瘤,表明这些后面的事件可能是TMB的独立临床生物标志物。

7.TMB景观具有可变克隆结构、染色体不稳定性和MSI-状态

图13A是显示体细胞突变的克隆性和染色体不稳定性在整个TMB景观高度可变的图:在队列中观察的TMB评分范围内,有一系列亚克隆突变分数。这通过肿瘤类型间100个随机选择的肿瘤样品来说明,按TMB评分排序,克隆突变(MAF≥样品最大MAF的10%)为黑色,并且亚克隆突变(定义为MAF<样品最大MAF的10%)为浅灰色。为亚克隆的全部突变的分数显示在下面的条中(黑色=高度克隆;浅灰色=高度亚克隆)。亚克隆分数与TMB评分不相关。类似地,染色体不稳定性,由检测到扩增的基因的数目(#CNV:显示在亚克隆分数之下)或为二倍体的组空间分数(二倍体分数:显示在(#CNV)之下)来衡量,与TMB评分不相关。图13B是显示在TMB-高样品的子集中检测到MSI-高的图表。

结论

基于组的TMB评分可以利用同义和非编码突变来增强外显子组范围突变负荷的信号。随着越来越多的患者结果数据变得可用,TMB算法和肿瘤基因组免疫原性的正交生物标志物将进一步发展,以改善患者对免疫治疗响应的指导。通过大的组空间对TMB具有高灵敏度,并且具有检测拷贝数变化和MSI状态的能力的测序组,对于生物标志物开发和临床应用将是重要的。

实施例3:使用TMB校正模型调整具有较低肿瘤分数和较低覆盖率的样品中的TMB评分

处理患者样品,并使用由Guardant Health,Inc.(Redwood City,CA)开发的基于血液的DNA测定进行分析。通过生物信息学分析,在该样品中鉴定出13个体细胞突变。在该实施方案中,只考虑了体细胞突变的SNV和插入缺失。在本实施方案中,在十三个体细胞突变中,三个被排除在观察到的突变计数之外,因为这三个突变中的两个是非肿瘤相关突变(例如克隆造血突变),并且另一个突变是驱动突变。样品的观察到的突变计数、最大MAF和覆盖率被提供作为TMB校正模型的输入参数。该模型估计了预期突变分数(f)、预期突变分数的95%置信水平的上限(f

表6

实施例4:未使用TMB校正模型评价的样品(肿瘤分数低)

处理患者样品,并使用由Guardant Health,Inc.(Redwood City,CA)开发的基于血液的DNA测定进行分析。通过生物信息学分析,在该样品中鉴定出一个体细胞突变。在本实施方案中,只有SNV和插入缺失被考虑为体细胞突变。此外,该样品的最大MAF被确定为0.1%。在本实施方案中,最大MAF被作为肿瘤分数。该样品的肿瘤分数低于肿瘤分数截止值。因此,该样品未使用TMB校正模型进行评价。表7进一步总结了本实施例的数据。

表7

尽管为了清楚和理解的目的,已经通过图示和示例的方式对前述公开内容进行了一些详细描述,但是本领域普通技术人员通过阅读本公开内容将会清楚,在不脱离本公开内容的真实范围的情况下,可以在形式和细节上进行各种改变,并且可以在所附权利要求的范围内实施。例如,所有方法、系统、计算机可读介质和/或组件特征、步骤、要素或其其他方面可以以各种组合使用。

本文引用的所有专利、专利申请、网站、其他出版物、登录号等为了所有目的通过引用以其整体并入,其程度如同每个单独的项目被具体并单独地指出通过引用并入。如果一个序列的不同版本在不同时间与一个登录号相关联,则意指在本申请的有效申请日与该登录号相关联的版本。如果适用,有效申请日意指实际申请日或提及该登录号的优先权申请的申请日中的较早者。同样,如果出版物、网站等的不同版本在不同时间公布,则意指在本申请的有效申请日最近公布的版本,除非另外指示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号