首页> 中国专利> 用于评估和/或治疗癌症的无细胞DNA

用于评估和/或治疗癌症的无细胞DNA

摘要

本发明是有关用于评估、监测和/或治疗患有癌症的哺乳动物(例如人)的方法和材料。例如,提供了用于识别哺乳动物患有癌症(例如,局部癌症)的方法和材料。例如,提供了用于评估、监测和/或治疗患有癌症的哺乳动物的方法和材料。

著录项

说明书

相关申请

本申请主张2018年5月18日提交的美国专利申请62/673,516的优先权以及2019年1月23日提交的美国专利申请62/795,900的优先权,先前申请案的公开被认为是本申请的公开的一部分(并且通过引用并入本文)。

政府授权

本发明是在美国国立卫生研究院(National Institutes of Health)许可号CA121113的政府支持下完成的。美国政府拥有本发明的特定权利。

技术领域

本发明涉及用于评估和/或治疗患有癌症的哺乳动物(例如人)的方法和材料。例如,本发明提供了用于鉴定哺乳动物患有癌症(例如,局部癌症)的方法和材料。例如,本发明提供了用于监测和/或治疗患有癌症的哺乳动物的方法和材料。

背景技术

全世界人类癌症多数的发病率和死亡率是疾病的晚期诊断造成的结果,对于这些疾病的治疗效果较差(Torre et al.,2015 CA Cancer J Clin 65:87;and World HealthOrganization,2017 Guide to Cancer Early Diagnosis)。不幸的是,可用于广泛诊断和治疗患者的经临床验证的生物标记物尚未广泛获得(Mazzucchelli,2000 Advances inclinical pathology 4:111;Ruibal Morell,1992The International journal ofbiological markers 7:160;Galli et al.,2013 Clinical chemistry and laboratorymedicine 51:1369;Sikaris,2011 Heart,lung&circulation 20:634;Lin et al.,2016in Screening for Colorectal Cancer:A Systematic Review for the U.S.PreventiveServices Task Force.(Rockville,MD);Wanebo et al.,1978N Engl J Med 299:448;andZauber,2015 Dig Dis Sci 60:681)。

发明内容

对于无细胞DNA的最新分析显示此类方法可能为早期诊断提供新途径(Phallenet al.,2017 Sci Transl Med 9;Cohen et al.,2018 Science 359:926;Alix-Panabieres et al.,2016 Cancer discovery 6:479;Siravegna et al.,2017 Naturereviews.Clinical oncology 14:531;Haber et al.,2014 Cancer discovery 4:650;Husain et al.,2017 JAMA 318:1272;and Wan et al.,2017Nat Rev Cancer 17:223)。

本发明提供了用于确定哺乳动物(例如,从哺乳动物获得的样品中)的无细胞DNA(cfDNA)片段图谱的方法和材料。在某些情况下,确定哺乳动物中的cfDNA片段图谱可用于鉴定哺乳动物是否患有癌症。例如,可以将从哺乳动物(例如,从哺乳动物获得的样品)获得的cfDNA片段进行低覆盖度全基因组测序,并且可以将测序的片段作图到基因组(例如,在非重叠窗口中)并进行评估以确定cfDNA片段图谱。本发明还提供了用于评估和/或治疗患有或怀疑患有癌症的哺乳动物(例如人)的方法和材料。在某些情况下,本发明提供了鉴定哺乳动物患有癌症的方法和材料。例如,可以基于(至少一部分基于)cfDNA片段图谱评估从哺乳动物获得的样品(例如血液样品)以确定哺乳动物是否患有癌症。在某些情况下,本发明提供了用于监测和/或治疗患有癌症的哺乳动物的方法和材料。例如,可以将一种或多种癌症治疗给予被鉴定为患有癌症的哺乳动物(例如,基于或至少部分基于cfDNA片段图谱)以治疗该哺乳动物。

本说明书描述了一种用于癌症的早期检测和定位的非侵入性方法。血液中的cfDNA可以为癌症患者提供非侵入性的诊断途径。如本说明书所示,开发了“早期拦截片段的DNA评估”(DELFI),并用于评估236例乳腺癌、大肠癌、肺癌、卵巢癌、胰腺癌、胃癌或胆管癌个体以及245个健康个体的全基因组片段模式。这些分析表明,健康个体的cfDNA图谱反映了白血球细胞的核小体片段图谱,而癌症患者的片段图谱已改变。在7种癌症类型中,DELFI的检测灵敏度为57%至>99%,在七种癌症中的特异性为98%,并且在75%的病例中,可识别癌症的起源组织为几个限定的部位。评估cfDNA(例如,使用DELFI)可以提供用于早期检测癌症的筛选方法,这可以增加成功治疗癌症患者的机会。评估cfDNA(例如,使用DELFI)也可以提供监测癌症的方法,这可以增加成功治疗的机会并改善患有癌症的患者的治疗结果。另外,可以使用便宜的试剂和/或仪器自有限量的cfDNA获得cfDNA片段图谱。

一般而言,本说明书的一个面向的特征在于确定哺乳动物的cfDNA片段图谱的方法。所述方法可以包括或基本上由以下组成:将从哺乳动物获得的样品中获得的cfDNA片段加工成测序文库,对所述测序文库进行全基因组测序(例如,低覆盖度全基因组测序)以获得测序片段,对所述测序片段进行作图至基因组以获得作图序列的窗口,并且分析作图序列的窗口以确定cfDNA片段长度。作图序列可以包括数十到数千个窗口。作图序列的窗口可以是无重叠的窗口。作图序列的窗口可各自包含约500万个碱基对。cfDNA片段图谱可在每个窗口内确定。cfDNA片段图谱可包括中值片段大小。cfDNA片段图谱可包括片段大小分布。cfDNA片段图谱可以包括在作图序列窗口中小cfDNA片段与大cfDNA片段的比率。cfDNA片段图谱可以覆盖整个基因组。cfDNA片段图谱可以跨越亚基因组间隔(例如,染色体的一部分中的间隔)。

另一方面,本说明书的特征在于,用于鉴定患有癌症的哺乳动物的方法。所述方法可以包括或基本上由以下步骤组成:确定从哺乳动物获得的样品中的无细胞DNA(cfDNA)片段图谱,比较cfDNA片段图谱与参考cfDNA片段图谱,以及当从哺乳动物获得的cfDNA片段图谱与参考cfDNA片段图谱不同时将哺乳动物鉴定为患有癌症。参考cfDNA片段图谱可以是健康哺乳动物的cfDNA片段图谱。参考cfDNA片段图谱可以通过确定自健康哺乳动物获得的样品中的cfDNA片段图谱而产生。参考DNA片段化模式可以是参考核小体cfDNA的片段图谱。cfDNA片段图谱可包括中值片段大小,并且cfDNA片段图谱的中值片段大小可短于参考cfDNA片段图谱的中值片段大小。cfDNA片段图谱可以包括片段大小分布,并且cfDNA片段图谱的片段大小分布与参考cfDNA片段图谱的片段大小分布相比,可以相差至少10个核苷酸。cfDNA片段图谱可包含片段模式中位置相关的差异,包括小cfDNA片段与大cfDNA片段的比率,其中小cfDNA片段的长度可以是100个碱基对(bp)至150bp,大cfDNA片段的长度可以是151bp至220bp,并且cfDNA片段图谱中片段比例的相关性可能低于参考cfDNA片段图谱中片段比例的相关性。cfDNA片段图谱可包括整个基因组中小cfDNA片段,大cfDNA片段或大小两者的cfDNA片段的覆盖序列。癌症可以是结肠直肠癌,肺癌,乳腺癌,胆管癌,胰腺癌,胃癌和卵巢癌。比较的步骤可以包括在整个基因组的窗口中将cfDNA片段图谱与参考cfDNA片段图谱进行比较。比较的步骤可以包括在亚基因组间隔(例如,染色体的一部分中的间隔)内比较cfDNA片段图谱与参考cfDNA片段图谱。哺乳动物可事先进行过癌症治疗以治疗癌症。癌症治疗可以是手术,辅助化学疗法,新辅助化学疗法,放射疗法,激素疗法,细胞毒性疗法,免疫疗法,过继性T细胞疗法,靶向疗法或其任意组合。该方法还可以包括对哺乳动物给予癌症治疗(例如手术,辅助化学疗法,新辅助化学疗法,放射疗法,激素疗法,细胞毒性疗法,免疫疗法,过继性T细胞疗法,靶向疗法或其任何组合)。给予癌症治疗后,可以监测哺乳动物是否存在癌症。

另一方面,本发明的特征在于,用于治疗患有癌症的哺乳动物的方法。所述方法可以包括或基本上由以下步骤组成:鉴定患有癌症的哺乳动物,其中所述鉴定包括确定从所述哺乳动物获得的样品中的cfDNA片段图谱,将所述cfDNA片段图谱与参考cfDNA片段图谱进行比较,以及当从哺乳动物获得的cfDNA片段图谱不同于参考cfDNA片段图谱时,鉴定所述哺乳动物患有癌症;对哺乳动物进行癌症治疗。哺乳动物可以是人类。癌症可以是结肠直肠癌,肺癌,乳腺癌,胃癌,胰腺癌,胆管癌或卵巢癌。癌症治疗可以是手术,辅助化学疗法,新辅助化学疗法,放射疗法,激素疗法,细胞毒性疗法,免疫疗法,过继T细胞疗法,靶向疗法或其组合。参考cfDNA片段图谱可以是健康哺乳动物的cfDNA片段图谱。参考cfDNA片段图谱可以通过确定自健康哺乳动物获得的样品中的cfDNA片段图谱产生。参考DNA片段化模式可以是参考核小体cfDNA片段图谱。cfDNA片段图谱可包括中值片段大小,其中cfDNA片段图谱的中值片段大小短于参考cfDNA片段图谱的中值片段大小。cfDNA片段图谱可包括片段大小分布,其中cfDNA片段图谱的片段大小分布与参考cfDNA片段图谱的片段大小分布相差至少10个核苷酸。cfDNA片段图谱可包括在作图序列窗口中小cfDNA片段与大cfDNA片段的比率,其中小cfDNA片段的长度为100bp至150bp,其中大cfDNA片段的长度为151bp至220bp,并且所述cfDNA片段图谱中片段比例的相关性低于参考cfDNA片段图谱中片段比例的相关性。cfDNA片段图谱可包括整个基因组窗口中小cfDNA片段的序列覆盖范围。cfDNA片段图谱可包括整个基因组窗口中大cfDNA片段的序列覆盖范围。cfDNA片段图谱可包括整个基因组窗口中小和大cfDNA片段的序列覆盖范围。比较步骤可以包括在整个基因组上比较cfDNA片段图谱与参考cfDNA片段图谱。比较步骤可以包括在亚基因组间隔内将cfDNA片段图谱与参考cfDNA片段图谱进行比较。哺乳动物可以事先接受过癌症治疗以治疗癌症。癌症治疗可以是手术,辅助化学疗法,新辅助化学疗法,放射疗法,激素疗法,细胞毒性疗法,免疫疗法,过继T细胞疗法,靶向疗法或其组合。该方法还可以包括在施以癌症治疗后监测哺乳动物是否存在癌症。

除非另有定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管类似于或等同于本文描述的方法和材料可以用于实施本发明,下面描述合适的方法和材料。本文提及的所有出版物,专利申请,专利和其他参考文献通过引用整体并入本文。在有冲突的情况下,以本说明书(包括定义)作为控制。另外,材料,方法和实施例仅是说明性的,并无意图为限制性的。

在附图和以下描述中阐述了本发明的一个或多个实施例的细节。通过说明书和附图以及权利要求书,本发明的其他特征、目的和优点将变得显而易见。

附图说明

图1是示例性DELFI方法的示意图。从一群健康的个体和癌症患者收集血液。从血浆组分中提取核小体保护的cfDNA,将其加工到测序文库中,通过全基因组测序进行检测,作图到基因组,并进行分析以确定整个基因组不同窗口中的cfDNA片段图谱。机器学习方法用于将个体分类为健康或患有癌症,并使用全基因组cfDNA片段模式识别起源的肿瘤组织。

图2是基于分析改变数量和肿瘤衍生的cfDNA片段分布的非侵入性癌症检测模拟。使用不同数量的肿瘤特异性改变进行蒙特卡罗模拟以评估在指定比例的肿瘤衍生分子中检测到在cfDNA上癌症发生改变的概率。模拟是在假定cfDNA平均有2000个基因组当量,并且需要5次或更多次有观察到任何改变的条件下进行。这些分析表明,肿瘤特异性改变数量的增加可以提高循环肿瘤DNA检测的灵敏度。

图3是肿瘤衍生cfDNA片段的分布。显示了来自30位乳腺癌、结肠直肠癌、肺癌或卵巢癌患者包含肿瘤特异性改变的42个基因座的cfDNA片段长度的累积密度函数,其置信度为95%(蓝色)。在这些基因座上,与野生型cfDNA片段(红色)相比,突变cfDNA片段的长度大小差异显着。

图4A和4B表示肿瘤衍生cfDNA GC含量和片段长度。图4A表明了突变和非突变片段的GC含量是相似的。图4B则表明了GC含量与片段长度无关。

图5是种系cfDNA的片段分布。显示了来自38位乳腺癌、结肠直肠癌、肺癌或卵巢癌患者的包含种系改变(非肿瘤来源)的44个基因座片段长度的累积密度函数,置信度为95%。具有种系突变的片段(蓝色)的长度与野生型cfDNA片段长度(红色)相当。

图6是造血cfDNA的片段分布。显示了来自28位乳腺癌、结肠直肠癌、肺癌或卵巢癌患者的包含造血学改变(非肿瘤来源)的41个基因座的片段长度累积密度函数,置信度为95%。经过多次测试校正后,突变的造血cfDNA片段(蓝色)和野生型cfDNA片段(红色)的大小分布没有显着差异(α=0.05)。

图7A至图7F是健康个体和癌症患者中的cfDNA片段图谱。图7A表示了在30位健康个体(上)和8位肺癌患者(下)的来自约9x全基因组测序的全基因组cfDNA片段图谱(定义为短片段与长片段的比率)(下图)显示于5Mb仓(bins)中。图7B是以1Mb分辨率分析染色体1上健康个体的cfDNA(上)、肺癌患者的cfDNA(中)以及健康淋巴细胞(下)的片段图谱和淋巴细胞图谱。以与中位健康个体的cfDNA图谱相等的标准偏差来量测健康淋巴细胞的图谱。健康个体的cfDNA模式与健康淋巴细胞的模式极为相似,而肺癌患者的cfDNA的图谱则差异更大,并且与健康个体和健康淋巴细胞的图谱不同。图7C是以0为中心相邻核小体之间的平滑中值距离,通过使用来自健康个体100kb仓(bins)的cfDNA(上)和被核酸酶消化的健康淋巴细胞(中)描绘基因组接触矩阵的第一个特征向量,其获得自先前报道的淋巴母细胞(下)的Hi-C分析。健康个体cfDNA核小体距离与被核酸酶消化的淋巴细胞的核小体距离以及Hi-C分析中淋巴母细胞的核小体距离极为相似。来自健康个体(n=30)的cfDNA片段图谱与淋巴细胞(D)、健康个体的cfDNA(E)和淋巴细胞核小体(F)距离的中值的片段图谱具有较高的相关性,而肺癌患者的相关性则较低。

图8是健康个体和肺癌患者的cfDNA片段长度的密度。显示了健康个体(n=30,灰色)和肺癌患者(n=8,蓝色)的cfDNA片段长度。

图9A和9B是用于分析cfDNA片段图谱的全基因组测序数据的子采样。图9A将高倍数覆盖范围(9x)全基因组测序数据进行子采样,倍数覆盖范围分别为2x,1x,0.5x,0.2x和0.1x倍。对于每个子采样倍数覆盖范围,均描绘了30个健康个体和8个肺癌患者在5Mb bin的平均集中全基因组范围内的片段图谱,中值图以蓝色显示。图9B是健康个体和肺癌患者在9倍覆盖范围下,子采样图谱与初始采样图谱之间的皮尔逊相关(Pearsoncorrelation)。

图10是治疗期间的cfDNA片段图谱和序列改变。使用靶向测序(上)和全基因组片段图谱(下)对于接受靶向酪氨酸激酶抑制剂(黑色箭头)治疗的非小细胞肺癌(NSCLC)患者(n=19)的系列血液中的癌症的进行检测和监测。对于每种情况,下图的垂直轴显示每个样品与健康个体的cfDNA片段图谱的中值的相关性的-1倍。误差线描绘了来自二项式检验的突变等位基因分数的置信区间,以及使用Fisher变换计算的全基因组片段图谱的置信区间。尽管这些方法分析了cfDNA的不同方面(全基因组与特定改变的比较),但对治疗有反应的患者以及患有稳定或进行性疾病的患者的靶向测序和片段图谱均相似。由于片段图谱反映了基因组和表观基因组的改变,而突变等位基因片段仅反映了个体突变,仅突变等位基因片段可能无法反映健康个体的片段图谱的相关性的绝对水平。

图11A至11C是健康个体和癌症患者中的cfDNA片段图谱。图11A是在结直肠癌患者中进行肿瘤组织平行分析的肿瘤拷贝数变化(上)的背景下的片段图谱(下)。段均值和整数拷贝数的分布以指示的颜色显示在右上方。改变的片段图谱存在于基因组中的拷贝中性区域中,并且在拷贝数变化的区域中进一步受到影响。图11B是使用5Mb窗口针对每种癌症类型描绘了健康个体和癌症患者来自1-2x全基因组测序的GC调整后的片段图谱。健康个体的中值图谱显示为黑色,而98%置信度显示为灰色。对于患有癌症的患者,根据健康个体中值的相关性对个别图谱进行着色。图11C,如果超过10%的癌症患者样品的片段比率与中值健康个体的片段比率相比超过三个标准差,则以橙色表示窗口。这些分析突出显示了癌症个体整个cfDNA基因组中与众多位置相关的改变。

图12A和图12B是在健康个体和一名结肠直肠癌患者中,拷贝中性区域的cfDNA片段长度图谱。图12A是25个随机选择的健康个体(灰色)在1至6号染色体上的211个拷贝中性窗口中的片段图谱。对于估计突变等位基因比率为20%的结肠直肠癌(CGCRC291)患者,将其癌症片段长度图谱稀释到大约10%的肿瘤贡献度(蓝色)。图12A和图12B,尽管健康样品和癌症患者的片段图谱的边际密度显示出实质性重叠(图12A,右),但如可视化的片段图谱(图12A,左)所见,片段图谱却有所不同,并且在主成分分析中结肠直肠癌患者与健康个体的样品分离(图12B)。

图13A和13B是cfDNA片段的全基因组GC校正。为了估计和控制GC含量对测序覆盖度的影响,计算了常染色体不重叠的100kb基因组窗口中的覆盖度。对于每个窗口,计算比对的片段的平均GC。图13A,对两个随机选择的健康受试者(CGPLH189和CGPLH380)和两名癌症患者(CGPLLU161和CGPLBR24)进行非整倍性检测(PA得分<2.35)的Loess平滑原始覆盖度(上排)。减去Loess模型预测的平均覆盖度后,将残差重新缩放为中位常染色体覆盖度(下排)。由于片段的长度也可能导致覆盖度偏差,因此针对短片段(≤150bp)和长片段(≥151bp)分别执行了此GC校正程序。尽管第19号染色体(蓝点)上的100kb bin始终比Loess模型预测的覆盖度小,但我们并未实施针对染色体的校正,因为这种方法会消除染色体拷贝数对覆盖度的影响。图13B,总体而言,在健康受试者和PA得分<3的癌症患者中,校正后的短片段或长片段覆盖度与GC含量之间存在有限的相关性。

图14是机器学习模型的示意图。梯度树增强机器学习用于检查cfDNA是否可以归类为具有癌症患者或健康个体的特征。机器学习模型包括整个基因组窗口中的片段大小和覆盖度特征,以及染色体臂和线粒体DNA拷贝数。采用10-折交叉验证方法(10-fold crossvalidation approach)将每个样品随机分配给一个集合(a fold),将9个集合(数据的90%)用于训练,将一个集合(数据的10%)用于测试。单次交叉验证的预测准确性是测试集和训练集的10种可能组合的平均值。由于这种预测准确性可以反映患者最初随机分组的偏差,因此将整个过程重复,包括将患者随机分组10次。对于所有情况,都对训练数据进行了特征选择和模型估计,并在测试数据上进行了验证,并且从未将测试数据用于特征选择。最终,获得了DELFI得分,该得分可用于将个体分类为可能健康或患有癌症。

图15是重复的10折交叉验证中的AUC分布。虚线表示215名健康个体和208名癌症患者的队列(cohort)中100个AUC的第25、50和75个百分位。

图16A和16B是全基因组分析的染色体臂拷贝数变化和线粒体基因组表示。图16A描述了健康个体(n=215)和癌症患者(n=208)每个常染色体臂的Z值。纵轴表示为零时的正常拷贝,其中正值和负值分别表示臂的增加和减少。大于50或小于-50的Z值以该指示值为阈值。图16B描绘了针对健康个体和癌症患者的映射到线粒体基因组的测序片段(reads)的分数(fraction)。

图17A和17B,使用DELFI检测癌症。图17A,针对一215名健康个体和208名癌症患者(DELFI,AUC=0.94)的队列,在机器学习方法中使用cfDNA片段图谱和其他全基因组特征作为检测癌症的受试者操作特征(Receiver operator characteristics),其≥95%的特异性以蓝色阴影表示。对染色体臂拷贝数(Chr拷贝数(ML))和线粒体基因组拷贝数(mtDNA)的机器学习分析以指示的颜色显示。图17B,使用DELFI组合方法分析个别癌症类型的AUC范围为0.86至>0.99。

图18,DELFI分阶段检测癌症。在机器学习方法中使用cfDNA片段图谱和其他全基因组特征作为检测癌症的受试者操作特征,其描绘了一215名健康个体和208例癌症患者各阶段的队列,其≥95%特异性以蓝色阴影表示。

图19,DELFI组织来源预测。其描述了DELFI组织预测胆管癌,乳腺癌,结直肠癌,胃癌,肺癌,卵巢癌和胰腺癌的受试者操作特征。为了增加癌症类型类别中的样品量,将以90%的特异性检测出的病例也包含,并且对肺癌队列进行补充,增加了来自先前接受过治疗的18位肺癌患者的cfDNA基线数据(参见,例如Shen et al.,2018Nature,563:579–583)。

图20使用DELFI和基于突变的cfDNA方法检测癌症。在126名患有乳腺癌,胆管癌,结直肠癌,胃癌,肺癌或卵巢癌的患者队列中,分别进行了DELFI(绿色)和用于突变鉴定的靶向测序(蓝色)。对于DELFI检测而言,每种方法检测到的和结合方法检测到的个体数量均具有98%的特异性、>99%的靶向测序特异性和98%的组合特异性。ND表示未检测到。

具体实施方式

本发明提供了确定哺乳动物(例如,从哺乳动物获得的样品中)的cfDNA片段图谱的方法和材料。如本文所用,术语“片段图谱(fragmentation profile)”,“片段模式中的位置相关差异(position dependent differences in fragmentation patterns)”和“在整个基因组中与位置相关的片段大小和覆盖度的差异模式(differences in fragment sizeand coverage in a position dependent manner across the genome)”是等同的,并且可以互换使用。在某些情况下,确定哺乳动物中的cfDNA片段图谱可用于鉴定哺乳动物患有癌症。例如,可以将从哺乳动物(例如,从哺乳动物获得的样品)获得的cfDNA片段进行低覆盖度的全基因组测序,并且可以将测序的片段作图到基因组(例如,在非重叠窗口中)并进行评估以确定cfDNA片段图谱。如本发明书所述,患有癌症的哺乳动物的cfDNA片段图谱比健康哺乳动物(例如,没有癌症的哺乳动物)的cfDNA片段图谱更具异质性(例如,片段长度)。因此,本说明书还提供了用于评估,监测和/或治疗患有或怀疑患有癌症的哺乳动物(例如人)的方法和材料。在某些情况下,本说明书提供了鉴定哺乳动物患有癌症的方法和材料。例如,可以至少部分地基于哺乳动物的cfDNA片段分析来评估取自哺乳动物的样品(例如血液样品)以确定哺乳动物中癌症的存在以及选择性地确定癌症的起源组织。在某些情况下,本说明书提供了监测哺乳动物患有癌症的方法和材料。例如,可以至少部分地基于哺乳动物的cfDNA片段图谱,评估从哺乳动物获得的样品(例如血液样品),以确定哺乳动物中癌症的存在。在某些情况下,本说明书提供了用于鉴定哺乳动物患有癌症并对该哺乳动物进行一种或多种癌症治疗以治疗该哺乳动物的方法和材料。例如,可以评估从哺乳动物获得的样品(例如血液样品)以至少部分地基于哺乳动物的cfDNA片段图谱来确定哺乳动物是否患有癌症,并且一种或多种癌症治疗可被给予于哺乳动物。

cfDNA片段图谱可以包括一个或多个cfDNA片段模式。一个cfDNA片段模式可以包括任何适当的cfDNA片段模式。cfDNA片段模式的示例包括但不限于中值片段大小、片段大小分布、小cfDNA片段与大cfDNA片段的比率以及cfDNA片段的覆盖度。在一些情况下,cfDNA片段模式包括两个或更多个(例如,两个,三个或四个)的中值片段大小、片段大小分布、小cfDNA片段与大cfDNA片段的比率以及cfDNA片段的覆盖度。在某些情况下,cfDNA片段图谱可以是全基因组的cfDNA图谱(例如,跨基因组窗口中的全基因组的cfDNA图谱)。在某些情况下,cfDNA片段图谱可以是目标区域图谱。靶向区域可以是基因组的任何适当部分(例如,染色体区域)。本说明书所述的可被cfDNA片段图谱确定的染色体区域示例可以是,包括但不限于染色体的一部分(例如2q,4p,5p,6q,7p,8q,9q,10q,11q,12q和/或14q的一部分)和染色体臂(例如8q,13q,11q和/或3p的染色体臂)。在某些情况下,cfDNA片段图谱可以包括两个或多个目标区域图谱。

在某些情况下,cfDNA片段图谱可用于鉴定cfDNA片段长度的变化(例如,改变)。改变可以是全基因组改变或一个或多个靶向区域/位置的改变。靶区域可以是包含一个或多个癌症特异性改变的任何区域。癌症特异性改变及其染色体位置的示例包括但不限于表3(附录C)和表6(附录F)所示。在一些情况下,cfDNA片段图谱可用于鉴定(例如,同时鉴定)从约10个改变到约500个改变(例如,从约25到约500,从约50到约500,从约100到约500,约200至约500,约300至约500,约10至约400,约10至约300,约10至约200,约10至约100,约10至约50,约20至约400,约30至约300,约40至约200,约50至约100,约20至约100,约25至约75,约50至约250或约100到200,等个改变)。

在某些情况下,cfDNA片段图谱可用于检测肿瘤来源的DNA。例如,通过比较患有或怀疑患有癌症的哺乳动物的cfDNA片段图谱与参考cfDNA片段图谱检测肿瘤来源的DNA(例如,健康哺乳动物的cfDNA片段图谱和/或来自患有癌症或怀疑患有癌症的哺乳动物的健康细胞的核小体DNA片段图谱)。在某些情况下,参考cfDNA片段图谱是先前从健康哺乳动物生成的图谱。例如,本说明书提供的方法可以用于确定健康哺乳动物中的参考cfDNA片段图谱,并且该参考cfDNA片段谱可以存储(例如,在计算机或其他电子存储介质中),以用于将来与患有或怀疑患有癌症的哺乳动物的测试cfDNA片段图谱比较。在某些情况下,在整个基因组上确定健康哺乳动物的参考cfDNA片段图谱(例如,存储的cfDNA片段图谱)。在某些情况下,在亚基因组间隔内确定健康哺乳动物的参考cfDNA片段图谱(例如,存储的cfDNA片段图谱)。

在某些情况下,cfDNA片段图谱可用于鉴定患有癌症(例如结直肠癌,肺癌,乳腺癌,胃癌,胰腺癌,胆管癌和/或卵巢癌)的哺乳动物(例如人)。

cfDNA片段分布图可以包含cfDNA片段大小模式。cfDNA片段可以是任何合适的大小。例如,cfDNA片段的长度可以是约50个碱基对(bp)至约400bp。如本说明书所述,患有癌症的哺乳动物可以具有的cfDNA片段大小模式,其包含比健康哺乳动物中的cfDNA片段中值短的中值cfDNA片段大小。健康的哺乳动物(例如,没有癌症的哺乳动物)可以具有的cfDNA片段大小,其cfDNA片段中值大小为约166.6bp至约167.2bp(例如约166.9bp)。在一些情况下,患有癌症的哺乳动物的cfDNA片段大小平均比健康哺乳动物中的cfDNA片段大小短约1.28bp至约2.49bp(例如,约1.88bp)。例如,患有癌症的哺乳动物可以具有的cfDNA片段大小,其cfDNA片段中值大小为约164.11bp至约165.92bp(例如约165.02bp)。

cfDNA片段图谱可包含cfDNA片段大小分布。如本文所述,患有癌症的哺乳动物可具有比健康哺乳动物中的cfDNA片段大小分布更多可变的cfDNA大小分布。在某些情况下,大小分布可以位于靶向区域内。健康的哺乳动物(例如,没有癌症的哺乳动物)的靶向区域cfDNA片段大小分布可以约为1或小于约1。在某些情况下,患有癌症的哺乳动物的目标区域cfDNA片段大小分布可以比健康哺乳动物中的目标区域cfDNA片段大小分布更长(例如,10、15、20、25、30、35、40、45、50bp或更长的碱基对,或这些数目之间的任何碱基对)。在某些情况下,患有癌症的哺乳动物的靶向区域cfDNA片段大小分布可以比健康哺乳动物中的靶向区域cfDNA片段大小分布更短(例如,10、15、20、25、30、35、40、45、50或更短的碱基对,或这些数目之间的任何碱基对)。在某些情况下,患有癌症的哺乳动物的靶向区域cfDNA片段大小分布比健康哺乳动物中的靶向区域cfDNA片段大小分布短于约47bp,长于约30bp。在某些情况下,患有癌症的哺乳动物的靶向区域cfDNA片段大小分布平均长度差异为10、11、12、13、14、15、15、17、18、19、20bp或更多。例如,患有癌症的哺乳动物可具有的靶向区域cfDNA片段的大小分布平均长度相差约13bp。在某些情况下,大小分布可以是全基因组范围的大小分布。健康的哺乳动物(例如,没有癌症的哺乳动物)在全基因组中的长和短cfDNA片段分布非常相似。在某些情况下,患有癌症的哺乳动物在全基因组中可以具有cfDNA片段大小的一个或多个改变(例如,增加和减少)。一个或多个改变可以是基因组的任何合适的染色体区域。例如,改变可以在染色体的一部分中。可以包含cfDNA片段大小上一个或多个改变的染色体的部分的示例包括但不限于2q,4p,5p,6q,7p,8q,9q,10q,11q,12q和14q的部分。例如,改变可以跨越染色体臂(例如,整个染色体臂)。

cfDNA片段分布图可以包括小cfDNA片段与大cfDNA片段的比率以及片段比率与参考片段比率的相关性。如本发明所用,关于小cfDNA片段与大cfDNA片段的比率,小cfDNA片段的长度可以为约100bp至约150bp。如本发明所用,关于小cfDNA片段与大cfDNA片段的比率,大cfDNA片段的长度可为约151bp至220bp。如本文所述,患有癌症的哺乳动物可以具有比健康哺乳动物较低的片段比率(例如低2倍,低3倍,低4倍,低5倍,低6倍,低7倍,低8倍,低9倍,低10倍或更多)的相关性(例如cfDNA片段比率与来自一个或多个健康哺乳动物的参考DNA片段比率的相关性)。健康哺乳动物(例如,没有癌症的哺乳动物)可以具有约1(例如,约为0.96)的片段比率的相关性(例如,cfDNA片段比率与例如来自一个或多个健康哺乳动物的参考DNA片段比率的相关性)。在某些情况下,患有癌症的哺乳动物的片段比率相关性(例如,cfDNA片段比率与例如来自一个或多个健康哺乳动物的参考DNA片段比率的相关性)平均约比健康哺乳动物中的片段比率的相关性(例如,cfDNA片段比率与例如来自一个或多个健康哺乳动物的参考DNA片段比率的相关性)低0.19至约0.30(例如,约0.25)。

cfDNA片段图谱可包括所有片段的覆盖度。所有片段的覆盖度可以包括覆盖度的窗口(例如,非重叠窗口)。在某些情况下,所有片段的覆盖度可包括小片段的窗口(例如,长度为约100bp至约150bp的片段)。在某些情况下,所有片段的覆盖度可以包括大片段的窗口(例如,长度从大约151bp到大约220bp的片段)。

在某些情况下,cfDNA片段图谱可用于鉴定癌症(例如,结直肠癌,肺癌,乳腺癌,胃癌,胰腺癌,胆管癌或卵巢癌)的起源组织。例如,cfDNA片段图谱可用于鉴定局部癌症。当cfDNA片段图谱包括靶向区域图谱时,本说明书所述的一种或多种改变(例如,表3(附录C)和/或表6(附录F))可用于鉴定癌症的起源组织。在某些情况下,染色体区域的一种或多种改变可用于鉴定癌症起源组织。

可以使用任何适当的方法获得cfDNA片段图谱。在某些情况下,可以将来自哺乳动物(例如,患有癌症或怀疑患有癌症的哺乳动物)的cfDNA处理到测序文库中,然后对其进行全基因组测序(例如,低覆盖度全基因组测序),并作图到基因组,并进行分析以确定cfDNA片段长度。可以在覆盖基因组的非重叠窗口中分析作图的序列。窗口可以是任何合适的大小。例如,窗口的长度可以从数千到数百万个碱基。作为一个非限制性示例,窗口可以长约5兆碱基(Mb)。可以作图任意数量的窗口。例如,可以在基因组中绘制数十至数千个窗口。例如,可以在基因组中绘制数百至数千个窗口。cfDNA片段图谱可在每个窗口内确定。在某些情况下,可以如示例1中所述获得cfDNA片段图谱。在某些情况下,可以如图1所示获得cfDNA片段图谱。

在某些情况下,本文描述的方法和材料也可以包括机器学习。例如,机器学习可用于识别改变的片段图谱(例如,使用cfDNA片段的覆盖度,cfDNA片段的片段大小,染色体的覆盖度,和mtDNA)。

在一些情况下,本说明书描述的方法和材料可以是用于识别患有癌症(例如,结肠直肠癌,肺癌,乳腺癌,胃癌,胰腺癌,胆管癌和/或卵巢癌)的哺乳动物(例如人)的单一方法。例如,确定cfDNA片段图谱可能是用于鉴定哺乳动物患有癌症的单一方法。

在一些情况下,本文描述的方法和材料可以与一种或多种其他方法一起使用,所述一种或多种其他方法用于鉴定患有癌症(例如,结肠直肠癌,肺癌,乳腺癌,胃癌,胰腺癌,胆管癌和/或卵巢癌)的哺乳动物(例如人)。用于鉴定哺乳动物患有癌症的方法的实例包括但不限于鉴定一种或多种癌症特异性(cancer-specific)序列改变,鉴定一种或多种染色体改变(例如非整倍性(aneuploidies)和重排(rearrangements))以及鉴定其他cfDNA改变。例如,确定cfDNA片段图谱可与鉴定哺乳动物基因组中的一个或多个癌症特异性突变一起使用,以鉴定患有癌症的哺乳动物。例如,确定cfDNA片段图谱可与鉴定哺乳动物基因组中的一个或多个非整倍性一起使用,以鉴定患有癌症的哺乳动物。

在某些方面,本说明书还提供了用于评估、监测和/或治疗患有或怀疑患有癌症的哺乳动物(例如人)的方法和材料。在某些情况下,本说明书提供了鉴定哺乳动物患有癌症的方法和材料。例如,可以评估从哺乳动物获得的样品(例如血液样品),至少部分基于哺乳动物的cfDNA片段确定哺乳动物是否患有癌症。在某些情况下,本说明书提供了用于识别哺乳动物中癌症的位置(例如,解剖部位或起源组织)的方法和材料。例如,可以至少部分地基于哺乳动物的cfDNA片段图谱评估从哺乳动物获得的样品(例如血液样品),以确定哺乳动物中癌症的起源组织。在某些情况下,本发明提供了用于鉴定哺乳动物患有癌症并对该哺乳动物进行一种或多种癌症治疗以治疗该哺乳动物的方法和材料。例如,可以评估从哺乳动物获得的样品(例如血液样品),以至少部分地基于哺乳动物的cfDNA片段图谱来确定该哺乳动物是否患有癌症,并对其进行一种或多种癌症治疗。在某些情况下,本说明书提供了用于治疗患有癌症的哺乳动物的方法和材料。例如,可以对被鉴定为患有癌症的哺乳动物进行一种或多种癌症治疗(例如,至少部分地基于该哺乳动物的cfDNA片段图谱)以治疗该哺乳动物。在某些情况下,在癌症治疗(例如,本文所述的任何癌症治疗)的过程中或之后,可以对哺乳动物进行监测(或选择用于增加监测)和/或进一步的诊断测试。在一些情况下,监测可以包括通过例如评估从哺乳动物获得的样品(例如血液样品)以确定如本文所述的哺乳动物的cfDNA片段,来评估患有或怀疑患有癌症的哺乳动物。cfDNA片段图谱随时间的变化可用于鉴定对治疗的反应和/或鉴定患有癌症(例如残留癌(a residual cancer))的哺乳动物。

可以如本说明书所述评估、监测和/或治疗任何合适的哺乳动物。哺乳动物可以是患有癌症的哺乳动物。哺乳动物可以是怀疑患有癌症的哺乳动物。可以本说明书所述进行评估,监测和/或治疗的哺乳动物的实例包括但不限于人、例如猴子的灵长类动物、狗、猫、马、牛、猪、绵羊、小鼠和大鼠。例如,可以评估患有癌症或怀疑患有癌症的人以确定其具有如本说明书所述的cfDNA片段图谱,并且选择性地,可以用本文所述的一种或多种癌症治疗方法对其进行治疗。

如本文所述可评估来自哺乳动物的任何合适的样品(例如,评估DNA片段模式)。在某些情况下,样品可以包含DNA(基因组DNA)。在某些情况下,样品可以包含cfDNA(例如,循环肿瘤DNA(ctDNA))。在某些情况下,样品可以是流体样品(例如,液体活检)。可以含有DNA和/或多肽的样品的例子包括但不限于血液(例如全血,血清或血浆),羊膜,组织,尿液,脑脊液,唾液,痰,支气管肺泡灌洗液,胆汁,淋巴管液体,囊肿液,粪便,腹水,宫颈涂片,母乳和呼出气冷凝物。例如,可以评估血浆样品以确定如本文所述的cfDNA片段图谱。

如本文所述待评估的来自哺乳动物的样品(例如,评估DNA片段化模式)可包括任何合适量的cfDNA。在某些情况下,样品可以包含有限量的DNA。例如,可以从包含比其他cfDNA分析方法通常所需的DNA更少的DNA的样品中获得cfDNA片段图谱。例如Phallen etal.,2017 Sci Transl Med 9;Cohen et al.,2018 Science 359:926;Newman et al.,2014 Nat Med 20:548;and Newman et al.,2016 Nat Biotechnol34:547中所述。

在某些情况下,样品可以经过处理(例如,从样品中分离和/或纯化DNA和/或多肽)。例如,DNA分离和/或纯化可以包括细胞裂解(例如,使用去污剂和/或表面活性剂)、蛋白质去除(例如,使用蛋白酶)和/或RNA去除(例如,使用RNase)。作为另一个例子,多肽的分离和/或纯化可以包括细胞裂解(例如,使用去污剂和/或表面活性剂)、DNA去除(例如,使用DNase)和/或RNA去除(例如,使用RNase)。

可以使用如本说明书所述的方法和材料评估(例如,确定cfDNA片段图谱)患有(或怀疑患有)任何适当类型癌症的哺乳动物和/或治疗(例如,通过对哺乳动物进行一种或多种癌症治疗)。癌症可以是任何阶段的癌症。在某些情况下,癌症可以是早期癌症。在某些情况下,癌症可以是无症状的癌症。在某些情况下,癌症可以是残留疾病和/或复发(例如,在手术切除之后和/或在癌症治疗之后)。癌症可以是任何类型的癌症。可以如本说明书所述进行评估、监测和/或治疗的癌症类型的例子包括但不限于结肠直肠癌、肺癌、乳腺癌、胃癌、胰腺癌、胆管癌和卵巢癌。

当治疗患有或怀疑患有本文所述的癌症的哺乳动物时,可以对该哺乳动物进行一种或多种癌症治疗。癌症治疗可以是任何适当的癌症治疗。可以以任何合适的频率(例如,在数天至数周的一段时间内一次或多次)向哺乳动物给予本发明书所述的一种或多种癌症治疗。癌症治疗的例子包括但不限于辅助化学疗法,新辅助化学疗法,放射疗法,激素疗法,细胞毒性疗法,免疫疗法,过继性T细胞疗法(例如,嵌合抗原受体和/或具有野生型或修饰的T细胞受体的T细胞),靶向治疗例如给予激酶抑制剂(例如靶向特定遗传病灶的激酶抑制剂,例如易位或突变),(例如激酶抑制剂,抗体,双特异性抗体),信号转导抑制剂,双特异性抗体或抗体片段(例如,BiTE),单克隆抗体,免疫检查点抑制剂,手术(例如,手术切除)或以上的任意组合。在某些情况下,癌症治疗可以降低癌症的严重程度,减轻癌症的症状和/或减少哺乳动物内存在的癌细胞的数量。

在某些情况下,癌症治疗可包括免疫检查点抑制剂。免疫检查点抑制剂的非限制性实例包括尼古拉单抗(Opdivo),派姆单抗(Keytruda),阿妥索单抗(tecentriq),阿伐单抗(bavencio),杜鲁伐单抗(imfinzi),伊匹单抗(yervoy)。参见例如Pardoll(2012)Nat.Rev Cancer 12:252-264;Sun et al.(2017)Eur Rev Med Pharmacol Sci 21(6):1198-1205;Hamanishi et al.(2015)J.Clin.Oncol.33(34):4015-22;Brahmer et al.(2012)N Engl J Med 366(26):2455-65;Ricciuti et al.(2017)J.Thorac Oncol.12(5):e51-e55;Ellis et al.(2017)Clin Lung Cancer pii:S1525-7304(17)30043-8;Zou andAwad(2017)Ann Oncol 28(4):685-687;Sorscher(2017)N Engl J Med 376(10:996-7;Huiet al.(2017)Ann Oncol 28(4):874-881;Vansteenkiste et al.(2017)Expert OpinBiol Ther 17(6):781-789;Hellmann et al.(2017)Lancet Oncol.18(1):31-41;Chen(2017)J.Chin Med Assoc 80(1):7-14。

在某些情况下,癌症治疗可以是过继性T细胞疗法(例如,嵌合抗原受体和/或具有野生型或修饰的T细胞受体的T细胞)。参见例如Rosenberg and Restifo(2015)Science348(6230):62-68;Chang and Chen(2017)Trends Mol Med 23(5):430-450;Yee andLizee(2016)Cancer J.23(2):144-148;Chen et al.(2016)Oncoimmunology 6(2):e1273302;US 2016/0194404;US 2014/0050788;US 2014/0271635;US 9,233,125;通过引用整体并入本文。

在某些情况下,癌症治疗可以是化学治疗剂。化疗剂的非限制性实例包括:氨氯地平(amsacrine),阿扎胞苷(azacitidine),阿沙硫嘌呤(axathioprine),贝伐单抗(bevacizumab)(或其抗原结合片段),博来霉素(bleomycin),白消安(busulfan),卡铂(carboplatin),卡培他滨(capecitabine),苯丁酸氮芥(chlorambucil),顺铂(cisplatin),环磷酰胺(cyclophosphamide),阿糖胞苷(cytarabine),达卡巴嗪(dacarbazine),柔红霉素(daunorubicin),多西他赛(docetaxel),盐酸多柔比西啶(doxifluridine),多柔比星(doxorubicin),表柔比星(epirubicin),盐酸厄洛替尼(erlotinib hydrochlorides),依托泊苷(etoposide),氟达拉滨(fiudarabine),氟尿苷(floxuridine),氟达拉滨(fludarabine),氟尿嘧啶(fluorouracil),吉西他滨(gemcitabine),羟基脲(hydroxyurea),伊达比星(idarubicin),异环磷酰胺(ifosfamide),伊立替康(irinotecan),洛莫司汀(lomustine),甲氯乙胺(mechlorethamine),美法仑(melphalan),巯基嘌呤(mercaptopurine),甲氨蝶呤(methotrxate),丝裂霉素(mitomycin),米托蒽醌(mitoxantrone),奥沙利铂(oxaliplatin),紫杉醇(paclitaxel),培美曲塞(pemetrexed),普卡巴嗪(procarbazine),全反式维甲酸(all-trans retinoic acid),链脲佐菌素(streptozocin),他氟泊苷(tafluposide),替莫唑胺(temozolomide),替尼泊苷(teniposide),硫鸟苷(tioguanine),拓扑替康(topotecan),尿嘧啶(uramustine),缬沙星(valrubicin),长春碱(vinblastine),长春新碱(vincristine),长春地辛(vindesine),长春瑞滨(vinorelbine),及其组合。抗癌疗法的其他实例在本领域中是已知的。参见,例如美国临床肿瘤学会(ASCO)、欧洲医学肿瘤学会(ESMO)或国家综合癌症网络(NCCN)的治疗指南。

当监测患有或怀疑患有本文所述的癌症的哺乳动物时(例如,至少部分地基于哺乳动物的cfDNA片段图谱),监测可以在癌症治疗过程之前,之中和/或之后进行。本文提供的监测方法可用于确定一种或多种癌症治疗的功效和/或选择哺乳动物来增强监测。在某些情况下,监测可包括鉴定如本文所述的cfDNA片段图谱。例如,可以在对患有或怀疑或患有癌症的哺乳动物给予一种或多种癌症治疗之前获得cfDNA片段图谱,可以对哺乳动物进行一种或多种癌症治疗,并且可以在哺乳动物进行癌症治疗过程中获得一种或多种的cfDNA片段图谱。在一些情况下,cfDNA片段图谱可以在癌症治疗(例如,本文所述的任何癌症治疗)的过程中改变。例如,表明哺乳动物患有癌症的cfDNA片段图谱可以改变为表明哺乳动物没有癌症的cfDNA片段图谱。此类cfDNA片段图谱变化可能表明癌症治疗正在奏效。相反,在癌症治疗(例如,本文所述的任何癌症治疗)过程中,cfDNA片段图谱可能保持静态(例如,相同或近似相同)。这样的静态cfDNA片段图谱可能表明癌症治疗无效。在某些情况下,监测可以包括能够监测一种或多种癌症治疗(例如,一种或多种癌症治疗的功效)的常规技术。在一些情况下,与尚未选择用于增加监测的哺乳动物相比,选择增加监测的哺乳动物可以增加的频率进行诊断测试(例如,本说明书公开的任何诊断测试)。例如,可以以每天两次,每天一次,每两周一次,每周一次,每两个月一次,每月一次,每季度一次,每半年一次,每年一次,或其中的任何频率对选择用于增加监测的哺乳动物进行诊断测试。在某些情况下,与尚未选择用于增强监测的哺乳动物相比,可以对选择用于增强监测的哺乳动物进行一项或多项其他诊断测试。例如,可以对被选择用于增强监测的哺乳动物进行两次诊断测试,而尚未被选择用于增强监测的哺乳动物仅进行单个诊断测试(或不进行诊断测试)。在某些情况下,也可以选择已经选择进行增强监测的哺乳动物进行进一步的诊断测试。一旦已经鉴别出肿瘤或癌症(例如,癌细胞)的存在(例如,通过本说明书公开的多种方法中的任何一种),对哺乳动物进行增强监测(例如,评估哺乳动物中肿瘤或癌症的进展和/或评估一种或多种癌症生物标记(例如突变)的发展)可能是有益的,并进行进一步的诊断测试(例如,确定肿瘤大小和/或确切位置(例如,起源组织)或癌症)。在一些情况下,可以在检测到癌症生物标志物之后和/或在哺乳动物的cfDNA片段图谱没有改善或恶化之后,对选定增强监测的哺乳动物进行一种或多种癌症治疗。可以给予本说明书公开的或本领域已知的任何癌症治疗。例如,可以进一步监测已经选定增加监测的哺乳动物,如果在整个增强的监测期内癌细胞的持续存在,可以进行癌症治疗。另外地或可替代地,可以对已经被选定增加监测的哺乳动物进行癌症治疗,并且随着癌症治疗的进行进一步监测。在某些情况下,在对已经选择用于增强监测的哺乳动物进行癌症治疗后,增强的监测将揭示一种或多种癌症生物标志物(例如,突变)。在某些情况下,此类一种或多种癌症生物标记物将为进行不同的癌症治疗提供依据(例如,在癌症治疗过程中癌细胞中可能会产生耐药性突变,这种具有耐药性突变的癌细胞对原始癌症治疗具有耐药性)。

当如本说明书所述(例如至少部分地基于哺乳动物的cfDNA断片段图谱)鉴定哺乳动物患有癌症时,鉴定可以在癌症治疗之前和/或过程中进行。本发明提供的鉴定患有癌症的哺乳动物的方法可以用作鉴定该哺乳动物(例如,在任何治疗过程之前患有癌症的)和/或选择该哺乳动物用于进一步诊断测试的第一诊断。在某些情况下,一旦确定哺乳动物患有癌症,就可以对该哺乳动物进行进一步的检查和/或选择进行进一步的诊断检查。在某些情况下,本文提供的方法可以用于选择哺乳动物,以便于常规技术能够诊断出患有早期癌症的哺乳动物之前的那个时期之前的某个时期进行进一步的诊断测试。例如,当哺乳动物没有通过常规方法被诊断出患有癌症和/或当哺乳动物不具有癌症时,可以使用本说明书提供的选定哺乳动物进行进一步诊断测试的方法。在一些情况下,与未被选定进行进一步诊断测试的哺乳动物相比,被选定进行进一步诊断测试的哺乳动物可以以增加的频率进行诊断测试(例如,本说明书公开的任何诊断测试)。例如,被选定进行进一步诊断测试的哺乳动物可以以每天两次,每天,每两周,每周,每两个月,每月,每季度,每半年,每年,每年或其中的任何频率进行诊断测试。在某些情况下,与尚未被选定进行进一步诊断测试的哺乳动物相比,可以对被选定进行进一步诊断测试的哺乳动物进行一项或多项其他诊断测试。例如,被选定进行进一步诊断测试的哺乳动物可以进行两次诊断测试,而尚未被选定进行进一步诊断测试的哺乳动物仅进行单个诊断测试(或不进行诊断测试)。在某些情况下,诊断测试方法可以确定与最初检测到(例如,至少部分基于哺乳动物的cfDNA片段图谱)的癌症相同类型癌症(例如,具有相同的组织或起源)的存在。另外地或可替代地,诊断测试方法可以确定与最初检测到的癌症不同类型的癌症的存在。在某些情况下,诊断测试方法是扫描(scan)。在某些情况下,扫描是计算机断层扫描(CT),CT血管造影(CTA),食管造影(钡餐),钡灌肠,磁共振成像(MRI),PET扫描,超声检查(例如,支气管内超声、内窥镜超声),X射线,DEXA扫描。在某些情况下,诊断测试方法是身体检查,例如肛门镜检查,支气管镜检查(例如自体荧光支气管镜检查,白光支气管镜检查,导航性支气管镜检查),结肠镜检查,数字乳腺体层合成术,内窥镜逆行胰胆管造影术(ERCP),内窥镜,十二指肠镜,乳头涂片,盆腔检查,正电子发射断层扫描和计算机断层扫描(PET-CT)扫描。在某些情况下,还可以选定已经被选定进行进一步诊断测试的哺乳动物以提高监测水平。一旦已经识别出肿瘤或癌症(例如,癌细胞)的存在(例如,通过本说明书公开的多种方法中的任何一种),对哺乳动物进行增强的监测(例如,评估哺乳动物中肿瘤或癌症的进展和/或评估一种或多种癌症生物标记(例如突变)的发展)可能是有益的,并进行进一步的诊断测试(例如,确定肿瘤或癌症的大小和/或确切位置)。在一些情况下,在检测到癌症生物标志物之后和/或在哺乳动物的cfDNA片段图谱没有改善或恶化之后,对被选定进行进一步诊断测试的哺乳动物进行癌症治疗。本说明书公开的或本领域已知的任何癌症治疗皆可以给予。例如,可以对已经被选定进行进一步诊断测试的哺乳动物进行进一步的诊断测试,并且如果确认存在肿瘤或癌症,则可以进行癌症治疗。另外地或可替代地,可以对已经被选定进行进一步诊断测试的哺乳动物进行癌症治疗,并且可以随着癌症治疗的进展而对其进行进一步监测。在某些情况下,在对已经被选定进行进一步诊断测试的哺乳动物进行癌症治疗后,其他测试将揭示一种或多种癌症生物标志物(例如,突变)。在某些情况下,一种或多种癌症生物标志物(例如,突变)将成为实施不同的癌症治疗的根据(例如,在癌症治疗期间癌细胞可能产生耐药性突变,而带有耐药性突变的癌细胞对最初的癌症治疗具有耐药性)。

在以下实施例中将进一步描述本发明,这些实施例不限制权利要求中描述的本发明的范围。

[实施例]

实施例1:癌症患者的无细胞DNA片段化

无细胞DNA的分析主要集中在特定基因的靶向测序上。这样的研究可以检测出癌症患者中少量的肿瘤特异性改变,并不是所有的患者,特别是那些患有早期疾病的患者,都有可检测的变化。无细胞DNA的全基因组测序可以识别癌症患者中的染色体异常和重排,但是检测此类变化一直具有挑战性,部分原因是难以区分少量异常与正常染色体的变化(Leary et al.,2010Sci Transl Med 2:20ra14;and Leary et al.,2012Sci Transl Med4:162ra154)。其他研究成果表明,癌组织和正常组织之间的核小体模式和染色质结构可能有所不同,癌症患者的cfDNA可能导致cfDNA片段大小和位置异常(Snyder et al.,2016Cell 164:57;Jahr et al.,2001Cancer Res 61:1659;Ivanov et al.,2015BMCGenomics 16(Suppl 13):S1)。但是,cfDNA的核小体足迹分析所需的测序量对于常规分析是不切实际的。

任何无细胞DNA方法的灵敏度取决于所检查的潜在变化的数量以及检测此类变化的技术和生物学限制。由于典型的血液样品每毫升血浆包含约2000个基因组当量的cfDNA(Phallen et al.,2017Sci Transl Med 9),因此检测单个变异的极限理论上可能不超过数千个突变体中的一个野生型分子。在相同数量的基因组当量中检测大量变化的方法对于检测循环中的癌症将更加敏感。蒙特卡罗模拟显示,将检测到的潜在异常的数量从仅几个增加到几十个或数百个,可以潜在地将检测极限提高几个数量级,这与最近对cfDNA多个甲基化变化的概率分析相似(图2)。

本研究提出了一种称为DELFI的新方法,用于使用全基因组测序来检测癌症并进一步鉴定起源组织(图1)。该方法使用cfDNA片段图谱和机器学习来区分健康血液细胞DNA和肿瘤来源DNA的模式,并识别原发性肿瘤组织。DELFI用于回顾性分析245名健康个体和236例乳腺癌,大肠癌,肺癌,卵巢癌,胰腺癌,胃癌或胆管癌患者的cfDNA,大多数患者表现出局部疾病。假设此方法在区分特异性为0.95的情况下将癌症患者与健康个体区分开来的灵敏度≥0.80,那么对至少200名癌症患者进行的研究将能够在0.95或大于0.95的期望特异性下,以0.06的误差范围估算真实灵敏度。

材料和方法

患者和样品特征

健康个体的血浆样品以及乳腺癌,肺癌,卵巢癌,结肠直肠癌,胆管癌或胃癌患者的血浆和组织样品来自ILSBio/Bioreclamation、Aarhus大学、哥本哈根大学Herlev医院、Hvidovre医院乌得勒支大学医学中心、阿姆斯特丹大学学术医学中心、荷兰癌症研究所以及加利福尼亚大学圣地亚哥分校。所有样品均根据机构审查委员会批准的方案获得,并获得告知后同意,供参与机构进行研究。血浆样品是在常规筛查时(包括结肠镜检查或子宫颈抹片检查)从健康个体获得。如果他们以前没有癌症史且筛查结果阴性,则被认为是健康的。

血浆样品是在诊断时,肿瘤切除之前或治疗之前,从患有乳腺癌,结肠直肠癌,胃癌,肺癌,卵巢癌,胰腺癌和胆管癌的个体中获取。分析了正在接受抗EGFR或抗ERBB2治疗的19名肺癌患者的多个时间点的cfDNA片段图谱变化(参见例如Phallen et al.,2019Cancer Research 15,1204-1213)。表1(附录A)列出了该研究中所有患者的临床数据。通过基因组分析中X和Y染色体的表示确认了性别。新辅助治疗后进行胃癌患者的病理分期。肿瘤阶段未知的样品指示为X期或未知。

核小体DNA纯化

从得自健康个体的雄性(C0618)和雌性(D0808-L)(Advanced BiotechnologiesInc.,Eldersburg,MD)的白细胞淘洗活的冷冻淋巴细胞。使用EZ Nucleosomal DNA制备试剂盒(Zymo Research,Irvine,CA),将1x 10

样品制备和cfDNA测序

对于三名参与监测分析的癌症患者,将全血收集在EDTA试管中并立即处理或在4℃储存后一天之内进行处理,或者在Streck试管中进行收集并在两天内处理。通过在4℃下800g离心10分钟来分离血浆和细胞成分。在室温下以18,000g对血浆进行第二次离心以除去所有残留的细胞碎片,并在-80℃下保存直至DNA提取。使用Qiagen循环核酸试剂盒(Qiagen GmbH)从血浆中分离DNA,并在LoBind管(Eppendorf AG)中洗脱。使用Bioanalyzer2100(Agilent Technologies)评估cfDNA的浓度和质量。

如其他地方所述,使用5至250ng的cfDNA制备了用于全基因组测序和靶向测序的NGS cfDNA文库(参见,例如Phallen et al.,2017Sci Transl Med 9:eaan2415)。简而言之,使用针对Illumina的NEBNext DNA文库制备试剂盒[New England Biolabs(NEB)]制备了基因组文库,并对制造商的指南进行了四个主要修改:(i)文库纯化步骤使用了珠上(on-bead)AMPure XP方法,以最大程度减少样品在洗脱和试管转移步骤中的损失(参见,例如Fisher et al.,2011 Genome Biol 12:R1);(ii)适当调整NEBNext End Repair、A-tailing和衔接子连接酶和缓冲液的体积,以适应珠上AMPure XP纯化策略;(iii)在连接反应中使用了八个具有8个碱基对(bp)条形码的独特Illumina双索引适配器,分别代替了具有6或8bp条形码的标准Illumina单或双索引适配器;(iv)用Phusion热启动聚合酶扩增cfDNA文库。

直接对全基因组文库进行测序。对于靶向文库,按照制造商的指导原则使用安捷伦SureSelect试剂和定制的针对58个基因的杂交探针组(例如,参见Phallen et al.,2017Sci Transl Med 9:eaan2415)进行捕获。捕获的文库用Phusion热启动聚合酶(NEB)进行扩增。使用DNA1000试剂盒(Agilent Technologies)在Bioanalyzer 2100上评估捕获的cfDNA文库的浓度和质量。在Illumina HiSeq 2000/2500(Illumina)上使用100bp的配对末端测序对目标文库进行测序。

cfDNA的靶向测序数据分析

如其他文献所述对cfDNA样品的目标NGS数据进行了分析(参见,例如Phallen etal.,2017Sci Transl Med 9:eaan2415)。简而言之,使用Illumina CASAVA(序列和变异的一致性评估)软件(1.8版)完成了主要处理,包括多索引和双索引适配器序列的屏蔽。使用NovoAlign将序列测序片段与人类参考基因组(hg18或hg19版本)进行比对,并使用Needleman-Wunsch方法对选定区域进行额外的比对(参见,例如Jones et al.,2015 SciTransl Med 7:283ra53)。序列改变的位置不受不同基因组构建的影响。使用VariantDx(参见,例如,Jones et al.,2015 Sci Transl Med 7:283ra53)(Personal GenomeDiagnostics,Baltimore,MD)在感兴趣的靶向区域内识别由点突变,小插入和缺失组成的候选突变。

为了分析cfDNA分子的片段长度,要求从cfDNA分子测序片段的每测序片段对(read pair)的Phred质量得分≥30。删除所有重复的ctDNA片段,其定义为具有相同的起始、末端和索引条形码。对于每个突变,仅包括一个或两个测序片段对的片段在给定位置包含突变(或野生型)碱基的片段。使用R软件包Rsamtools和GenomicAlignments完成了此分析。

对于鉴定出体细胞突变的每个基因组基因座,比较包含突变等位基因的片段的长度与野生型等位基因的片段的长度。如果鉴定出100个以上的突变片段,则使用Welch的两次样品t检验比较平均片段长度。对于少于100个突变片段的基因座,实施了自助程序(bootstrap procedure)。具体地,采样了包含野生型等位基因的替换N个片段,其中N表示具有突变的片段的数目。对于每个野生型片段的自助复制,都计算了它们的中值长度。p值估计为自助程序复制的比例,其中位野生型片段的长度等于或大于观察到的中位突变体片段的长度。

cfDNA的全基因组测序数据分析

使用Illumina CASAVA(序列和变异共识评估)软件(版本1.8.2)对cfDNA样品的全基因组NGS数据进行了初步处理,包括多索引适配器序列的解复用和屏蔽。使用ELAND将序列测序片段与人类参考基因组(hg19版本)进行比对。

测序片段和PCR重复的MAPQ得分低于30的测序片段对被删除。hg19常染色体被平铺到26,236个相邻的,不重叠的100kb仓中。按照覆盖度最低的10%的仓指示(参见例如Fortin et al.,2015 Genome Biol 16:180),以及落入杜克黑名单区域的测序片段(参见例如,hgdownload.cse.ucsc.edu/goldenpath/hg19/encodeDCC/wgEncodeMa pability/)去除低可作图区域。使用这种方法,排除了361Mb(13%)的hg19参考基因组,包括着丝粒和端粒区域。短片段被定义为具有100至150bp之间的长度,长片段被定义为具有151至220bp之间的长度。

为了说明归因于基因组GC含量的覆盖度偏差,将具有跨度3/4的局部加权更平滑的loess应用于平均片段GC的散点图,而不是针对每个100kb bin计算的覆盖度。对于短片段和长片段,分别进行Loess回归,以解决片段长度对GC影响血浆覆盖度的可能差异(参见,例如,Benjamini et al.,2012Nucleic Acids Res 40:e72)。将Loess模型中GC解释的短期和长期覆盖范围的预测值相减,获得与GC不相关的短期和长期残差。通过将全基因组范围的中、短期和长期覆盖范围估计值相加,可以使残差恢复到原始水平。对每个样品重复此过程,以说明GC对样品之间覆盖度的影响可能存在差异。为了进一步减少特征空间(featurespace)和噪声,计算了5Mb bin中经GC调整的总覆盖度。

为了比较癌症患者从健康受试者到片段的片段长度变异性,计算了每个个体的长片段分布图的标准偏差。通过Wilcoxon秩和检验比较两组的标准偏差。

染色体臂拷贝数变化的分析

为了开发用于拷贝数变化的臂水平统计,采用了在其他文献中描述的在血浆中进行非整倍性检测的方法(参见,例如,Leary et al.,2012 Sci Transl Med 4:162ra154)。这种方法将基因组分为不重叠的50KB bins,通过用跨度为3/4的loess进行校正后,获得了GC校正的log2测序片段深度。这种基于loess的校正方法可与上述方法媲美,但以log2规模进行评估,以提高对较小分格中的异常值的稳健性(robustness),并且不会按片段长度进行分层。为了获得针对拷贝数更改的特定于臂的Z值,将每组臂(GR)的平均GC调整后的测序片段深度居中,并分别通过从独立的50组中获得的GR值的平均值和标准偏差定标健康样品。

cfDNA的线粒体比对分析

从bam文件中提取最初作图到线粒体基因组的全基因组序列测序片段,并使用Bowtie2以端对端模式将其与hg19参考基因组重排,如其他文献所述(参见,例如Langmeadet al.,2012 Nat Methods 9:357-359)。过滤所得的比对测序片段,以使两个配对均与MAPQ>=30的线粒体基因组对齐。对作图至线粒体基因组的片段数进行计数,并转换为原始bam文件中片段总数的百分比。

癌症分类的预测模型

为了使用片段图谱将健康患者与癌症患者区分,使用了随机梯度增强模型(gbm;请参见,例如Friedman et al.,2001 Ann Stat 29:1189-1232;and Friedman et al.,2002Comput Stat Data An 38:367-378)。对所有504bins进行GC校正的总和短片段覆盖范围居中并按比例缩放,以使每个样品的平均值为0,单位标准差为零。其他特征包括39个常染色体臂的每一个的Z值和线粒体表示(作图到线粒体的测序片段的log10转换比例)。为了估计该方法的预测误差,如其他地方所述使用10-折交叉验证(参见,例如,Efron et al.,1997 J Am Stat Assoc 92,548-560)。仅在每次交叉验证运行中对训练数据执行的特征选择,删除了高度相关(相关性>0.9)或方差接近零的仓(bins)。以随机梯度增强机器学习是使用R软件包gbm软件包执行,参数为n.trees=150,interaction.depth=3,收缩率=0.1和n.minobsinside=10。为了平均从患者随机分组到折的预测误差,将10折交叉验证程序重复10次。灵敏度的置信区间固定为98%和95%的特异性,是从2000年进行的自助程序重复获得的。

肿瘤组织起源分类的预测模型

对于以90%的特异性正确分类为癌症患者的样品(n=174),训练了一个单独的随机梯度增强模型来对起源组织进行分类。为了解决用于预测的肺癌样品数量少,从监测分析中包括了来自晚期肺癌患者的18cfDNA基线样品。通过重复10次的10折交叉验证来评估模型的性能特征。使用与癌症分类模型相同的特征训练了该gbm模型。如前所述,在交叉验证期间,在每个训练数据集中删除了相互之间显示高于0.9的相关性或方差接近零的特征。将每位患者的10个重复样品的组织类别概率取平均值,并将具有最高概率的类别作为预测组织。

人类淋巴细胞和cfDNA的核小体DNA分析

如针对全基因组cfDNA分析所述,从核酸酶处理的淋巴细胞中,在5Mb bin中分析片段大小。从核酸酶处理的淋巴细胞系构建核小体位置的全基因组图。该方法确定了循环片段覆盖度内的局部偏差,显示可避免被降解的该区域。使用“窗口定位得分”(WPS)来对基因组中的每个碱基对进行得分(参见,例如,Snyder et al.,2016Cell 164:57)。使用以每个碱基为中心的60bp滑动窗口,将WPS计算为完全跨越窗口的片段数减去窗口中只有一端的片段数。由于核小体产生的片段的中值长度为167bp,因此高WPS表示可能存在的核小体位置。使用连续中值将WPS得分居中为零,并使用Kolmogorov-Zurbenko滤波器进行平滑处理(例如,参见Zurbenko,The spectral analysis of time series.North-Hollandseries in statistics and probability;Elsevier,New York,NY,1986)。对于介于50和450bp之间的正值的WPS跨度,将核小体峰定义为WPS高于该窗口中值的碱基对集合。以与淋巴细胞DNA相同的方式,确定了来自30个健康个体的cfDNA核小体位置的计算,其序列覆盖度为9x。为确保健康cfDNA中的核小体具有代表性,定义了核小体的共有轨迹(consensustrack),该轨迹仅由两个或多个个体中鉴定出的核小体组成。从共有轨迹计算出相邻核小体之间的中位距离。

蒙特卡罗检测灵敏度的模拟

使用蒙特卡罗模拟来估计检测具有肿瘤来源改变的分子的可能性。简而言之,从多项式分布中生成了100万个分子。对于具有m个改变的模拟,以概率p模拟野生型分子,以概率(1-p)/m模拟m个肿瘤改变。接下来,对g*m个分子进行随机采样并替换,其中g表示1ml血浆中的基因组当量数。如果对肿瘤改变进行了采样s次或更多次,则该样品被归类为癌症来源。重复该模拟1000次以通过癌症指标的平均值于计算机(in silico)估计样品正确分类为癌症的可能性。设g=2000且s=5,则肿瘤改变的数目以2的幂从1改变为256,并且肿瘤来源分子的比例从0.0001%改变为1%。

统计分析

所有统计分析均使用R版本3.4.3进行。使用R软件包插入符(R packages caret)(版本6.0-79)和gbm(版本2.1-4)对健康个体与癌症病患和起源组织进行分类。使用pROC(1.13版)R软件包获得模型输出的置信区间(例如,参见Robin et al.,2011 BMCbioinformatics 12:77)。假设该人群中未被诊断出癌症的病例的患病率很高(每100名健康者中有1或2例),特异性为0.95,灵敏度为0.8的基因组测定将具有有用的操作特征(阳性预测值为0.25,阴性预测值接近1)。功效计算表明,对200多个癌症患者和大约相等数量的健康个体对照进行分析,可以在0.95或更高的期望特异性下以0.06的误差范围估算灵敏度。

数据和代码可用性

本研究中使用的序列数据已保存在欧洲基因组-现象学档案库(EuropeanGenome-phenome Archive)中,研究编号为。EGAS00001003611和EGAS00001002577。分析代码可从github.com/Cancer-Genomics/delfi_scripts获得。

结果

DELFI允许通过全基因组片段模式分析同步分析cfDNA中的大量异常。该方法是基于低覆盖度的全基因组测序和分离的cfDNA分析。在覆盖基因组的非重叠窗口中分析被作图的序列。从概念上而言,窗口的大小范围可能从数千个到数百万个碱基不等,从而导致基因组中有数百个到数千个窗口。5Mb窗口用于评估cfDNA片段模式,即使在有限的1-2x基因组覆盖量下,每个窗口也可提供20,000多个测序片段。在每个窗口内,检查了cfDNA片段的覆盖度和大小分布。该方法用于评估健康人群和癌症人群中全基因组片段分布的变化(表1;附录A)。可以将个体的全基因组模式与参考人群进行比较,以确定该模式是否可能是源自健康的或癌症的个体。由于全基因组图谱揭示了与特定组织相关的位置差异,这些差异可能在总体片段大小分布中被忽略,因此这些模式也可能表明cfDNA的组织来源。

cfDNA的片段大小受到关注,因为发现来源自癌症的cfDNA分子的大小变化可能比来源自非癌细胞的cfDNA更大。来自乳腺癌、结肠直肠癌、肺癌或卵巢癌患者的(表1(附录A),表2(附录B)和表1)靶向区域的cfDNA片段以高覆盖度(总覆盖度43,706,不同覆盖度8,044)捕获并测序,并且表3(附录C)被初步检查。对来自81位患者的165个肿瘤特异性改变的位点进行分析(每位患者1-7个改变的范围),显示突变体和野生型cfDNA片段(图3,表3(附录C))的平均长度之间的平均绝对差异为6.5bp(95%CI,5.4-7.6bp)。相比于这些区域的野生型序列,突变cfDNA片段的中值大小范围从小30个碱基的3号染色体41,266,124点至大47个碱基11号染色体108,117,753点(表3;附录C)。突变和未突变片段的GC含量相似(图4a),GC含量与片段长度之间没有相关性(图4b)。对来自38位患者的44种种系改变进行的类似分析鉴定了不同等位基因片段长度之间的cfDNA大小中值差异小于1bp(图5,表3(附录C))。另外,通过先前来自同一个体的血浆,血沉棕黄层和肿瘤的DNA序列比较,鉴定出41个与克隆性造血相关的改变。与源自肿瘤的片段不同,与造血相关改变的片段和野生型片段之间没有显着差异(图6,表3(附录C))。总体而言,在某些基因组区域中,与非癌症cfDNA片段相比,癌症衍生的cfDNA片段长度具有更大的可变性(p<0.001,方差比检验)。假设这些差异可能是由于癌症中高级染色质结构的变化以及其他基因组和表观基因组异常所致,因此以特定位置的方式进行的cfDNA片段可以作为癌症检测的独特生物标记。

由于靶向测序仅能分析有限数量的基因座,因此进行了大规模的全基因组分析以检测cfDNA片段中的其他异常。从8例I至III期肺癌患者以及30例健康个体(表1(附录A),表4(附录D)和表5(附录E))的约4ml血浆中分离cfDNA,使用高效方法将cfDNA转换为下一代测序文库,并以约9倍的覆盖度进行了全基因组测序(表4;附录D)。健康个体的总cfDNA片段长度较大,平均片段大小为167.3bp,而癌症患者的平均片段大小为163.8(p<0.01,Welch's t检验)(表5;附录E)。为了检查整个基因组中片段大小和覆盖度的差异,将测序的片段作图到其基因组来源,并在504个5Mb大小的窗口中评估了片段长度,覆盖了约2.6Gb的基因组。对于每个窗口,确定了小的cfDNA片段(长度为100至150bp)到较大的cfDNA片段(151至220bp)的比例以及总覆盖度,并用于获得每个样品的全基因组片段化图谱。

健康个体在整个基因组中具有非常相似的片段分布图(图7和图8)。为了检查通常在cfDNA中观察到的片段模式的起源,从两个健康个体的淘洗淋巴细胞中分离出细胞核,并用DNA核酸酶处理以获得核小体DNA片段。对观察到的健康个体的cfDNA模式的分析显示,其与淋巴细胞核小体DNA片段分布图(图7b和7d)和核小体距离(图7c和7f)高度相关。如使用Hi-C方法所揭示的,淋巴细胞中核小体之间的中值距离与淋巴母细胞的开放(A)和封闭(B)区室相关(参见,例如,Lieberman-Aiden et al.,2009Science 326:289-293;and Fortinet al.,2015 Genome Biol 16:180)用于检查基因组的三维结构(图7c)。这些分析表明,正常cfDNA的片段模式是核小体DNA模式的结果,其在很大程度上反映了正常血细胞的染色质结构。

与健康的cfDNA相比,癌症患者在不同区域的片段大小均有不同的多重基因组差异(图7a和7b)。与我们从靶向分析中观察到的结果相似,与健康个体相比,癌症患者的全基因组片段长度差异也更大。

为了确定cfDNA片段长度模式是否可用于区分癌症患者与健康个体,对每个样品进行了从长到短的cfDNA片段比率的全基因组相关性分析(图7a,7b和7e)并与从健康个体计算出的中值片段长度图谱相比较。尽管健康个体中的cfDNA片段图谱非常一致(中值相关性为0.99),但癌症患者中全基因组片段比率的中值相关性为0.84(0.15较低,95%CI0.07-0.50,p<0.001,Wilcoxon等级总和测试;表5(附录E))。将癌症患者的片段图谱与健康淋巴细胞中的片段图谱或核小体距离进行比较时,观察到相似的差异(图7c,7d和7f)。为了说明归因于GC含量的潜在偏差,对每个样品分别应用了局部加权平滑(a locallyweighted smoother),发现在此调整后,健康个体与癌症患者之间的片段图谱差异仍然存在(癌症患者与健康人群的中值相关性=0.83)(表5;附录E)。

从癌患者的cfDNA的9x覆盖度下对全基因组序列数据进行二次采样分析,其基因组覆盖度分别为~2x,~1x,~0.5x,~0.2x和~0.1x,其中确定容易改变的片段图谱甚至在0.5倍的基因组覆盖度下也能鉴定出(图9)。基于这些观察结果,以1-2x的覆盖度进行全基因组测序,用以评估片段图谱是否可能在靶向治疗过程中以类似于监测序列变化的方式发生变化。评估了19例在抗EGFR或抗ERBB2治疗过程中的非小细胞肺癌患者的cfDNA,包括5例局部放射学反应,8例稳定疾病,4例进行性疾病和2例无法测量的疾病(表6;附录F)。如图10所示,治疗过程中片段图谱的异常程度与使用靶向测序确定的EGFR或ERBB2突变体等位基因片段的水平紧密匹配(突变体等位基因与片段图谱的Spearman相关性=0.74)。由于全基因组方法和基于突变的方法是正交的,并且检查了由于先前的治疗而可能在这些患者中被抑制的不同cfDNA改变,因此这些相关性非常显着。值得注意的是,肿瘤未进展并且生存期六个月或更长时间的所有病例在由片段图谱确定而进行的初始治疗后均表现出ctDNA下降或极低的水平,而临床结果较差的病例的ctDNA却有所增加。这些结果证明了将片段分析用于检测肿瘤来源的cfDNA的可行性,并表明此类分析对于治疗期间癌症患者的定量监测也可能有用。

在获得肿瘤组织平行分析的患者中,于已知拷贝数变化的背景下检查了片段图谱。这些分析表明,在拷贝中性的基因组区域中存在改变的片段图谱,并且在拷贝数变化的区域中这些片段可能进一步受到影响(图11a和图12a)。片段模式的位置相关性差异可用于在这些区域中将癌症来源的cfDNA与健康个体的cfDNA区别开来(图12a,b),而总体cfDNA片段大小测量结果会忽略这种差异(图12a)。

这些分析扩展到了癌症患者和健康个体的独立队列。总共208例癌症患者的cfDNA以1-2x覆盖度进行全基因组测序,其中包括乳腺癌(n=54),结肠直肠癌(n=27),肺癌(n=12),卵巢癌(n=28),胰腺癌(n=54)n=34),胃癌(n=27)或胆管癌(n=26)以及215位未患癌症的个体(表1(附录A)和表4(附录D))被执行。所有癌症患者均未接受过治疗,大多数患有可切除的疾病(n=183)。在短和长cfDNA片段覆盖度的GC调整后(图13a),检查了整个基因组窗口中片段的覆盖度和大小特征(图11b,表4(附录D)和表7(附录G))。覆盖度与GC含量的全基因组相关性是有限的,并且在癌症患者和健康个体之间未观察到这些相关性的差异(图13b)。健康的个体具有高度一致的片段图谱,而癌症患者则具有较高的变异性,与中值健康图谱的相关性降低(表7;附录G)。癌症患者中的,其基因组中最常改变的片段化窗口的分析显示,在所分析的癌症类型中,有60个受影响的窗口的中值,突出显示了癌症个体中cfDNA片段众多与位置相关的变化(图11c)。

为了确定与位置相关的片段变化是否可用于检测患有癌症的个体,实施了梯度树增强机器学习模型,以检查cfDNA是否可以归类为具有癌症患者或健康个体的特征,并通过10-折交叉验证重复十次的方法评估此方法的性能特征(图14和15)。机器学习模型包括在整个基因组窗口中经过GC调整的短片段和长片段覆盖度的特性。还开发了一种机器学习分类器,是根据染色体臂的拷贝数量变化的相关特征而非单个分数值(图16a和表8(附录H)),并且包括线粒体拷贝数量变化(图16b),可以帮助区分癌症和健康个体。使用这种DELFI的执行方式,获得了可用于将患者分类为健康或患有癌症的评分值。在208名癌症患者中,有152名被检测到(灵敏度73%,95%CI 67%-79%),而在215名健康个体中有4名被错误分类(特异性为98%)(表9)。在95%的特异性阈值下,检测出80%的癌症患者(95%CI,74%-85%),包括79%的可切除(I–III期)患者(183个患者中的145个)和82%的转移性(IV期)患者(22个患者中的18个)(表9)。用于检测癌症患者的受试者操作特征分析的AUC为0.94(95%CI为0.92–0.96),其癌症类型范围从胰腺癌的0.86到肺癌和卵巢癌的≥0.99(图17a和17b),以及所有阶段的AUC≥0.92(图18)。在癌症患者或健康个体中,DELFI分类器评分值均与年龄无差异(表1;附录A)。

表9.DELFI检测癌症的表现结果

为了评估片段大小和覆盖度、染色体臂拷贝数或线粒体作图对模型预测准确性的贡献,实施了重复的10-折交叉验证程序以单独评估这些功能的性能特征。观察到单独的片段覆盖度特征(AUC=0.94)与组合所有特征的分类器(AUC=0.94)几乎相同(图17a)。相比之下,对染色体拷贝数变化的分析性能较低(AUC=0.88),但仍比基于单个分数值(AUC=0.78)或线粒体作图(AUC=0.72)的拷贝数变化更具预测性(图17a)。这些结果表明片段覆盖度是我们分类器的主要贡献者。由于可以从相同的基因组序列数据中获得癌症患者的信息,因此将预测模型中的所有功能包括在内可能会对癌症患者的检测产生补充作用。

由于片段图谱揭示了组织之间片段的区域差异,因此使用类似的机器学习方法来检查cfDNA模式是否可以识别这些肿瘤的起源组织。结果发现,该方法的准确度为61%(95%CI 53%-67%),其中乳腺癌76%,胆管癌44%,结直肠癌71%,胃癌67%,肺癌53%,48%卵巢癌占50%,胰腺癌占50%(图19,表10)。当考虑将cfDNA异常的患者分配到两个起源部位之一时,准确性提高到75%(95%CI 69%-81%)(表10)。对于所有肿瘤类型,通过DELFI对起源组织的分类明显高于通过随机分配确定的分类(p<0.01,二项式检验,表10)。

表10.DELFI组织起源预测

*检测到的病患基于90%特异性的DELFI检测。肺部队列包括其他有先前治疗的肺癌患者。

由于可以使用癌症特异性的序列改变来识别患有癌症的患者,因此评估了将DELFI与该方法结合使用是否可以提高癌症检测的灵敏度(图20)。使用DELFI和靶向测序对未经治疗的部分癌症患者的cfDNA进行分析后发现,有82%(126个中的103个)患者的片段图谱发生了改变,而66%(126个中的83个)患者的序列发生了改变。DELFI检测到超过89%的突变等位基因分数值>1%的病例,而突变等位基因的分数值<1%病例的DELFI检测的分数值为80%,包括那些使用靶向测序无法检测到的病例(表7;附录G)。当这些方法一起使用时,组合检测的灵敏度提高到91%(126名患者中的115名),特异性为98%(图20)。

总体而言,癌症患者和健康个体之间的全基因组cfDNA片段图谱不同。整个基因组中片段长度和覆盖度以与位置相关的方式变化,可能解释了以前在特定作基因座或总片段大小的cfDNA分析的明显矛盾的观察结果。在患有癌症的患者中,cfDNA中的异质片段模式似乎是血液和赘生性细胞中核小体DNA混合的结果。本研究提供了一种方法,可以同时分析微量cfDNA中的数十至数百种肿瘤特异性异常,从而排除了对cfDNA进行更敏感分析的可能性的限制。与以前的专注于序列或总体片段大小的cfDNA分析方法相比,DELFI分析检测到的癌症患者比例更高(参见例如Phallen et al.,2017 Sci Transl Med 9:eaan2415;Cohen et al.,2018 Science 359:926;Newman et al.,2014 Nat Med 20:548;Bettegowda et al.,2014 Sci Transl Med 6:224ra24;Newman et al.,2016 NatBiotechnol 34:547)。如本实施例所示,将DELFI与其他cfDNA改变的分析结合起来可以进一步提高检测的灵敏度。由于片段图谱似乎与核小体DNA模式有关,因此DELFI可用于确定肿瘤来源的cfDNA的主要来源。通过包括临床特征,其他生物标志物(包括甲基化改变)和其他诊断方法,可以进一步改善对超过一半被分析患者的循环肿瘤DNA来源的识别(RuibalMorell,1992 The International journal of biological markers 7:160;Galli etal.,2013 Clinical chemistry and laboratory medicine 51:1369;Sikaris,2011Heart,lung&circulation 20:634;Cohen et al.,2018 Science 359:926)。最后,这种方法只需要少量的全基因组测序,而无需进行专注于特定改变的典型方法的深度测序。DELFI所需的性能特征和有限的测序量表明,我们的方法可广泛应用于癌症患者的筛查和管理。

本研究结果表明,癌症患者和健康个体之间的全基因组cfDNA片段图谱不同。因此,cfDNA片段图谱可能对未来研究和无创检测人类癌症的方法具有重要意义。

其他实施例

应当理解,尽管已经结合本发明的详细描述描述了本发明,但是前述描述旨在说明而不是限制本发明的范围,本发明的范围由所附权利要求的范围限定。其他方面、优势和修正皆在所附权利要求的范围内。

附录-D:表4.全基因组cfDNA分析的总结

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号