首页> 中国专利> 用于从无细胞DNA中推断基因表达和起源组织的系统和方法

用于从无细胞DNA中推断基因表达和起源组织的系统和方法

摘要

提供了通过推断而非侵入性地确定目的基因表达的方法及其在癌症分类和治疗分级中的用途。这些方法基于整合分析方法,其中单个生物标志物来源于启动子片段熵(PFE)和核小体缺失区域(NDR)深度的分析。在一些实施例中,方法仅使用非侵入性抽血,并且有力地鉴定哪些患者将从免疫检查点抑制、癌症亚型分类为何种和/或肿瘤负荷为何种而获得持久的临床益处。在一个实施例中,方法还包括基于分析为个体选择治疗方案。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-24

    公开

    国际专利申请公布

说明书

关于联邦资助研究的声明

本发明是根据国家卫生研究院授予的合同CA188298在政府支持下完成的。政府对本发明具有某些权利。

相关专利申请的交叉引用

本申请要求2020年5月12日提交的美国临时专利申请号63/023,728的权益和优先权,该临时专利申请的全部公开内容出于所有目的特此并入本文中。

背景技术

在血浆中循环的无细胞DNA(cfDNA)分子主要由染色质片段化产生,伴随着全身不同组织的稳态期间的细胞死亡。因此,cfDNA图谱建立了用于检测实体器官移植后的组织排斥、妊娠期间胎儿非整倍体的非侵入性产前检测和非侵入性肿瘤基因分型的临床实用性,以及用于检测不同癌症类型的早期证据。对于这些应用中的每一种,目前的液体活检检测方法主要依赖于cfDNA分子序列中的种系或体细胞遗传变异,这与感兴趣组织的病理诊断相关。实际上,基因序列中的这种变异对于循环肿瘤DNA(ctDNA)的无活检肿瘤基因分型和疾病负担的监测具有高度信息价值,对诊断和早期癌症检测具有潜在效用。

虽然cfDNA图谱用于血液中突变的非侵入性检测有许多应用,甚至在具有高肿瘤突变负荷的癌症中和甚至在具有高疾病负荷的患者中,但大多数癌症来源的片段通常是未突变的。因此,利用表观遗传特征询问这些cfDNA片段以告知未突变分子的起源组织的能力具有广泛的效用。例如,这些方法可用于检测没有相关遗传损伤的组织损伤,以及用于癌症实体和分子亚型的分类。由于循环的cfDNA分子主要是核小体相关片段,因此它们反映了它们所来源的细胞的核基因组的独特染色质构型。具体而言,与核小体复合物紧密相关的基因组区域通常受到保护,免受细胞内和细胞外核酸内切酶的作用,而开放的染色质区域更容易受到这种降解。

因此,最近几项研究已经鉴定了基因组中的特定染色质片段化特征,其潜在地用于通过cfDNA图谱对起源组织进行分类。这些“片段组学”特征包括测序覆盖深度的降低和转录起始位点(TSS)附近核小体定位的破坏。单独地,几项研究已经表明,cfDNA片段的长度也可以告知起源组织,包括肿瘤起源,即使在被认为对基因组位置或与基因启动子的关系不可知时。例如,携带体细胞变体的肿瘤来源的分子倾向于比它们的野生型对应物更短,并且可用于区分肿瘤来源的体细胞变体与在克隆造血过程中由循环白细胞产生的那些体细胞变体。

尽管有这些进展,但目前的片段组学方法(包括依赖相对浅的全基因组测序(WGS)的方法)不能充分利用各种组织对循环DNA库的贡献。单独地,目前的片段组学技术不能提供足够的基因组深度和宽度来实现基因水平的分辨。实际上,即使在考虑基因组时,这些片段组学方法仅在高循环肿瘤DNA水平下相当好地用于推断基因表达。因此,用于推断基因表达的片段组学方法在很大程度上限于在晚期疾病中通常观察到的具有非常高肿瘤负荷的患者。

发明内容

提供了用于基于对感兴趣样品中的循环无细胞DNA(cfDNA)的分析通过推断来非侵入性地测定感兴趣基因的表达的组合物和方法。在一些实施例中,感兴趣的样品是从患者抽取的非侵入性血液。在这些方法中,测定表达水平不需要分析mRNA。表达谱可用于例如预后和诊断方法。预后和诊断方法包括,例如,确定患有癌症的个体是否会从免疫检查点抑制剂治疗中获得持久的临床益处,用于确定患有非小细胞肺癌(NSCLC)的个体是否被分类为腺癌(LUAD)或鳞状细胞癌(LUSC)的方法,用于定量患有弥漫性大B细胞淋巴瘤(DLBCL)的个体中的肿瘤负荷的方法,用于确定患有DLBCL的个体中的起源细胞的方法等。在一个实施例中,方法还包括基于分析为个体选择治疗方案。在一些实施例中,预测是基于第一次ICI治疗后不久的样品。

在一个实施例中,提供了一种综合分析方法,其中单个生物标记物源自启动子片段熵(PFE)和核小体耗尽区(NDR)深度的分析,其中每一个通过对来自感兴趣样品(例如血液或血液来源样品)的cfDNA在转录起始位点(TSS)两侧的DNA区测序来计算。从cfDNA构建文库。然后将文库与杂交到用户定义的序列(即TSS)的寡核苷酸探针(即选择器)接触。通过在测序之前杂交捕获这些区域,可以使cfDNA富集TSS。通过分析cfDNA在转录起始位点的片段化模式的范围来计算PFE。通过分析TSS的约-150bp至+50bp的测序覆盖范围来计算NDR。PFE和NDR独立地与基因表达相关。与基因表达降低相关的特征是较低的PFE;较高的NDR,而基因表达降低与较高的PFE和较低的NDR相关,这从测序cfDNA确定。NDR深度可以被归一化到被分析的特定DNA区域,其可以被称为归一化的NDR深度,并且得到的值与PFE积分以提供单个预测度量。

在一些实施例中,选择器组可用于在测序之前的杂交捕获期间靶向基因组内的特异性TSS。在一些实施例中,选择器组包括表2中鉴定的一个或多个基因的选择器。例如,选择器组可以包括表2中的至少10个选择器、50个选择器、100个选择器、150个选择器、200个选择器或表2中的选择器的完整列表,或者可以是表2中所示的组。

通过积分PFE和NDR的测量值,即归一化的NDR深度,提供了用于可靠地预测患者样品的基因表达的完全非侵入性多分析物测定(EPIC-seq,来自无细胞DNA测序的表达推断)的方法。分析可以用硬件或软件或两者的组合来实现。在本发明的一个实施例中,提供了一种机器可读存储介质,该介质包括用机器可读数据编码的数据存储材料,当使用用使用所述数据的指令编程的机器时,该数据存储材料能够显示本发明的任何数据集和数据比较。

在其他实施例中,通过使用基于计算机的软件程序来执行该方法,其中输入PFE和NDR深度,并且软件程序输出指示由用户定义的特定分类的得分。软件程序采用机器学习来通过训练算法揭示输入度量与目标输出之间的关系。

通过本发明方法评估的个体可能患有癌症。在一些实施例中,个体先前已被诊断患有癌症。在一些实施例中,癌症是癌(carcinoma),包括但不限于非小细胞肺癌、小细胞肺癌、腺癌、鳞状细胞癌、肝癌、基底细胞癌等,其可以是乳腺癌、结肠直肠癌、膀胱癌、头颈癌、肾细胞癌、肝癌、皮肤癌、胰腺癌等。在一些实施例中,癌症是淋巴瘤,例如霍奇金淋巴瘤、非霍奇金淋巴瘤等。在一些实施例中,癌症是黑素瘤。在某些实施例中,个体患有非小细胞肺癌(NSCLC),其可以是早期或晚期。

在一些实施例中,提供了一种使用EPIC-seq来促进对患有多种不同癌症的患者的治疗进行个性化选择(如果合适的话,包括ICI)的方法。当EPIC-seq用于确定个体是否将接受来自ICI治疗的DCB时,可以选择预测受益于ICI的低得分个体,并用ICI治疗,通常与另外的治疗剂组合。可以选择预测不会受益于ICI的高得分个体,并用非ICI疗法,例如化疗、非ICI免疫疗法、放射疗法等进行治疗。感兴趣的ICI包括但不限于PD-1抑制剂和PD-L1抑制剂。

在一些实施例中,提供了一种使用EPIC-seq来促进具有未知来源的癌症亚型的个体的癌症亚型分类的方法,即患有NSCLC的个体,其中不清楚其是LUAD还是LUSC,或患有DLBCL的个体,其中不清楚其源自ABC或GBC。在一个实施例中,当个体被确定患有一种癌症亚型而不具有另一种时,即,个体被诊断为LUAD而不是LUSC,则个体可以根据医师的确定对所述癌症亚型进行治疗。例如,如果个体的癌症亚型被确定为LUAD,则他们可以用贝伐单抗(bevacizumab)联合化疗进行治疗,而如果确定个体的癌症亚型是LUSC,则他们可以用奈替单抗(nectitumab)联合顺铂和吉西他滨进行治疗。

在一个实施例中,EPIC-seq促进对晚期癌症患者的治疗(其可包括ICI)进行个性化选择,以改善结果同时使毒性最小化。例如,晚期疾病患者可以用单一药剂PD-1阻断治疗一个周期而与PD-L1表达无关,然后使用EPIC-seq确定个体对治疗的反应。EPIC-seq得分低(预期持久受益)的患者仍使用单一药剂PD-1阻断,而EPIC-seq得分高(预期不会受益)的患者将通过添加化疗而接受治疗升级。

在本发明的其他实施例中,提供了用于分析患者样品的装置或试剂盒。这些装置或试剂盒将包括特异性识别一种或多种细胞和指示患者状态的信号蛋白的试剂,包括但不限于亲和试剂。试剂可以以分离的形式提供,或作为适合于本发明方法的混合物预混合。试剂盒可以包括使用多种试剂测定来自样品的数据的说明书;以及用于统计分析数据的指令。试剂盒可以与用于分析的系统(例如在计算机上实现的系统)组合提供。这样的系统可以包括被配置用于分析通过本发明的方法获得的数据的软件组件。

附图说明

当结合附图阅读时,从以下详细描述中将最好地理解本发明。专利或申请文件包含至少一张彩色附图。具有彩色附图的本专利或专利申请公开的副本将由专利局在收到要求并支付必要费用后提供。要强调的是,根据惯例,附图的各种特征不是按比例的。相反,为了清楚起见,各种特征的尺寸被任意扩大或缩小。图中包括以下附图。

图1示出了基因表达与无细胞DNA分子特征的相关性。(a)染色质可及性足迹可追溯到起源组织。开放染色质受到核酸酶消化,导致降低的测序覆盖深度(通过核小体耗尽率(NDR)测量)和片段长度多样性(通过启动子片段化熵(PFE)测量)。在该卡通图中,肺上皮细胞表现出非常低的MS4A1(CD20)表达,但NKX2-1(TTF1)高表达。肺癌患者的cfDNA片段由与来自经历凋亡的肺腺癌细胞的片段混合的正常主要造血cfDNA片段组成。因为肺上皮细胞区室对于NKX2-1片段具有较低覆盖率(NDR)和较高片段长度多样性(PFE),所以所得混合物显示出类似的变化,净效应取决于循环肿瘤衍生片段的总量。另一方面,B细胞以非常低的NKX2-1表达水平高度表达MS4A1(CD20)。因此,B细胞淋巴瘤患者的cfDNA片段由与B细胞衍生的ctDNA混合的正常cfDNA片段组成,MS4A1的过度表达导致转录起始位点(TSS)的cfDNA片段长度值的较低覆盖率和较高多样性。(b)热图描述了通过高深度全基因组测序(约250x)分析的示例性血浆样品中跨基因组的转录起始位点(TSS)的cfDNA片段大小密度。X轴描述cfDNA片段大小,而热图的各行捕获了通过RNA-Seq使用每百万转录物(TPM,右)评估的血液白细胞中按GEP排序的片段密度。当通过参考PBMC表达载体排序时,每行对应于包含10个基因的TSS的一个元基因。对于每个cfDNA片段大小箱,数据按列标准化。右侧的点图中描述了每个箱的相应PFE、NDR和TPM水平。(c)散点图描述了血浆cfDNA PFE与白细胞RNA表达水平(TPM)之间的关系,如在图(b)中所示。(d)单个cfDNA片段特征(PFE、NDR、OCF、WPS和MDS)与白细胞基因表达水平之间的皮尔逊相关性;OCF:定向感知cfDNA片段化;WPS:窗口化保护得分;MDS:基序多样性得分。误差条描述了自举重复(用替换基因组重新取样)产生的95%置信区间。(e)作为距TSS中心的距离的函数的白细胞基因表达与两个主要cfDNA特征(PFE和NDR)中的每一个之间的相关性。橙色曲线显示在距TSS中心的所有距离处,cfDNAPFE的平均相关性高于NDR的相关性。虚线对应于当对来自匹配的血液PBMC样品的脱落的白细胞DNA进行评估时的一致性量度。(f)测序深度(X轴)对cfDNA PFE和NDR与基因表达的相关性(Y轴)的影响。对于每个向下采样的深度,产生三个重复,并且阴影区域示出了高于和低于平均值的三个标准偏差。(g)“PFE”的热图反映在来自晚期肺癌和前列腺癌患者或健康成人的五个示例试样(列)中的选择基因的外显子中,如通过深度全外显子cfDNA测序所分析。基于在小细胞肺癌(SCLC)和去势抗性前列腺癌(CRPC)中的预期表达模式选择所描绘的基因(行)。两个SCLC样品来自一名患者的治疗前和进展时间点(分别为AF=23.4%和37.8%),而CRPC元图谱最初由Adalsteinsson等人103进行分析。如所预期的,相对于健康成人,AR在CRPC病例中表现出高PFE,而ASCL1、ISNM1和SOX2在SCLC病例中表现出高PFE。

图2示出了EPIC-Seq设计和工作流程。(a)该方案描述了EPIC-Seq的一般工作流程,开始于从血浆提取cfDNA,文库制备和捕获目的基因的TSS,富集区域的高通量测序,最后是cfDNA片段化分析,随后是机器学习模型,用于预测每个TSS的表达和试样分类。(b-c)火山图描绘了差异表达的基因,为非小细胞肺癌亚型(来自TCGA的肺腺癌[LUAD]相对于肺鳞状细胞癌[LUSC])和弥漫性大B细胞淋巴瘤的起源细胞分类(来自Schmitz等人的ABC相对于GCB)中组织学分类提供了信息。在检查血液白细胞中高表达的基因后,选择以灰色以外的颜色突出显示的基因用于EPIC-Seq中的TSS捕获(参见方法)。(d)已知在NSCLC-LUAD肿瘤中高度表达的编码TTF1的NKX2-1通过EPIC-Seq在LUAD患者的cfDNA中表现出显著较高的预测表达。(e)已知作为DLBCL肿瘤标记物的编码CD20的MS4A1通过EPIC-Seq在DLBCL患者的cfDNA中表现出显著较高的预测表达。盒须图描述了通过EPIC-Seq分析的单个样品中的预测表达水平(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,每个患者队列中的须跨越1.5IQR。

图3示出了EPIC-Seq在肺癌检测和组织学分类中的应用。(a)EPIC-肺分类器用于在留一分批分析中区分肺癌与其他肺癌的接受者-操作者曲线(ROC)捕获性能(AUC=0.91)。AUC的95%置信区间使用2000个自举重复计算。(b)EPIC-肺得分与NSCLC疾病分期的关系,通过Jonckheere检验测量趋势(P=0.08)。盒须图描述了通过EPIC-Seq分析的单个样品中的EPIC-肺分类器得分(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,每个疾病阶段组中的须跨越1.5IQR。(c)EPIC-肺分类器在95%特异性下的敏感性分析。基于对相同样品通过CAPP-Seq估计的平均循环肿瘤等位基因分数(<1%,1-5%和>5%)的箱将患者分组。敏感性随着ctDNAAF增加而提高,当AF<1%时,约33%的患者可检测到。误差条描述了500个自举重复产生的敏感性值的95%置信区间。(d)在留一法框架中测试时LUAD相对于LUSC分类器的ROC曲线(AUC=0.90,95%-CI[0.83-0.97])。(e)NSCLC组织学分类器的系数,正系数和负系数分别有利于LUAD和LUSC。当通过t检验比较它们的幅度和极性时,这些系数与现有知识显著相关(P=0.033)。盒须图如(b)中所定义,并且由来自在留一法交叉验证步骤中训练的分类器的67个系数组产生。(f)通过CAPP-Seq测量的作为肿瘤ctDNA分数的函数的组织学分类器的准确性。通过最小化类条件误差的平均值,在留一法框架中确定用于分类的(最佳)阈值。误差条如(a)中所定义。(g)从EPIC-Seq推断的基因表达值在预测治疗开始4周内对免疫检查点抑制剂的反应中的应用。(h)散点图描绘了EPIC Seq肺动力学得分相对于通过CAPP-Seq测量的ctDNA反应的变化;后者计算为治疗时与治疗前ctDNA浓度的对数转化倍数变化。两个正交测量显示出显著的相关性(r=0.77,P=0.006)。(i)在图g中计算的EPIC-Seq肺动力学得分的ROC曲线区分在前6个月内具有持久临床益处(DCB)的患者与不具有持久益处(NDB)的患者(AUC=0.93,95% CI[0.78-1])。

图4示出了EPIC-Seq在DLBCL检测中的应用。(a)EPIC-DLBCL分类器用于在留一分批分析中区分淋巴瘤与其他淋巴瘤的接受者-操作者曲线(ROC)捕获性能(AUC=0.92)。(b)EPIC-Seq DLBCL分类器得分与通过修订的国际预后指数(R-IPI;Jonckheere趋势检验P=4E-4)测量的临床预后得分之间的关系。盒须图描述了通过EPIC-Seq分析的单个样品中的EPIC-DLBCL得分(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,须跨越1.5IQR。(c)EPIC-DLBCL分类器在95%特异性下的敏感性分析。类似于EPIC-肺癌分类器,敏感性从AF<1%的病例中的约40%显著提高到AF>5%的病例中的>95%。误差条描述了500个自举重复产生的敏感性值的95%置信区间。(d-e)在具有GCB(d)和ABC(e)起源细胞的两个DLBCL患者中,ctDNA疾病负荷应答于治疗和临床进展期间的变化。显示了在连续治疗前和治疗后时间点(x轴)通过PET/CT MTV测量的射线照相反应(第一行y轴),通过CAPP-Seq测量的ctDNA平均Af(第二行y轴)和EPIC seq淋巴瘤得分(第三行y轴)。

图5示出了EPIC-Seq在DLBCL起源细胞分类中的应用。(a)DLBCL起源细胞EPIC-SeqGCB得分和通过CAPP-Seq测量的基于突变的GCB得分之间的关系(Spearman rho=0.75,P=1e-5)。在相关分析之前,在通过CAPP-Seq得分排序之后,通过3个患者箱对数据进行平滑。(b)来自cfDNA的EPIC Seq GCB得分与通过Hans免疫组织化学算法的肿瘤组织临床分类之间的关系(Wilcoxon P值=0.001)。盒须图描述了通过EPIC-Seq分析的单个样品中的EPIC-Seq GCB得分(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,须跨越1.5IQR。(c)DLBCL无事件存活的Kaplan-Meier分析中EPIC-Seq起源细胞得分的预后价值(对数秩P值=0.013)。患者按照中位EPIC-COO得分进行分层,GCB得分较高,ABC亚型水平较低。(d)通过EPIC-Seq和无事件存活分析的单个基因的预后价值,如通过单变量Cox比例风险模型的Z得分测量的。对于具有多个TSS区域的基因,使用Stouffer方法104合并Z得分。在针对多个假设测试校正后,只有LMO2(红色)仍然与有利的DLBCL结果显著相关。虚线表示Bonferroni校正P值0.05的显著性阈值。(e)森林图描述了无事件存活(EFS)的多变量Cox比例风险模型结果。在针对IPI和ctDNA等位基因分数调整后,仅LMO2的远端TSS保持对EFS的显著预后(P=0.005)。

图6示出了转录起始位点的片段长度密度随基因表达而变化。(a)跨越1,748组基因的片段长度密度的热图(类似于图1a)。三个区域R1(100-150bp)、R2(151-210bp)和R3(211-300bp)在高或低表达基因组中显示富集。(b)图(a)中定义的每个区域内的片段在整个十等分的参考PBMC基因表达载体(即,当按它们在PBMC中的表达值排序时的10组基因)的深度全基因组样品中的百分比。高表达的基因包括较少的单染色体片段,表明分布更广,因此PFE更高。(c)按照表达排序的顶部(和底部)2000个基因的外显子对内含子对TSS位点的三个区域R1-R3内的片段分数。TSS区域内的单染色体片段的分数显著低于内含子和外显子区域(TSS为63.5%,非TSS为约71%)。皮尔逊的卡方拟合优度检验产生以下测试统计(TSS相对于外显子:G=62,133[P<2.2E-16];TSS相对于内含子:G=84,110[P<2.2E-16])。(d)表达(通过热图描绘)相对于基因推断模型中使用的两个特征的等值线图:PFE和NDR。

图7示出了集成模型准确预测验证样品中的基因表达。(a)1,748组基因的预测的基因表达相对于群体平均基因表达的散点图。基础样品是合并的元样品(27名健康受试者在计算机(silico)上合并为一个),在验证中实现0.9的相关性。(b)当在没有基因分组下考虑TSS水平表达值以及每组具有2、3、5和10个基因的情况时,来自图(a)的元样品用于评估模型性能。模型预测的表达和PBMC表达之间的皮尔逊相关性以绿色条显示。这种相关性随着每组基因数增加而显著提高。NDR和表达之间的相关值用蓝色条显示。(c-d)对来自Zviran等人的健康受试者产生的元全基因组样品进行与图(a-b)中相同的分析。(e)来自Zviran等人的全基因组样品(深度约20-40x)按每10个基因分组,并使用皮尔逊相关性评估模型预测表达和PBMC表达之间的一致性(即,每个点是一个受试者)。非癌样品与正常PBMC的相关性高于肺癌病例,Wilcoxon P值为0.018。(f)将图f中肺癌病例的ichorCNA肿瘤分数估计值用于与图f中的相关性进行比较。如散点图所示,当肿瘤分数增加时,相关性降低(r=-0.69,P=0.00052)。

图8示出了通过EPIC-seq分析的无细胞DNA样品。

图9示出了EPIC-肺得分与临床因素之间的一致性。(a)EPIC-肺得分与代谢肿瘤体积(MTV)之间的一致性。使用Spearman相关性评估这两个因素。相关系数为=0.67,P值为0.04。(b)使用Spearman相关性评估EPIC-肺得分和ctDNA平均等位基因分数之间的一致性。相关系数为=0.5,P值为3E-5。

图10示出了EPIC-DLBCL得分与临床因素之间的一致性。(a)箱形图显示了根据代谢肿瘤体积分层的两组患者(>220相对于<220mL)。该分析表明,“MTV>220”组中EPIC-DLBCL得分显著更高,Wilcoxon P值为0.015。(b)使用Spearman相关性评估EPIC86 DLBCL得分和ctDNA平均等位基因分数(来自CAPP-Seq)之间的一致性。相关系数是0.66,P值P<2E-16。(c)将EPIC-DLBCL模型应用于来自两个DLBCL患者(DLBCL002[ABC]和DLBCL007[GCB])的13个样品的cfDNA图谱。通过Spearman相关性评估所得得分与ctDNA平均等位基因分数之间的一致性。相关系数为0.79,P值为0.004。(d)用Hans算法标记时患者EFS的Kaplan-Meier曲线。非GCB组包含非GCB和未知。(e)小提琴图显示当在三个肿瘤研究中根据基因对结果(测量为EFS)的影响将其分组时,Cox比例危险模型Z得分的分布。

具体实施方式

本发明的这些和其他特征将从本文的描述中变得更加明显。尽管结合各种实施例描述了本发明,但是本发明并不旨在限于这些实施例。相反,本发明包括各种替代、修改和等同物,如本领域技术人员所理解的。

本说明书中使用的大多数词语具有本领域技术人员将归于这些词语的含义。在说明书中具体定义的词语具有作为整体在本发明的上下文中提供的含义,并且如本领域技术人员通常理解的。在本领域理解的词语或短语的定义与本说明书中具体教导的词语或短语的定义之间出现冲突的情况下,以本说明书为准。

必须注意的是,如在说明书和所附权利要求中所使用的,单数形式“一个/种(a)”、“一个/种(an)”和“所述(the)”包括复数指示物,除非上下文另外清楚地指明。

本说明书中提及的所有出版物、专利和专利申请均以引用的方式并入本文中,其程度如同明确且个别地指示每个单独出版物、专利或专利申请以引用的方式并入一般。

术语“免疫检查点抑制剂”是指与免疫检查点蛋白结合并阻断其活性和/或抑制表达其所结合的免疫检查点蛋白的免疫调节细胞(例如Treg细胞、肿瘤相关巨噬细胞等)的功能的分子、化合物或组合物。免疫检查点蛋白可包括但不限于CTLA4(细胞毒性T淋巴细胞相关蛋白4,CD152)、PD1(还称为Pd-1;程序性死亡1受体)、PD-L1、PD-L2、LAG-3(淋巴细胞激活基因-3)、OX40、A2AR(腺苷A2A受体)、B7-H3(CD276)、B7-H4(VTCN1)、BTLA(B和T淋巴细胞衰减子,CD272)、IDO(吲哚胺2,3-双加氧酶)、KIR(杀伤细胞免疫球蛋白样受体)、TIM 3(T细胞免疫球蛋白结构域和粘蛋白结构域3)、VISTA(T细胞激活的V结构域Ig抑制剂)和IL-2R(白介素-2受体)。

免疫检查点抑制剂是本领域熟知的并且是商业上或临床上可获得的。这些包括但不限于抑制免疫检查点蛋白的抗体。用其靶免疫检查点蛋白提及的检查点抑制剂的说明性实例提供如下。包含CTLA-4抑制剂的免疫检查点抑制剂包括但不限于替西木单抗和伊匹木单抗(以Yervoy销售)。

包含PD-1抑制剂的免疫检查点抑制剂包括但不限于纳武单抗(Opdivo)、匹地利珠单抗(CureTech)、AMP-514(MedImmune)、派姆单抗(Keytruda)、AUNP 12(肽、Aurigene和Pierre)、西米普利单抗(Libtayo)。包含PD-L1抑制剂的免疫检查点抑制剂包括但不限于BMS-936559/MDX-1105(Bristol-Myers Squibb)、MPDL3280A(Genentech)、MED14736(Medlmmune)、MSB0010718C(EMD Sereno)、阿特珠单抗(Tecentriq)、阿维鲁单抗(Bavencio)、德瓦鲁单抗(Imfinzi)。

包含B7-H3抑制剂的免疫检查点抑制剂包括但不限于MGA271(Macrogenics)。包含LAG3抑制剂的免疫检查点抑制剂包括但不限于IMP321(Immuntep)、BMS-986016(Bristol-Myers Squibb)。包含KIR抑制剂的免疫检查点抑制剂包括但不限于IPH2101(利瑞鲁单抗,Bristol-Myers Squibb)。包含OX40抑制剂的免疫检查点抑制剂包括但不限于MEDI-6469(Medlmmune)。用于优先耗尽Treg细胞(例如FoxP-3+CD4+细胞)的靶向IL-2R的免疫检查点抑制剂包含IL-2毒素融合蛋白,其包括但不限于denileukin diftitox(Ontak;Eisai)。

可以使用本发明的主题方法治疗的癌症类型包括但不限于肾上腺皮质癌、肛门癌、再生障碍性贫血、胆管癌、膀胱癌、骨癌、骨转移、脑癌、中枢神经系统(CNS)癌、外周神经系统(PNS)癌、乳腺癌、宫颈癌、儿童非霍奇金淋巴瘤、结肠癌和直肠癌、子宫内膜癌、食道癌、尤因氏家族肿瘤(例如尤因氏肉瘤)、眼癌、胆囊癌、胃肠道类癌、胃肠道间质瘤、妊娠滋养细胞疾病、毛细胞白血病、霍奇金淋巴瘤、卡波济氏肉瘤、肾癌、喉和下咽癌、急性淋巴细胞性白血病、急性髓性白血病、儿童白血病、慢性淋巴细胞性白血病、慢性髓性白血病、肝癌、肺癌、肺类癌瘤、非霍奇金淋巴瘤、男性乳腺癌、恶性间皮瘤、多发性骨髓瘤、骨髓增生异常综合征、骨髓增生性疾病、鼻腔和鼻旁癌、鼻咽癌、成神经细胞瘤、口腔和口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤、黑素瘤皮肤癌、非黑素瘤皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌(例如子宫肉瘤)、移行细胞癌、阴道癌、外阴癌、间皮瘤、鳞状细胞或表皮样癌、支气管腺瘤、绒毛膜癌、头颈癌、畸胎癌或Waldenstrom巨球蛋白血症。

剂量和频率可以根据药剂在患者中的半衰期而变化。本领域技术人员将理解,将针对活性剂的分子量、从血液中的清除率、施用模式和其他药代动力学参数调整这些指导。对于局部施用,例如鼻内、吸入等,或对于全身施用,例如i.m.、i.p.、i.v.、口服等,剂量也可以变化。

术语“受试者”、“个体”和“患者”在本文中可互换使用以指脊椎动物,优选哺乳动物,更优选人。提供用于分析的样品的哺乳动物物种包括犬科动物;猫科动物;马;牛;绵羊等,和灵长类动物,特别是人。动物模型,特别是小型哺乳动物,例如鼠类、兔类等可用于实验研究。本发明的方法可用于兽医目的。

如本文所用,术语“治疗反馈(theranosis)”是指使用从诊断方法获得的结果来指导治疗方案的选择、维持或改变,包括但不限于一种或多种治疗剂的选择、剂量水平的改变、剂量时间表的改变、施用模式的改变和配制品的改变。用于告知治疗反馈的诊断方法可以包括提供关于疾病、病症或症状的状态的信息的任何方法。

术语“治疗剂”、“能够治疗的药剂”或“治疗剂”可互换使用,并且是指在向受试者施用时赋予某些有益效果的分子或化合物。有益效果包括能够诊断确定;疾病、症状、障碍或病理状况的改善;减少或预防疾病、症状、障碍或病症的发作;并且通常抵消疾病、症状、障碍或病理状况。

非ICI癌症治疗可能包括Abitrexate(甲氨蝶呤注射液)、Abraxane(紫杉醇注射液)、Adcetris(维布妥昔单抗注射液)、Adriamycin(多柔比星)、Adrucil注射液(5-FU(氟尿嘧啶))、Afinitor(依维莫司)、Afinitor Disperz(依维莫司)、Alimta(PEMET EXED)、Alkeran注射液(美法仑注射液)、Alkeran Tablets(美法仑)、Aredia(帕米膦酸盐)、Arimidex(阿那曲唑)、Aromasin(依西美坦)、Arranon(奈拉滨)、Arzerra(奥法木单抗注射液)、Avastin(贝伐单抗)、Bexxar(托西莫单抗)、BiCNU(卡莫司汀)、Blenoxane(博来霉素)、Bosulif(博舒替尼)、Busulfex Injection(白消安注射液)、Campath(阿仑单抗)、Camptosar(伊立替康)、Caprelsa(凡德他尼)、Casodex(比卡鲁胺)、CeeNU(洛莫司汀)、CeeNU Dose Pack(洛莫司汀)、Cerubidine(道诺霉素)、Clolar(克罗拉滨注射液)、Cometriq(卡博替尼)、Cosmegen(放线菌素)、CytosarU(阿糖胞苷)、Cytoxan(Cytoxan)、Cytoxan注射液(环磷酰胺注射液)、Dacogen(地西他滨)、DaunoXome(道诺霉素脂质复合物注射液)、Decadron(地塞米松)、DepoCyt(阿糖胞苷脂质复合物注射液)、DexamethasoneIntensol(地塞米松)、Dexpak Taperpak(地塞米松)、Docefrez(多烯紫杉醇)、Doxil(多柔比星脂质复合物注射液)、Droxia(羟基脲)、DTIC(氨烯咪胺)、Eligard(亮丙瑞林)、Ellence(Ellence(表柔比星))、Eloxatin(Eloxatin(奥沙利铂))、Elspar(天冬酰胺酶)、Emcyt(雌莫司汀)、Erbitux(西妥昔单抗)、Erivedge(维莫德吉)、Erwinaze(菊欧文氏菌天冬酰胺酶)、Ethyol(氨磷汀)、Etopophos(依托泊苷注射液)、Eulexin(氟他胺)、Fareston(托瑞米芬)、Faslodex(氟维司群)、Femara(来曲唑)、Firmagon(地加瑞克注射液)、Fludara(氟达拉滨)、Folex(甲氨蝶呤注射液)、Folotyn(普拉曲沙注射液)、FUDR(FUDR(氟尿苷))、Gemzar(吉西他)、Gilotrif(阿法替尼)、Gleevec(甲磺酸伊马替尼)、Gliadel Wafer(卡莫司汀晶片)、Halaven(艾日布林注射液)、Herceptin(曲妥珠单抗)、Hexalen(六甲蜜胺)、Hycamtin(拓朴替康)、Hycamtin(拓朴替康)、Hydrea(羟基脲)、lclusig(帕纳替尼)、Idamycin PFS(伊达比星)、Ifex(异环磷酰胺)、Inlyta(阿昔替尼)、Intron A alfab(干扰素α-2a)、Iressa(吉非替尼)、Istodax(罗咪酯肽注射液)、Ixempra(伊沙匹隆注射液)、Jakafi(鲁索替尼)、Jevtana(卡巴他赛注射液)、Kadcyla(恩美曲妥珠单抗)、Kyprolis(卡非佐米)、Leukeran(氯芥苯丁酸)、Leukine(沙格司亭)、Leustatin(克拉屈滨)、Lupron(亮丙瑞林)、Lupron Depot(亮丙瑞林)、Lupron DepotPED(亮丙瑞林)、Lysodren(米托坦)、Marqibo Kit(长春新碱脂质复合物注射液)、Matulane(丙卡巴肼)、Megace(甲地孕酮)、Mekinist(曲美替尼)、Mesnex(美司那)、Mesnex(美司那注射液)、Metastron(氯化锶89)、Mexate(甲氨蝶呤注射液)、Mustargen(氮芥)、Mutamycin(丝裂霉素)、Myleran(白消安)、Mylotarg(吉妥珠单抗奥唑米星)、Navelbine(长春瑞滨)、Neosar注射液(环磷酰胺注射液)、Neulasta(非格司亭)、Neulasta(乙二醇化非格司亭)、Neupogen(非格司亭)、Nexavar(索拉非尼)、Nilandron(Nilandron(尼鲁米特))、Nipent(喷托他丁)、Nolvadex(他莫昔芬)、Novantrone(米托蒽醌)、Oncaspar(培门冬酶)、Oncovin(长春新碱)、Ontak(Denileukin Diftitox)、Onxol(太平洋紫杉醇注射液)、Panretin(阿曲诺英)、Paraplatin(卡铂)、Perjeta(皮妥珠单抗注射液)、Platinol(顺铂)、Platinol(顺铂注射液)、PlatinolAQ(顺铂)、PlatinolAQ(顺铂注射液)、Pomalyst(泊马度胺)、Prednisone Intensol(强的松)、Proleukin(阿地白介素)、Purinethol(巯嘌呤)、R-CHOP(利妥昔单抗、环磷酰胺、盐酸多柔比星{羟基柔红霉素}、硫酸长春新碱{Onocvin}和强的松)、Reclast(唑来膦酸)、Revlimid(来那度胺)、Rheumatrex(甲氨蝶呤)、Rituxan(利妥昔单抗)、RoferonA alfaa(干扰素α-2a)、Rubex(多柔比星)、Sandostatin(奥曲肽)、Sandostatin LAR Depot(奥曲肽)、Soltamox(他莫昔芬)、Sprycel(达沙替尼)、Sterapred(强的松)、Sterapred DS(强的松)、Stivarga(瑞戈非尼)、Supprelin LA(组氨瑞林植入物)、Sutent(舒尼替尼)、Sylatron(聚乙二醇干扰素α-2b注射液(Sylatron))、Synribo(奥马西他辛注射液)、Tabloid(硫鸟嘌呤)、Taflinar(达拉菲尼)、Tarceva(厄洛替尼)、Targretin胶囊(贝沙罗汀)、Tasigna(氨烯咪胺)、Taxol(太平洋紫杉醇注射液)、Taxotere(多烯紫杉醇)、Temodar(替莫唑胺)、Temodar(替莫唑胺注射液)、Tepadina(噻替哌)、Thalomid(沙利度胺)、TheraCys BCG(BCG)、Thioplex(噻替哌)、TICEBCG(BCG)、Toposar(依托泊苷注射液)、Torisel(替西罗莫司)、Treanda(盐酸苯达莫司汀)、Trelstar(曲普瑞林注射液)、Trexall(甲氨蝶呤)、Trisenox(三氧化二砷)、Tykerb(拉帕替尼)、Valstar(膀胱内缬柔比星)、Vantas(组氨瑞林植入物)、Vectibix(盘尼图单抗)、Velban(长春花碱)、Velcade(波替单抗)、Vepesid(依托泊苷)、Vepesid(依托泊苷注射液)、Vesanoid(维A酸)、Vidaza(阿扎胞苷)、Vincasar PFS(长春新碱)、Vincrex(长春新碱)、Votrient(帕唑帕尼)、Vumon(替尼泊苷)、Wellcovorin IV(左旋亚叶酸钙注射液)、Xalkori(克唑替尼)、Xeloda(卡培他滨)、Xtandi(恩杂鲁胺)、Yervoy(易普利单抗注射液)、Zaltrap(阿柏西普注射液)、Zanosar(链脲霉素)、Zelboraf(维罗非尼)、Zevalin(替伊莫单抗)、Zoladex(戈舍瑞林)、Zolinza(伏立诺他)、Zometa(唑来膦酸)、Zortress(依维莫司)、Zytiga(阿比特龙)。

放射治疗是指使用辐射,通常是X射线来治疗疾病。在1895年发现了X射线,自那时以来,放射已经用于医学诊断和研究(X涉嫌)和治疗(放射治疗)。放射治疗可以从体外作为外部放射治疗,使用X射线、钴放射、电子和更少见的其他粒子如质子进行。它也可以从体内作为内部放射疗法进行,其使用放射性金属或液体(同位素)来治疗癌症。

如本文所用,“治疗(treatment)”或“治疗(treating)”或“减轻(palliating)”或“改善(ameliorating)”可互换使用。这些术语是指用于获得有益或期望结果的方法,包括但不限于治疗益处和/或预防益处。治疗益处是指治疗中一种或多种疾病、病症或症状的任何治疗相关的改善或效果。对于预防益处,可以将组合物施用于处于发展特定疾病、病症或症状的风险的受试者,或施用于报告疾病的一种或多种生理症状的受试者,即使疾病、病症或症状可能尚未显现。

术语“有效量”或“治疗有效量”是指足以实现有益或所需结果的药剂量。治疗有效量将根据所治疗的受试者和疾病状况、受试者的体重和年龄、疾病状况的严重程度、施用方式等而变化,这可由本领域普通技术人员容易地确定。该术语还适用于将提供通过本文所述的任一种成像方法供检测的图像的剂量。具体剂量将根据所选择的具体药剂、待遵循的给药方案、是否与其他化合物组合施用、施用时间、待成像的组织和所携带的物理递送系统而变化。

“合适的条件”应具有取决于使用该术语的上下文的含义。也就是说,当与抗体结合使用时,该术语是指允许抗体与其相应抗原结合的条件。当用于将药剂与细胞接触时,该术语应意指允许能够这样做的药剂进入细胞并执行其预期功能的条件。在一个实施例中,本文所用的术语“合适的病症”是指生理病症。

术语“炎性”反应是体液(抗体介导的)和/或细胞反应的产生,所述细胞反应可由抗原特异性T细胞或其分泌产物和先天免疫细胞介导。“免疫原”能够在施用于哺乳动物时或由于自身免疫疾病而诱导针对自身的免疫反应。

出于本发明目的的术语“生物标记物(biomarker)”、“生物标记物(biomarkers)”、“标记物(marker)”或“标记物(markers)”非限制性地指蛋白质及其相关代谢物、突变、变体、多态性、修饰、片段、亚基、降解产物、元件和其他分析物或样品来源的测量。标记物可包括细胞内蛋白质或细胞外蛋白质的表达水平。标记物还可以包括任一个或多个前述测量的组合,包括时间趋势和差异。广泛使用的标记物也可以指免疫细胞亚群。

“分析”包括通过测量样品中的标记物(例如,标记物或组分表达水平的存在或不存在)来确定与样品相关的一组值,并将该测量值与来自相同受试者或其他对照受试者的样品或一组样品中的测量值进行比较。本教导的标记物可以通过本领域已知的各种常规方法中的任一种进行分析。“分析”可以包括执行统计分析,例如数据的归一化、统计显著性的确定、统计相关性的确定、聚类算法等。

在本教导的上下文中,“样品”是指从受试者分离的任何生物样品,通常是包含无细胞DNA的样品。用于获得无循环细胞DNA的样品可包括任何合适的样品,通常是血液或血液来源的产物,如血浆、血清等。替代样品可包括例如尿液、腹水、滑液、脑脊液、唾液等。

“数据集”是在所需条件下由样品(或样品群体)的评估产生的一组数值。数据集的值可以例如通过实验中从样品获得测量值并从这些测量值构建数据集来获得;或者可替代地,通过从诸如实验室的服务提供商,或者从数据集已经存储在其上的数据库或服务器获得数据集来获得。类似地,术语“获得与样品相关的数据集”包括获得从至少一个样品确定的一组数据。获得数据集包括获得样品,和处理样品以通过实验确定数据,例如,通过测量抗体结合,或定量信号响应的其他方法。该短语还包括例如从第三方接收一组数据,该第三方已经处理了样品以通过实验确定数据集。

在本教导的上下文中,“测量(Measuring)”或“测量(measurement)”是指确定临床或受试者来源的样品中物质的存在、不存在、数量、量或有效量,包括此类物质的存在、不存在或浓度水平,和/或基于对照(例如标记物的基线水平)评估受试者的临床参数的值或分类。

可以根据为确定样品属于给定类别的概率设定阈值的预测建模方法来进行分类。概率优选为至少50%、或至少60%、或至少70%、或至少80%或更高。还可以通过确定所获得的数据集与参考数据集之间的比较是否产生统计上显著的差异来进行分类。如果是,则从中获得数据集的样品被分类为不属于参考数据集类别。相反,如果这种比较在统计上与参考数据集没有显著差异,则从中获得数据集的样品被分类为属于参考数据集类别。

模型的预测能力可根据其提供特定值或值范围的质量度量(例如AUC或准确度)的能力来评估。在一些实施例中,期望的质量阈值是预测模型,其将以至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95或更高的准确度对样品分类。作为可替代的量度,期望的质量阈值可以指预测模型,其将以至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高的AUC(曲线下面积)对样品分类。

如本领域已知的,预测模型的相对敏感度和特异性可以“调整”以有利于选择性度量或敏感度度量,其中两个度量具有反比关系。根据所进行的测试的特定要求,可以调整上述模型中的限值以提供选定的敏感度或特异性水平。敏感度和特异性中的一个或两个可为至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高。

术语“抗体”包括全长抗体和抗体片段,并且可以指来自任何生物体的天然抗体、工程化抗体或重组产生的用于实验、治疗或其他目的的抗体,如下文进一步定义。本领域已知的抗体片段的实例,如Fab、Fab'、F(ab')2、Fv、scFv或抗体的其他抗原结合子序列,通过修饰完整抗体或使用重组DNA技术从头合成而产生。术语“抗体”包括单克隆和多克隆抗体。抗体可以是拮抗剂、激动剂、中和抗体、抑制性抗体或刺激性抗体。它们可以是人源化的、糖基化的、与固体支持物结合,并具有其他变化。

本发明的方法可以使用包含标记、标记元件或标签的亲和试剂。标记或标记元件是指可直接(即第一标记)或间接(即第二标记)检测的分子;例如,标记可以被看到和/或测量或以其他方式识别,使得可以知道其存在或不存在。标记包括光学标记如荧光染料或部分。荧光团可以是“小分子”荧光或蛋白质荧光(例如绿色荧光蛋白及其所有变体)。在一些实施例中,激活状态特异性抗体用量子点标记,如Chattopadhyay等人(2006)Nat.Med.12,972-977中公开的。量子点标记的抗体可单独使用或它们可与有机荧光染料缀合的抗体联合使用以增加可用标记的总数。随着标记抗体数量的增加,对已知细胞群体进行亚分型的能力也增加。

本发明方法的检测、分选或分离步骤可需要荧光激活细胞分选(FACS)技术或流式细胞术、质量细胞术等,其中FACS用于从含有特定表面标记物的群体中选择细胞,或选择步骤可需要使用磁响应颗粒作为靶细胞捕获和/或背景去除的可回收支持物。多种FACS系统是本领域已知的,并可用于本发明的方法中(参见例如1999年4月16日提交的W099/54494;美国序列号20010006787,2001年7月5日提交,每个都通过引用明确并入本文中)。

质量细胞术或CyTOF(DVS Sciences)是流式细胞术的一种变体,其中抗体用重金属离子标签而不是荧光染料标记。通过飞行时间质谱法读数。这允许在单个样品中组合更多的抗体特异性,而在通道之间没有显著的溢出。例如,参见Bodenmiller等人(2012)Nature Biotechnology 30:858-867。

亲和试剂如抗体也可用于例如免疫组织化学,以测定免疫检查点蛋白如CD274(PD-L1)、B7-1、B7-2、4-1BB-L、GITRL等的表达。替代地,表达可通过本领域已知的任何方便的方法测定,例如mRNA杂交、流式细胞术、质量细胞术等。用于分析的样品可包括例如肿瘤活检样品,如针活检样品。

本发明结合了其他申请和文本中公开的信息。以下专利和其他出版物通过引用整体并入本文:Alberts等人,The Molecular Biology of the Cell,第4版GarlandScience,2002;Vogelstein和Kinzler,The Genetic Basis of Human Cancer,第2版,McGraw Hill,2002;Michael,Biochemical Pathways,John Wiley and Sons,1999;Weinberg,The Biology of Cancer,2007;Immunobiology,Janeway等人第7版,Garland,and Leroith and Bondy,Growth Factors and Cytokines in Health and Disease,AMulti Volume Treatise,Volumes 1A and IB,Growth Factors,1996。

除非从上下文中明显看出,否则本发明的所有元素、步骤或特征可以与其他元素、步骤或特征以任意组合使用。

分子和细胞生物化学中的一般方法可以在以下标准教科书中找到:《分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)》第3版(Sambrook等人,HarborLaboratory出版社2001);《分子生物学的短方案(Short Protocols in MolecularBiology)》第4版(Ausubel等人编著,John Wiley&Sons 1999);《蛋白质方法(ProteinMethods)》(Bollag等人,John Wiley&Sons 1996);《用于基因治疗的非病毒载体(NonviralVectors for Gene Therapy)》(Wagner等人编著,Academic出版社1999);《病毒载体(ViralVectors)》(Kaplift和Loewy编著,Academic出版社1995);《免疫学方法手册(ImmunologyMethods Manual)》(I.Lefkovits编著,Academic出版社1997);以及《细胞和组织培养:Laboratory Procedures in Biotechnology(Doyle&Griffiths,John Wiley&Sons1998)》。本公开中提及的用于基因操作的试剂、克隆载体和试剂盒可获自商业供应商,诸如BioRad、Stratagene、Invitrogen、Sigma-Aldrich和ClonTech。

已经根据本发明人发现或提出的特定实施例描述了本发明,以包括用于实施本发明的优选模式。本领域技术人员将认识到,根据本公开,在不脱离本发明的预期范围的情况下,可以对所示例的特定实施例进行许多修改和改变。由于生物学功能等效性的考虑,可以改变蛋白质结构而不影响种类或量的生物学作用。所有这些修改都包括在所附权利要求的范围内。

本发明方法用于预后、诊断和治疗目的。如本文所用,术语“治疗”用于指预防复发和治疗先前存在的病症。对正在进行的癌症进行治疗以实现持久的临床益处是特别令人感兴趣的。

本文所用的术语“启动子片段化熵”(PFE)是指消化后在转录起始位点(TSS)处或附近DNA片段长度的相对多样性。使用修改的香农熵指数将启动子片段熵计算为PFE(TSS):=E

本文所用的术语“核小体耗尽区”(NDR)是指DNA中不含核小体的启动子区域。核小体的缺乏通常指示活跃表达的基因。NDR深度是指发生在核小体耗尽区内的测序深度。为了防止基因组中深度的变化,包括GC含量变化或体细胞拷贝数变化,将深度在用户定义的每个TSS两侧的每个窗口内以每百万计数(CPM)空间归一化。将这种归一化的测量值表示为每个TSS的核小体耗尽区得分NDR。

术语“测序深度”或“深度”是指来自个体的测试样品的给定基因组位置或基因座处的序列读段或读段片段的总数。

术语“选择器”或“选择器组”是指对应于特定基因组区域的寡核苷酸或寡核苷酸组,其中基因组区域可包含TSS或多个TSS。本领域已知多种选择器和选择器组(参见例如2014年3月13日提交的US 2014-0296081 A1,其通过引用明确并入本文)。

提供了非侵入性测定目的基因表达的方法。然后将这些目的基因的表达谱用于许多应用。这些方法包括但不限于用于确定癌症个体是否将从免疫检查点抑制剂治疗中获得持久临床益处的方法、用于确定患有非小细胞肺癌(NSCLC)的个体是否被分类为腺癌(LUAD)或鳞状细胞癌(LUSC)的方法、用于量化患有弥漫性大B细胞淋巴瘤(DLBCL)的个体中的肿瘤负荷的方法、用于确定患有DLBCL的个体中的起源细胞的方法等。提供了一种综合分析方法,其中从启动子片段熵(PFE)和核小体耗尽区(NDR)深度分析中导出单个生物标记物,以产生患者对免疫检查点抑制(ICI)的反应性的预后,NSCLC亚型的确定,DLBCL肿瘤负荷的测定和/或DLBCL起源细胞分类。在一些仅使用非侵入性抽血的实施例中,方法稳健地鉴定哪些患者将从免疫检查点抑制中获得持久临床益处,癌症亚型分类和/或肿瘤负荷。在一个实施例中,方法还包括基于分析为个体选择治疗方案。在一些实施例中,预测是基于第一次ICI治疗后不久的样品。

用于无细胞DNA图谱的样品可以是允许分析一种或多种DNA样品,优选血液样品的任何合适类型。样品可以从个体获得一次或多次。可在不同时间从个体获得多个样品。在一些实施例中,在ICI治疗之前获得样品。在一些实施例中,在第一次ICI治疗后,并且在第一次ICI治疗的约4周、3周、2周、1周内获得样品。在一些实施例中,在ICI治疗之前和之后获得样品。

无细胞DNA样品可以从身体样品中分离。可以通过红细胞裂解、离心、淘析、密度梯度分离、单采血液成分术、亲和选择、淘选、FACS、用Hypaque离心、具有附着抗体的固体支持物(磁珠、柱内珠或其他表面)等从身体样品中分离无细胞DNA。如上所述分析样品的感兴趣的特定度量。

在通过推断确定基因表达中使用cfDNA提供了优于分析基因表达的基于RNA的方法的优点。cfDNA的使用提供了用于通过推断确定基因表达的非侵入性手段,因为获得cfDNA仅需要血液样品并且不需要如基于RNA的方法所需的广泛组织处理。cfDNA还通过更稳定和更不易于降解而提供优于RNA的明显优势。

本发明的方法包括使用DNA寡核苷酸的“选择器”群体的具有多阶段生物信息学的优化文库制备方法,所述“选择器”群体对应于目的基因中的TSS区域。DNA寡核苷酸的选择器群体(其可以被称为选择器组)包含用于多个基因组区域的探针。

在本发明的一些实施例中,提供了用于识别适合于特定肿瘤类型的选择器组的方法。还提供了选择器组的寡核苷酸组成,其可以粘附于固体基质,标记用于亲和力选择等;以及包含这种选择器组的套件。包括但不限于适用于分析非小细胞肺癌(NSCLC)的选择器组。

在其他实施例中,提供了在诊断和监测个体患者的癌症中使用选择器组的方法。在这些实施例中,选择器组用于例如通过杂交选择富集对应于TSS区域的cfDNA。然后扩增“选择的”cfDNA并测序。

全机器人或微流体系统包括自动化液体、颗粒、细胞和生物体处理,包括高通量移液以进行筛选应用的所有步骤。这包括液体、颗粒、细胞和生物体操作,例如抽吸、分配、混合、稀释、洗涤、精确体积转移;回收和丢弃移液管尖端;以及从单次样品抽吸多次输送相同体积的重复移液。这些操作是无交叉污染的液体、颗粒、细胞和生物体转移。该仪器可将微孔板样品自动复制到过滤器、膜和/或子板,进行高密度转移,全板系列稀释和高容量操作。

在一些实施例中,用于多孔板、多管、支架、筒、小管、深孔板、微量离心管、冷冻管、方孔板、过滤器、芯片、光纤、珠和其他固相基质的平台或具有各种体积的平台被容纳在可升级的模块化平台上以用于额外的容量。该模块化平台包括变速轨道振荡器,以及用于源样品、样品和试剂稀释液的多位置工作台,测定板,样品和试剂储存器,移液管尖端和主动洗涤站。在一些实施例中,本发明的方法包括使用读板器。

在一些实施例中,具有单个或多个磁性探针、亲和探针或移液管的可互换移液管头(单通道或多通道)自动操作液体、颗粒、细胞和生物体。多孔或多管磁性分离器或平台以单个或多个样品形式操作液体、颗粒、细胞和生物体。

在一些实施例中,仪器将包括检测器,其可以是多种不同的检测器,取决于标记和测定。在一些实施例中,有用的检测器包括具有多个荧光通道的显微镜;提供荧光、紫外和可见分光光度检测的读板器,具有单波长和双波长终点和动力学能力、荧光共振能量转移(FRET)、发光、猝灭、双光子激发和强度再分布;CCD相机,用于捕获数据和图像并将其转换为可量化格式;以及计算机工作站。

在一些实施例中,机器人装置包括通过总线与存储器和一组输入/输出设备(例如,键盘、鼠标、监视器、打印机等)通信的中央处理单元。同样,如下所述,这可以是对本发明的多路复用设备的CPU的补充或替代。中央处理单元、存储器、输入/输出设备和总线之间的一般交互在本领域中是已知的。因此,根据要运行的实验,各种不同的程序存储在CPU存储器中。

使用FASTQ文件对TSS位点和样品进行映射、去重复和质量控制,所述FASTQ文件使用定制管线进行解复用,其中只有当8bp样品条形码和6bp UID在纠错后与预期序列匹配时才考虑读段对。解复用后,移除条形码,并使用fastp从读段的3’端修剪衔接子通读以保存短片段。使用BWA将片段与人基因组(hg19)比对;重要的是,禁用了BWA ALN中的自动分布推断,以允许包含更短和更长的cfDNA片段,否则这些片段将被异常地标记为不正确地配对。使用定制的条形码方法去除PCR重复,所述方法将内源和外源独特分子标识符(UMID),包括cfDNA片段起始和终止位置,以及连接的衔接子内的预先指定的UMID组合在一起。为了允许覆盖均匀性用于比较,使用“samtools view-s”将数据下采样到期望的深度。所需深度包括但不限于大于500x的深度、500至600x、600至700x、700至800x、800至900x、900至1000x、1000至1100x、1100至1200x、1200至1300x、1300至1400x、1400至1500x、1500至1600x、1600至1700x、1700至1800x、1800至1900x、1900至2000x、2000至2100x、2100至2200x、2200至2300x、2300至2400x、2400至2500x、2500至2600x、2600至2700x、2700至2800x、2800至2900x、2900至3000x的深度、或大于3000x的测序深度。考虑测序深度小于500x的样品,任何不符合该深度阈值(中值深度)的样品均被视为质量控制(QC)失败。cfDNA片段长度密度模式低于140或高于185的任何样品也被除去,因为预期的片段长度密度模式是167(对应于染色体DNA长度)。为了识别和审查由我们的EPIC-Seq小组分析的236个TSS区域中的噪声位点,对23个对照进行了分析,允许识别和去除具有可再现低TSS覆盖率的定型区域(即,CPM小于跨选择器中TSS的均匀分布覆盖率的三分之一的任何位点,即,

为了保证进入分析的片段的足够质量,在WGS和EPIC-Seq数据中分别需要>30或>10的映射质量(MAPQ,k)(使用“samtools view-q k-F3084”)。更宽松的EPIC-seq MAPQ阈值通过在EPIC-seq选择器设计期间已经施加在所选择的TSS区域上的更严格的可映射性和唯一性要求来限定。分析限于具有以下BAM FLAG组的读段:81、93、97、99、145、147、161和163。为确保去除非唯一片段,对具有重复名称的读段进行审查。

使用TSS区域的5个cfDNA片段组学特征进行片段组学特征提取和总结,然后将这些特征中的每一个与基因表达进行比较,包括窗口保护得分(WPS)、定向感知CfDNA片段化(OCF)、基序多样性得分(MDS)、核小体耗尽区域得分(NDR)和启动子片段化熵(PFE)。MDS、NDR、OCF和WPS各自按照最初描述的研究的惯例进行计算,并进行了轻微修改,如下详述。

基序多样性得分(MDS)被确定为对单个cfDNA片段进行的末端基序序列分析,以评估核苷酸在每个读段对的读段的前几个位置中的分布。这通过计算提取每个序列读段的基因组参考序列的前4个5'核苷酸来进行,产生4聚体序列基序。然后当考虑与每个TSS两侧的2kb窗口重叠的片段时,将MDS计算为跨每个TSS位点的256个基序(4聚体)的分布的香农指数。

使用深度计算核小体耗尽区域得分(NDR),该深度在每个TSS两侧的每个窗口内以每百万计数(CPM)空间进行归一化。将这种归一化的测量值表示为每个TSS的核小体耗尽区得分NDR。

使用香农熵计算启动子片段化熵(PFE),以总结用户定义的每个TSS位点附近的cfDNA片段大小值的多样性。定义了201个大小箱[从b

使用任何给定基因的原始香农熵(如“使用香农熵计算片段长度多样性”中所述),在使用一组34个cfDNA WES图谱(各自具有200-400x深度),将其转化为z得分后进行全外显子组PFE分析。为了说明用于归一化的队列中深度的差异,5个样品的元图谱被认为实现了与最初用于在依赖WGS时关联PFE和基因表达水平的那些相当的深度。

使用81个SCLC原发性肿瘤的RNA-Seq数据产生小细胞肺癌基因标记集。通过将这些肿瘤的RNA-seq数据与我们的参考PBMC RNA表达水平比较和鉴定在SCLC表达的前1500个中与在PBMC表达的后5000个中的基因重叠的基因(“SCLC高”)进行差异基因表达分析。类似地,对于“SCLC低”基因,我们选择在PBMC表达的前1500个和SCLC表达的后5000个中的基因。该基因集进一步限于其TSS覆盖在我们的整个外显子组中以确保足够的测序覆盖用于分析的那些。

为了从转录组基因TSS区的cfDNA片段化图谱推断RNA表达水平,使用PFE和NDR两个特征构建预测模型。值得注意的是,在所考虑的5个片段组学特征中,这些指数显示出最高的个体相关性以及互补性。对于训练,使用一个通过WGS测序到高覆盖深度的cfDNA样品。对5名健康受试者的PBMC进行RNA-Seq,并将这些个体中的3名的平均值用作“参考表达载体”。接下来,为了在核心启动子处获得较高的分辨率,基于它们在我们的参考RNA-seq载体中的表达按每10个基因分组。在除去用作计算PFE的背景的基因后,总共保留了1,748组(每组10个基因)。在延伸的核心启动子处的所有片段由每组内的基因汇集并提取两个特征:NDR和PFE。将这两个特征通过95%分位数在背景基因上归一化,其中对于PFE,归一化因子是

为了将最初导自WGS的该表达预测模型转移到目标TSS空间(EPIC-seq),通过在两名健康受试者上测量其均方根误差(RMSE)来评估上述600个模型中的每一个。对于这两名健康受试者中的每一名,通过EPIC-seq将cfDNA图谱与来自同一血样的RNA-Seq的相应PBMC转录组谱进行比较,并计算600个集合模型中每一个的RMSE。然后将每个模型的权重按比例缩放该模型RMSE倒数,然后将最终得分计算为600个模型的线性和,如上所述进行加权。

使用TCGA和DLBCL基因表达数据集以RNA-Seq FPKM-UQ的形式使用GDC API对所有个体进行癌症类型特异性基因的鉴定。在从具有超过一种类型的恶性肿瘤病史的个体中取出样品后,将其分成两个单独的队列用于训练和验证(每种癌症类型分别为70%和30%)。在每种癌症类型的训练集中,计算中值基因表达(FPKM-UQ),并将上第15分位数的蛋白质编码基因视为高表达基因。为了消除血细胞变异对cfDNA的潜在混杂影响,当考虑来自GTEx的全血转录组谱时,排除外周血中表达的上第5分位数内的基因。

用显示不同基因表达谱的已知分子亚型确定EPIC-Seq靶向测序组设计的基因选择。包括LUAD、LUSC和DLBCL的癌症特异性基因。为了找到NSCLC中的亚型特异性基因,使用RBioconductor中的DESeq2包进行差异表达分析,以从TCGA中区分LUAD和LUSC肿瘤转录组。对于淋巴瘤分析,使用根据RNA-Seq基因表达数据在ABC和GCB亚型之间差异表达的基因列表。除了这些DLBCL和NSCLC特异性基因,包括来自LM22基因集的50个基因,捕获外周血白细胞计数的变化。这些和其他对照基因一起构成总共179个独特基因,其中每个基因为EPIC-Seq贡献了一个或多个TSS区域,总计236个靶向TSS区域。

区分肺癌(EPIC-肺分类器)被训练以区分肺癌与非癌症受试者。用于免疫细胞类型和NSCLC组织学分类的所有TSS用于该分类器。对于具有多个TSS区域的基因,在交叉验证的每次迭代中,TSS区域首先与超过0.95的基因内相关性相结合,并捕获平均值。对于相关性小于0.95的那些,单独的TSS区域作为独立的报告子被保留。这导致模型中的139个特征和143个样品(67个肺癌病例和71个对照)。训练l

设计NSCLC组织学亚型分类器以区分非小细胞肺癌的两个主要亚型,即肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)。类似于“EPIC-肺分类器”中的模型,分类模型采用α=0.9的弹性网,其中对应于一个基因的多个TSS位点被合并。通过留一法(LOO)分析评估该分类器的性能。分类器使用80个特征和67个样品(36个LUAD和31个LUSC)进行训练。为了评估性能,计算了具有相等权重的分类准确度。

评估了使用EPIC-Seq的来自血浆cfDNA的NSCLC组织学分类器中模型系数的显著性,以及它们与使用RNA-Seq的来自肿瘤转录组的先前设计的一致性。具体而言,从cfDNA分析的弹性网络模型中比较非零系数,然后对LUAD基因系数与LUSC基因系数进行t检验。

为了预测免疫检查点抑制剂的益处,鉴别发现治疗前队列中差异表达的TSS(非ICI;肺癌相对于正常)。命名以下来自单侧t检验的Bonferroni校正P<0.25的基因的TSS区域:(FOLR1 TSS#3、ITGA3 TSS#1、LRRC31 TSS#1、MACC1 TSS#1、NKX2-1TSS#2、SCNN1A TSS#2、SFTPB TSS#1、WFDC2 TSS#1、CLDN1 TSS#1、FSCN1 TSS#1、GPC1 TSS#1、KRT17 TSS#1、PFN2TSS#1、PKP1 TSS#1、S100A2 TSS#1、SFN TSS#1、SOX2 TSS#2、TP63 TSS#2)。对于时间点t

使用弹性网训练分类器以区分DLBCL与非癌症受试者,其中正则化参数如在“EPIC-肺分类器”中设置。用于LOBO交叉验证的数据集包括129个特征和167个样品(91个DLBCL病例和71个对照)。

对于DLBCL COO的分类,GCB得分定义如下:(1)在留一法交叉验证框架内,将每个基因表达标准化(即Z得分)并将Z得分转化为概率,然后(2)将COO得分定义为

通过皮尔逊相关性(r)或Spearman相关性(ρ)(取决于数据类型)测量已知变量与预测变量之间的关联。当数据呈正态分布时,酌情使用不等方差t检验或配对t检验确定组比较;否则,应用双侧Wilcoxon检验。为了测试连续变量相对于分类组的趋势,使用在clinfun R包中实施的Jonckheere趋势测试。使用Bonferroni方法进行多重假设检验的校正。双侧P<0.05的结果被认为是显著的。使用R 4.0.1进行统计分析。置信区间(CI)通过用替换重新采样(即自举)来计算。使用R包pROC进行接受者操作特征(ROC)曲线分析。使用R包存活率进行存活率分析。在二分法时,使用Kaplan-Meier估计值绘制存活曲线,并通过对数秩检验评估统计学显著性。否则,将Cox比例-危害模型拟合至数据以确定每个协变量的显著性。

在一些实施例中,本发明提供了用于分类、诊断、预后、治疗反馈和/或预测结果的试剂盒。试剂盒可进一步包括用于细胞状态及其生理状态的数据分析的软件包,其可包括用于与测试图谱比较和与上述其他分析比较的参考图谱。试剂盒还可以包括用于任何上述应用的说明书。

本发明提供的试剂盒可包含一种或多种本文所述的亲和试剂、用于cfDNA的分离和测序分析的试剂等。试剂盒还可包含可用于本发明的其他试剂,如调节剂、固定剂、容器、板、缓冲液、治疗剂、说明书等。

本发明提供的试剂盒可包含一种或多种标记元件。标记元件的非限制性实例包括小分子荧光团、蛋白质荧光团、放射性同位素、酶、抗体、化学发光分子、生物素、链霉亲和素、地高辛、显色染料、发光染料、磷染料、荧光素酶、磁性颗粒、β-半乳糖苷酶、氨基、羧基、马来酰亚胺基、氧基和硫醇基、量子点、螯合或笼状镧系元素、同位素标签、放射性致密标签、电子致密标签、放射性同位素、顺磁性颗粒、琼脂糖颗粒、质量标签、电子标签、纳米颗粒和囊泡标签。

在一些实施例中,本发明的试剂盒使得能够通过敏感的细胞测定方法,例如IHC和流式细胞术检测信号蛋白,其适用于临床检测、分类、诊断、预后、治疗反馈和结果预测。

这样的试剂盒可以另外包含一种或多种治疗剂。试剂盒可以进一步包括用于生理状态数据分析的软件包,其可以包括用于与测试图谱比较的参考图谱。

这样的试剂盒还可以包括信息,例如科学参考文献、包装插页材料、临床试验结果和/或这些的概述等,其指示或确立组合物的活性和/或优点,和/或描述剂量、施用、副作用、药物相互作用或对健康护理提供者有用的其他信息。这些信息可以基于各种研究的结果,例如,使用涉及体内模型的实验动物的研究和基于人类临床试验的研究。本文所述的试剂盒可提供、销售和/或推广给健康提供者,包括医师、护士、药剂师、处方官员等。在一些实施例中,试剂盒也可以直接销售给消费者。

在一些实施例中,提供对受试者进行分类、诊断、预后、治疗反馈和/或结果预测的评估包括生成书面报告,该书面报告包括技术人员对受试者健康状态的评估,即“诊断评估”,对受试者预后的评估,即“预后评估”,和/或对可能的治疗方案的评估,即“治疗评估”。因此,本发明方法可以进一步包括生成或输出提供诊断评估、预后评估或治疗评估的结果的报告的步骤,该报告可以以电子介质(例如,计算机监视器上的电子显示器)的形式或以有形介质(例如,打印在纸或其他有形介质上的报告)的形式提供。

如本文所述,“报告”是电子或有形文档,其包括提供与诊断评估、预后评估和/或治疗评估及其结果相关的感兴趣信息的报告元素。受试者报告可以完全或部分以电子方式生成。受试者报告至少包括诊断评估,即关于受试者是否将具有特定临床反应和/或将遵循建议疗程的诊断。受试者报告可以进一步包括以下中的一个或多个:1)关于测试设施的信息;2)服务提供商信息;3)受试者数据;4)样品数据;5)评估报告,其可包括各种信息,包括:a)测试数据,其中测试数据可以包括对激活的细胞信号转导反应的分析,b)使用的参考值,如果有的话。

报告可以包括关于测试机构的信息,该信息与进行样品收集和/或数据生成的医院、诊所或实验室有关。该信息可以包括一个或多个细节,这些细节涉及例如测试设施的名称和位置、进行测定和/或输入输入数据的实验室技术人员的身份、进行和/或分析测定的日期和时间、储存样品和/或结果数据的位置、测定中使用的试剂(例如试剂盒等)的批号等。具有该信息的报告字段通常可以使用用户提供的信息来填充。

报告可以包括关于服务提供商的信息,该服务提供商可以位于用户所在的保健机构之外,或者位于保健机构内。这种信息的实例可以包括服务提供商的名称和位置、审查者的名称、以及在必要或需要时进行样品收集和/或数据生成的个人的姓名。具有该信息的报告字段通常可以使用用户输入的数据来填充,该数据可以从预脚本的选择中选择(例如,使用下拉菜单)。报告中的其他服务提供商信息可以包括关于结果和/或关于解释性报告的技术信息的联系信息。

报告可以包括受试者数据部分,包括受试者病史以及管理受试者数据(即,对于诊断、预后或治疗评估不是必需的数据),诸如识别受试者的信息(例如,姓名、受试者出生日期(DOB)、性别、邮箱和/或居住地址、医疗记录号(MRN)、医疗机构的房间和/或床位号、保险信息等)、下令易感性预测的受试者医师或其他健康专业人员的姓名、以及如果与医嘱医师不同,负责受试者护理的工作医师(例如,初级护理医师)的姓名。

报告可以包括样品数据部分,其可以提供关于所分析的生物样品的信息,例如从受试者获得的生物样品的来源(例如血液、组织类型等)、样品处理方式(例如存储温度、准备方案)以及采集日期和时间。具有该信息的报告字段通常可以使用用户输入的数据来填充,其中一些可以作为预脚本的选择来提供(例如,使用下拉菜单)。

报告可以包括评估报告部分,其可以包括在如本文所述的数据处理之后生成的信息。解释性报告可以包括患者将从免疫检查点抑制剂获得肿瘤益处的可能性的预后。解释性报告可包括例如分析结果、用于计算分析的方法和解释,即预后。报告的评估部分还可任选地包括建议。例如,结果表明受试者倾向于从免疫检查点抑制剂获得肿瘤益处的预后。

还将容易理解,报告可包括额外元素或修改元素。例如,在电子的情况下,报告可以包含指向内部或外部数据库的超链接,这些数据库提供关于报告的所选元素的更详细信息。例如,报告的患者数据元素可以包括到电子患者记录的超链接或用于访问这样的患者记录的站点,该患者记录被保存在机密数据库中。后一实施例可能对医院内系统或诊所内设置感兴趣。当以电子格式时,报告被记录在合适的物理介质上,诸如计算机可读介质,例如计算机存储器、压缩驱动器、CD、DVD等中。

容易理解的是,报告可以包括以上所有或一些元素,条件是报告通常至少包括足以提供用户请求的分析(例如,诊断、预后或对治疗反应的预测)的元素。

计算系统(例如,计算机)可用于本公开的方法中,以整合和分析从启动子片段熵和归一化NDR深度生成的数据。计算单元可以包括用于分析所测量的图像的任何合适的组件。因此,计算单元可以包括以下的一个或多个:处理器;非瞬态计算机可读存储器,例如计算机可读介质;输入设备,如键盘、鼠标、触摸屏等;输出设备,如监视器、屏幕、扬声器等;网络接口,如有线或无线网络接口;等等。

可以分析来自测量的原始数据,例如启动子片段熵归一化的NDR深度等,并将其存储在基于计算机的系统上。如本文所用,“基于计算机的系统”是指用于分析本发明信息的硬件装置、软件装置和数据存储装置。本发明的基于计算机的系统的最小硬件包括中央处理单元(CPU)、输入装置、输出装置和数据存储装置。本领域技术人员可以容易地理解,当前可用的基于计算机的系统中的任一个都适用于本发明。数据存储设备可以包括包含如上所述的当前信息的记录的任何产品,或者可以访问这种产品的存储器访问装置。

分析可以用硬件或软件或两者的组合来实现。在本发明的一个实施例中,提供了一种机器可读存储介质,该介质包括用机器可读数据编码的数据存储材料,当使用用使用所述数据的指令编程的机器时,该数据存储材料能够显示本发明的任何数据集和数据比较。这些数据可用于各种目的,例如诊断、疾病治疗等。在一些实施例中,本发明在可编程计算机上执行的计算机程序中实现,所述可编程计算机包括处理器、数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备和至少一个输出设备。程序代码被应用于输入数据以执行上述功能并生成输出信息。以已知的方式将输出信息应用于一个或多个输出设备。计算机可以是例如个人计算机、微型计算机或常规设计的工作站。

每个程序优选地以高级过程或面向对象编程语言来实现以与计算机系统通信。然而,如果需要,程序可以用汇编或机器语言来实现。在任何情况下,语言可以是编译或解释语言。每个这样的计算机程序优选地存储在通用或专用可编程计算机可读的存储介质或设备(例如,ROM或磁盘)上,用于当存储介质或设备被计算机读取时配置和操作计算机以执行这里描述的过程。该系统还可以被认为被实现为配置有计算机程序的计算机可读存储介质,其中这样配置的存储介质使得计算机以特定的和预定的方式操作以执行这里描述的功能。

输入和输出装置的各种结构格式可用于在本发明的基于计算机的系统中输入和输出信息。输出的一种格式意指测试数据集与可信配置文件具有不同程度的相似性。这种表示为技术人员提供了相似性的排名,并确定了测试模式中包含的相似性程度。

数据及其分析可以在各种介质中提供以便于它们的使用。“介质”是指包含本发明的标记模式信息的产品。本发明的数据库可以记录在计算机可读介质上,例如可以由计算机直接读取和访问的任何介质。此类介质包括但不限于:磁存储介质,例如软盘、硬盘存储介质和磁带;光存储介质如CD-ROM;电存储介质如RAM和ROM;以及这些种类的混合体,例如磁/光存储介质。本领域的技术人员可以容易地理解如何使用任何当前已知的计算机可读介质来创建包括当前数据库信息的记录的产品。“记录”是指使用本领域已知的任何此类方法将信息存储在计算机可读介质上的过程。基于用于访问存储信息的装置,可以选择任何方便的数据存储结构。各种数据处理器程序和格式可用于存储,例如文字处理文本文件、数据库格式等。

输入和输出装置的各种结构格式可用于在基于计算机的系统中输入和输出信息。这种表示为技术人员提供了相似性的排名,并确定了测试数据中包含的相似性程度。

本文还提供了一种经由计算机将序列和通过本文公开的方法收集的其他数据存储和/或传输的方法。包括但不限于软件和存储设备的任何计算机或计算机附件可用于实施本发明。序列或其他数据(例如免疫库分析结果)可由用户直接或间接地输入到计算机中。另外,可用于测序DNA或分析DNA或分析免疫库数据的任何装置可连接到计算机,使得将数据传输到计算机和/或计算机兼容的存储装置。数据可以存储在计算机或合适的存储设备(例如CD)上。数据还可以经由本领域公知的方法(例如,互联网、地面邮件、空中邮件)从计算机发送到另一个计算机或数据收集点。因此,通过文中描述的方法收集的数据可以在任何点或地理位置收集并被发送到任何其他地理位置。

给出以下实施例是为了说明本发明的各种实施例,并不意味着以任何方式限制本发明。本实例以及本文所述的方法是目前优选实施例的代表,是示例性的,并且不旨在限制本发明的范围。本领域技术人员将想到包括在由权利要求的范围所限定的本发明的精神内的其中的变化和其他用途。

在本研究中,我们引入EPIC-Seq,一种利用无细胞DNA片段化模式以允许非侵入性推断基因表达的新方法,其可用于多种临床相关应用,包括肿瘤检测、亚型分类、反应评估和具有预后意义的基因分析。与EPIC-Seq相比,先前描述的cfDNA片段组学技术和特征的敏感度不足以以高保真度解析单个基因的表达。在此描述的方法通过利用新的基于熵的片段组学度量(PFE)以及通过目标基因的启动子区域的靶向捕获实现的更高的测序深度,实现了显著改进的性能。

为了允许通过EPIC-Seq从cfDNA片段组学特征推断RNA表达水平,我们试图在转录位点捕获cfDNA的特征,这些特征反映来自核小体可及性和定位的表观遗传编码信号,因为这些是确定转录输出的关键因素。当通过全基因组测序分析cfDNA时,这些片段组信学号在活跃表达的基因的启动子处表现最强,这激发了我们的TSS捕获方法。然而,我们还在全外显子组测序中观察到活跃表达的基因的外显子区域处的显著信号,表明有机会更广泛地扩展EPIC-Seq以研究目的基因的表达。此外,组织特异性和谱系特异性也由可非侵入性测量的几种其他表观遗传信号提供,包括5mCpG和5hmCpG修饰和特异性组蛋白翻译后修饰。

如下所示,EPIC-Seq可用于各种临床相关的癌症分类问题。重要的是,我们使用多个独立的证据线证明了从EPIC-Seq推断基因表达水平的效用。具体地,我们描述了EPIC-Seq信号不仅与组织转录组分析的预期,还与通过总代谢肿瘤体积和基于突变的ctDNA分析测量的疾病负荷有显著相关性。此外,我们观察到EPIC-Seq信号与对免疫疗法和化疗的治疗反应有显著相关性,以及其评估预后信息基因表达的能力。

我们专注于肺癌的非侵入性组织学分类和侵袭性B细胞淋巴瘤的分子分类,这是两种常见的并具有代表性的癌症类型,其中这种分类在临床上是常规的,但有时充满诊断挑战。我们观察到的对这些肿瘤亚型中的每一种进行准确分类的稳健表现表明,该方法可以广泛地扩展到其他癌症类型和其他病理。例如,尽管在美国已经有许多诊断工具可用,但不明原发性癌(CUP)仍然占约2-5%的发病癌。EPIC-Seq提供了使用非侵入性方法对这类癌进行分类的方法。另外,我们描述的方法具有癌症以外的应用,用于非侵入性检测来自感兴趣的细胞类型、组织和途径和病理的信号。这些包括检测组织损伤和局部缺血的非侵入性策略,以及对不同人类组织的特定治疗靶向途径和毒性特征的药效学作用,否则难以在症状性组织损伤发生之前非侵入性监测(例如脑和胃肠道)。

无细胞DNA特征与基因表达相关。我们假设来自活性启动子(受到核小体较少保护)的cfDNA片段将比来自非活性启动子(受到核小体较多保护)的片段表现出更随机的切割模式。如果正确,允许从cfDNA推断单个基因的表达(图1a)。为了探索该假设,我们通过相对深的WGS(约250x)对来自患有不明原发性癌(CUP)但ctDNA通过个性化CAPP-Seq水平非常低(<0.05%

我们推测,在活性基因的TSS处的核小体置换或耗尽可导致更多样的消化片段

我们接下来比较了几种其他cfDNA片段化特征与外周血白细胞的基因表达水平的相关性(图1d)。虽然现有的cfDNA图谱研究已经报道了在活跃表达基因的启动子内的核小体耗尽区(NDR)的测序覆盖深度较低,但是PFE和表达之间的相关性比归一化的NDR深度和表达之间的相关性更强(图1b,d)。除了PFE在使用TSS区域的NDR深度从cfDNA图谱推断表达方面的优势外,PFE还优于其他先前定义的片段组学度量,包括加窗保护得分(WPS)、基序多样性得分(MDS)和方向感知cfDNA片段化(OCF)。

我们接下来检查距TSS的距离是否影响cfDNA片段组学特征和基因表达之间的相关性。当考虑每个启动子两侧的20kb区域时,我们观察到cfDNA PFE和基因表达之间的峰值相关性集中在TSS。然而,与NDR相比,PFE与基因表达的相关性具有更广泛的分散性并延伸到TSS两侧的区域中(图1e)。我们还研究了测序深度对cfDNA片段组学信号和全转录组RNA表达之间的相关性的影响。有趣的是,相关性在约500x测序深度附近稳定(图1f)。总之,这些结果表明,cfDNA片段化特征与RNA表达强烈相关,并且与所研究的其他度量相比,PFE最好地捕获这种相关性。

通过考虑外显子区域内的片段组学图谱(包括与TSS相邻的第一个外显子),我们进一步证实了我们对cfDNA的WGS图谱的观察结果。具体地,我们通过全外显子测序(WES)分析了5个cfDNA样品-2个来自患有小细胞肺癌(SCLC)的患者,2个来自去势抗性前列腺癌(CRPC),和1个来自健康成人,以靶向显著更高的深度(中位唯一覆盖深度约2000x)。值得注意的是,已知在这些肿瘤类型中差异表达的单个基因显示了它们的TSS区域中肿瘤特异性变异的预期模式(方法)。实际上,SCLC和CPRC特异性模式在相应的血浆cfDNA片段化图谱中是明显的,包括AR和ASCL1,分别是CRPC和SCLC的已知基因(图1g)。然而,这些基因水平的片段组学信号在这些患者的高肿瘤负荷(ctDNA>10%)的情况下是可辨别的,可能是由于在WES内捕获第一个外显子所固有的TSS区域的部分表示。

从cfDNA片段化图谱推断基因表达。我们接下来试图从WGS产生的cfDNA片段组学特征预测基因表达。当考虑不同的片段组学度量时,我们将PFE和归一化的NDR深度鉴定为在集成广义线性模型中预测RNA表达的互补特征(方法)。具体而言,虽然cfDNA片段组学特征彼此相关性不大,但PFE显示低表达基因的较好动态范围,而高表达基因似乎被归一化的NDR深度更好地捕获(图6d)。然后,我们通过将其应用于由来自27个健康成人的血浆cfDNA的WGS图谱组装的片段组学“元图谱”来验证该集成模型(方法)。当考虑10个基因的组时,我们再次观察到模型预测的表达水平和观察到的PBMC的RNA-Seq测量值之间的高度相关性(r=0.9,图7a)。与我们先前的观察结果一致(图1f),这些相关性在较低的测序深度下恶化,其方式阻碍了单个基因水平上的分辨率(10个基因仓的r=0.9,3个基因仓为0.79,单个TSS为0.64;图7a-b)。

为了验证我们的模型在健康和癌症患者中的表现,我们接下来重新分析了来自40名健康成人和46名早期肺癌患者的全基因组cfDNA图谱数据,这些数据先前通过WGS以约20-40x覆盖率进行分析。当考虑40名健康受试者基因组中的平均cfDNA元图谱时,我们观察到预测白细胞基因表达水平的类似表面(图7c-d)。当考虑转录组中的10个基因组时,PBMC的模型预测表达与预期RNA表达水平之间的Pearson相关性保持在约0.85。

但是,从肺癌患者血浆cfDNA片段组学图谱推断的基因表达水平低于PBMC转录组(P=0.018;图7e)。假设肺癌中的较低相关性可能由肺癌来源的片段的增加的贡献驱动,我们使用ichorCNA的肿瘤分数估计并观察到与推断的白细胞表达水平的显著负相关(r=-0.69,P=0.0005,图7f)。该实验表明,肿瘤来源的cfDNA可以显著降低白细胞区室对无细胞核酸库的贡献,并且该贡献可以通过在肿瘤负荷高时从cfDNA推断组织特异性基因表达来测量。

通过靶向深度cfDNA测序(EPIC-Seq)对表达的表观遗传推断。基于我们的观察结果,即PFE和NDR与较高WGS测序深度下的基因表达具有更好的相关性(图1f),我们接下来提出开发一种方法,该方法允许通过对TSS区域进行更深度的分析来预测单个基因水平的表达。为此,我们设计了一种新方法-从无细胞DNA测序推断表观遗传(EPIC-Seq)-其将cfDNA中TSS区域的基于杂交捕获的靶向深度测序与用于预测RNA表达的机器学习相结合(图2a)。在EPIC-Seq实验中靶向的TSS区域被定制为包括预期在感兴趣的病症中差异表达的基因(例如,癌症相对于正常、组织学亚型A相对于亚型B等)。

我们通过使用cfDNA将EPIC-Seq应用于两个癌症分类问题来测试该框架:1)非侵入性地区分最常见实体瘤(非小细胞肺癌[NSCLC])的组织学亚型,和2)分辨最常见血液学恶性肿瘤(弥漫性大B细胞淋巴瘤[DLBCL])的分子亚型。对于这些恶性肿瘤中的每一种,我们首先鉴定了在肿瘤组织中高度表达,但在全血中相对低表达的基因(方法)。然后我们通过评估在NSCLC腺癌(LUAD)与鳞状细胞癌(LUSC)以及DLBCL生发中心B(GCB)与激活的B细胞(ABC)样亚型中差异表达的那些来鉴定亚型特异性基因。具体而言,当通过癌症基因组图谱中的组织学亚型对1,156个NSCLC肿瘤分层时(TCGA;n=601个LUAD相对于n=555个LUSC,图2b,表2),我们鉴定了69个差异表达基因(DEG)。当通过先前出版物中的分子起源细胞(COO)亚型对381个DLBCL肿瘤分层时(n=138个GCB相对于n=243个ABC,图2c,表2),我们分别鉴定了44个DEG。除了这113个基因用于肺癌和淋巴瘤亚型分类外,我们还包括50个在白细胞亚群中差异表达的基因以及作为额外对照的16个基因(方法)。

对于每个感兴趣的基因,我们设计探针以捕获TSS两侧的约2kb区域,然后如上所述,通过将靶向区域深度测序至中值约2,000x独特覆盖深度来分析血浆cfDNA。在WGS捕获的cfDNA片段组学图谱中,我们观察到超过约500x标称覆盖深度的全转录组相关性的边际增益(图1f)。然而,对于我们的EPIC-Seq实验和我们的适度大小组,我们靶向约2000x独特深度(超过约4倍),原因有三:(1)确保相关平台的饱和,(2)避免EPIC-Seq预测表达水平准确性的任何基因间变异,否则可能归因于由于感兴趣基因的TSS区域的非均匀杂交捕获导致的深度变异的假差异,和(3)解决循环中非造血组织的cfDNA的较低部分浓度。

使用该工作流程,我们然后分析了307个血浆cfDNA样品,其中263个用于在不同应用中测试EPIC-Seq(图8a)。最后一组包括233名成人(图8a-b),包括67名NSCLC患者(n=78个样品)、91名DLBCL患者(n=100个样品)和68名其他健康受试者(n=71个样品)。使用定制EPIC-Seq分析管道(方法),我们计算每个感兴趣基因的cfDNA片段组学特征,然后估计其预测的RNA表达水平(图2a)。为了探索EPIC-Seq推断单个基因表达的能力,我们接下来评估了NKX2-1(TTF1)和MS4A1(CD20)的表达,NKX2-1是在LUAD中高度表达并可用于组织病理学诊断的基因,MS4A1是在DLBCL中高度表达并可用于淋巴瘤的免疫分型和分类的基因。值得注意的是,NKX2-1的预测表达水平在NSCLC-LUAD患者血浆中显著较高(Wilcoxon检验P=4.2E-6;图2d)。相反,MS4A1的预测表达水平在DLBCL患者的血浆中显著较高(Wilcoxon检验P=4.2E-14;图2e)。总之,这些结果表明,使用EPIC-Seq通过靶向深度cfDNA测序实现了表达的推断,并且该框架可以在单基因分辨率下恢复组织来源的表达的预期差异。

用于肺癌检测的EPIC-Seq。我们接下来评估了EPIC-Seq是否可用于癌症分类问题,从肺癌开始,肺癌是男性和女性癌症相关死亡的主要原因。我们想知道使用EPIC-Seq从cfDNA对NSCLC病例相对于健康对照的非侵入性分类是否可行。对EPIC-Seq数据进行训练以区分NSCLC患者(n=67,II期(n=7),III期(n=30)和IV期(n=30))与非癌症对照(n=71)的分类器揭示了当考虑来自117个基因的141个TSS位点时的稳健表现(EPIC-肺AUC=0.91,95%CI:0.86-0.96,基于留一法交叉验证)(图3a;方法)。

我们的EPIC-Seq肺癌分类器捕获的cfDNA中的表观遗传信号与总代谢肿瘤体积(MTV)显著相关,如通过联合正电子发射断层扫描和计算机断层扫描研究(PET/CT;ρ=0.67;P=0.04;图9a)中的

NSCLC亚型的非侵入性分类。腺癌(LUAD)和鳞状细胞癌(LUSC)代表NSCLC的两种最常见的组织学亚型,区分它们是确定患者最佳治疗的重要步骤。目前,用于这种分类的形态学和免疫表型标准是使用组织样品确定的,但是侵入性评估可以充满诊断挑战和程序风险。重要的是,据我们所知,目前可用的基于突变的液体活检方法不能可靠地区分LUAD和LUSC。

因此,我们想知道是否可以使用EPIC-Seq非侵入性地进行这种分类。在67名NSCLC患者的队列中,在EPIC-Seq数据上训练用于区分组织学亚型的回归分类器(LUAD n=36;LUSC n=31)并在交叉验证研究中表明了稳健表现(AUC=0.90,95%CI:0.83-0.97;图3d;方法)。具有最大系数并因此对分类具有最强影响的基因包括LUAD(SLC34A2、NKX2-1[TTF1])和LUSC(SOX2)的典型标记物,从而证实分类器的生物学用途(方法,图3e)。

我们评估了作为通过CAPP-Seq(方法)测定的ctDNA水平函数的组织学分类器的准确性,以及与ctDNA浓度相关的预期观察性能(图3f)。具体而言,平均AF高于5%(87%)时准确度最高,在1-5%之间(81%)和低于1%(73%)时略有下降(图3f)。这些结果表明,EPIC-seq对肺癌表达差异的推断允许NSCLC的非侵入性组织学分类,并且该框架在ctDNA浓度范围内显得稳健。

预测对PD-(L)1免疫检查点抑制的反应。对于晚期NSCLC患者,使用单克隆抗体对程序性死亡1和程序性死亡配体1(PD-[L]1)信号传导的治疗性阻断已显示出显著的前景。将PD-(L)1阻断与细胞毒性疗法或与其他免疫检查点抑制(ICI)策略组合的试验表明,在较高毒性的风险下反应率提高。由于仅少数NSCLC患者从ICI获得持久的益处,因此,对于可以在ICI治疗之前或早期准确鉴定这些患者的可靠生物标记物的需求严重没有得到满足。

因此,我们进行了探索性分析以测试追踪片段组学特征作为治疗反应监测信息的生物合理性。具体而言,我们测试了使用EPIC-Seq对PD-(L)1免疫检查点抑制剂的反应的早期非侵入性评估是否可行。为此,我们使用EPIC-Seq分析了11名使用PD-(L)1阻断治疗的NSCLC患者的22个纵向血样。临在PD-(L)1治疗前和治疗开始的前四周内收集样品(图3g)。我们从EPIC-Seq预测的基因表达得到“肺动力学指数”,作为ICI治疗益处的函数(方法)。该指数表明了与使用CAPP-Seq对相同样品进行的基于突变的反应评估具有很强的相关性(r=0.77,P=0.006,图3h)。EPIC-seq肺动力学指数还能够区分获得持久临床益处(DCB;定义为在治疗开始后至少6个月没有进展)的患者与不获得持久临床益处(NDB)的那些,AUC为0.93,95% CI:0.78-1(图3i)。值得注意的是,在该小队列的限制内,我们还观察到EPIC-Seq分类器得分与无进展存活率的显著和连续关联(Wald P=0.046)。

使用EPIC-Seq定量非侵入性DLBCL。弥漫性大B细胞淋巴瘤(DLBCL)是最常见的非霍奇金淋巴瘤(NHL),并表现出显著的临床和生物学异质性。虽然这种异质性的各方面可以通过临床风险指数如国际预后指数、基因表达图谱或原发性肿瘤活检的基因分型来捕获,但是仍然不清楚使用侵入性较小的方法进行这种分层是否可行。

因此,我们使用EPIC-Seq分析了DLBCL患者的治疗前血样,并测试了cfDNA中的表观遗传信号是否允许非侵入检测DLBCL病例,从而将癌症患者与健康对照区分开。另外,对EPIC-Seq数据训练以区分DLBCL患者(n=91)与非癌症对照(n=71)的回归分类器显示稳健性能(EPIC-DLBCL AUC=0.92,95% CI 0.88-0.97,来自留一法交叉验证;图4a;方法)。我们观察到该表观遗传分类器的得分与修改的国际预后指数(R-IPI;Jonckheere趋势检验P=0.004;图4b)之间的显著分级关系。单独地,对于具有可用PET/CT扫描的患者,我们还观察到表观遗传分类器得分在区分具有通过总MTV测量的高与低肿瘤负荷的患者中的显著趋势(Wilcoxon P=0.015;图10a)。

为了进一步评估EPIC-Seq得分如何反映cfDNA中的肿瘤负荷,我们将它们与先前通过CAPP-Seq在相同血样上测量的突变的平均等位基因分数(AF)进行比较。值得注意的是,通过EPIC-Seq测定的DLBCL表观遗传得分与通过CAPP-Seq测定的平均突变AF强烈相关(ρ=0.67,P<2E-16;图10b)。我们还评估了分类器在不同ctDNA水平下的性能。具体而言,当试图将淋巴瘤病例与作为对照的非淋巴瘤受试者区分开并考虑由CAPP-Seq确定的各种平均AF阈值时,我们在95%特异性下计算了DLBCL检测的敏感度。虽然EPIC-Seq敏感性与平均AF密切相关,并且在ctDNA水平高于1%时表现出最稳健的性能,但是我们观察到对治疗前平均AF低于1%的DLBCL病例的约40%检测(图4c)。

为了评估DLBCL治疗期间表观遗传信号和体细胞突变之间的关系及其随时间的稳定性,我们接下来使用EPIC-Seq和CAPP-Seq在有治疗意图的诱导治疗后不久对2名患者的系列血样进行了分析(n=12;图4d-e)。此外,我们观察到DLBCL EPIC-Seq得分和ctDNA浓度之间在两个患者中随时间的强烈且显著的相关性(ρ=0.79,P=0.004,图10c),尽管施用联合化学免疫治疗以及白细胞血细胞计数发生显著伴随变化。总之,这些结果说明通过EPIC-seq推断表达可以非侵入性地检测组织来源的DLBCL信号,并如实反映DLBCL治疗前后的疾病负担。

DLBCL起源细胞分类。可将大多数DLBCL肿瘤分为两种转录上不同的分子亚型,每种源自特定的B细胞分化状态(起源细胞[COO]):生发中心B细胞样(GCB)和激活的B细胞样(ABC)。这些亚型具有预后性,在患有GCB肿瘤的患者中观察到显著更好的结果,并且还可以预测对新出现的靶向疗法的敏感性。虽然DLBCL的这种分类是最强的预后因素之一和未来个性化疗法的潜在生物标记物,但准确的分型在临床环境中仍然具有挑战性。

因此,我们使用EPIC-Seq分析从治疗前血浆得到非侵入性COO分类器。通过考虑GCB或非GCB(ABC)DLBCL中差异表达的基因并由我们的小组靶向,我们构建了类似于上述的概率COO分类器(方法)。当我们在90名DLBCL患者的队列中以该分类器的性能为基准时,我们观察到表观遗传得分与先前描述的基于突变的GCB得分显著相关(ρ=0.75,P=1E-5,图5a)。当比较通过临床上更常用的免疫组织化学Hans分类算法分类的患者时,我们观察到GCB病例的COO得分显著高于非GCB(n=66,Wilcox P=0.001,图5b)。使用单变量Cox回归比较表观遗传和基于突变的COO得分的预期预后能力,我们观察到EPIC-Seq GCB得分与一线治疗病例中的有利结果之间的更强关联(n=70,EPIC-Seq:HR=0.13,P=0.033相对于CAPP-Seq:HR=0.95,P=0.62)。实际上,当通过Kaplan-Meier分析中的中值GCB得分分层时,具有较高GCB得分的患者具有显著较好的结果(对数秩P=0.013,图5c)。在通过免疫组织化学和DNA基因分型分析的患者中,Hans算法未能对患者临床结果进行分层,表明了我们方法分类更准确(图10d)。总之,这些结果表明EPIC-Seq可用于对DLBCL起源细胞的非侵入性分类,并且可以比遗传COO分类器和Hans算法更好地对患者进行分层。

使用EPIC-Seq测定单个基因的预后能力。多种肿瘤类型的表达谱研究已经确定了单个基因用于风险分层和治疗管理的预后能力。在DLBCL中,先前的研究已经证实了若干关键基因在相对大的患者群体中的预后效用,所述患者群体用使用R-CHOP的现代联合免疫化疗均质治疗。这些研究依赖于肿瘤活检样品的表达谱,这可能受到RNA样品质量和数量限制的阻碍。

因此,我们希望评估EPIC-Seq在DLBCL中非侵入性测量与预后相关的基因表达的效用。使用单变量Cox比例风险回归模型,我们使用来自69名患者的治疗前血浆测试了单个基因的预后价值,并使用Z得分测量这些关联的相对强度。我们首先通过检查我们的EPIC-Seq结果与3项近期依赖于手术DLBCL组织样品的肿瘤表达谱研究中描述的结果之间的相关性来评估血浆中我们的结果与原发性肿瘤样品的预后一致性。当比较以此方式分析的基因的预后价值时,我们观察到来自我们使用血浆cfDNA的研究的Z得分与使用肿瘤RNA的先前研究的显著相关性(P=0.026;图10e)。

在我们的队列中,只有LMO2在多假设检验校正后与无进展存活率显著相关(标称P=7.5E-6,校正P=0.0055;图5d)。这与DLBCL中其稳健预后效应的先前数据一致。LMO2是由六个外显子组成的癌基因,其中最靠近3’末端的3个编码蛋白质。三个非编码5'LMO2外显子的包含由替代的近侧、中间和远侧启动子控制。当使用EPIC-Seq比较来自这些替代启动子中的每一个的预测表达在DLBCL中的预后强度时,仅远端TSS(GRCh37/hg19-chr11:33,913,836)显示与结果的显著关联(图5e)。在针对IPI和ctDNA水平调整后,来自LMO2的远端TSS的较高预测表达在多变量Cox回归中仍然是对更有利结果的预后(图5e)。该结果与已知的远端LMO2启动子在驱动人肿瘤中LMO2表达中的重要性一致,如在人基因治疗试验中观察到的逆转录病毒插入诱变事件和介导淋巴瘤发生的染色体重排所证明的。总之,这些观察表明EPIC-Seq可用于非侵入性地测量单个基因的表达和预后价值,以及用于分辨它们的单个TSS区域。

人类受试者和队列。研究概述。本研究中分析的所有样品均在知情同意的情况下从在机构审查委员会批准的符合各自中心伦理规范的方案中招募的受试者收集,如下详述。建立了用于EPIC-Seq的片段组学特征,并通过全基因组测序(WGS)和全外显子组测序(WES)分析cfDNA来进行初步测试,如表1所示。这些WGS和WES cfDNA分析数据来自125名受试者,这些受试者是因本研究产生的(n=30),或来自公开可用的数据集(n=95)。为了初始模型开发和cfDNA片段组学特征选择,我们通过深度WGS在2个时间点(治疗前和复发)对来自不明原发性癌(CUP)患者的cfDNA,来自一名晚期SCLC(深度WES)患者的cfDNA进行分析,并分析了9例CRPC病例(WES)。为了使用WGS cfDNA片段组学进行初步验证分析,我们重新分析了来自67个健康对照和47个先前描述15的癌症患者的样品。在通过WGS/WES鉴定和初步验证上述125名受试者中用于预测基因表达的关键cfDNA片段组学信号信息后,将EPIC-seq应用于来自158名癌症患者和68名健康成人的249个血液样品,如下详述。为了选择EPIC-Seq捕获组的基因,我们分析了癌症基因组图谱中的1156个肺癌和来自Schmitz等人的381个淋巴瘤的公开可用的基因表达数据集,如下所述。

临床变量。组织病理学。本研究中描述的每种肿瘤类型(NSCLC、DLBCL)的组织学亚型是根据临床指南使用显微术和免疫组织化学建立的,并且用作由受过训练的病理学家评估分类性能的基础事实。根据WHO指南,基于Hans分类器评估DLBCL的COO亚型。对于在先前的RNA-seq研究中描述的NSCLC和DLBCL亚型,我们依赖于来自TCGA(对于NSCLC的LUAD与LUSC亚型)或来自Schmitz等人的亚型标记(对于DLBCL的GCB与ABC亚型)。

M代谢肿瘤体积(MTV)测量。通过分别使用PETedge和DLBCL,经由MIM,使用如先前针对NSCLC所述的半自动化软件工具,由从FDG PET/CT扫描测量治疗前肿瘤MTV。通过软件自动识别区域体积,并通过专家的视觉评估确认,以确认仅包括病理病变。

临床结果。由治疗开始的时间计算无事件生存率(EFS)和总生存率(OS)。OS事件为任何原因导致的死亡;EFS事件为进展或复发、计划外再治疗淋巴瘤和任何原因导致的死亡。接受PD(L)1定向治疗的NSCLC患者在6个月内分别被标记为“经历进展或死亡”和“持久临床受益”的NDB或DCB。

样本收集和分子图谱分析。血浆收集和处理。将外周血样品收集在K

cfDNA测序文库制备。将32ng的中值输入文库制备中。调整DNA输入以控制高分子量DNA污染。按照KAPA Hyper Prep试剂盒制造商的说明,进行含有分子条形码的末端修复、A-加尾和定制衔接子连接,其中连接如前所述在4℃下进行过夜。如下所述,对鸟枪法cfDNA文库进行全基因组测序(WGS)和/或进行目的区域的杂交捕获。

杂交捕获和测序。

RNA-Seq。根据制造商的说明,使用Illumina TruSeq RNA Exome试剂盒从20ng输入RNA开始,制备RNA-seq文库。当使用外周血作为白细胞RNA的来源时,我们使用去除珠蛋白的去血浆全血(PDWB)或不去除珠蛋白的富集PBMC。简言之,将总RNA片段化,并根据制造商的方案创建双链cDNA文库。然后使用生物素化的寡核苷酸诱饵通过外显子捕获富集编码转录组的RNA文库。然后汇集杂交捕获物,并将样品在Illumina HiSeq4000上测序为2×150bp泳道,每泳道16-20个多路测序(multiplex)样品,每例产生约2千万配对末端读数。多路分离(demultiplex)之后,将数据比对并使用Salmon至GENCODE 27版转录物模型总结表达水平。我们分别研究了肿瘤RNA-Seq数据以鉴定用于EPIC-Seq组套设计的差异表达的目的基因,如下文所详细描述的。

数据分析方法。TSS位点和样品的映射、去重复和质量控制。使用定制管线对FASTQ文件进行多路分离,其中只有在纠错后8-bp样品条形码和6-bp UID匹配预期序列时才考虑读对。多路分离之后,去除条形码,并使用fastp从读段的3’端修剪接头通读以保留短片段。使用BWA将片段与人基因组(hg19)比对;重要的是,我们禁用了BWA ALN中的自动分布推断,以允许包含更短和更长的cfDNA片段,否则这些片段将被异常地标记为不正确地配对。我们使用定制的条形码方法去除了PCR复本,该方法将内源和外源独特分子标识符(UMID)、包括cfDNA片段起始和终止位置、以及连接的接头内的预先指定的UMID组合在一起。为了允许用于比较的覆盖均匀性,我们使用“samtools view-s”将数据下采样到2000x深度。由于计算机(in-silico)模拟显示需要>500x测序深度以实现熵和表达之间的合理相关性,我们将不满足该深度阈值(中值深度)的任何样品视为质量控制(QC)失败。cfDNA片段长度密度模式低于140或高于185的任何样品也被除去,因为预期的片段长度密度模式是167(对应于染色体DNA长度)。这两个标准一起除去了21个不符合QC的样品。为了识别和检查由我们的EPIC-Seq组套描绘的236个TSS区域中的噪声位点,我们描绘了23个对照(表2),允许我们识别和去除具有可再现的低TSS覆盖的刻板区域(即,CPM小于选择器中TSS上均匀分布覆盖的三分之一的任何位点,即,

为了保证进入分析的片段的足够质量,我们在WGS和EPIC-Seq数据中分别需要>30或>10的映射质量(MAPQ,k)(使用“samtools view-q k-F3084”)。更宽松的EPIC-seq MAPQ阈值通过在EPIC-seq选择器设计期间已经施加在所选择的TSS区域上的更严格的可映射性和唯一性要求来限定。我们还将分析限制为具有以下BAM LAG集的读段:81、93、97、99、145、147、161和163。为确保去除非唯一片段,对具有重复名称的读段进行审查。

片段组学特征提取和归纳。我们考虑了TSS区域的5个cfDNA片段组学特征,然后将这些特征中的每一个与基因表达进行比较,包括窗口保护分数(WPS)、方向感知CfDNA片段化(OCF)、基序多样性分数(MDS)、核小体缺失区域分数(NDR)和启动子片段化熵(PFE,此处引入)。MDS、NDR、OCF和WPS各自按照最初描述的研究的惯例进行计算,并进行了轻微修改,如下详述。

使用香农熵来总结每个TSS位点附近的cfDNA片段大小值的多样性(-1Kbps(上游)至+1Kbps(下游))。我们定义了201个大小的bin[从b

通过WES图谱进行cfDNA片段组学分析。

小细胞肺癌基因标签集。使用81个SCLC原发性肿瘤的RNA-seq数据产生SCLC基因标签。通过将这些肿瘤的RNA-seq数据与我们的参考PBMC RNA表达水平进行比较,我们进行了差异基因表达分析,并鉴定了SCLC表达的前1500位基因与PBMC表达的后5000位基因重叠(“SCLC高”)。类似地,对于“SCLC低”基因,我们选择在PBMC表达的前1500个和SCLC表达的后5000个中的基因。我们进一步将该基因集限制为其TSS覆盖在我们的整个外显子组组套中的那些,以确保足够的测序覆盖用于分析。

用于预测来自TSS cfDNA片段组学特征的RNA输出的基因表达模型。为了从转录组基因TSS区的cfDNA片段化图谱推断RNA表达水平,我们使用两个特征PFE和NDR构建了预测模型。值得注意的是,在所考虑的5个片段组学特征中,这些指数显示出最高的个体相关性以及互补性。为了训练,我们采用将一个cfDNA样品通过WGS测序到高覆盖深度。我们对5位健康受试者的PBMC进行了RNA-seq,并将这些个体中的3位的平均值用作“参考表达载体”。接下来,为了在核心启动子处获得更高的清晰度,基于它们在我们的参考RNA-seq载体中的表达,我们以每10个基因进行分组。在除去用作计算PFE的背景的基因后,总共保留了1,748组(每组10个基因)。然后,我们汇集了每组中基因的延伸核心启动子(转录起始位点周围的-1Kb/+1Kb)处的所有片段,并提取了两个特征:NDR和PFE。然后,我们在背景基因上将两个特征归一化95%分位数,其中对于PFE,归一化因子是

为了将最初从WGS导出的该表达预测模型转移至目标TSS空间(EPIC-seq),我们通过测量两位被保留的健康受试者的均方根误差(RMSE)来评估上述600个模型中的每一个。对于这两位健康受试者中的每一位,我们将EPIC-seq的cfDNA谱与来自相同血样的RNA-seq的相应PBMC转录组谱进行比较,并计算600个集成模型中每一个的RMSE。然后将每个模型的权重按比例缩放该模型RMSE倒数,然后将最终得分计算为600个模型的线性和,如上所述进行加权。

EPIC-Seq组套设计。

EPIC-Seq分类分析和机器学习。

统计和患者生存分析通过皮尔逊相关性(r)或Spearman相关性(ρ)(取决于数据类型)测量已知变量与预测变量之间的关联。当数据呈正态分布时,酌情使用不等方差t检验或配对t检验确定组比较;否则,应用双侧Wilcoxon检验。为了测试连续变量相对于分类组的趋势,使用在clinfun R包中实施的Jonckheere趋势测试。使用Bonferroni方法进行多重假设检验的校正。双侧P<0.05的结果被认为是显著的。使用R 4.0.1进行统计分析。置信区间(CI)通过用替换重新采样(即自举)来计算。使用R包pROC进行接受者操作特征(ROC)曲线分析。使用R包存活率进行存活率分析。在二分法时,使用Kaplan-Meier估计值绘制存活曲线,并通过对数秩检验评估统计学显著性。否则,将Cox比例-危害模型拟合至数据以确定每个协变量的显著性。

表1

将细胞游离DNA样品的全基因组(n=114)和全外显子组(n=11)测序用于发现PFE、训练基因表达推断模型及其验证。在本研究(n=28)中分析或从Zviran等人处下载WGS数据。(EGA登录号

表2

EPIC-seq选择器中的TSS。每行对应于EPIC-seq测序组套(“选择器”)中的一个TSS。

参考文献

1.Jahr,S.et al.DNA fragments in the blood plasma of cancer patients:quantitations and evidence for their origin from apoptotic and necroticcells.Cancer Res 61,1659-1665(2001).

2.Lo,Y.M.et al.Maternal plasma DNA sequencing reveals the genome-widegenetic and mutational profile of the fetus.Sci Transl Med 2,61ra91(2010).

3.Heitzer,E.,Auinger,L.&Speicher,M.R.Cell-Free DNA and Apoptosis:HowDead Cells Inform About the Living.Trends Mol Med 26,519-528(2020).

4.Newman,A.M.et al.An ultrasensitive method for quantitatingcirculating tumor DNA with broad patient coverage.Nat Med 20,548-554(2014).

5.Phallen,J.et al.Direct detection of early-stage cancers usingcirculating tumor DNA.Sci Transl Med 9(2017).

6.Cohen,J.D.et al.Detection and localization of surgically resectablecancers with a multi-analyte blood test.Science 359,926-930(2018).

7.Cristiano,S.et al.Genome-wide cell-free DNA fragmentation inpatients with cancer.Nature 570,385-389(2019).

8.Heitzer,E.,Haque,I.S.,Roberts,C.E.S.&Speicher,M.R.Current andfuture perspectives of liquid biopsies in genomics-driven oncology.Nat RevGenet 20,71-88(2019).

9.Chabon,J.J.et al.Integrating genomic features for non-invasiveearly lung cancer detection.Nature 580,245-251(2020).

10.Van Opstal,D.et al.Origin and clinical relevance of chromosomalaberrations other than the common trisomies detected by genome-wide NIPS:results of the TRIDENT study.Genet Med 20,480-485(2018).

11.Fan,H.C.et al.Non-invasive prenatal measurement of the fetalgenome.Nature 487,320-324(2012).

12.Knight,S.R.,Thorne,A.&Lo Faro,M.L.Donor-specific Cell-free DNA asa Biomarker in Solid Organ Transplantation.A SystematicReview.Transplantation 103,273-283(2019).

13.Chaudhuri,A.A.et al.Early Detection of Molecular Residual Diseasein Localized Lung Cancer by Circulating Tumor DNA Profiling.Cancer Discov 7,1394-1403(2017).

14.Lennon,A.M.et al.Feasibility of blood testing combined with PET-CTto screen for cancer and guide intervention.Science 369(2020).

15.Zviran,A.et al.Genome-wide cell-free DNA mutational integrationenables ultra-sensitive cancer monitoring.Nat Med 26,1114-1124(2020).

16.Lo,Y.M.et al.Presence of donor-specific DNA in plasma of kidneyand liver-transplant recipients.Lancet 351,1329-1330(1998).

17.Snyder,T.M.,Khush,K.K.,Valantine,H.A.&Quake,S.R.Universalnoninvasive detection of solid organ transplant rejection.Proc Natl Acad SciU S A 108,6229-6234(2011).

18.Lehmann-Werman,R.et al.Identification of tissue-specific celldeath using methylation patterns of circulating DNA.Proc Natl Acad Sci U S A113,E1826-1834(2016).

19.Jiang,P.et al.Preferred end coordinates and somatic variants assignatures of circulating tumor DNA associated with hepatocellularcarcinoma.Proc Natl Acad Sci U S A 115,E10925-E10933(2018).

20.Sun,K.et al.Orientation-aware plasma cell-free DNA fragmentationanalysis in open chromatin regions informs tissue of origin.Genome Res 29,418-427(2019).

21.Sadeh,R.et al.ChIP-seq of plasma cell-free nucleosomes identifiesgene expression programs of the cells of origin.Nat Biotechnol(2021).

22.Lui,Y.Y.et al.Predominant hematopoietic origin of cell-free DNA inplasma and serum after sex-mismatched bone marrow transplantation.Clin Chem48,421-427(2002).

23.Fleischhacker,M.&Schmidt,B.Circulating nucleic acids(CNAs)andcancer--a survey.Biochim Biophys Acta 1775,181-232(2007).

24.Ramachandran,S.,Ahmad,K.&Henikoff,S.Transcription and RemodelingProduce Asymmetrically Unwrapped Nucleosomal Intermediates.Mol Cell 68,1038-1053 e1034(2017).

25.Snyder,M.W.,Kircher,M.,Hill,A.J.,Daza,R.M.&Shendure,J.Cell-freeDNA Comprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin.Cell 164,57-68(2016).

26.Ivanov,M.,Baranova,A.,Butler,T.,Spellman,P.&Mileyko,V.Non-randomfragmentation patterns in circulating cell-free DNA reflect epigeneticregulation.BMC Genomics 16 Suppl 13,S1(2015).

27.Ulz,P.et al.Inferring expressed genes by whole-genome sequencingof plasma DNA.Nat Genet 48,1273-1278(2016).

28.Wu,J.et al.Decoding genetic and epigenetic information embedded incell free DNA with adapted SALP-seq.Int J Cancer 145,2395-2406(2019).

29.Jiang,P.et al.Lengthening and shortening of plasma DNA inhepatocellular carcinoma patients.Proc Natl Acad Sci U S A 112,E1317-1325(2015).

30.Underhill,H.R.et al.Fragment Length of Circulating Tumor DNA.PLoSGenet 12,e1006162(2016).

31.Mouliere,F.et al.Enhanced detection of circulating tumor DNA byfragment size analysis.Sci Transl Med 10(2018).

32.Ulz,P.et al.Inference of transcription factor binding from cell-free DNA enables tumor subtype prediction and early detection.Nat Commun 10,4666(2019).

33.Moss,J.et al.Comprehensive human cell-type methylation atlasreveals origins of circulating cell-free DNA in health and disease.Nat Commun9,5068(2018).

34.Weintraub,H.&Groudine,M.Chromosomal subunits in active genes havean altered conformation.Science 193,848-856(1976).

35.Jiang,P.et al.Plasma DNA End-Motif Profiling as a FragmentomicMarker in Cancer,Pregnancy,and Transplantation.Cancer Discov 10,664-673(2020).

36.Cancer Genome Atlas Research,N.Comprehensive molecular profilingof lung adenocarcinoma.Nature 511,543-550(2014).

37.Cancer Genome Atlas Research,N.Comprehensive genomiccharacterization of squamous cell lung cancers.Nature 489,519-525(2012).

38.Schmitz,R.et al.Genetics and Pathogenesis of Diffuse Large B-CellLymphoma.N Engl J Med 378,1396-1407(2018).

39.Newman,A.M.et al.Robust enumeration of cell subsets from tissueexpression profiles.Nat Methods 12,453-457(2015).

40.Newman,A.M.et al.Integrated digital error suppression for improveddetection of circulating tumor DNA.Nat Biotechnol 34,547-555(2016).

41.Maloney,D.G.et al.Phase I clinical trial using escalating single-dose infusion of chimeric anti-CD20 monoclonal antibody(IDEC-C2B8)in patientswith recurrent B-cell lymphoma.Blood 84,2457-2466(1994).

42.Puglisi,F.et al.Prognostic value of thyroid transcription factor-1in primary,resected,non-small cell lung carcinoma.Mod Pathol 12,318-324(1999).

43.Ferlay,J.et al.Cancer incidence and mortality worldwide:sources,methods and major patterns in GLOBOCAN 2012.Int J Cancer 136,E359-386(2015).

44.Torre,L.A.,Siegel,R.L.&Jemal,A.Lung Cancer Statistics.Adv Exp MedBiol 893,1-19(2016).

45.Travis,W.D.et al.The 2015 World Health Organization Classificationof Lung Tumors:Impact of Genetic,Clinical and Radiologic Advances Since the2004 Classification.J Thorac Oncol 10,1243-1260(2015).

46.Reck,M.&Rabe,K.F.Precision Diagnosis and Treatment for AdvancedNon-Small-Cell Lung Cancer.N Engl J Med 377,849-861(2017).

47.Ettinger,D.S.et al.NCCN Guidelines Insights:Non-Small Cell LungCancer,Version 1.2020.J Natl Compr Canc Netw 17,1464-1472(2019).

48.Wiener,R.S.,Schwartz,L.M.,Woloshin,S.&Welch,H.G.Population-basedrisk for complications after transthoracic needle lung biopsy of a pulmonarynodule:an analysis of discharge records.Ann Intern Med 155,137-144(2011).

49.Bubendorf,L.,Lantuejoul,S.,de Langen,A.J.&Thunnissen,E.Nonsmallcell lung carcinoma:diagnostic difficulties in small biopsies and cytologicalspecimens:Number 2 in the Series"Pathology for the clinician"Edited by PeterDorfmuller and Alberto Cavazza.Eur Respir Rev 26(2017).

50.McLean,A.E.B.,Barnes,D.J.&Troy,L.K.Diagnosing Lung Cancer:TheComplexities of Obtaining a Tissue Diagnosis in the Era of Minimally Invasiveand Personalised Medicine.J Clin Med 7(2018).

51.Reck,M.et al.Pembrolizumab versus Chemotherapy for PD-L1-PositiveNon-Small-Cell Lung Cancer.N Engl J Med 375,1823-1833(2016).

52.Socinski,M.A.et al.Atezolizumab for First-Line Treatment ofMetastatic Nonsquamous NSCLC.N Engl J Med 378,2288-2301(2018).

53.Gandhi,L.et al.Pembrolizumab plus Chemotherapy in Metastatic Non-Small-Cell Lung Cancer.N Engl J Med 378,2078-2092(2018).

54.Hellmann,M.D.et al.Nivolumab plus Ipilimumab in Lung Cancer with aHigh Tumor Mutational Burden.N Engl J Med 378,2093-2104(2018).

55.Camidge,D.R.,Doebele,R.C.&Kerr,K.M.Comparing and contrastingpredictive biomarkers for immunotherapy and targeted therapy of NSCLC.Nat RevClin Oncol 16,341-355(2019).

56.Nabet,B.Y.et al.Noninvasive Early Identification of TherapeuticBenefit from Immune Checkpoint Inhibition.Cell 183,363-376 e313(2020).

57.Menon,M.P.,Pittaluga,S.&Jaffe,E.S.The histological and biologicalspectrum of diffuse large B-cell lymphoma in the World Health Organizationclassification.Cancer J 18,411-420(2012).

58.Sehn,L.H.et al.The revised International Prognostic Index(R-IPI)isa better predictor of outcome than the standard IPI for patients with diffuselarge B-cell lymphoma treated with R-CHOP.Blood 109,1857-1861(2007).

59.Alizadeh,A.A.et al.Distinct types of diffuse large B-cell lymphomaidentified by gene expression profiling.Nature 403,503-511(2000).

60.Pasqualucci,L.et al.Analysis of the coding genome of diffuse largeB-cell lymphoma.Nat Genet 43,830-837(2011).

61.Cottereau,A.S.et al.Molecular Profile and FDG-PET/CT TotalMetabolic Tumor Volume Improve Risk Classification at Diagnosis for Patientswith Diffuse Large B-Cell Lymphoma.Clin Cancer Res 22,3801-3809(2016).

62.Scherer,F.et al.Distinct biological subtypes and patterns ofgenome evolution in lymphoma revealed by circulating tumor DNA.Sci Transl Med8,364ra155(2016).

63.Kurtz,D.M.et al.Circulating Tumor DNA Measurements As EarlyOutcome Predictors in Diffuse Large B-Cell Lymphoma.J Clin Oncol 36,2845-2853(2018).

64.Rosenwald,A.et al.The use of molecular profiling to predictsurvival after chemotherapy for diffuse large-B-cell lymphoma.N Engl J Med346,1937-1947(2002).

65.Basso,K.&Dalla-Favera,R.Germinal centres and B celllymphomagenesis.Nat Rev Immunol 15,172-184(2015).

66.Dunleavy,K.et al.Differential efficacy of bortezomib pluschemotherapy within molecular subtypes of diffuse large B-cell lymphoma.Blood113,6069-6076(2009).

67.Thieblemont,C.et al.The germinal center/activated B-cellsubclassification has a prognostic impact for response to salvage therapy inrelapsed/refractory diffuse large B-cell lymphoma:a bio-CORAL study.J ClinOncol 29,4079-4087(2011).

68.Scott,D.W.et al.Determining cell-of-origin subtypes of diffuselarge B-cell lymphoma using gene expression in formalin-fixed paraffin-embedded tissue.Blood 123,1214-1217(2014).

69.Nowakowski,G.S.et al.Lenalidomide combined with R-CHOP overcomesnegative prognostic impact of non-germinal center B-cell phenotype in newlydiagnosed diffuse large B-Cell lymphoma:a phase II study.J Clin Oncol 33,251-257(2015).

70.Wilson,W.H.et al.Targeting B cell receptor signaling withibrutinib in diffuse large B cell lymphoma.Nat Med 21,922-926(2015).

71.Young,R.M.&Staudt,L.M.Targeting pathological B cell receptorsignalling in lymphoid malignancies.Nat Rev Drug Discov 12,229-243(2013).

72.Lenz,G.et al.Stromal gene signatures in large-B-cell lymphomas.NEngl J Med 359,2313-2323(2008).

73.Zelenetz,A.D.et al.NCCN Guidelines Insights:B-Cell Lymphomas,Version 3.2019.J Natl Compr Canc Netw 17,650-661(2019).

74.Hans,C.P.et al.Confirmation of the molecular classification ofdiffuse large B-cell lymphoma by immunohistochemistry using a tissuemicroarray.Blood 103,275-282(2004).

75.Lossos,I.S.et al.Prediction of survival in diffuse large-B-celllymphoma based on the expression of six genes.N Engl J Med 350,1828-1837(2004).

76.Malumbres,R.et al.Paraffin-based 6-gene model predicts outcome indiffuse large B-cell lymphoma patients treated with R-CHOP.Blood 111,5509-5514(2008).

77.Alizadeh,A.A.,Gentles,A.J.,Lossos,I.S.&Levy,R.Molecular outcomeprediction in diffuse large-B-cell lymphoma.N Engl J Med 360,2794-2795(2009).

78.Alizadeh,A.A.et al.Prediction of survival in diffuse large B-celllymphoma based on the expression of 2 genes reflecting tumor andmicroenvironment.Blood 118,1350-1358(2011).

79.Chapuy,B.et al.Molecular subtypes of diffuse large B cell lymphomaare associated with distinct pathogenic mechanisms and outcomes.Nat Med 24,679-690(2018).

80.Ennishi,D.et al.Double-Hit Gene Expression Signature Defines aDistinct Subgroup of Germinal Center B-Cell-Like Diffuse Large B-CellLymphoma.J Clin Oncol 37,190-201(2019).

81.Gentles,A.J.&Alizadeh,A.A.A few good genes:simple,biologicallymotivated signatures for cancer prognosis.Cell Cycle 10,3615-3616(2011).

82.Chambers,J.&Rabbitts,T.H.LMO2 at 25 years:a paradigm ofchromosomal translocation proteins.Open Biol 5,150062(2015).

83.Royer-Pokora,B.et al.The TTG-2/RBTN2 T cell oncogene encodes twoalternative transcripts from two promoters:the distal promoter is removed bymost 11p13translocations in acute T cell leukaemia's(T-ALL).Oncogene 10,1353-1360(1995).

84.Oram,S.H.et al.A previously unrecognized promoter of LMO2 formspart of a transcriptional regulatory circuit mediating LMO2 expression in asubset of T-acute lymphoblastic leukaemia patients.Oncogene 29,5796-5808(2010).

85.Boehm,T.et al.An unusual structure of a putative T cell oncogenewhich allows production of similar proteins from distinct mRNAs.EMBO J 9,857-868(1990).

86.Smale,S.T.&Kadonaga,J.T.The RNA polymerase II core promoter.AnnuRev Biochem 72,449-479(2003).

87.Bernstein,B.E.et al.Genomic maps and comparative analysis ofhistone modifications in human and mouse.Cell 120,169-181(2005).

88.Wong,I.H.et al.Detection of aberrant p16 methylation in the plasmaand serum of liver cancer patients.Cancer Res 59,71-73(1999).

89.Chim,S.S.et al.Detection of the placental epigenetic signature ofthe maspin gene in maternal plasma.Proc Natl Acad Sci U S A 102,14753-14758(2005).

90.Fernandez,A.F.et al.A DNA methylation fingerprint of 1628 humansamples.Genome Res22,407-419(2012).

91.Houseman,E.A.et al.DNA methylation arrays as surrogate measures ofcell mixture distribution.BMC Bioinformatics 13,86(2012).

92.Chan,K.C.et al.Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfitesequencing.Proc Natl Acad Sci U S A 110,18761-18768(2013).

93.Lun,F.M.et al.Noninvasive prenatal methylomic analysis bygenomewide bisulfite sequencing of maternal plasma DNA.Clin Chem 59,1583-1594(2013).

94.Ou,X.et al.Epigenome-wide DNA methylation assay reveals placentalepigenetic markers for noninvasive fetal single-nucleotide polymorphismgenotyping in maternal plasma.Transfusion 54,2523-2533(2014).

95.Jensen,T.J.et al.Whole genome bisulfite sequencing of cell-freeDNA and its cellular contributors uncovers placenta hypomethylateddomains.Genome Biol 16,78(2015).

96.Roadmap Epigenomics,C.et al.Integrative analysis of 111 referencehuman epigenomes.Nature 518,317-330(2015).

97.Visel,A.et al.ChIP-seq accurately predicts tissue-specificactivity of enhancers.Nature 457,854-858(2009).

98.Koh,W.et al.Noninvasive in vivo monitoring of tissue-specificglobal gene expression in humans.Proc Natl Acad Sci U S A 111,7361-7366(2014).

99.Srinivasan,S.et al.Small RNA Sequencing across Diverse BiofluidsIdentifies Optimal Methods for exRNA Isolation.Cell 177,446-462 e416(2019).

100.Ibarra,A.et al.Non-invasive characterization of human bone marrowstimulation and reconstitution by cell-free messenger RNA sequencing.NatCommun 11,400(2020).

101.Zhou,Z.et al.Extracellular RNA in a single droplet of human serumreflects physiologic and disease states.Proc Natl Acad Sci U S A 116,19200-19208(2019).

102.Verwilt,J.et al.When DNA gets in the way:A cautionary note forDNA contamination in extracellular RNA-seq studies.Proc Natl Acad Sci U S A117,18934-18936(2020).

103.Adalsteinsson,V.A.et al.Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors.Nat Commun 8,1324(2017).

104.Gentles,A.J.et al.The prognostic landscape of genes andinfiltrating immune cells across human cancers.Nat Med 21,938-945(2015).

105.Binkley,M.S.et al.KEAP1/NFE2L2 Mutations Predict Lung CancerRadiation Resistance That Can Be Targeted by Glutaminase Inhibition.CancerDiscov 10,1826-1841(2020).

106.Alig,S.et al.Short Diagnosis-to-Treatment Interval is associatedwith increased tumor burden measured by circulating tumor DNA and metabolictumor volume in Diffuse Large B-cell Lymphoma.Journal of Clinical Oncology inpress(2021).

107.Patro,R.,Duggal,G.,Love,M.I.,Irizarry,R.A.&Kingsford,C.Salmonprovides fast and bias-aware quantification of transcript expression.NatMethods 14,417-419(2017).

108.Chen,S.,Zhou,Y.,Chen,Y.&Gu,J.fastp:an ultra-fast all-in-one FASTQpreprocessor.Bioinformatics 34,i884-i890(2018).

109.George,J.et al.Comprehensive genomic profiles of small cell lungcancer.Nature 524,47-53(2015).

110.Newman,A.M.et al.Determining cell type abundance and expressionfrom bulk tissues with digital cytometry.Nat Biotechnol 37,773-782(2019).

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号