首页> 中国专利> 用于定量人类肿瘤癌细胞中分子活性的方法

用于定量人类肿瘤癌细胞中分子活性的方法

摘要

本文公开了基于多个表达谱集分别预测癌细胞和非癌细胞的表达谱的方法,其中多个表达谱集中的每一个均获得自包含一种肿瘤类型的癌细胞和非癌细胞混合物的肿瘤来源的样本。该方法包括:a.确定肿瘤来源的样本的肿瘤纯度值,b.提供表达谱集,其中表达谱集包含由肿瘤来源的样本所包含的癌细胞和非癌细胞表达的多种或全部分子的混合表达数据,以及c.通过将表达谱外推至至少基本上等于1或0的肿瘤纯度值,对每个混合表达数据进行去卷积,由此分别预测癌细胞和非癌细胞的表达谱。在一个实施方案中,使用共有方法,根据DNA、拷贝数以及mRNA表达数据,估计肿瘤纯度值。

著录项

  • 公开/公告号CN113195733A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 新加坡科技研究局;

    申请/专利号CN201980083888.0

  • 发明设计人 A·斯凯德波;U·戈沙达斯泰德;

    申请日2019-10-18

  • 分类号C12Q1/6809(20060101);

  • 代理机构11713 北京世峰知识产权代理有限公司;

  • 代理人王思琪;王建秀

  • 地址 新加坡新加坡

  • 入库时间 2023-06-19 12:02:28

说明书

对相关申请的交叉引用

本申请要求2018年10月18日提交的新加坡临时申请第10201809232S号的优先权权益,出于所有目的,其所有内容通过引用全部并入。

技术领域

本发明总体上涉及生物信息学领域。特别是,本发明涉及鉴定用于检测和诊断癌症的生物标志物。

背景技术

肿瘤是恶性突变癌细胞、非恶性(基质和免疫)细胞以及细胞间结缔结构的异质块。这些成分共同形成了肿瘤微环境(tumour microenvironment,TME),它是既约束也支持不断发展的肿瘤的全方位细胞环境。了解癌细胞如何与人类肿瘤内部的环境相互作用是一项长期的挑战。重要的是,在组合肿瘤团块中,癌细胞通常占所有细胞的<60%。当对全肿瘤样本(bulk tumor sample)中的分子活性(即mRNA表达)进行图谱分析时,无法确定给定的因子是否主要在癌细胞或非癌细胞中表达。任何分子读数都是来自TME中癌细胞和许多非癌细胞的信号的总和。

实验模型可以模拟和测量肿瘤微环境中的串扰,但是这种模型通常受到肿瘤细胞如何在其自然环境之外快速使生理机能适应的限制。免疫组织化学(IHC)可以直接测量肿瘤组织中选定的蛋白质,但不适用于大规模无偏发现。它可以在单个肿瘤上进行,但劳动密集,有偏倚(因为它只能应用于选定的标记),并且不是定量的(基于表达标记的细胞的百分比)。另外,目前的全肿瘤转录物组测序(bulk tumour transcriptome sequencing)不能具体告知癌细胞。取而代之的是,可以使用肿瘤组织的显微解剖或单细胞图谱分析(single-cell profiling)来生成癌细胞和基质细胞的全转录物组图谱(transcriptome-wideprofile),但是这些方法很难应用于肿瘤活检,并且解离可能在某种程度上也混淆了细胞生理机能和基因表达谱。此外,上述方法不能可追溯地应用于现有的大规模癌症基因组学全肿瘤数据(bulk tumor data),这代表了用于研究肿瘤微环境中的串扰的巨大且基本上未开发的资源。

肿瘤学药物开发的一个主要分支专注于开发特异性靶向癌细胞内或表面上的抗原/蛋白质的抗体(或结合抗体的药物)。因此,在药物开发的早期阶段,获得准确的癌细胞分子图谱(molecular profile)至关重要。尽管实验模型(细胞系和动物模型)可以提供近似值,但此类模型通常受到癌细胞如何在自然环境之外快速使生理机能适应的限制。例如,胶质母细胞瘤癌细胞中的EGFR表达(和EGFR基因拷贝)在体外培养癌细胞后立即大幅降低。

目前还可以通过单细胞图谱分析或激光显微解剖来估计癌细胞基因表达。但是,这些方法有局限性:细胞解离后分子图谱存在偏倚,该技术需要大量工作且昂贵,它们不能轻易地将例如非恶性上皮细胞与恶性(癌)上皮细胞分开,并且它们不能便捷地应用于标准的冷冻肿瘤样本或福尔马林固定石蜡包埋(FFPE)的肿瘤样本,这些方法也不具有可扩展性。

因此,需要允许对癌细胞进行离体高通量图谱分析的技术。此外,结合附图和本公开的背景,根据随后的详细描述和所附权利要求,其他期望的特征和特性会变得显而易见。

发明概述

在一个方面,本发明涉及基于多个表达谱集分别预测癌细胞和非癌细胞的表达谱的方法,其中多个表达谱集中的每一个均获得自包含一种肿瘤类型的癌细胞和非癌细胞混合物的肿瘤来源的样本,其中该方法包括:a.确定一个或多个肿瘤来源的样本的肿瘤纯度值;b.提供不同的表达谱集,其中所述表达谱集包含由一个或多个肿瘤来源的样本所包含的癌细胞和非癌细胞表达的多种或全部分子的混合表达数据(combined expressiondata);c.通过将具有不同肿瘤纯度值的不同肿瘤样本中表达的多种或全部分子的表达谱外推至至少基本上等于1或0的肿瘤纯度值,对b中提到的每个混合表达数据进行去卷积;从而根据表达谱集分别预测癌细胞和非癌细胞的表达谱。

附图简要说明

当结合非限制性实例和附图考虑时,参考详细的描述会更好地理解本发明,其中:

图1示出了比较常规临床测序和依照本实施方案的TUMERIC-solo测序的图示。

图2示出了依照本实施方案的TUMERIC测序方法的概览图。

图3示出了依照本实施方案的整个TUMERIC-solo方法的流程图。

图4示出了依照本实施方案的图3的TUMERIC-solo肿瘤纯度估计方法的流程图。

图5示出了依照本实施方案的图3的TUMERIC-solo转录物组去卷积的流程图。

图6示出了依照本实施方案的肿瘤转录物组去卷积的工作例,其中图6a显示了20种实体瘤类型的约8000个全肿瘤样本的估计的肿瘤纯度值;图6b显示了在癌症类型间的癌细胞和基质细胞中特异性表达的基因;如预期的那样,只有癌细胞特异性基因受相应肿瘤中DNA拷贝数改变(copy number alteration)的影响;图6c示出了280个已知的基质特异性基因的推断的癌症区室(compartment)和基质区室表达水平;图6d显示了对于先前用黑素瘤肿瘤单细胞RNA测序(scRNA测序)鉴定的癌症和基质特异性基因,黑素瘤(皮肤黑素瘤-SKCM)中推断的癌症区室和基质区室表达水平,以及全肿瘤测量结果;图6e显示了根据每种肿瘤类型中的癌症区室和基质区室之间推断的表达差异而排序的基因和途径;图6f显示了,使用iTRAQ蛋白质定量数据针对(OV)和乳腺(BRCA)癌对列中的癌症区室和基质区室而推断并与来自相同肿瘤的RNA测序数据相比较的蛋白质表达;图6g显示了已鉴定出的基因,在不同癌症类型之间,该基因的癌症mRNA表达vs.基质mRNA表达的差异高度变化,其中将mRNA丰度最高的基因(S100A6)的免疫组织化学(IHC)染色数据与去卷积RNA测序数据进行了比较。

图7示出了依照本实施方案推断癌细胞与基质细胞之间的串扰的结果,其中图7a描绘了相对串扰(Relative Crosstalk,RC)分数,该分数估计了癌细胞和基质细胞区室之间信号传导在四个可能方向上的相对流动,包括全(未去卷积的)正常组织信号传导估计值;图7b描绘了20种实体瘤类型中针对信号传导的每个方向估计和绘制的RC分数的中位数;图7c和7d显示了肿瘤类型间的五个配体-受体对、个体对的RC分数和癌症类型,该配体-受体对的自分泌癌症信号分数的中位数最高(图7c),且旁分泌基质至癌的信号传导分数的中位数最高(图7d);图7e描绘了乳腺癌亚型间典型EGF-家族配体-受体对的RC分数;图7f和7g描绘了乳腺癌亚型间癌细胞区室和基质细胞区室中EGF家族受体(f)和配体(g)的估计表达,为了比较,包括正常组织非去卷积表达。

图8示出了实例查询,以说明使用TUMERIC在胶质母细胞瘤肿瘤中鉴定膜蛋白药物靶标的过程。在此查询中,用户指定肿瘤类型(胶质母细胞瘤),并进一步指定要分析的肿瘤(此处肿瘤无IDH1突变)的基因亚型/分子亚型。然后,将已知的膜蛋白按其总的全肿瘤表达(x轴)和其根据TUMERIC推断的在癌细胞中特异性表达的程度(y轴)进行排名。每个靶标的预测毒性,例如来自健康重要器官(例如脑/心脏/肾脏)中基因表达的靶标,可以共同可视化并有助于目标选择过程。

图9示出了表示本实施方案的肿瘤转录物组去卷积方法和平台的概要的示意图,其中图9A描绘根据了本实施方案的用于推断癌症-细胞特异性药物靶标的肿瘤转录物组去卷积的算法概念。图9B描绘了此平台所需组件的概述:具有基因组和转录物组数据的全患者肿瘤样本(bulk patient tumor sample)的大型数据仓库,帮助探索和鉴定药物靶标和生物标志物的快速算法(在线转录物组去卷积)和可视化,以及说明在胶质母细胞瘤肿瘤中鉴定药物靶标的过程的实例查询。

图10示出了TUMERIC-Solo可以估计个体肺癌患者(A014)中PD-L1的癌细胞和基质细胞表达数据。与根据本实施方案从患者队列推断的数据PD-L1表达(全局,应用于约60名肺癌患者的TUMERIC)相比,根据本实施方案的单个肺癌患者(A014)中PD-L1的TUMERIC-Solo基因表达去卷积;为了进行比较,包括测量的全肿瘤基因表达。

图11示出了与根据本实方案的来自患者队列的数据(全局,应用于约60名肺癌患者的TUMERIC)相比,根据本实施方案的来自应用于单个肺癌患者(A014)的TUMERIC-Solo的数据。四个基因的去卷积的癌细胞和基质细胞基因表达显示了单个患者TUMERIC-solo和多个患者TUMERIC(全局)的一致性;为了进行比较,包括所测量的全肿瘤基因表达。

图12示出了,与根据本实施方案的来自患者队列的数据(应用于约60名肺癌患者的TUMERIC)相比,根据本实施方案的来自应用于单个肺癌患者肿瘤(A014)的区段(sector)的详细数据。该图显示了三个选定基因的测量的全基因表达(bulk gene expression,y轴)与估计的肿瘤纯度(x轴)的关联。

图13示出了TUMERIC-Solo,其应用于与对派姆单抗(Pembrolizumab)治疗应答的应答相关的一组已公开的生物标志物基因。用TUMERIC-solo测定单个肺癌患者(A014)的癌细胞和基质细胞中6个基因的表达,并将其与来自患者队列的数据(应用于约60名肺癌患者的TUMERIC)进行比较。为了进行比较,包括测量的全肿瘤基因表达。

图14显示了当使用全或TUMERIC-solo去卷积基因表达对肺癌患者(A014)进行评估时,6种派姆单抗生物标志物基因的基因表达的相对变化(信噪比)。相对于使用来自患者队列的数据(应用于约60名肺癌患者的TUMERIC)测定的全部细胞、癌细胞和基质细胞表达,测量细胞表达的变化。针对癌细胞比较PD-L1/CD274的表达,但针对基质细胞比较其他5种生物标志物的表达。

图15示出的图描绘了与基于测量的全基因表达的相似建议(右)相比,根据本实施方案的TUMERIC-Solo的治疗抗体的患者特异性建议(左)。该图显示了肺癌患者(A014)中已知膜蛋白的绝对(x轴)和相对(y轴,相比正常肺组织)表达。基于所显示的数据,为该肺癌患者指定CLDN6抗体治疗(抗体或抗体-药物偶联物)。

图16显示了TUMERIC,其用于鉴定胃癌中与对派姆单抗治疗应答相关的生物标志物。TUMERIC分析鉴定了与非应答者(PD)相比,应答者(R)的肿瘤中具有稳健的癌细胞或基质细胞基因表达失调的基因。显示了用TUMERIC测量的信噪比(R与PD)(y轴)以及用原初全基因表达图谱分析测量的信噪比(x轴)。

图17显示了对派姆单抗治疗具有不同应答(应答者,R;稳定疾病,SD;进行性疾病,PD)的患者中Biglycan(双糖链蛋白聚糖,BGN)表达的数据。癌细胞中BGN的全肿瘤基因表达(左)与BGN的TUMERIC去卷积基因表达(右)相比:BGN在非应答者(PD)的癌细胞中高度过表达,在全基因表达的情况下仅有可以测量的适度变化。

图20显示了在对派姆单抗治疗具有不同应答(应答者,R;稳定疾病,SD;进行性疾病,PD)的患者中,来自应用于Biglycan(BGN)表达的TUMERIC的详细数据。该图显示了三个治疗应答组的测量的BGN全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图19示出了根据本实施方案的TURMERIC-solo测序方法的概览图。

图20显示了可用于肿瘤转录物组高通量图谱分析的技术的全景。现有技术可以提供高分辨率(单细胞RNA-seq,即sc-RNAseq)或高可扩展性(例如,免疫组织化学IHC和全肿瘤图谱分析)。与全肿瘤图谱分析相比,Tumeric-Solo提供了增加的分辨率(分别对癌细胞和基质细胞进行图谱分析),并且与sc-RNAseq相比,Tumeric-Solo更易于扩展(可以分析FFPE样本)。

图21示出了TUMERIC和TUMERIC-Solo的基础数学模型。样本(TUMERIC-Solo的区段/部分)中测量的全肿瘤mRNA丰度由该样本中癌细胞和非癌细胞的mRNA分子总数决定。可以根据从相同肿瘤样本/区段获得的DNA序列数据估计肿瘤纯度。

图22显示了癌症基因组图谱(Cancer Genome Atlas,TCGA)中用于TUMERIC验证分析的8000个全肿瘤(bulk tumor)的分解(breakdown)。所有肿瘤均具有DNA(外显子测序)和RNA(RNA测序)数据。

图23示出了TUMERIC和TUMERIC-Solo估计癌症/基质区室比例(肿瘤纯度)的方法。从同一肿瘤(用于TUMERIC-solo的区段)获得的突变数据(DNA)、拷贝数数据(aCGH)和/或mRNA表达数据用于产生共有肿瘤纯度估计值。将来自不同方法的纯度估计值归一化,估算缺失的数据,并计算出每个样本/区段的估计值的平均值。

图24.IFNG:在MSI和ICI应答性肿瘤的基质中上调。图24A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的IFNG表达。回归线显示了每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图24B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的IFNG表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图25.FASLG:在MSI和ICI应答性肿瘤的基质中上调。图25A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的FASLG表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图25B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的FALSG表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图26.CXCL13:在MSI和ICI应答性肿瘤的基质中上调。图26A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的CXCL13表达。回归线显示在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图26B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的CXCL13表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图27.ZNF683:在MSI和ICI应答性肿瘤基质中上调。图27显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的ZNF683表达。回归线显示在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图27B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的ZNF683表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图28.IL2RA:在MSI和ICI应答性肿瘤的基质中上调。图28A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的IL2RA表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图28B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的IL2RA表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图29.CD274/PD-L1:在MSI和ICI应答性肿瘤基质中上调。图29A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的CD274/PD-L1表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图29B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定疾病;进行性疾病)的患者中的CD274表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图30.CPNE1:在MSI和ICI应答性肿瘤的癌细胞中下调。图30A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的CPNE1表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图30B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的CPNE1表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图31.TTC19:在MSI和ICI应答性肿瘤的癌细胞中上调。图31A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的TTC19表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图31B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定疾病;进行性疾病)的患者中的TTC19表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图32.OXCT1:在MSI和ICI应答性肿瘤的癌细胞中上调。图32A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的OXCT1表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图32B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的OXCT1表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图33.ALDH6A1:在MSI和ICI应答性肿瘤的癌细胞中上调。图33A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的ALDH6A1表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图33B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的ALDH6A1表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图34.COX15:在MSI和ICI应答性肿瘤的癌细胞中上调。图34A显示了随结肠直肠(CRC,左)癌、胃(STAD,中)癌和子宫内膜(UCEC,右)癌的微卫星不稳定(MSI,深灰点)和稳定(MSS,浅灰点)肿瘤中肿瘤纯度变化的COX15表达。回归线显示了在每种癌症类型和MSI/MSS亚型中TUMERIC推断的癌细胞和基质细胞基因表达。图34B显示了来自TUMERIC的数据,该TUMERIC应用于对派姆单抗治疗具有不同应答(应答者;稳定的疾病;进行性疾病)的患者中的COX15表达。该图显示了三个治疗应答组的测量的全基因表达(y轴)与估计的肿瘤样本纯度(x轴)的关联。

图35首先显示了须箱图,该须箱图表明,通过多种方法估计了20种癌症类型中约8000个TCGA肿瘤的肿瘤纯度。对针对给定方法和癌症类型估计的纯度中位数作图。Tumeric是AbsCN-seq、ASTAC、ESTIMATE和PurBayes的归一化平均值(请参见方法)。CPE是先前公开的TCGA样本的共有纯度估计值,并被包括在内用于进行比较。为了探讨不同纯度估计方法的一致性,基于方法的皮尔逊(Pearson)相关性(1-r)和沃德链接(Ward’s linkage)对方法进行了聚类,其数据提供在图35的第二部分中。CPE主要基于ESTIMATE的纯度估计值,因此这两种方法有望紧密地聚类在一起(r=0.83)。在图35的第三部分中,须箱图显示了20种实体瘤类型中约8000个全肿瘤样本的估计肿瘤纯度值。胰腺腺癌(PAAD)肿瘤的平均纯度很低(约39%),这与以前的观察结果一致。胶质母细胞瘤(GBM)和卵巢癌(OV)样本的纯度估计值最高,这可能是由于TCGA项目第一阶段的肿瘤选择偏倚所致。

图36不同癌症类型中成纤维细胞激活蛋白α(FAP)基因表达的去卷积。列出了每种癌症类型的推断的癌(C)细胞和基质(S)细胞基因表达(log2FPKM+1)。

图37不同癌症类型中T细胞表面糖蛋白CD3δ链(CD3D)基因表达的去卷积。列出了每种癌症类型的推断的癌(C)细胞和基质(S)细胞基因表达(log2 FPKM+1)。

图38不同癌症类型中CD4基因表达的去卷积。列出了每种癌症类型的推断的癌(C)细胞和基质(S)细胞基因表达(log2 FPKM+1)。

图39不同癌症类型中集落刺激因子1受体(CSF1R)基因表达的去卷积。列出了每种癌症的类型的推断的癌(C)细胞和基质(S)细胞基因表达(log2 FPKM+1)。

图40不同癌症类型中上皮细胞粘附分子(EPCAM)基因表达的去卷积。列出了每种癌症类型的推断的癌(C)细胞和基质(S)细胞基因表达(log2FPKM+1)。

图41显示了通过去卷积后对log2((Cancer_FPKM+1)/(Stroma_FPKM+1))进行GSEA预排名分析而获得的MSigDB Hallmark Gene Set的归一化富集分数(normalizedenrichment score,NES)的热图。免疫系统相关途径,例如炎症反应、干扰素α/γ反应等,在基质中上调,而已知的癌细胞特异性途径,如MYC靶标、G2M检查点、DNA修复则上调。具有红色/蓝色的细胞的FDR<=0.25,白色细胞的FDR>0.25。

图42a)鉴定了在癌症类型之间基质mRNA相比癌症mRNA表达差异高度可变的基因。b)比较了具有最高(S100A6)和第二高(LDHB)丰度的基因的免疫组织化学(IHC)染色数据与RNA-seq数据。

图43.浸润性导管癌(IDC)鲁米那A(IDC_LumA)、鲁米那B(IDC_LumB)、Basal(IDC_Basal)和HER2(IDC_Her2)的乳腺癌亚型中雌激素受体1(ESR1)基因表达的去卷积(第一张图)。如预期的那样,ESR1阴性HER2和Basal亚型的ESR1表达较低。同样,ESR1阳性亚型LumA和LumB在癌细胞中也具有很高的ESR1表达(在LumA情况下fpkm~387,在LumB情况fpkm~221)。Basal(左)和HER2+(右)亚型中ERBB2/HER2表达的去卷积(第二张和第三张图)。HER2肿瘤中ERBB2表达的去卷积还考虑到了频繁的HER2扩增事件(请参见方法)。

图44.基因集富集分析(gene set enrichment analysis,GSEA),将鲁米那A(luma)、鲁米那B(lumb)和HER2(her2)肿瘤中的癌症区室基因表达(即癌细胞基因表达)与Basal肿瘤进行了比较。热图显示了针对三种不同亚型比较的个体基因集的GSEA归一化富集分数(NES),蓝色(阴性NES)反映了相对于其他癌症类型在Basal中上调的基因集。浅灰色/深灰色细胞的FDR<=0.25,而白色细胞的FDR>0.25。

图45使用线性和对数变换的RNA-seq基因表达(FPKM+1)进行去卷积的比较。图显示了相对于针对每一转化获得的基因表达决定系数(R2)的前5%的纯度。在所有癌症类型中,肿瘤纯度与对数变换的RNA-seq基因表达数据具有总体上更强的线性相关性。

图46示出了用S100A6染色的BLCA(膀胱尿道癌)肿瘤样本的IHC图像。

图47示出了用S100A6染色的BLCA(膀胱尿道癌)肿瘤样本的IHC图像。

图48示出了用S100A6染色的LIHC(肝脏肝细胞癌)肿瘤样本的IHC图像。

图49示出了用S100A6染色的LIHC(肝脏肝细胞癌)肿瘤样本的IHC图像。

图50示出了用S100A6染色的PAAD(胰腺腺癌)肿瘤样本的IHC图像。

图51示出了用S100A6染色的PAAD(胰腺腺癌)肿瘤样本的IHC图像。

图52示出了用S100A6染色的PRAD(前列腺腺癌)肿瘤样本的IHC图像。

图53示出了用S100A6染色的PRAD(前列腺腺癌)肿瘤样本的IHC图像。

图54示出了用LDHB染色的PRAD(前列腺腺癌)肿瘤样本的IHC图像。

图55示出了用LDHB染色的PRAD(前列腺腺癌)肿瘤样本的IHC图像。

图56示出了用LDHB染色的PAAD(胰腺腺癌)肿瘤样本的IHC图像。

图57示出了用LDHB染色的PAAD(胰腺腺癌)肿瘤样本的IHC图像。

图58显示了用LDHB染色的OV(卵巢浆液性囊腺癌)肿瘤样本的IHC图像。

图59显示了用LDHB染色的OV(卵巢浆液性囊腺癌)肿瘤样本的IHC图像。

图60示出了用LDHB染色的LIHC(肝脏肝细胞癌)肿瘤样本的IHC图像。

图61示出了用LDHB染色的LIHC(肝脏肝细胞癌)肿瘤样本的IHC图像。

图62示出了用LDHB染色的HNSC(头颈部鳞状细胞癌)肿瘤样本的IHC图像。

图63示出了用LDHB染色的HNSC(头颈部鳞状细胞癌)肿瘤样本的IHC图像。

定义

如本文所用,术语“肿瘤类型”是指:通过解剖结构选择的肿瘤,例如乳腺癌或肺癌;通过癌症类型选择的肿瘤,例如癌或黑素瘤;相同癌症类型的肿瘤亚型;或使用相同治疗类型治疗的肿瘤。这种治疗的实例为但不限于用于治疗与EGFR相关的癌症的吉非替尼(gefitinib)、厄洛替尼(erlotinib)和阿法替尼(afatinib);用于治疗与IGF1R相关的癌症的OSI-906(林西替尼(linsitinib));用于治疗与mTOR相关的癌症的依维莫司(everolimus,也称为RAD001)和西罗莫司(sirolimus);用于治疗与PIK3CB和PIK3R3相关的癌症的BKM120(布帕利司(buparlisib))和BYL719(阿培利司(alpelisib));用于治疗与PIK3CD相关的癌症的艾代拉利司(idelalisib)和用于治疗与ERBB4相关的癌症的达可替尼(dacomatinib)和拉帕替尼(lapatinib),或其组合。在一个实例中,用于治疗EGFR相关癌症的抗癌药物为但不限于吉非替尼、厄洛替尼、阿法替尼或其组合。在另一个实例中,用于治疗与mTOR相关癌症的抗癌药物为但不限于依维莫司(RAD001)、西罗莫司或其组合。在另一个实例中,用于治疗IGF1R相关癌症的抗癌药物为但不限于林西替尼。在另一个实例中,用于治疗PIK3CB和PIK3R3相关癌症的抗癌药物为但不限于BKM120(布帕利司)、BYL719(阿培利司)或其组合。在另一个实例中,用于治疗PIK3CD相关癌症的抗癌药物为但不限于艾代拉利司。在另一个实例中,用于治疗与ERBB4相关的癌症的抗癌药为但不限于达可替尼、拉帕替尼或其组合。在一个实例中,抗癌药物是酪氨酸激酶抑制剂。在另一个实例中,酪氨酸激酶抑制剂是EGFR抑制剂。在又一个实例中,酪氨酸激酶抑制剂为但不限于吉非替尼、厄洛替尼、盐酸厄洛替尼、拉帕替尼、达可替尼、TAE684、阿法替尼、达沙替尼(dasatinib)、塞卡替尼(saracatinib)、维拉替尼(veratinib)、AEE788、WZ4002、埃克替尼(icotinib)、奥希替尼(osimertinib)、BI1482694、ASP8273、EGF816、AZD3759、西妥昔单抗(cetuximab)、耐昔妥珠单抗(necitumumab)、帕尼单抗(pannitumumab)、尼妥珠单抗(nimotuzumab)及其组合。在另一个实例中,酪氨酸激酶抑制剂为但不限于吉非替尼、厄洛替尼、拉帕替尼及其组合。在一个实例中,肿瘤类型可以是但不限于TCGA数据库中提到的BLCA、BRCA、CESC、CRC(COAD和READ组合)、ESCA、GBM、HNSC、KIRC、KIRP、LGG、LIHC、LUAD、LUSC、OV、PAAD、PRAD、SKCM、STAD、THCA和UCEC。

如本文所用,术语“评分”是指对基因、生物标志物或治疗靶标进行排名的过程。当在本申请中使用时,术语“评分”也可以与术语“排名”同义地使用。例如,在癌症患者队列(TUMERIC)或个体癌症患者(TUMERIC-solo)中,可以根据所有基因在癌细胞中推断的表达对它们进行评分或排名,以鉴定排名最高的候选治疗靶标。

如本文所用,术语“肿瘤纯度值”是指,在存在于肿瘤中的所有细胞中,癌细胞的估计分数。在本公开的上下文中,术语“癌细胞”和“恶性细胞”可互换使用。给定肿瘤的肿瘤纯度值可以例如根据给定样本中测量的体细胞突变变异等位基因频率(VAF)估算。例如,如果以X基因中0.2(20%)的变异等位基因频率(VAF)测量已知的(克隆)癌症驱动突变,并且在给定样本中基因X并未因体细胞拷贝数改变而改变(基因X在癌细胞中有2个等位基因/染色体),这种变异等位基因频率(VAF)可以用包含40%癌细胞(1个突变等位基因和1个野生型等位基因)和60%非癌细胞(2个野生型等位基因)的肿瘤来解释。由于许多基因在肿瘤中发生突变,因此纯度值由最适合所有观察到的变异等位基因频率(VAF)的共有值给出。

如本文所用,术语“变异等位基因频率(VAF)”是指群体中特定基因座处等位基因(基因的变体)的相对频率,表示为整个群体的分数或百分比。换句话说,变异等位基因频率(VAF)代表在群体中所有携带该特定等位基因的染色体的比例。

如本文所用,术语“稳健”和术语“准确”可以互换使用。

如本文所用,术语“TANTIGEN”是指由达纳-法伯癌症研究所癌症疫苗中心的生物信息学核心(Bioinformatics Core at Cancer Vaccine Center,Dana-Farber CancerInstitute)开发和维护的肿瘤T细胞抗原数据库,并且在Cancer ImmunolImmunother.2017Jun;66(6):731-735.(doi:10.1007/s00262-017-1978-y.Epub 2017Mar9)中被引用。肿瘤T细胞抗原数据库是用于专注于含有HLA配体和T细胞表位的人类肿瘤抗原的癌症疫苗目标发现的数据源和分析平台。它分类了来自292种不同蛋白质的1000多种肿瘤肽。该数据库还提供了有关T细胞表位和HLA配体的信息:完整的参考资料、基因表达谱、抗原同工型和突变。数据库还包括15种HLA I类和II类等位基因的预测结合肽。

如本文所用,术语“基因本体论(Gene Ontology)”是指基因本体论资源数据库,其是关于基因功能的信息的来源,并且由Open Biological Ontologies Foundry维护。

如本文所用,术语“TCGA”是指由美国国家癌症研究所(the National CancerInstitute,BG 9609MSC 9760,9609Medical Center Drive,Bethesda,MD 20892-9760,USA.)运行和维护的癌症基因组图谱计划(The Cancer Genome Atlas Program)。

如本文所用,术语“人类蛋白质图谱(Human Protein Atlas)”是指2003年启动的基于瑞典的计划,该计划旨在利用各种组学技术(包括基于抗体的成像、基于质谱的蛋白质组学、转录物组学和系统生物学)的整合来绘制细胞、组织和器官中所有人类蛋白质的图谱。知识资源中的所有数据都可以在线获取,并且可以进行开放访问,从而使学术界和工业界的科学家都可以自由访问这些数据以探讨人类蛋白质组。人类蛋白质图谱由六个独立的部分组成,每个部分都专注于人类蛋白质全基因组分析的一具体方面;组织图谱(TissueAtlas)显示了蛋白质在人体所有主要组织和器官中的分布,细胞图谱(Cell Atlas)显示了蛋白质在单个细胞中的亚细胞定位,病理图谱(Pathology Atlas)显示了蛋白质水平对癌症患者存活的影响,血液图谱(Blood Atlas)、脑图谱(Brain Atlas)和代谢图谱(Metabolic Atlas)。

如本文所用,术语“cBioPortal”是指癌症基因组学的在线门户网站。癌症基因组学的cBioPortal最初是在纪念斯隆·凯特琳癌症中心(Memorial Sloan KetteringCancer Center)开发的。公共cBioPortal站点由纪念斯隆·凯特琳癌症中心的分子肿瘤学中心(Center for Molecular Oncology)管理。cBioPortal软件现在可以通过GitHub获得开源许可。该软件现在由多机构团队开发和维护,其组成为纪念斯隆·凯特琳癌症中心、丹娜法伯癌症研究所(Dana Farber Cancer Institute)、多伦多玛格丽特公主癌症中心(Princess Margaret Cancer Centre in Toronto)、费城儿童医院(Children's Hospitalof Philadelphia)、荷兰的Hyve(The Hyve in the Netherlands)和土耳其安卡拉的比尔肯特大学(Bilkent University)。

如本文所用,术语“基因组数据共享(Genomic Data Commons)”是指国家癌症研究所(NCI;NCI Center for Cancer Genomics(CCG),31Center Drive,Bldg.31,Suite 3A20,Bethesda,MD 20892)的研究项目。

如本文所用,术语“癌症区室”是指癌细胞。例如,如本文所用,Tumeric-solo用于估计/推断癌细胞/区室中的基因表达。基于推断的癌症表达水平,基因按从高到低排名/排序。

在缺少本文未具体公开的任何一个或多个要素、一个或多个限制的情况下,可以适当地实践本文示例性描述的实施方案。因此,例如,术语“包含(comprising)”、“包括(including)”、“含有(containing)”等应被广泛且不受限制地解读。另外,本文所采用的术语和表述已被用作描述而非限制的术语,并且不意图使用这样的术语和表述来排除所示和所述特征或其部分的任何等同形式,而是应当认识到,在要求保护的本发明的范围内可以进行各种修改。因此,应当理解,尽管已经通过本发明的实施方式和可选特征具体公开了本发明,但是本领域技术人员可以采取本文所体现的实施方案的修改和变化,并且这些修改和变化视为落入本发明的范围内。

如本申请所用,单数形式“一个/种(a)”、“一个/种(an)”和“该(the)”包括复数指代,除非上下文另外明确指出。例如,术语“遗传标记”包括多个遗传标记,包括其混合物和组合。

在制剂成分的浓度的上下文中,本文所用术语“约”通常是指所述值的+/-5%,更通常是所述值的+/-4%,更通常是所述值的+/-3%,更通常是所述值的+/-2%,甚至更通常是所述值的+/-1%,甚至更通常为是所述值的+/-0.5%。

在整个本公开中,可以以范围形式公开某些实施方案。应当理解,范围形式的描述仅是为了方便和简洁,并且不应被解释为对所公开范围(range)的范围(scope)的僵化限制。因此,应当认为范围的描述已经具体公开了该范围内的所有可能的子范围以及单个数值。例如,对诸如范围1-6的描述应视为已明确公开了该范围内的诸如1-3、1-4、1-5、2-4、2-6、3-6等子范围,以及单个数字,例如1、2、3、4、5和6。无论范围的广度如何,这都适用。

某些实施方案也可以在本文中被广泛地和一般性地描述。落入一般性公开范围内的每个较窄的种类和亚类分组也构成了本公开的一部分。这包括实施方案的一般性描述,其附带条件或否定限制从该类属中除去任何主题,而不管所删除的材料是否在本文中具体叙述。

本文已经广泛地和一般性地描述了本发明。落入一般性公开内的每个较窄的种类和亚类分组也构成本发明的一部分。这包括本发明的一般性描述,其附带条件或否定限制从该类属中除去任何主题,而不管所删除的材料是否在本文中具体叙述。

发明详述

本文描述了对个体患者肿瘤的癌细胞和非癌细胞中分子活性(例如mRNA、DNA甲基化或蛋白质表达)进行全基因组和高通量定量的方法,该方法对于发现新的生物标志物并基于异常分子活性治疗个体患者具有特定的应用。在患者的肿瘤内难以研究肿瘤微环境中癌细胞与非恶性(例如基质)细胞之间的信号传导。因此,本文公开了用于癌细胞和基质细胞转录物组去卷积以及推断全肿瘤组织中细胞-细胞信号传导串扰的数据驱动的方法。通过这种方法,有利地在全肿瘤组织中鉴定出不同实体瘤类型中常见的串扰以及在乳腺癌亚型中推断的EGF家族串扰模型。进一步证明该方法在提名新的药物靶标,以患者特异性方式提名疗法以及鉴定和定量免疫检查点抑制抗癌疗法的生物标志物方面是有利的。

根据本实施方案,公开了用于推断个体全肿瘤样本中癌症和非癌症分子活性的组合实验-计算方法/算法(下文也称为“TUMERIC-solo”)。根据本实施方案的组合实验-计算方法/算法可以应用于从例如全肿瘤样本的不同物理部分(section)/区段中共同提取的任何类型的分子数据(例如,mRNA表达(RNA测序)、mRNA转录物同工型表达、蛋白质表达(使用iTRAQ)或表观遗传图谱分析))。根据本实施方案的组合实验-计算方法/算法需要来自单个全肿瘤样本的N个区段的DNA和分子数据作为输入,并输出该肿瘤样本的癌细胞和非癌细胞中的分子活性/表达的估计值。本文下文公开的数据使用来自不同患者的全肿瘤样本队列验证了根据本实施方案的组合实验计算方法/算法在RNA测序和蛋白质中的用途。

根据本实施方案的组合实验-计算方法/算法还包括用于基于个体肿瘤的癌细胞或非癌细胞中的特定分子信号来治疗患者肿瘤的方法。例如,可以使用TUMERIC-solo分析患者肿瘤的样本,并可以根据癌细胞中测量的分子活性(例如,对于ESR1阳性乳腺肿瘤使用他莫昔芬,针对检查点抑制性免疫疗法,PDL1阳性)或非癌细胞中测量的分子活性(例如,针对胃肠道肿瘤中检查点抑制性免疫疗法,PDL1阳性)对患者进行治疗。例如,后者可能与将来的免疫疗法有关。

发明人不了解本领域中由允许对单个患者的癌细胞mRNA表达进行去卷积的任何方法。根据本实施方案的组合实验-计算方法/算法需要将肿瘤样本物理切分成N个部分或区段。应当理解,根据本实施方案的方法的准确性会随着肿瘤样本的部分或区段数量N的增加(例如,对于N大于5-10)而增加。然而,还当应理解,对于这种切分,一些肿瘤样本可能太小/易碎。

图1描绘了图示100,其将常规临床测序的操作102与根据本实施方案的TUMERIC-solo测序操作104进行了比较。作为使用转录特征进行去卷积的替代方法,首先根据肿瘤的突变等位基因频率和拷贝数图谱(copy number profile)估计癌细胞分数(肿瘤纯度),然后将其平均以形成共有肿瘤纯度值。重要的是,本实施方案避免假定在给定的肿瘤中发现的癌细胞和基质细胞的转录图谱(也参见图23)。

根据DNA和CNA数据估计肿瘤纯度的程序的实例,例如可以在以下出版物中找到:Bao,L.,Pu,M.,and Messer,K.AbsCN-seq:a statistical method to estimate tumorpurity,ploidy and absolute copy numbers from next-generation sequencingdata.Bioinformatics 30,18 1056–1063;Larson,N.,and Fridley,B.PurBayes:estimating tumor cellularity and subclonality in next-generation sequencingdata.Bioinformatics 29,1888–1889。在以下出版物中显示了根据基因表达数据对纯度进行估计:Yoshihara,K.,Shahmoradgoli,M.,

因此,在一个实例中,本文公开的方法基于多个表达谱集分别预测癌细胞和非癌细胞的表达谱,其中所述多个表达谱集中的每一个均获得自包含一种肿瘤类型的癌细胞和非癌细胞的混合物的肿瘤来源的样本。在另一个实例中,本文公开的方法包括以下步骤:确定一个或多个肿瘤来源的样本的肿瘤纯度值;提供不同的表达谱集,其中表达谱集包含由一个或多个肿瘤来源的样本所包含的癌细胞和非癌细胞表达的多种或全部分子的混合表达数据;以及通过将具有不同肿瘤纯度值的不同肿瘤样本中表达的多种或全部分子的表达谱外推至至少基本上等于1或0的肿瘤纯度值,对通过本文公开的方法获得的每个混合表达数据进行去卷积;从而根据表达谱集分别预测癌细胞和非癌细胞的表达谱。

在一个实例中,分子可以是但不限于基因、DNA、RNA或蛋白质分子或其组合。

在另一个实例中,本文公开的方法还可以包括基于癌组织中相对于基质组织的上调或下调水平,对本文公开的分子进行评分;和/或基于癌组织中相对于健康组织的上调或下调水平,对本文公开的分子进行评分。

在另一个实例中,本文公开的方法包括将上调和下调的分子分配给膜相关蛋白或受体的已知数据集的基因或转录物同工型;和/或将上调和下调的分子分配给HLA结合肽和T细胞抗原结合肽的已知数据集的基因或转录物同工型。

在一个实例中,用于分配基因或转录物同工型的已知数据集源自例如但不限于基因本体论、人类蛋白质图谱和/或TANTIGEN。

在另一个实例中,本文公开的基因或转录物同工型可以是但不限于膜结合蛋白、膜结合受体、抗原肽、靶蛋白、肽,和/或可被抗体靶向。

当与来自人类肿瘤的大规模基因组和分子数据(例如,来自TCGA或临床试验)组合时,根据本实施方案的测序允许使用全人类肿瘤组织针对靶标和生物标志物发现来估计癌症特异性分子图谱(mRNA、表观遗传学或蛋白质丰度)。

在一个实例中,提供不同的表达谱组包括使用现有的表达谱数据集。在这种情况下,现有的表达谱数据集来自数据库,例如但不限于TCGA、基因组数据共享、cBioPortal和/或ICGC数据库。

如在TUMERIC-solo测序104中所描述的,并且如在下文中更详细地描述的,已经使用约束线性回归方法将肿瘤分子图谱去卷积为癌细胞和基质细胞成分。为了推断肿瘤微环境(TME)中这两个区室之间自分泌和旁分泌信号传导串扰,将推断的癌症区室和基质区室表达谱与配体受体相互作用的展示数据库组合。

尽管新的计算方法允许使用原代细胞类型转录特征的知识从全肿瘤mRNA图谱中推断出细胞类型的比例,但这些方法的常规实施通常专注于特定免疫细胞类型的去卷积,而不提供个体细胞类型中基因表达的估计值。先前估计肿瘤组织中癌症细胞和基质细胞基因表达谱的方法已经针对个体肿瘤类型进行了强烈定制,或者已经假定肿瘤是癌细胞和健康组织的混合物。个体肿瘤细胞定制限制了此类方法的使用,并且肿瘤是癌细胞和健康组织的混合物这一假设忽略了肿瘤微环境的独特基质细胞类型和生物学过程,这可能会严重混淆推断的基因表达谱。

允许区分来自肿瘤微环境中癌细胞和非癌细胞的信号的实验技术很少。免疫组织化学(IHC)可以直接测量肿瘤组织中选定的蛋白质,但通常不是定量的,并且不适合进行大规模无偏图谱分析或发现。此外,IHC劳动密集,并且需要训练有素的病理学家来协助数据解释。

可以使用肿瘤组织的显微解剖或单细胞图谱分析生成癌细胞和基质细胞的全转录物组图谱,但这些方法难以应用于肿瘤活检,并且解离可能在某种程度上也混淆了细胞生理机能和基因表达谱。此外,这些方法需要对组织进行特殊处理和加工,这使得它们不太适合用作精密肿瘤学中的标准数据生成试验。

靶向外显子组测序已成为公司提供临床测序作为服务的常规诊断试验。参见例如图20。由于测序成本持续下降,公司现在也提供全外显子组和RNA测序,作为临床诊断服务。重要的是,这些服务是可扩展的,因为它们仅需要冷冻或福尔马林固定石蜡包埋(FFPE)的肿瘤组织和下一代测序(NGS)。但是,全外显子组和RNA测序不能直接测量肿瘤的癌细胞群。例如,这对于确定患有雌性激素阳性肿瘤(用于他莫昔芬治疗)或癌细胞中PDL1表达增加(PD1/PDL1检查点抑制)的肿瘤的乳腺癌患者很重要。

TUMERIC是估计一组肿瘤的癌症区室和基质(包含任何非癌细胞)区室分子图谱以及这两个区室中平均代表性细胞之间的串扰信号传导的方法。参考图2,根据本实施方案的TUMERIC测序方法的概览图200始于肿瘤纯度估计210。使用共有方法(consensusapproach),根据DNA(外显子测序)、拷贝数(aCGH)和mRNA表达(RNA测序)数据,估计210每个全肿瘤样本的纯度(癌细胞的分数)。接下来,使用非负最小二乘回归推断针对给定基因和一组肿瘤(例如代表肿瘤类型)的“平均”癌细胞和基质细胞中mRNA表达水平的去卷积220。最后,使用展示的受体-配体信号相互作用的数据库,使用导出的mRNA表达谱230来推断癌细胞和基质细胞之间的候选自分泌和旁分泌信号传导途径。

因此,在一个实例中,本文公开的方法可包括但不限于,基于但不限于体细胞DNA变异等位基因频率的分布、体细胞DNA拷贝数改变幅度、种系B-等位基因频率、基因表达特征或模式、蛋白质表达特征或模式和DNA甲基化特征或模式及其组合,来确定肿瘤纯度值。在一个实例中,肿瘤纯度值基于基因表达特征(或基因表达谱)。在另一个实例中,肿瘤纯度值基于等位基因频率,例如,体细胞DNA变异等位基因频率和/或种系B-等位基因频率。在另一个实例中,肿瘤纯度值基于甲基化特征。

在一个实例中,本文所公开方法中的至少两种或至少三种或至少四种或至少五种或两种或三种或四种或五种或全部一起使用,以确定平均肿瘤纯度。

在另一个实例中,肿瘤纯度值是平均肿瘤纯度值。

在一个实例中,本文所指的肿瘤类型可以是但不限于TCGA数据库中提到的BLCA、BRCA、CESC、CRC(COAD和READ组合)、ESCA、GBM、HNSC、KIRC、KIRP、LGG、LIHC、LUAD、LUSC、OV、PAAD、PRAD、SKCM、STAD、THCA以及UCEC。

参考图3,流程图300公开了根据本实施方案的TUMERIC-solo方法。首先,使用例如切片机、冷冻切片或冷冻的肿瘤阵列,将冷冻的肿瘤样本划分(302)成N个区段(例如,N的值大于5但小于20(5

E

癌细胞的图谱314和非癌细胞的图谱316可用于为免疫检查点抑制药物提供建议318。另外,可以使用与已知膜蛋白和抗原细胞-细胞信号传导的数据库320的交叉引用,来根据癌细胞图谱314对癌细胞基于抗体的靶向进行确定和按优选顺序列出建议322。

参考图4,流程图400描绘了根据本实施方案的TUMERIC-solo肿瘤纯度估计过程308。通过首先使用三种方法根据DNA测序数据304和RNA测序数据306估计纯度来推断每个全肿瘤样本的纯度(即,每个样本中癌细胞的分数)。使用体细胞变异等位基因频率402以及使用DNA拷贝数改变和B等位基因频率404,根据DNA测序数据304估计纯度,并使用上皮和免疫/基质浸润细胞的基因表达特征406,根据RNA测序数据306估计纯度。如果估计方法402、404、406中的任何一个都不收敛或导致估计太高或太低,则使用用于插补的统计方法(例如,平均值、回归或k最邻近)估算408纯度值估计。当三种方法402、404、406之一的估计值非常高(例如,>98%),但其他方法402、404、406的估计值却不那么高(例如<95%)时,则认为估计太高。同样,当三种方法402、404、406之一的估计值非常低(例如,<10%),但其他方法402、404、406的估计值却不那么低(例如>20%)时,则认为估计太低。针对N个肿瘤区段中每一个推断310平均肿瘤纯度估计值的肿瘤纯度估计308中的最后步骤是纯度分布的归一化410。归一化410对齐估计的不同纯度分布。这可以通过使用分位数归一化或其他归一化技术和/或通过根据每次估计与平均共有估计的相关性对每次估计加权来执行,使得与平均共有估计具有较高相关性的估计在归一化期间被加权较高。归一化410还可以排除偏离平均共有估计太多的纯度估计分布。

因此,在一个实例中,从单个个体获得肿瘤来源的样本。在另一个实例中,将肿瘤来源的样本分成2个或更多个区段。在又一个实例中,将肿瘤来源的样本分成2个或更多个区段,并且其中为每个区段生成一个表达谱集。

参考图5,流程图500描绘了根据本实施方案的TUMERIC-solo转录物组去卷积312。对纯度数据310(即,N个肿瘤区段中每一个的肿瘤纯度估计值)和区段方面的RNA测序数据306进行去卷积312,以推断原始肿瘤样本中癌细胞314和非癌细胞316的分子图谱。去卷积312包括肿瘤纯度估计值310和具有其表达在基因、转录物同工型或外显子水平总结404的RNA测序数据306的转录物组去卷积502。

在一个实例中,表达谱可以是但不限于基因表达、RNA表达、表观遗传表达、蛋白质表达、蛋白质组表达及其组合,例如,RNA和表观遗传表达以及RNA和蛋白质表达。在另一个实例中,表达谱是基因表达谱。在另一个例子中,表达谱是RNA表达谱。

使用肿瘤纯度估计值(p)310和RNA测序数据306,转录物组去卷积402有利地使用广义线性模型(GLM)回归来根据针对每个基因水平、转录物同工型水平或外显子水平(在所述水平的RNA数据被总结404)测量的全RNA数据(E_obs)306推断癌症(E_cancer)区室表达314和基质(E_stroma)区室表达316,如方程式2所示:

E_obs=(pxE_cancer)+((1-p)xE_stroma) (2)

如果将表达数据314、316总结为每百万个映射的读段每千个碱基的转录本的片段/读段(fragments/reads per kilobase of transcript per million mapped reads(FPKM/RPKM)),则根据本实施方案,可以在广义线性模型(GLM)中使用正态分布链接函数(normal distribution link function),并且观察到的数据可以是线性标度或对数(log)标度。如果将表达数据314、316总结为读段计数(read count),则根据本实施方案,可以使用Poisson(泊松)、Negative Binomial(负二项式)或其他过度分散指数分布族作为广义线性模型(GLM)中的链接函数。

图6描绘了根据本实施方案的验证肿瘤转录物组去卷积的工作实例,其中,如图6a所示,共有肿瘤纯度估计值来自癌症基因组图谱(TCGA)中20种实体肿瘤类型中的约8000个样本,并且表明大多数肿瘤样本的纯度为40-70%。胰腺腺癌(PAAD)肿瘤的纯度很低(平均纯度为约39%),这与以前的观察结果一致。胶质母细胞瘤(GBM)和卵巢癌(OV)队列的纯度估计值最高,这可能是由于癌症基因组图谱项目第一阶段中肿瘤选择偏倚所致。发现mRNA表达来源的肿瘤纯度估计值以及先前公开的共有肿瘤纯度估计值与TUMERIC共有纯度估计值具有很好的相关性,但与基于突变和拷贝数的方法相比,可能将纯度系统性地高估了20-50%(图35)。

图6b显示了针对每种肿瘤类型推断的在癌细胞和基质细胞中特异性表达的基因。评估了每个基因座的mRNA表达与体细胞拷贝数改变(CNA)之间的相关性(上图版)。根据癌基因和基质基因相关性的差异对肿瘤类型进行排序,并为每个肿瘤样本确定由CNA改变的基因组的分数(下图版)。进行了多次分析,以评估TUMERIC在对癌细胞和基质细胞区室转录物组去卷积中的准确性。首先,由于体细胞拷贝数改变(CNA)是癌细胞基因组的标志,在不受理论的束缚的情况下,因此有理由认为,这种改变不会影响仅源自基质细胞的基因的表达。确实,使用TUMERIC推断每种肿瘤类型中最重要的癌细胞和基质细胞特异性基因,在肿瘤拷贝数改变与癌症特异性基因表达之间,而不是在肿瘤拷贝数改变与基质特异性基因表达之间,发现了强相关性。肿瘤类型之间的相关性变化可以通过给定肿瘤类型中拷贝数改变的总体普遍性来解释。同样发现TUMERIC一致推断,先前衍生的基质和免疫细胞特异性基因在所有肿瘤类型的基质区室中具有明显更高的表达,如图6所示,其中描绘了针对280个已知的基质特异性基因推断的癌症区室和基质区室表达水平。

为了测试TUMERIC与肿瘤单细胞RNA测序(scRNA-seq)图谱分析的一致性,比较了通过黑色素瘤肿瘤的单细胞RNA测序鉴定的癌细胞和基质细胞特异性基因的TUMERIC表达估计值。针对先前用黑素瘤肿瘤单细胞RNA测序(scRNA-测序)鉴定的癌症和基质特异性基因,图6d显示了黑素瘤(皮肤皮肤黑素瘤-SKCM)中推断的癌症区室和基质区室表达水平,以及全肿瘤测量结果。TUMERIC推断出基质细胞特异性基因的显著较高的基质-区室表达(P=2e-55,Mann Whitney(曼-惠特尼检验),双尾),和癌细胞特异性基因显著较高的癌症-区室表达(P=3.6e-4)。

使用基因集富集分析(请参见方法部分)评估了具有癌症或基质特异性表达的基因在肿瘤类型中可能的生物学功能。在肿瘤类型的癌症区室中一致上调的基因集与癌细胞的已知特征相关,例如细胞周期的激活、MYC信号传导、代谢和DNA修复。图6e显示了通过每种肿瘤类型中癌症区室和基质区室之间的表达差异而排序的基因。基因集富集分析(GSEA)用于鉴定癌症和基质富集的基因集。非显著关联(错误发现率(FDR)>0.25)以白色显示。相反,在所有癌症类型的基质区室中一致上调的基因集包括与血管生成、免疫应答和间充质细胞状态有关的基因。

为了评估去卷积的mRNA图谱代表癌细胞和基质细胞中蛋白质水平的准确代表程度(proxy),将TUMERIC应用于对来自TCGA肿瘤的蛋白质表达数据去卷积。图6f显示了蛋白质表达,该蛋白质表达是使用iTRAQ蛋白定量数据针对(OV)和乳腺(BRCA)癌队列的癌症区室和基质区室推断的,并与RNA测序数据进行了比较,发现mRNA表达估计值通常与癌症和基质蛋白质丰度的相对水平一致。

最后,图6g描绘了鉴定的基因,该基因的mRNA表达差异相对于基质mRNA表达的差异在癌症类型间高度可变,并且将具有最高mRNA丰度的基因(S100A6)的免疫组织化学(IHC)染色数据与RNA测序数据进行了比较,以确认一种这样的基因的表达模式在肿瘤类型之间确实是可变的(图6g)。

参考图7,描绘了根据本实施方案的推断癌细胞与基质细胞之间的串扰的结果。为了推断和区分肿瘤内的自分泌(在同一区室中的信号传导)和旁分泌(在癌症和基质细胞区室之间的信号传导)配体-受体(LR)串扰类型,制定了一项指标,即相对串扰(RC)分数。如图7a所示,该相对串扰(RC)分数估计信号传导在癌症细胞和基质细胞区室之间在四个可能方向上的相对流动,包括全(非去卷积的)正常组织信号传导估计,并定量给定的配体-受体对的相对信号传导方向性,以及做出关于细胞-细胞信号传导的多重简化假设(例如,忽略局部竞争和饱和效应)。但是,相对串扰(RC)分数是确定肿瘤中相对信号传导方向性的合理近似值。

首先,评估了某些配体-受体对在各种肿瘤类型间表现出一致的串扰模式的程度,并发现了癌症区室和基质区室中相对串扰分数之间的差异。虽然只有三个配体-受体对显示出肿瘤类型间的强自分泌癌症信号传导的证据(癌症与癌症RC分数中位数>40%),但是发现264个配体-受体对具有高自分泌基质信号传导分数,如图7b所示。这表明,对于实体瘤,自分泌癌信号传导倾向于是肿瘤类型特异性的,并可能由癌细胞起源(cancer cell-of-origin)决定,而基质自分泌信号传导通常独立于肿瘤类型和起源部位。有趣的是,癌细胞与基质细胞区室之间的旁分泌信号传导界面也具有大量的复发性相互作用(对于癌症至基质和基质至癌症信号传导,分别为26次和40次相互作用,其中的RC分数中位数>40%),这突出了肿瘤环境对癌细胞生物学的重要性。推断的肿瘤类型间复发性自分泌癌症信号传导涉及通过FGFR8、LRP6和MST1R的信号传导,如图7c所示。值得注意的是,已发现MST1R(RON)是预后标记,目前正被评估为多种肿瘤类型的治疗靶标。通过ACVR2B的信号传导显著地是跨肿瘤类型的首要推断的癌症自分泌和基质到癌症信号传导相互作用(图7c和7d)。

作为另一个工作实例,本文公开的方法用于分析约130个肺腺癌肿瘤样本,所有样本均具有外显子组(DNA)和RNA测序数据。还分析了患者肿瘤样本(A014),该样本已被划分为八个独立的区段,然后进行了TUMERIC-solo分析工作流程。如图7e所示,本实施方案的方法进一步用于研究在乳腺癌亚型中EGF家族信号传导的作用。如图7f所示,推断出在HER2阳性肿瘤的癌细胞中ERBB2的表达增加了30倍。着眼于典型的EGF-家族LR相互作用和通过该受体的推断的信号传导,发现与正常乳腺肿瘤相比,肿瘤中的癌症细胞和基质细胞EGFR表达通常较低(图7e和7f)。推断EGFR表达在Basal和HER2阳性肿瘤的癌细胞中表达,但是在鲁米那A和B肿瘤亚型的癌细胞中几乎不表达(图7e和7f)。双调蛋白(AREG)似乎是EGFR配体的主要来源(图7g)。值得注意的是,虽然推断AREG在两种Luminal亚型中主要由基质细胞表达,但是AREG几乎仅由Basal和HER2阳性肿瘤中的癌细胞表达(图7g)。该数据支持在AREG和EGFR之间存在HER2阳性和basal乳腺肿瘤独特的癌症-细胞自分泌反馈回路,并证明如何才能将该方法应用于研究与肿瘤的特定分子或遗传亚型相关的细胞-细胞串扰。

总之,本文提供了数据驱动的方法,其仅使用来自一组肿瘤的全基因组和转录物组数据对癌症和基质细胞转录物组进行去卷积并估计肿瘤微环境中的细胞-细胞串扰。本文公开的方法不限于转录物组数据,并且可以有利地与其他类型的全肿瘤分子数据一起使用,例如但不限于表观遗传图谱或蛋白质组图谱。

TUMERIC-solo方法的验证

首先,评估了TUMERIC和TUMERIC-solo定量已知标记基因的癌症和基质表达的能力。参考图8,该图显示了实例查询,以说明使用TUMERIC在胶质母细胞瘤肿瘤中鉴定膜蛋白药物靶标的过程。在此查询中,用户指定肿瘤类型(胶质母细胞瘤),并进一步指定要分析的肿瘤(此处为无IDH1突变的肿瘤)的遗传亚型/分子亚型。然后,将已知的膜蛋白按其总全肿瘤表达(x轴)和TUMERIC推断的在癌细胞中特异表达的程度(y轴)进行排名。每个靶标的预测毒性,例如来自健康重要器官(例如脑/心脏/肾脏)中基因表达的靶标,可以共同可视化并有助于目标选择过程。

参考图9A,示意图910表示根据本实施方案的肿瘤转录物组(或蛋白质组)去卷积方法和平台的概况。图9B描绘了本实施方案的工作包WP1920、WP2 930和WP3 940以及方法的概述950。

参考图11中,与来自患者队列的数据(应用于约60名肺癌患者的TUMERIC)相比,来自TUMERIC-Solo的柱状图数据被描绘为应用于单个肺癌患者(A014)。首先,该数据表明,TUMERIC-Solo可以可靠地鉴定已知的基质因子(与癌症相比在基质中过表达,如CD3D、CD68)和上皮/癌症标记(EGFR、EPCAM)。其次,使用TUMERIC-Solo表明,PDL1(CD274)表达通常在基质中表达,但在患者A014 PDL1中它在癌细胞中过表达六倍以上(>6倍),而基质表达保持不变(图10)。这将PD1/PDL1检查点阻断鉴定为该特定患者的潜在靶标。使用全肿瘤图谱分析进行相同的分析,会观察到PDL1表达上调约两倍,因此,表达水平的提高是否是由于基质细胞或癌细胞过表达PDL1所致,这是未知的。

即使TUMERIC使用从不同患者肿瘤获得的数据,而TUMERIC-solo使用来自一个个体患者肿瘤不同部分的数据,这也证明了TUMERIC和TUMERIC-solo如何能够产生一致的结果。为了进一步说明这一概念和一致性,通过绘制CD68、CD74和EPCAM的测量的(全)基因表达随TUMERIC(N=130个样本)和TUMERIC-solo(N=患者肿瘤A014的8个区段)的估计的样本/区段肿瘤纯度的变化,分别对两种去卷积方法进行了说明(图12)。虽然分析和推断的基因表达水平在TUMERIC和TUMERIC-solo之间总体上是一致的,但CD74的分析展示了TUMERIC-solo如何可以推断基因表达的患者特异性变化。

使用TUMERIC-solo推断患者特异性PDL1表达

肿瘤PDL1(CD274)表达是肺癌中免疫检查点抑制治疗应答的生物标志物。然而,PDL1检查点抑制仅在部分患者(<20%)中起作用,并且正在辩论是癌细胞还是基质细胞在受益于治疗的患者中主要过度表达PDL1。A014肿瘤的TUMERIC-solo分析表明,PDL1在癌细胞中高度上调,而在基质细胞中则没有。值得注意的是,PD-L1上调是A014患者特异性现象,并且在对130个患者肿瘤进行TUMERIC分析时未观察到,这突显了TUMERIC-solo的额外价值。总之,这表明PD1/PDL1免疫检查点抑制可能是患者A014的有效治疗。此外,对PDL1上调的测量,TUMERIC-solo的信噪比(SNR)(癌症6相比背景/全局1)比原初全肿瘤(全肿瘤3.9相比背景/全局1.7)要高得多(图10)。

以TUMERIC-solo改进的免疫检查点生物标志物特征的定量

以前曾有报道称,全肿瘤6基因生物标志物是对派姆单抗(PD1/PDL1抑制)治疗产生应答的原因。这六个基因是IDO1/CD274、CXCL10、CXCL9、HLA-DRA、STAT1和IFNG。TUMERIC-solo用于推断这些基因在患者A014中的活性。该分析表明,一个基因在癌细胞(CD274/PDL1)中强烈上调,而四个另外的基因在基质中强烈上调(CXCL10、HLA-DRA、IFNG、STAT1)(图13)。针对这6种标记组合,比较了TUMERIC-solo和原初全肿瘤方法的信噪比。发现TUMERIC-solo由于其区分癌症和基质表达的能力而为这些标记提供了信噪比的显著改善(图14)。因此,TUMERIC-solo可以为推荐派姆单抗治疗提供更准确的合计生物标志物活性分数。

使用TUMERIC和TUMERIC-Solo指导治疗和靶标发现

TUMERIC和TUMERIC-solo可以应用于患者肿瘤集或个体肿瘤,以鉴定和/或指定药物靶标和治疗方法,如在上文图8和9所观察到的。本文至少使用以下步骤公开了根据本实施方案的方法的概要:1.将TUMERIC/TUMERIC-solo应用于样本集/区段集;2.通过推断的癌症区室表达对基因或转录物同工型进行排名;3.通过癌症区室相对于基质区室的上调水平对基因或转录物同工型进行评分(鉴定癌症-细胞特异性因子);4.通过癌症组织相对于健康/正常组织的上调水平对基因或转录物同工型进行评分(鉴定癌症-细胞特异性因子);5.将基因或转录物同工型分配给(subset)已知的膜相关蛋白或受体(例如,使用已知资源/数据库)。这会为基于抗体(例如抗体药物偶联物)的疗法产生靶标候选清单;6.分配蛋白质的基因或转录物同工型,从而生成已知的HLA结合肽和T细胞抗原肽(使用例如已知的资源/数据库)。这会产生与肿瘤的癌细胞特异性结合并在其中过表达的肿瘤相关抗原(TAA)的候选清单,从而为基于工程T细胞的疗法(例如但不限于CAR-T)指定候选物。

因此,在一个实例中,公开了分析单个患者肿瘤的方法。本文公开的方法还能够鉴定在单个患者的癌细胞中异常表达的转录物。所公开的方法还允许进行仅需要最少数量的(数学)假设的无偏分析。

TUMERIC-solo对治疗抗体的患者特异性推荐

在个体A014中分析了本文公开的方法(TUMERIC-solo)可用于推荐用靶向癌细胞膜蛋白的特异性抗体进行治疗的程度。分析了约4000种已知和带注释的膜蛋白在A014肿瘤癌细胞中的特异性(log倍数变化>3,癌症相对于正常肺)和丰富表达(表达>50FPKM),因为这些是对于治疗性抗体靶标至关重要的参数。使用TUMERIC-solo的这种方法的最重要的靶标是CLDN6,目前正在其他地方将其作为治疗性抗体靶标进行评估(图15)。因此结果是,TUMERIC-solo表明推荐例如通过使用抗CLDN6的治疗性抗体靶向患者A014的CLDN6。类似的简单(naive)全靶标推荐方法仅突出了单个靶标(COL1A1),但未报告CLDN6抗体靶标。

TURMERIC-solo揭示了胃癌中PD-L1抑制治疗应答的生物标志物

进一步测试了TUMERIC或TUMERIC-solo是否可以通过更具体地估计癌症或基质/免疫细胞(与全肿瘤组织相比)中的基因表达来揭示PD-L1抑制治疗应答的先前未靶向的生物标志物。在这方面,用TUMERIC鉴定治疗的患者队列中的稳健生物标志物,然后在治疗个体患者的环境中,将TUMERIC-Solo用作生物标志物测试试验(伴随诊断)。使用了来自最近用PD-L1抑制剂(派姆单抗)治疗的约50名转移性胃癌患者队列的数据。根据患者的治疗应答(完全/部分应答(R);稳定疾病(SD);进行性疾病(PD))将患者分组,并在每组患者中应用TUMERIC。

首先,该分析揭示了应答者(R)和非应答者(PD)之间的大量具有稳健癌细胞或基质细胞基因表达失调的基因。与通过全肿瘤图谱分析测量时相比,使用TUMERIC时,这些基因的信噪比(预测能力)强得多(请参见图16),这表明这些生物标志物中有许多只能在与TUMERIC-solo组合方面有用。例如,双糖链蛋白聚糖(BGN)在无应答性患者(PD)的癌细胞中显示出非常高的表达水平,但在应答性患者(R+SD)中的表达水平接近零。对于全组织基因表达图谱分析,这种差异不那么明显,并且更具可变性(参见图17)。因此,仅基于全BGN表达的测试作为生物标志物的预后能力不足。

来自多患者胃癌队列的数据被用来测试/模拟,在具有不同的派姆单抗治疗结果的推定的个体转移性胃癌患者中,双糖链蛋白聚糖的TUMERIC-solo数据看起来会如何(图18)。由此表明,通过TUMERIC-solo可以推断给定患者的双糖链蛋白聚糖癌症/基质表达水平,以确定派姆单抗在转移性胃癌的治疗中是否有效。

通过另一个工作实例显示了预测对PD-L1抑制应答的生物标志物的鉴定,该实例显示了临床试验队列和未经治疗的微卫星不稳定(MSI)/微卫星稳定(MSS)肿瘤的联合TUMERIC分析。

对免疫检查点抑制(ICI)治疗应答的稳健的预测性生物标志物的发现,受到了缺乏可从ICI治疗应答者和非应答者肿瘤获得的转录物组数据的挑战。由于微卫星不稳定(MSI)肿瘤通常对ICI治疗具有强烈的临床应答,因此对免疫检查点抑制(immunecheckpoint inhibition,ICI)临床试验队列和未经治疗的微卫星不稳定(MSI)/微卫星稳定(MSS)肿瘤的大队列进行联合TUMERIC分析。这项联合分析在三种不同肿瘤类型间产生了与ICI应答和MSI状态密切相关的5种癌症区室基因表达生物标志物和6种基质区室基因表达生物标志物。

微卫星不稳定性在结肠直肠癌、胃癌和子宫内膜癌中很常见。在TCGA中,从这三种肿瘤类型中收集了约1000个未经治疗肿瘤的队列。使用TUMERIC,鉴定了在所有三种肿瘤类型中均存在的微卫星不稳定(MSI)和微卫星稳定(MSS)肿瘤之间的癌细胞和基质细胞基因表达差异。接下来,使用TUMERIC分析来自用PD-L1抑制剂(派姆单抗;NatureMedicine.2018,DOI:10.1038/s41591-018-0101-z;该研究公开的信息也可以见于项目编号为PRJEB25780的European Nucleotide Archive[ENA;part of the ELIXIRinfrastructure of the EMBL-EBI(EMBL-EBI的ELIXIR基础结构的一部分),WellcomeGenome Campus,Hinxton,Cambridgeshire,CB101SD,UK])治疗的转移性胃癌患者临床试验的转录物组数据。简而言之,根据患者的治疗应答(完全/部分应答(R);稳定疾病(SD);进行性疾病(PD))将患者分组,并在每组患者中应用TUMERIC。然后,在完全/部分应答(R)和进行性疾病(PD)组之间鉴定显著性癌症和基质细胞基因表达差异。最后,对来自MSI/MSS的生物标志物和临床试验数据分析进行交集运算,从而得出6种基质细胞相关生物标志物(IFNG、FASLG、CXCL13、ZNF683、IL2RA和CD274/PD-L1)和5种癌症细胞相关生物标志物(CPNE1、TTC19、OXCT1、ALDH6A1和COX15)的最终清单。这些生物标志物的区室特异性基因表达变化可以通过应用TUMERIC-Solo在个体患者肿瘤中进行测量,然后可以用区室特异性变化预测对ICI治疗的应答。所鉴定的生物标志物基因的数据总结在图24-34中。

本公开范围内设想的治疗包括但不限于癌细胞靶向抗体(例如ADC),针对例如细胞表面受体的治疗性抗体以及化学治疗剂。

在另一个实例中,本文公开的方法还包括为基于抗体的疗法和/或基于T细胞的疗法选择基因或转录物同工型。

本文公开的方法的优点包括,这些方法可应用于冷冻的和福尔马林固定石蜡包埋(FFPE)的组织样本,这意味着在分析后仍可以进行免疫组织化学染色等。同样,如本文提供的数据所示,所公开的方法能够区分癌细胞和基质细胞(任何非癌细胞)类型,并比全图谱分析/平均图谱分析提供更多的信息。而且,尽管当前公开的方法专注于转录物组图谱分析,但是可以将其适配于其他类型的“Omics”(例如,但不限于表观基因组学、蛋白质组学等)。如本文所公开的,目前的方法由平行DNA测序指导,并且也可以用仅来自分区段的RNA数据的数据(例如,仅基于RNA表达的纯度估计)进行。

在全肿瘤活检数据已经丰富或者是唯一可行数据源的环境中,该方法还可以应用于肿瘤微环境细胞生物学和抗体药物发现研究中的补充方法。此外,从该方法获得的见解可用于设计更准确地模拟人类肿瘤微环境生物学的体外测定和共培养模型。

因此,可以看出,所公开的方法具有彻底改变可以从个体全肿瘤样本中提取的分子数据的潜力。可以预见的是,使用根据本实施方案的方法会创造近期的未来,其中测序的成本下降>10倍(100美元/基因组),这意味着,与全肿瘤样本的测序服务相关联的总体管理和处理开销相比,与本文公开的方法相关的额外测序成本(约高5倍)会变得微不足道。直接和无偏倚地对来自全肿瘤样本的癌细胞进行图谱分析的能力,对销售临床测序服务的公司、癌症医院的精确肿瘤学操作以及对开发伴随生物标志物感兴趣的大型制药公司具有直接利益。根据本实施方案的方法可以用于可以从个体部分中共同提取并且理想地适合mRNA表达分析的任何分子活性(mRNA、表观遗传学、蛋白质表达),因为DNA和RNA可以毫不费力地共同提取,并通过下一代测序技术加以分析。

其他实施方案在所附权利要求和非限制性实施例内。另外,在根据马库什组描述本发明的特征或方面的情况下,本领域技术人员应当认识到,由此也根据马库什组的任何个体成员或成员子组描述了本发明。

实施例

方法

肿瘤数据源

分析了二十种实体瘤类型。这些实体肿瘤类型的癌症基因组图谱(TCGA)首字母缩写词为BLCA(膀胱尿路上皮癌)、BRCA(乳腺浸润性癌)、CESC(宫颈鳞状细胞癌)、CRC(结肠直肠腺癌)(COAD(结肠腺癌)和READ(直肠腺癌)的组合)、ESCA(食管癌)、GBM(多形胶质母细胞瘤)、HNSC(头颈部鳞状细胞癌)、KIRC(肾脏肾透明细胞癌)、KIRP(肾脏肾乳头状细胞癌)、LGG(脑低级胶质瘤)、LIHC(肝脏肝细胞癌)、LUAD(肺腺癌)、LUSC(肺鳞状细胞癌)、OV(卵巢浆液性囊腺癌)、PAAD(胰腺腺癌)、PRAD(前列腺腺癌)、SKCM(皮肤黑素瘤)、STAD(胃腺癌)、THCA(甲状腺癌)和UCEC(子宫内膜癌)。可从Broad Institute Firehose网站获得20种肿瘤类型的体细胞突变(SNV)和拷贝数变异(CNV)数据(请参见下面的数据登录部分)。UCSCXena服务器获得统一处理的癌症基因组图谱RNA测序(FPKM)数据。

肿瘤纯度估计

使用了四种不同的公开方法进行共有肿瘤纯度评估。这些方法是AbsCNseq、PurBayes、Ascat和ESTIMATE。AbsCNseq使用个体肿瘤的拷贝数改变分段和单核苷酸变异(SNV)的变异等位基因频率(VAF)数据。PurBayes利用二倍体基因的SNV VAF数据(根据拷贝数改变数据推断)。Ascat纯度估算基于拷贝数改变(单核苷酸多态性(SNP)阵列)数据,其中对肿瘤倍性和纯度进行共同估计,以鉴定等位基因特异性拷贝数改变。可从COSMIC网站获得针对癌症基因组图谱队列的预先计算的Ascat肿瘤纯度估计值(请参见下面的数据登录部分)。ESTIMATE使用已知免疫和基质基因特征的mRNA表达特征来推断肿瘤纯度,并通过将ESTIMATE应用于癌症基因组图谱RNA测序(log2 FPKM[片段/每千碱基])数据,获得肿瘤纯度值。为了得出共有肿瘤纯度估计值,进行了缺失数据插补,然后针对每种癌症类型分别进行分位数归一化。由于算法无法在某些输入数据实例上执行,因此缺失一些肿瘤纯度值。另外,观察到一些纯度估计值很高(>98%)或很低(<10%)的情况,但是对于给定的肿瘤这种情况通常仅通过单一方法才发现,因此也被指定为缺失数据。然后使用不完整算法-vs-样本肿瘤纯度矩阵的迭代主成分分析(Principal Component Analysis)(使用missMDA R软件包)来估算缺失数据。

分位数归一化用于进一步标准化不同算法的肿瘤纯度分布。简而言之,针对每种算法对肿瘤纯度值进行分类,并针对这些分布中的每个等级计算平均值。这些平均值被代入个体纯度分布中。由于与其他三种方法相比,ESTIMATE生成的纯度估计值具有较大的偏倚(通常高30-50%),因此仅在排名步骤中使用ESTIMATE纯度值。获得最终的TUMERIC共有肿瘤纯度估计值,作为这些归一化纯度值的平均值。

癌症基质基因表达去卷积

假定肿瘤由癌细胞和基质细胞(任何非癌细胞)组成。然后通过源自这两个区室的mRNA分子的总数来确定测量的全肿瘤mRNA丰度。然后可以如方程式3所示表示针对样本中给定基因所测量的mRNA表达i:

在此,pi表示癌细胞比例(肿瘤纯度),并且

iTRAQ肿瘤蛋白表达数据的去卷积

使用可在cBioPortal(www.cbioportal.org)上获得的CPTAC联盟数据获得BRCA(乳腺癌)和卵巢癌(OV)肿瘤类型的iTRAQ数据。与上述RNA测序数据类似,将数据去卷积为癌症区室表达和基质区室表达。

配体-受体相对串扰(RC)分数

为了估计癌细胞区室和基质细胞区室之间信号传导的相对流动,制定了相对串扰(RC)分数。使用针对给定区室推断的基因表达产物,估计配体-受体(LR)复合体活性(线性比例)。然后,例如对于癌症-癌症(CC)信号传导,考虑到所有4种可能的信号传导方向和正常组织状态,在方程式4中计算出的RC分数会估计相对复合体活性:

为了说明正常组织中的复合体活性,分母中的正常项包括在内,并且该正常项是直接从可用于TCGA中每种肿瘤类型的匹配正常组织样本中观察到的基因表达水平计算的。值得注意的是,相对串扰(RC)分数基于许多简化的假设,例如,个体配体-受体复合体没有竞争或饱和作用,mRNA表达合理地替代在配体和受体形成位点的配体和受体浓度,癌细胞和基质细胞在肿瘤中均匀混合,以及所有癌细胞和基质细胞都具有相同的特性和基因表达谱。

基因集富集(GSEA)分析

为了研究在癌细胞和基质细胞之间差异表达的基因,对根据癌症区室和基质区室中的差异表达(每千碱基的对数片段)分类的基因预排名分析进行了基因集富集(GSEA)分析。分析了所有标志基因特征,并用错误发现率(false-discovery rate,FDR)截止值为0.25来确定具有差异富集的基因集。

免疫组织化学(IHC)定量分析

为了定量癌细胞和基质细胞基因表达,使用ImageJ软件包和标准研究方案对从人类蛋白质图谱(proteinatlas.org)获得的IHC图像进行了颜色去卷积。在对癌细胞和基质细胞(不了解抗体染色)进行手动选择和分段之后,使用ImageJ测量颜色强度,并估计DAB(靶标)、苏木精(细胞)和互补成分。然后估计给定载玻片的癌症区室和基质区室的平均抗体强度。总而言之,从人类蛋白质图谱中获得了S100A6和LDHB的抗体染色的各种人类肿瘤样本的IHC图像,并使用ImageJ softwarr对其进行了分析。使用Ruifrok等人描述的研究方案对DAB和苏木精进行颜色去卷积。首先,随机选择两张具清晰可见的癌细胞和基质细胞的高质量图像。接下来,基于病理特征(癌症类型、大小、形状、细胞排列和细胞核),手动检测每张IHC图像的基质细胞和癌细胞并将其分段(使用ROI管理器)到基质区和癌症区[3]。然后,根据DAB载体(抗体),计算已确定的癌症区和基质区的像素强度。对于整个载玻片,估计每个DAB染色的癌症区/基质区的分数,并根据方程式5(如下所示),计算平均癌症/基质染色分数:log

将1%的伪计数添加到分子和分母中来处理零癌症/基质染色的情况。

表1:TCGA癌症类型和使用的样本。也参见图22。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号