首页> 中国专利> 预测黑色素瘤转移和患者预后的基因特征

预测黑色素瘤转移和患者预后的基因特征

摘要

本发明提供了对患有皮肤黑色素瘤的个体进行分类的基因特征。本文提供的“SLN基因特征”基于预后将个体分类和/或将个体分类为具有转移阳性或阴性前哨淋巴结(SLN)。本文提供的“N‑SLN基因特征”将个体分类为具有转移阳性或阴性的非前哨淋巴结(N‑SLN)。

著录项

说明书

技术领域

本发明提供了对患有皮肤黑色素瘤的个体进行分类的基因特征。本文提供的“SLN基因特征”基于预后将个体分类和/或将个体分类为具有转移阳性或阴性前哨淋巴结(SLN)。本文提供的“N-SLN基因特征”将个体分类为具有转移阳性或阴性的非前哨淋巴结(N-SLN)。

背景技术

皮肤黑色素瘤是一种恶性肿瘤,主要由位于皮肤表皮基底层的黑色素细胞产生。大多数病变出现ABCDE规则所描述的体征:不对称、边界不规则、颜色不均、直径大于6mm和进展,即迅速变化的趋势(Abbasi NR、Shaw HM、Rigel DS等。皮肤黑色素瘤的早期诊断重访ABCD标准。JAMA。2004;292(22):2771-2776)。这些部位通常无症状,但会引起瘙痒和/或出血,尤其是在后期。可疑病变的检测通常通过皮肤的自我检查来完成,建议根据ABCDE标准或“丑小鸭征”常规进行(Grob J.“丑小鸭”征:确定个体中痣的共同特征,作为黑色素瘤筛查的基础。(The‘Ugly Duckling’Sign:Identification of the Common Characteristicsof Nevi in an Individual as a Basis for Melanoma Screening).ArchDermatol.1998;134:103-104)。当医生随后正式诊断黑色素瘤时,确定特定的亚型是很重要的,因为已知有多种临床和病理类型。最常见的形式是皮肤黑色素瘤——一种浅表扩散性黑色素瘤,约占70%的病例-常见于发生在皮肤白皙的人中。病情的严重程度在很大程度上取决于黑色素瘤细胞迁移出原发区的能力。因此,评估肿瘤是否局限或已经扩散到淋巴结或器官是至关重要的。

黑色素瘤的分期对患者的预后以及决定进一步的监测和治疗策略至关重要。这也反映在对9个欧洲国家的系统文献回顾中所报告的5年总存活率的显著反差中:95%–100%(I期)、65%–92.8%(II期)、41%–71%(III期)和9%–28%(IV期)。这些差异很大程度上取决于黑色素瘤转移的能力,而不是局部黑色素瘤病变。不同分期之间的准确区分非常重要,通常基于TNM系统,即根据原发肿瘤的厚度(T)、肿瘤细胞到淋巴结的存在和/或范围(N)以及远端转移到其他器官的存在(M)。当评估原发性肿瘤阶段的程度时,医生会考虑肿瘤的厚度,但也会考虑其他特征,如溃疡的存在和原发性肿瘤细胞的有丝分裂率。正常情况下,只有在高肿瘤阶段的患者,由于黑色素瘤厚和/或其他变量,如溃疡,将评估淋巴结和转移扩散。如本领域所理解的,预后是指对患者的医疗转归的预测。例如,个体可被归类为预后差或预后良好。黑色素瘤患者的预后指明例如:长期生存的可能性、总生存率、无进展生存率、复发与疾病缓解的预测以及疾病进展。

目前,通过前哨淋巴结活检(SLNB)方法,确定SLN中转移灶的存在是目前准确患者分级和预测预后的一种广泛应用方法。自20世纪90年代早期通过SLNB手术纳入淋巴定位以来,皮肤黑色素瘤患者的治疗取得了显著进展(Morton DL,Wen DR,Wong JH,等,早期黑色素瘤术中淋巴定位的技术细节(Technical details of intraoperative lymphaticmapping for early stage melanoma)。Arch Surg。1992;127(4):392-399)。手术技术已得到改善,实施了双模态,术中使用蓝色染料和放射性示踪剂与伽玛探头检测。此外,采用SLN连续切片和免疫组化方法,改善了病理学评估。这使得能够更好地识别引流的第一个淋巴结或位于肿瘤附近的一组淋巴结(即SLN),因此是转移性疾病的可能部位。这个过程也被称为“前哨淋巴结定位”。

MSLT-1研究也显示了SLN阳性的显著影响,这表明肿瘤阳性SLN患者和肿瘤阴性SLN患者的5年生存率差异,分别为72.3%和90.2%(Morton DL、Thompson JF、Cochran AJ等,黑素瘤前哨淋巴结活检或淋巴结观察(Sentinel-Node Biopsy or Nodal Observationin Melanoma)。new engl J Med.2006;355(13):1307-1317)。根据美国癌症联合委员会(AJCC)黑色素瘤指南第8版,SLNB程序推荐用于皮肤黑色素瘤≥0.8mm的患者(GershenwaldJE,Scolyer RA,Hess KR,黑色素瘤分期:美国癌症联合委员会第八版癌症分期手册中基于证据的变化(Melanoma Staging:Evidence-Based Changes in the American JointCommittee on Cancer Eighth Edition Cancer Staging Manual)。CA Cancer JClin.2017;67(6):472-492)。对于这组患者,通常进行SLNB手术,并取决于转移的程度进一步治疗。在临界组内,特别是如果黑色素瘤表现出其它不良预后参数,可考虑SLNB。对于黑色素瘤厚度<0.8mm的患者,一般认为标准治疗是足够的,不建议使用SLNB。标准的治疗包括具有宽边界的原发性黑色素瘤的局部切除,即手术切除肿瘤。如本文所用,“切除”被理解为是指从人类患者中外科切除具有黑色素瘤特征的恶性组织。根据一个实施方式,切除应理解为意味着去除恶性组织,使得用现有方法无法检测到所述患者内剩余恶性组织的存在。

归类为阳性的SLNB率变化很大,在很大程度上取决于原发肿瘤的已知预后因素。在临床I或II期患者中,SLN转移的百分比为15-30%,而在薄黑色素瘤中为5.2%。最新版本的黑色素瘤专家小组分期指南指出了0.8mm的T1黑色素瘤亚分类的临床相关性。这是基于在一些T1黑色素瘤生存研究中检测到的趋势,即在0.7至0.8mm区域存在潜在的临床截留。然而,根据对SLNB术后患者的长期随访显示,具有前哨淋巴结最初无肿瘤的患者会发生局部淋巴结复发。这一信息可用于计算SLBN测试性能,其总体假阴性率为12.5%。最近,Morton等人报道,在SLNB阳性率为16.0%的中等厚度黑色素瘤中,4.8%的检测结果为假阴性,在10年随访期内复发。厚黑色素瘤SLNB阳性率为32.9%,假阴性率为10.3%。

SLNB不仅是一种对皮肤黑色素瘤进行潜在分期的方法,而且也是治疗的一部分,这取决于SLN的转移分类,可能是必要的,也可能不是必要的。SLNB手术会给病人带来并发症,而且费用昂贵。因此,这项手术只在一组被认为具有较高转移扩散风险(相对于绝大多数低风险病变)的患者中进行。转移的风险可通过评估临床病理因素来评估,包括肿瘤浸润深度(称为Breslow深度)和肿瘤表面溃疡。垂直深入皮肤生长的溃疡性肿瘤和黑色素瘤与更高的不良转归的风险相关。例如,SLN活检对T1a薄黑色素瘤是不建议的,对T1b薄黑色素瘤患者“可能建议”,对T2和T3中厚黑色素瘤患者是建议的,对T4厚黑色素瘤患者“可能建议”。

虽然使用临床病理变量的概念通常能够在肿瘤谱极端鉴定出高危患者,但这种方法对于中间病变的诊断并不准确。此外,高风险或低风险群体也有例外。例如,已知5%的“薄”黑色素瘤(<0.8mm浸润深度)局部转移,但根据标准的临床病理变量,它们通常被归类为低风险。为了更好地区分高风险病变和95%生物学惰性病变,引入了额外的组织学变量,如肿瘤的有丝分裂率(有丝分裂/mm

发明概述

本发明提供一种用于对患有原发性皮肤黑色素瘤的个体进行分类的方法,包括在来自所述个体的样品中确定基因表达特征,其中所述基因表达特征包括以下基因中的三种或更多种:ITGB3,PLAT,SPP1,GDF15和IL8。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:ITGB3、PLAT、GDF15和IL8,更优选地,其中所述基因表达特征包含ITGB3、PLAT、GDF15和IL8。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。还优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。

还提供了一种用于确定患有皮肤黑色素瘤的个体的治疗和/或诊断检查时间表的方法,包括在来自所述个体的样品中确定以下基因中的三种或更多种的表达水平:ITGB3、PLAT、SPP1、GDF15和IL8,并根据表达水平确定治疗和/或诊断时间表。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:ITGB3、PLAT、GDF15和IL8,更优选地,其中所述基因表达特征包含ITGB3、PLAT、GDF15和IL8。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。还优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。

还提供一种用于对患有原发性皮肤黑色素瘤的个体进行预测预后的方法,包括在来自所述个体的样品中确定基因表达特征,其中所述基因表达特征包括以下基因中的三种或更多种:ITGB3,PLAT,SPP1,GDF15和IL8。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。还优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。

在一方面,个体被分类为具有转移阳性SLN或被分类为具有转移阴性SLN。一方面,个体的预后取决于基因表达水平。优选,个体可被分类为预后差或预后良好。可以基于所述分类和/或表达水平来选择进行SLNB的个体。被分类为具有转移阳性SLN或预后不良的个体通过SLNB和/或辅助治疗进行治疗。

本发明还提供一种用于对患有原发性皮肤黑色素瘤的个体进行分类的方法,包括在来自所述个体的样品中确定基因表达特征,其中所述基因表达特征包括至少一种以下基因:KRT14、SPP1、FN1和LOXL3。

进一步提供一种治疗患有原发性皮肤黑色素瘤的个体的方法,包括

-在来自所述个体的样品中确定基因表达特征,其中所述基因表达特征包含以下基因中的三种或更多种:ITGB3,PLAT,SPP1,GDF15和IL8。

-基于基因表达特征将所述个体分类为具有转移阳性SLN和/或不良预后,和

-通过对上述个体进行SLNB和/或提供癌症治疗来治疗上述个体。

优选地,其中所述基因表达特征包含以下基因中的三种或更多种:ITGB3、PLAT、GDF15和IL8,更优选地,其中所述基因表达特征包含ITGB3、PLAT、GDF15和IL8。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。还优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。

本发明还提供一种治疗患有原发性皮肤黑色素瘤的个体的方法,包括

-在来自所述个体的样品中确定基因表达特征,其中所述基因表达特征包含以下至少一种基因:KRT14、SPP1、FN1和LOXL3,

-基于基因表达特征将所述个体分类为具有转移阳性N-SLN的高风险,和

-通过执行完全淋巴结剥离和/或向所述个体提供癌症治疗来治疗所述个体。

还提供了一种用于分析患有原发性皮肤黑色素瘤的个体的基因特征的方法,所述方法包括

-从所述个体的原发性皮肤黑色素瘤病变中提取RNA;

-反转录以下基因中的至少三种的RNA转录物:ITGB3、PLAT、SPP1、GDF15和IL8,以产生RNA转录物的cDNA;以及

-扩增cDNA以从cDNA产生扩增子以测定RNA转录物的表达水平。

本发明还提供了一种用于分析患有原发性皮肤黑色素瘤的个体的基因特征的方法,所述方法包括

-从所述个体的原发性皮肤黑色素瘤病变中提取RNA;

-反转录至少一种以下基因的RNA转录物:KRT14、SPP1、FN1和LOXL3,以产生RNA转录物的cDNA;以及

-扩增cDNA以从cDNA产生扩增子以测定RNA转录物的表达水平。

进一步提供一种用于对患有原发性皮肤黑色素瘤的个体进行分类的试剂盒,所述试剂盒包括用于扩增以下基因的的引物对:

a)以下基因中的三种或更多:ITGB3,PLAT,SPP1,GDF15和IL8;和/或

b)至少一种以下基因:KRT14、SPP1、FN1和LOXL3,和可任选的

c)至少一种参考基因。

优选地,试剂盒包含用于扩增以下基因中的三种或更多种的引物对:ITGB3、PLAT、GDF15和IL8,更优选地试剂盒包含用于扩增ITGB3、PLAT、GDF15和IL8的引物对。优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1,更优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。还优选地,其中所述基因表达特征包含以下基因中的三种或更多种:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。

附图说明

图1:在DLCV中训练的逻辑回归分类器的平均ROC曲线:1)ITGB3、PLAT、SPP1、GDF15和IL8基因特征(分子模型),2)临床病理变量(年龄和Breslow深度),3)ITGB3、PLAT、SPP1、GDF15和IL8基因特征和临床病理变量组合。x轴代表假阳性发现率(即1-特异性),y轴代表真发现率(即灵敏度)。

图2:在整个770名患者队列中,ITLP评分和SLN基因特征的ROC曲线(称为“逻辑回归模型”)。x轴代表假阳性发现率(即1-特异性),y轴代表真发现率(即灵敏度)。

图3:不同ITGB3、PLAT、SPP1、GDF15和IL8基因子集、全套5个ITGB3、PLAT、SPP1、GDF15和IL8基因以及ITLP特征的ROC曲线下面积的箱线图。

图4:在DLCV中训练的逻辑回归分类器的平均ROC曲线,对于:1)基因表达,2)临床病理变量,3)基因表达和临床病理变量相结合。x轴代表假阳性发现率(即1-特异性),y轴代表真发现率(即灵敏度)。

图5:对于各基因子集和全套4个基因的ROC曲线下面积的箱线图。

图6:整体性能比较:CL对GE对GECL。在DLCV中训练的逻辑回归分类器的ROC曲线,对于:1)基因表达,2)临床病理变量,3)基因表达和临床病理变量相结合。

图7:NPV对SLNBRR.在DLCV中训练的逻辑回归分类器在以下方面的阴性预测值(NPV)对前哨淋巴结减少率(SLNB-RR):1)基因表达,2)临床病理变量,3)基因表达和临床病理变量组合。

图8:基因子集-AUC箱线图。逻辑回归分类器ROC曲线的曲线下面积(AUC)的箱线图,在整个队列中训练2,3,4,5,6,7,8个基因的子集。

具体实施方式

本发明部分地提供了方法、试剂盒、基因特征和检测此类基因特征以执行对原发性皮肤黑色素瘤肿瘤组织样品分析的方法。在一方面,本发明提供了“SLN基因特征”。SLN基因特征能对患有原发性皮肤黑色素瘤的个体进行分类,特别是,该基因特征能对个体具有转移阳性SLN和/或不良预后的风险进行分类。当医生和患者决定是否需要进行SLNB法和/或替代治疗策略时,这种风险评估非常有用。在选择纳入临床试验的患者时,这种评估也很有用。

如本文所使用,SLN是第一个从肿瘤接收淋巴引流的淋巴结(或第一淋巴结组),是癌可能扩散的第一淋巴结(或第一淋巴结组)。N-SLN是这样的一个淋巴结,它不是第一个接受肿瘤淋巴引流的淋巴结。这种N-SLN通常是同一淋巴结区(nodal basin)中的一个淋巴结或与SLN非常接近的淋巴结。

在一些实施方式中,基因特征能对转移阳性SLN的风险进行分类。在一些实施方式中,本文公开的方法将个体分类为具有转移阳性SLN或具有转移阴性SLN的个体。在一些实施方式中,基因特征能对个体的预后进行分类。如本文所使用的,预后是指对医疗转归的预测,并且可以基于诸如总生存率、黑色素瘤特异性生存率、无复现(recurrence)生存率、无复发(relapse)生存率和无远端复发生存率的度量。

SLN基因特征的一个优点是可以减少被分类为转移阴性SLN(和/或被分类为预后良好)的患者的手术次数。特别是,有中间病变的患者可能已经进行了SLNB手术,但很有可能SLN实际上是转移阴性的。对这些具有SLN基因特征的患者进行准确分类可避免SLNB手术的需要,并可用于替代SLNB作为目前中间病变治疗的标准。减少不必要的SLNB可降低整体医疗费用,并减少因SLN切除而引起并发症的患者人数。此外,将个体分类为SLN转移阳性或阴性也提供预后信息,可用于确定治疗或诊断工作时间表。

令人惊讶的是,所述SLN基因特征能够比标准的SLN活检更准确地预测预后(见实施例7)。虽然不希望受到理论的约束,但对于基因特征对SLN活检具有改善的预后能力的一种可能解释有关于进行此类活检的技术限制(例如,确定待活检的正确淋巴结、肿瘤细胞检测的限制、处理/分类样品时的人为错误)。除此之外或可替代地,所公开的基因特征可在活检中能够检测到SLN之前的阶段(例如,肿瘤已转移且肿瘤细胞正在通往SLN的路径中)预测SLN转移。在这方面,所述SLN特征可用于取代SLNB,作为纳入临床试验和/或其他治疗的标准。

所述SLN基因特征的另一个优点是,它可以鉴别具有薄黑色素瘤厚度的患者,其根据临床参数就当前标准而言可能不符合SLNB条件,但根据所述基因特征是具有SLN转移阳性高风险的。特别是,这种基因特征将大大提高对薄(<0.8mm)黑色素瘤患者中转移阳性SLN的识别率,根据指南,这些患者目前不符合SLNB手术的条件。早期检测和治疗此类患者将提高该患者亚群的无进展生存率和总生存率。

本文公开的实施例证明,包含以下一个或多个基因的基因表达特征(即,SLN基因特征):ITGB3、PLAT、SPP1、GDF15和IL8,可用于个体分类和预测预后,特别是将SLN分类为转移阳性或阴性。因此,在一个方面中,本发明提供包含以下基因中的一个或多个、优选两个或更多个、更优选三个或更多个的基因特征:ITGB3、PLAT、SPP1、GDF15和IL8。合适的基因特征包括以下组合:ITGB3和PLAT;ITGB3和SPP1;ITGB3和GDF15;ITGB3和IL8;PLAT和SPP1;PLAT和GDF15;PLAT和IL8;SPP1和GDF15;SPP1和IL8;GDF15和IL8。在一些实施例中,基因特征包含ITGB3、PLAT和SPP1、GDF15和IL8中的一个或多个。在一些实施方式中,SLN基因特征包含以下基因中的三种或更多种:ITGB3,PLAT,SPP1,GDF15和IL8。在一些实施方式中,SLN基因特征包含以下基因中的四种或更多种:ITGB3,PLAT,SPP1,GDF15和IL8。在一些实施方式中,SLN基因特征包含以下所有基因:ITGB3,PLAT,SPP1,GDF15和IL8。在一些实施方式中,基因表达特征包含以下基因中的三种或更多种:ITGB3、PLAT、GDF15和IL8,更优选地,其中所述基因表达特征包含ITGB3、PLAT、GDF15和IL8。优选地,其中基因表达特征包含GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,更优选地,其中基因表达特征包含GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1,更优选地,其中基因表达特征包含GDF15、MLANA、PLAT、IL8、ITGB3,LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1。

在一些实施方式中,基因特征包含以下中的至少三个、至少四个或至少五个:ITGB3、PLAT、GDF15、SPP1和IL8。优选地,基因特征包含ITGB3、PLAT、GDF15和IL8。

在一些实施方式中,基因特征包括以下基因中的至少三个、至少四个、至少五个、至少六个、至少七个、至少八个或全部:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1。发明人还证明了缺乏ADIPOQ的基因特征也有类似的性能。因此,在一些实施方式中,基因特征包含以下基因中的至少三个、至少四个、至少五个、至少六个、至少七个或全部:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,SERPINE2,和TGFBR1。在一些实施方式中,基因特征包括:

-ITGB3,PLAT,GDF15,IL8,MLANA,和LOXL4与SERPINE2中的一种或两种;

-ITGB3、PLAT、GDF15、IL8、MLANA,以及SERPINE2和TGFBR1中的一种或两种;

-ITGB3、PLAT、GDF15、IL8,以及MLANA和TGFBR1中的一种或两种;

-ITGB3、PLAT、GDF15、IL8,以及TGFBR1和SERPINE2中的一种或两种;

-ITGB3、PLAT、GDF15、IL8、SERPINE2,以及LOXL4和TGFBR1中的一种或两种;

-ITGB3,PLAT,GDF15,IL8,LOXL4;

-ITGB3,PLAT,GDF15,IL8,SERPINE2:

-ITGB3,PLAT,GDF15,IL8,TGFBR1;或

-ITGB3,PLAT,GDF15,IL8,MLANA。

在一些实施方式中,基因特征包含以下基因中的至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少十个、至少十一个,或全部:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。在一些实施方式中,基因特征包含以下基因中的至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少十个、或全部:GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,PRKCB,SERPINE2,ADAM12,LGALS1和TGFBR1。

在一些实施方式中,基因特征由上述基因组成。如本领域技术人员所理解的,当SLN基因特征由上述基因组成时,用于执行分析的方法可包括测量其它基因的表达(例如,用于归一化),但仅使用基因特征来分类个体。

ITGB3基因编码整合素β-3。以NM_000212.2(2018年6月17日)在NCBI数据库中可以找到典型的智人mRNA序列。

PLAT基因编码组织纤溶酶原激活剂。以NM_001319189.1(2018年7月1日)在NCBI数据库中可以找到典型的智人mRNA序列。

SPP1基因编码分泌型磷蛋白1。以NM_001040058.1(2018年6月24日)在NCBI数据库中可以找到典型的智人mRNA序列。

GDF15基因编码生长分化因子15。以NM_004864.3(2018年6月17日)在NCBI数据库中可以找到典型的智人mRNA序列。

IL8基因编码白细胞介素8。在NCBI数据库的AF043337.1(2001年2月1日)中可以找到一个典型的智人mRNA序列。

MLANA基因编码melan-A。以NM_005511(2018年10月20日)在NCBI数据库中可以找到一个典型的智人mRNA序列。

LOXL4基因编码赖氨酰氧化酶样4。以NM_032211(2018年11月22日)在NCBI数据库中可以找到典型的智人mRNA序列。

ADIPOQ基因编码脂联素、C1Q并含有胶原结构域。在NM_004797(2018年12月2日)在NCBI数据库中可以找到典型的智人mRNA序列。

PRKCB基因编码蛋白激酶Cβ。以NM_212535(2018年11月12日)在NCBI数据库中可以找到典型的智人mRNA序列。

SERPINE2基因编码丝抑蛋白家族E成员2。以NM_006216(2018年11月17日)在NCBI数据库中可以找到典型的智人mRNA序列。

ADAM12基因编码ADAM金属蛋白酶结构域12。以NM_003474(2018年8月5日)在NCBI数据库中可以找到典型的智人mRNA序列。

LGALS1基因编码半乳糖凝集素1。以NM_002305(2018年11月22日)在NCBI数据库中可以找到典型的智人mRNA序列。

TGFBR1基因编码转化生长因子β受体1。以NM_004612(2018年10月28日)在NCBI数据库中可以找到典型的智人mRNA序列。

本发明还提供了对个体进行分类的方法,包括在样品中确定SLN基因特征。在一些实施方式中,个体可被分类为具有转移阳性SLN或转移阴性SLN。在另一实施方式中,个体可被分类为预后良好或不良。先前报道了与SLN转移相关的基因特征(Meves等人,J ClinicalOncology,2015 33:2509-2516)。该算法利用年龄、Breslow深度和溃疡程度等临床病理变量,结合ITGB3、LAMB1、PLAT和TP53四种基因的原发性黑色素瘤基因表达,预测SLN的转移。如图3所示,目前所述的SLN基因特征优于先前报道的特征。

在一方面,本发明提供了“N-SLN基因特征。”N-SLN基因特征能对患有原发性皮肤黑色素瘤的个体进行分类,特别是,该基因特征能对个体具有转移阳性非前哨淋巴结(N-SLN)的风险进行分类。这种风险评估对于医生和患者在决定治疗方案和判断患者预后时非常有用。

在一些实施方式中,N-SLN基因特征能对转移阳性N-SLN的风险进行分类。个体可分为转移阳性N-SLN和转移阴性N-SLN。肿瘤细胞侵犯远端淋巴结是预后不良的指标,建议采用更积极的治疗方式。早期发现和治疗有望改善患者的转归。

本文公开的实施例证明,包含以下一个或多个基因的基因表达特征(即,N-SLN基因特征):KRT14,SPP1,FN1,LOXL3,可用于个体分类和预测预后,特别是确定转移阳性N-SLN的风险。因此,在一个方面中,本发明提供包含以下基因中至少一个的基因特征:KRT14、SPP1、FN1、LOXL3。在一些实施方式中,基因特征包含以下基因中的至少两个或至少三个:KRT14、SPP1、FN1、LOXL3。在一些实施例中,N-SLN基因特征包含或由KRT14、SPP1、FN1、LOXL3组成。在一些实施例中,基因特征由上述基因组成。如本领域技术人员所理解的,当N-SLN基因特征由上述基因组成时,用于执行分析的方法可包括测量其它基因的表达(例如,用于归一化),但仅使用基因特征来分类个体。在一些实施方式中,在患有皮肤黑色素瘤复现/复发和/或已经接受SLN活检的个体中确定N-SLN基因特征。

KRT14基因编码角蛋白14。以NM_000526.4(2018年6月17日)在NCBI数据库中可以找到典型的智人mRNA序列。

FN1基因编码纤维连接蛋白1。以NM_001306129.1(2018年6月3日)在NCBI数据库中可以找到典型的智人mRNA序列。

LOXL3基因编码赖氨酰氧化酶样3。以NM_001289165.1(2018年6月30日)在NCBI数据库中可以找到典型的智人mRNA序列。

本发明还提供了对个体进行分类的方法,包括在样品中确定N-SLN基因特征。在一些实施方式中,个体可被分类为具有转移阳性N-SLN或转移阴性N-SLN。在一些实施方式中,提供了确定SLN基因特征和N-SLN基因特征两者的方法。

本文所揭示的基因特征分析可在任何个体中进行,包括哺乳动物和人类,尽管人类是优选的。在一些实施方式中,个体已被诊断患有T1-T3皮肤黑色素瘤。在一些实施方式中,个体尚未经历原发性黑色素瘤的SLN活检,特别是当基因特征是SLN基因特征时。基因特征对年龄小、有丝分裂率高(如2/mm

基因表达特征可用于预测肿瘤细胞转移到SLN或N-SLN的风险或可能性。本领域技术人员很清楚,个体的分类指的是发生转移的可能性或“风险”,而不是所有预测有风险的患者中100%会有可检测的转移(称为灵敏度或阳性百分比一致性),也不是所有预测没有转移的患者中0%不会有转移(称为特异性或阴性百分比一致性)。如实施例中所揭示的,SLN及N-SLN基因表达特征在灵敏度及特异性方面均表现出高性能水平。如实施例揭示的,SLN基因特征比护理标准SLN活检更能预测患有黑色素瘤的个体的预后。因此,本公开内容证明基因表达特征可用于预测个体的预后。

如技术人员所知,通过转移性疾病的量测量的转移负荷在个体之间可能不同。在一些实施方式中,转移指肿瘤细胞簇的存在,并且不包括仅包含分离的或罕见的肿瘤细胞的淋巴结。在一些实施方式中,转移是指存在直径至少为0.1mm的细胞簇,具有或不具有包膜外延伸。

获得用于确定基因表达的合适样品在本领域技术人员的范围内。合适的样品包括原发性皮肤黑色素瘤病变活检。此类活检包括切除的病变(例如,肿瘤的广泛切除)。样品可以通过本领域已知的与基因表达谱分析兼容的任何方法进行处理或保存。例如,该样品可以是福尔马林固定石蜡包埋的原发性皮肤黑色素瘤病变活检,以及冷冻样品。

优选地,所述样品是含有RNA的样品。mRNA提取的一般方法在本领域中是众所周知的,并且在分子生物学的标准教科书中公开,包括Ausubel等人(1997)《新编分子生物学方案》(Current Protocols of Molecular Biology),约翰威利父子公司(John Wiley andSons)。例如,Rupp和Locker(1987)Lab Invest56:A67和De Andres等人,BioTechniques18:42044(1995)公开了从石蜡包埋组织中提取RNA的方法。特别地,根据制造商的说明书(加利福尼亚州瓦伦西亚的凯杰(Qiagen)公司),可以使用来自商业制造商(例如Qiagen)的纯化试剂盒、缓冲液组和蛋白酶来执行RNA分离。例如,可以使用Qiagen RNeasy微型柱分离培养细胞中的总RNA。许多RNA分离试剂盒是商业可得的,可以用于本发明的方法。

本文公开的方法包括确定基因表达特征。具体而言,这些方法包括确定基因表达水平。基因表达水平可以通过检测核酸或蛋白质表达水平来确定。优选确定mRNA表达水平。在一些实施方式中,从样品中纯化核酸或蛋白质,并且通过核酸或蛋白质表达分析来测量基因表达。蛋白质表达水平可通过本领域已知的任何方法来确定,包括ELISA、免疫细胞化学、流式细胞术、蛋白质印迹、蛋白质组学和质谱。

优选地,确定核酸表达水平。核酸表达水平可通过本领域已知的任何方法来确定,所述方法包括RT-PCR、定量PCR、RNA印迹、基因测序(尤其是RNA测序)和基因表达谱技术。基于测序的基因表达分析的代表性方法包括:基因表达的系列分析(SAGE),以及通过大规模平行测序(MPSS)的基因表达分析。

优选地,核酸是RNA,例如mRNA或mRNA前体。如本领域技术人员所理解的,所确定的RNA表达水平可直接检测或间接确定,例如,通过首先产生cDNA和/或通过扩增RNA/cDNA。在一些实施方式中,获得原发性黑色素瘤样品;从组织样品中提取RNA;接着反转录感兴趣的基因(例如,生物标志物和管家基因)的RNA转录物以产生RNA转录物的cDNA;以及扩增所述cDNA以从所述cDNA产生扩增子,以测定所述RNA转录物的表达水平。

在一些实施方式中,可通过NanoString基因表达分析来确定基因表达。NanoString是一种检测基因表达的多路方法,它无需转录或扩增,提供了直接检测mRNA的方法。NanoString及其方面描述于Geiss等人,“用彩色编码探针对直接多重测量基因表达(Direct multiplexed measurement of gene expression with color-coded probepairs)”Nature Biotechnology 26,317-325(2008);

表达水平不必是绝对值,而可以是标准化的表达值或相对值。例如,表达水平可根据管家或参考基因表达进行标准化。这些基因包括ABCF1、ACTB、ALAS1、CLTC、G6PD、GAPDH、GUSB、HPRT1、LDHA、PGK1、POLR1B、POLR2A、RPL19、RPLPO、SDHA、TBP和TUBB。

当基于微阵列数据确定表达时,标准化也很有用。标准化允许对微阵列内和样品间的变化进行校正,以便可以同时分析来自不同芯片的数据。强大多阵列分析(RMA)算法可用于将探针组数据预处理为所有样品的基因表达水平。(Irizarry R A,等,Biostatistics(2003)和Irizarry R A,等,Nucleic Acids Res.(2003))。此外,还可以使用Affymetrix的默认预处理算法(MAS 5.0)。US20060136145描述了标准化表达数据的其他方法。

在一些实施方式中,使用实时PCR(即,定量PCR或qPCR)来确定表达水平。在实时PCR(qPCR)中,反应的特征是循环过程中首次检测到靶标的扩增的时间点,而不是经过固定次数的循环后累积的靶标量。首次检测到信号时的这一点称为阈值周期(Ct)。

在一些实施方式中,通过从管家基因的平均Ct中减去特征基因的Ct来针对管家基因的表达进行标准化,从而相对于彼此量化基因特征的表达。在一些实施方式中,这些ΔCt值然后在算法中与患者的年龄和黑色素瘤病变的Breslow深度相结合以计算SLN转移的预测。在一些实施方式中,用于标准化的管家基因是ACTB、RPLP0和RPL8。然而,可使用其他管家基因。基因表达信号的比率随后可在算法中与临床变量组合以计算对患者SLNB的转归的预测。结果表示为二元分类(阴性或阳性)。“阴性”结果表明个体SLN转移阳性的风险较低,或者说个体预后良好,而“阳性”结果表明个体SLN转移阳性的风险较高,或者说预后较差。

本文描述的方法基于基因表达特征对个体进行分类。在一些实施方式中,个体中所述特征的一个或多个基因的差异表达指示个体具有转移风险,或者更确切地说,指示个体的预后。如本文所用,“差异表达”意指在对象中测量的表达水平与参考值显著不同。参考值可以是单个值或数字范围。确定适当的参考值在技术人员的能力范围内。在一些实施方式中,参考值是预先确定的值。在一些实施方式中,参考值是一类特定患者中表达值的平均值。例如,参考值可以是临床确认SLN转移的一类患者(或对于N-SLN特征而言,临床确认N-SLN转移的患者)的平均表达值。参考值也可以是方程式的形式或从方程式中导出。确定患者的表达水平是否与参考值“显著”不同,这在本领域技术人员的能力范围内。

在示例性实施方式中,参考值是从如示例中所述经历SLNB的黑色素瘤患者队列中确定的。对于本领域技术人员来说,也可以使用类似研究的数据。

差异表达基因的表达水平与特定患者反应类别之间的相关性强度可通过显著性的统计检验来确定。例如,卡方检验可用于将卡方值分配给每个差异表达的标志物,指示该标志物的表达与特定患者反应类别的相关性的强度。类似地,T-统计度量和Wilkins度量都提供了一个值或分数,表示标志物的表达与其特定患者反应类别之间的相关性强度。此外,SAM或PAM分析工具可用于确定相关性的强度。

在一些实施方式中,将来自个体的基因表达特征与参考表达特征进行比较,以确定来自个体的基因表达特征是否与参考值情况足够相似。或者,将来自个体的基因表达特征与多个参考表达特征进行比较,以选择与个体中基因表达情况最相似的参考值表达情况。本领域中用于比较两个或更多个数据组以检测它们之间的相似性的任何已知方法可用于比较来自个体的基因表达特征与参考表达情况。

在机器学习和统计中,分类是指根据包含已知类别成员的观察值(或实例)的训练数据集来识别新观察值所属的类别集。实现分类的算法,特别是在具体应用中,称为分类器。目前已有许多分类器,具有线性或非线性分类器边界,例如但不限于ClaNC、最近均值分类器、加权投票法、简单贝叶斯分类器、线性判别分析(LDA)、二次判别分析(QDA)、支持向量机(SVM)或k-最近邻(k-nn)分类器。在优选实施方式中,使用逻辑回归分类器。在实施例中描述了实现逻辑回归分类器的示例性实施方式。

如本领域技术人员所理解的,可以执行基因表达特征的训练以改善灵敏度或特异性。灵敏度是指被正确识别的实际阳性的比例,并且需要高灵敏度来避免假阴性(例如,被分类为转移阴性的患者实际上是阳性的)。特异性是指被正确识别的实际阴性的比例,并且需要高特异性来避免假阳性(例如,被分类为转移阳性的患者实际上是阴性的)。优选地,对分类器进行高灵敏度训练以便识别具有转移的个体。

在一些实施方式中,用于分类个体的方法进一步利用个体年龄和/或肿瘤的Breslow深度。任选地,可测定溃疡和/或有丝分裂率。Breslow深度是从表皮颗粒层的顶部(或者,如果表面有溃疡,从溃疡的基部)到肿瘤宽基部(真皮/皮下)最深的浸润细胞测量。溃疡是指死亡组织的脱落,被认为反映肿瘤快速生长,导致黑色素瘤中心细胞死亡。有丝分裂率可通过检查切除的肿瘤和计数显示有丝分裂的细胞数来测量。有丝分裂计数越高,肿瘤转移的可能性就越大。在具体实施方式中,使用组合模型,包括含GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1的基因特征以及年龄和Breslow深度的临床变量。在一些实施方式中,基因特征还包括AIDPOQ。

本发明还提供用于确定本文所公开的基因表达特征的试剂盒。在一些实施方式中,试剂盒包含用于对本文公开的基因特征执行qPCR的引物对。在一些实施方式中,试剂盒包含用于对以下基因中的两个或更多个、优选三个或更多个执行qPCR的引物对:ITGB3、PLAT、SPP1、GDF15和IL8;和/或用于对以下基因中的一个或多个执行qPCR的引物对:KRT14、SPP1、FN1、LOXL3。在一些实施例中,试剂盒包含用于管家基因的引物对,例如ACTB、RPLP0和RPL8。在一些实施方式中,试剂盒还包括下述一种或多种:DNA聚合酶、脱氧核苷三磷酸酯、缓冲液和Mg

本文公开的基因表达分析的结果可用于确定诊断检查时间表。例如,被分类为SLN转移阳性或预后不良的个体可以进行SLNB。在一些实施方式中,对预测为SLN阳性或更确切地说预测为预后不良的个体施用免疫治疗。随后的SLNB读数可以作为对免疫治疗反应的测量值。

根据基因表达特征,可以确定合适的治疗方案。如本文所用,术语“治疗”是指逆转、减轻、延迟黑色素瘤或其一种或多种症状的发生或抑制其进展。在一些实施方式中,分类为具有转移性阳性SLN或更确切地说预后不良的个体可使用SLNB治疗。SLN的位置可基于黑色素瘤的位置和/或使用诸如“SLN定位(SLN mapping)”之类的方法来确定,如本领域技术人员所知和本文所述。

转移阳性的N-SLN可通过外科手术治疗,例如手术淋巴结剥离。转移性SLN可通过完全淋巴结剥离和/或其他治疗黑色素瘤的方法进行治疗。在一些实施例中,对个体施用癌症治疗。在一些实施例中,对个体施用“辅助治疗”。本文所用的辅助治疗是指在一个或多个癌性肿瘤手术切除后,向患者递送一种或多种药物,其中在该肿瘤中,所有可检测和可切除疾病(例如癌症)已从患者身上移除,但仍有复发的统计风险。辅助治疗有助于降低复发或疾病的可能性或严重程度。

可基于基因表达特征来指示的已知黑色素瘤疗法,包括:

-化疗;例如达卡巴嗪(DTIC)、替莫唑胺(替莫达)、卡铂(帕拉汀、帕拉汀AQ)、紫杉醇(Taxol)、顺铂(铂醇AQ)、和长春花碱(Velbe);

-靶向治疗药:例如BRAF抑制剂(维罗非尼(Zelboraf)和达拉菲尼(Tafinlar))和MEK抑制剂(可比美替尼(Cotellic)和曲美替尼(Mekinist));

-放疗;

-免疫疗法;例如细胞因子(例如,干扰素α-2b或白细胞介素-2)免疫检查点抑制剂(例如,伊匹利单抗(Yervoy)、纳武单抗(Opdivo)、派姆单抗(Keytruda))或溶瘤免疫疗法。

可通过任何适当的途径给予适当的药物治疗。合适的途径包括口服、直肠、鼻腔、局部(包括颊部和舌下)、阴道和肠外(包括皮下、肌肉内、肠内、皮内、鞘内和硬膜外)。

如本文中所使用的,“包括”及其变形在其非限制性意义上用来表示包括该词之后的项目,但是不排除未特别提及的项目。此外,“由……组成”可以由“由……基本上组成”代替,意指本文定义的化合物或辅助化合物可以包含除具体测定的化合物之外的其他组分,所述其他组分不会改变本发明的独特特征。

本文使用冠词“一个”和“一种”表示一个或一个以上的(即至少一个)该冠词语法上的宾语。举例而言,“一种元件”表示一个元件或者一个以上的元件。

词语“约”或“近似”当与数值(约10,近似10)联用时优选表示该值可以是给定值或比该值多或少1%。

在以下实施例中进一步解释本发明。这些实施例不限制本发明的范围,而仅用于阐明本发明。

实施例

实施例1:预测SLN转移状态的基因特征

我们收集了813名在三级医疗中心接受SLN活检的黑色素瘤患者队列。感兴趣的转归是SLN和SLN活检上组织学确定的转移。通过聚合酶链反应在原发性黑色素瘤诊断活检组织中表达29种促转移基质反应基因。在双循环交叉验证(DLCV)训练验证方案中,对临床病理变量和分子数据应用正则化逻辑回归。

临床数据组

在上述临床变量中,只有6个显示SLNB阳性和SLNB阴性之间存在显著差异:

·年龄,

·Breslow深度

·溃疡

·有丝分裂率

·Clark分级

·血管-淋巴侵袭

在这6个变量中,我们决定只考虑年龄、Breslow深度、溃疡和有丝分裂率,而不考虑Clark水平和血管-淋巴侵入,因为后者并不总是可用的,而且它们的质量可能因执行SLNB的医疗人员而异。

我们通过ΔCt而不是像Meves等(2015年)那样通过拷贝数来量化基因表达,因为使用拷贝数与我们的特征在性能上没有显著差异,但只是增加了实验负担。与Meves等(2015)相比,KRT14背景校正也有所下降。所谓的ITLP标准化也被放弃了,因为它是基于对被测表达的特殊过度控制,并且它确实需要许多任意参数(主要是以阈值的形式)。

在具有阳性前哨淋巴结,转移负荷的活检阳性患者中,按转移疾病量测量,可显著不同:

细胞簇直径小于0.1mm的样品是否应被视为转移性阳性,从临床角度来看仍然存在争议。因此,我们决定将813例转移疾病的量为1或2的患者中的43例排除在分类器的训练集外,并分别评估分类器对该组的性能。测量下述29个基因:

KRT14,MLANA,MITF,ITGB3,PLAT,LAMB1,TP53,AGRN,THBS2,PTK2,SPP1,COL4A1,CDKN1A,CDKN2A,PLOD3,GDF15,FN1,TNC,THBS1,CTGF,LOXL1,LOXL3,ITGA5,ITGA3,ITGA2,CSRC,CXCL1,IL8,LAMB。

性能测量

为了评价分类器的性能,构造了列联表。从这些列联表中得出了两个标准,即PPA(阳性百分比一致性)和NPA(阴性百分比一致性):其定义为:

PPA=100TP/(TP+FN)和NPA=100TN/(TN+FP)

其中TP表示真阳性数,FN表示假阴性数,TN表示真阴性数,FP表示假阳性数。PPA和NPA标准的公式分别相当于灵敏度和特异性。但是,由于是相对于非黄金标准参考(FISH数据)进行比较,因此使用术语PPA和NPA。

为了优化分类器的训练,需要一个性能标准,该标准应最大化(或在错误标准的情况下最小化)。为此,将使用PPA和NPA的平均值:

其中p表示性能。p=50表示随机性能,p=100表示完美分类。

其它性能测量:

·阴性预测值。

·阳性预测值

·准确性

·经平衡的准确性

·阴性转归的对数相似性比

·阳性转归的对数相似性比

·ROC曲线下面积。

分类器

所有分类器都接受了29个基因表达水平、临床病理变量以及两者的训练。

分类器:罚分最大似然逻辑回归

我们使用了在R语言glmnet中实现的逻辑回归分类器。利用L1范数罚分项(LASSO正则化)对参数进行最大似然估计,以得到一个简练表示。

分类器的双环交叉验证

Wessels等【Wessels等.生物信息学,第21卷,第19期,2005年,第3755-3762页】描述了一个通过双环交叉验证(DLCV)从高通量数据构建诊断分类器的普适框架。DLCV练习使开发人员能够估计/预测分类器的性能(根据广义误差),以便将来适用于独立于训练数据集的数据。调整该方法以前向过滤为特征选择器,结合以t统计量作为标准评价单个基因和不同分类器。训练和验证程序采用外部(验证)环中的100次重复3倍交叉验证和内环中的10倍交叉验证进行。在内环中,算法学习最优参数lambda进行LASSO正则化。在所有的点上,数据分割都是按类别先验概率分类的。

双环交叉验证方法可以通过以下几个步骤进行描述:

1.对于每个重复,数据被分成3部分(每个重复的不同部分)。

2.对每一个折叠,内环(训练集)使用2个部分;第三部分用于外环以验证(验证集)。

3.在训练集数据上,进行10倍交叉验证以估计用于LASSO罚分惩罚项的最优λ(构建学习曲线)。

4.然后,利用最优λ在完整的训练集上训练分类器。

5.最后,在验证集上评估分类器的性能。

6.在所有重复完成后,使用具有平均最优λ的所有样品创建最终分类器。利用得到的平均数n训练分类器。然后,该分类器将应用于外部验证集。

通常,数据集相对于类别先验是不平衡的。因此,由于考虑了类别先验性,平衡的准确性比准确性有更好的分类性能。在每个迭代中,在内环中,我们使用Brier分数作为性能标准。

基于基因表达的分类器(GE)

基于基因表达的逻辑分类器模型参数如下:

表1描述了在整个770名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。如果系数为正,则值越高意味着风险越高。如果系数为负,则值越低意味着风险越低。具有较大(绝对)系数的变量具有较大的贡献。

表2描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

基于临床变量的分类器(CL)

基于临床变量的逻辑分类器模型参数如下:

表3参数“年龄”以年为单位输入,“Breslow深度”以毫米为单位。溃疡是一个布尔(Boolean)变量(是/否)。表格描述了在整个770名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。表4描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

基于基因表达和临床变量的分类器(GECL)

基于临床变量和基因表达的逻辑分类器模型参数如下:

表5描述了在整个770名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

表6描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

图1描述了在DLCV中训练的逻辑回归分类器的ROC曲线:1)基因表达,2)临床病理变量,3)基因表达与临床病理变量相结合。

表7描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达(“GE”,即ITGB3、PLAT、SPP1、GDF15和IL8基因特征;2)临床病理变量(“CL”,即年龄和Breslow深度);3)基因表达和临床病理变量组合(“GECL”)。考虑了三个不同的操作点:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97。

实施例2比较例

基于ITLP评分的分类器(ITGB3、LAB1、PLAT和TP53)

表8描述了ITLP评分在整个770名患者队列中的性能。

基于ITLP评分和临床变量的分类器

基于临床变量和基因表达的逻辑分类器模型参数如下:

表9描述了在整个770名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

表10描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

实施例3:比较分析

ITLP对ITGB3,PLAT,GDF15,SPP1和IL8基因特征。

图2描述了ITLP评分和ITGB3、PLAT、GDF15、SPP1和IL8基因特征的ROC曲线(图中称为逻辑回归)。ITGB3、PLAT、GDF15、SPP1和IL8基因特征明显优于ITLP特征。

实施例4:基因子集的性能

先前实施例使用5个基因:ITGB3、PLAT、GDF15、SPP1和IL8作为基因特征。我们调查了所有可能的2,3和4基因子集的性能。从下列特征的基因总数中选择特定尺寸的子集数如下:10个子集来自具有两个基因的特征,10个子集来自具有三个基因的特征,5个子集来自具有四个基因的特征,一个特征包含所有5个基因。我们评估了ROC曲线下面积的性能,并与ITLP特征进行了比较。ITLP的AUC(或其范围)为0.68,所有2(基因)子集为0.72-0.75,所有3基因子集为0.74-0.77,所有4基因子集为0.76-0.77,5基因特征为0.77。这也如图3所示。因此,包含以下基因中至少两个的所有基因特征:ITGB3、PLAT、GDF15、SPP1和IL8的性能优于ITLP特征。

实施例5:43例低量转移疾病样品的性能

低量转移疾病(量1和量2)的患者首先被排除在用于训练分类器的队列之外。细胞簇直径小于0.1mm的样品是否应被视为转移性阳性,从临床角度来看仍然存在争议。在本研究中,43名患者最初被排除在分析之外,因为他们为具有量1或量2。应用ITGB3、PLAT、GDF15、SPP1和IL8分类器对这些患者进行分类,29例为阳性,14例为阴性。

实施例6:错分类分析

假阴性。错误分类的阳性样品大多来自薄黑色素瘤(小于2毫米),没有溃疡,没有血管淋巴管浸润的患者。换句话说,这些患者出现转移的先验风险非常低。在算法的100次重复中,有少数样品被错误分类。

假阳性。错误分类的阴性样品大多来自具有厚黑色素瘤(大于2毫米),有溃疡,有血管淋巴管浸润的患者。换句话说,这些患者出现转移的先验风险高。在算法的100次重复中,有少数样品被错误分类。

分类器输出分布

预测可能性的分布是单峰的,不是高斯分布,有一个很长的右侧尾部。用于选择操作点的阈值落在分布平均值附近。估计可能性不超过0.6。

实施例7:SLN基因特征与预后的关系

为包含基因ITGB3、PLAT、SPP1、GDF15和IL8(在实施例中称为“GECL”)(表19-21(a))、SLNB状态(表19-21(a))和这两者的组合(表22-24(a))的SLN分类器生成三种生存类型的Kaplan-Meier生存估计。如文献所知,SLNB阳性状态与生存率低下有关。值得注意的是,GECL模型在生存估计中提供了一个更强大的分离,这也从更大的危险比中得到了证明(表25(a))。此外,在多变量分析中,GECL分类器也具有更大的危险比和更显著的p值(见表26(a))。特别值得注意的是,GECL阴性组的黑色素瘤特异性存活率非常高,160个月时的存活率估计为0.966(表19(a))。

同样,为包括基因GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADA12、LGALS1和TGFBR1(在实施例中称为“GECL”)(表19-21)、SLNB状态(表19-21)以及这两者的组合(表22-24)的SLN分类器生成了三种生存类型的Kaplan Meier生存估计。表19-26(b)描述了NPV设置为0.97的训练结果,而表19-26(c)描述了NPV设置为0.98的训练结果。有关此分类器的进一步讨论,请参见实施例8。

将GECL分类器输出的结果与SLNB状态结合起来,提供了四个组:真阳性(TP)、假阳性(FP)、假阴性(FN)和真阴性(TN)。如前所述,FN病例很少,FP病例占相当大的比例。值得注意的是,假阳性组(GECL阳性,SLNB状态阴性)的存活率估计值与真阴性组非常相似。这表明GECL分类器输出作为黑色素瘤患者预后的一种手段优于SLNB状态。

Kaplan-Meier方法用于在多个时间间隔估计生存概率。对数秩检验是一种非参数检验,用于比较两组或更多组之间的生存曲线。

危险比(HR)被定义为在给定的时间间隔内发生的(一组中转归风险)/(另一组中转归风险)的比率。危险比为1表示缺乏关联,大于1的危险比表明风险增加,低于1的危险比表明风险较小。危险比用于表示两组之间的相对差异。

实施例8:SLN分类器的改进

在整个855个队列中测量了四组基因,共109个独特的基因。然而,由于在分析时无法取得样品或没有足够的RNA,因此无法测量某些样品的基因表达。因此,这项发现是在754名患者而不是770名患者的队列中进行的。发现的队列不包括具有低量转移性疾病的患者。

对于每个分类器,我们报告:

·经训练的最终分类器在整个队列中的性能

·交叉验证的平均性能(100次重复的双环交叉验证,外环折叠3次,内环折叠10次)。三次折叠中的性能被连接起来以覆盖整个队列。

对于每个分类器,在4个不同的操作点计算性能:

·MaxbACC:最大平衡准确性

·SEeqSP:灵敏度等于特异性

·NPV97:训练中阴性预测值为97%

·NPV98:训练中阴性预测值为98%

临床病理学模型(CL)

基于临床病理学变量的逻辑分类器模型参数如下:

特征 参数

(截距) -2.0547083

年龄 -0.0112913

基于临床病理学变量的逻辑分类器模型参数如下:

特征 参数

breslow_深度 0.6116335

血管淋巴管浸润-是 0.1205238

表27描述了在整个754名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)NPV98,训练中NPV设置为0.98。如果系数为正,则值越高意味着风险越高。如果系数为负,则值越低意味着风险越低。具有较大(绝对)系数的变量具有较大的贡献。

表28描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)NPV98,训练中NPV设置为0.98。

基因表达模型(GE)

表29描述了在整个754名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)NPV98,训练中NPV设置为0.98。如果系数为正,则值越高意味着风险越高。如果系数为负,则值越低意味着风险越低。具有较大(绝对)系数的变量具有较大的贡献。

表30描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)NPV98,训练中NPV设置为0.98。

临床病理与基因表达联合模型(GECL)

表31描述了在整个754名患者队列上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)NPV98,训练中NPV设置为0.98。如果系数为正,则值越高意味着风险越高。如果系数为负,则值越低意味着风险越低。具有较大(绝对)系数的变量具有较大的贡献。

表32描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)NPV98,训练中NPV设置为0.98。

图6描述了在DLCV中训练的逻辑回归分类器的ROC曲线:1)基因表达,2)临床病理变量,3)基因表达和临床病理变量结合,以及图7描述了DLCV训练的逻辑回归分类器的阴性预测值(NPV)与前哨淋巴结减少率(SLNB RR)的对比:1)基因表达,2)临床病理变量,3)基因表达与临床病理变量相结合。

不同操作点(OP)的比较:CL对比CE对比GECL

表33描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1基因特征;2)临床病理变量(“CL”,即年龄、Breslow深度和是否存在血管淋巴管浸润);3)基因表达和临床病理变量组合(“GECL”:即年龄、Breslow深度,GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1)。对于操作点的最大平衡精度(最大bACC)。

表34描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1基因特征;2)临床病理变量(“CL”,即年龄、Breslow深度和是否存在血管淋巴管浸润);3)基因表达和临床病理变量组合(“GECL”:即年龄、Breslow深度,GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1)。对于灵敏度等于特异性的操作点(SEeqSP)。

表35描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1基因特征;2)临床病理变量(“CL”,即年龄、Breslow深度和是否存在血管淋巴管浸润);3)基因表达和临床病理变量组合(“GECL”:即年龄、Breslow深度,GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1)。对于训练中NPV设置为0.97的操作点(NPV97)。

表36描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1基因特征;2)临床病理变量(“CL”,即年龄、Breslow深度和是否存在血管淋巴管浸润);3)基因表达和临床病理变量组合(“GECL”:即年龄、Breslow深度,GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1)。对于训练中NPV设置为0.98的操作点(NPV98)。

按T分期分隔的性能

表37描述了在DLCV中训练的分类器在临床病理变量(“CL”即年龄、Breslow深度和是否存在血管淋巴管浸润)方面按T分期(T stage)分隔的平均性能。对于训练中NPV设置为0.97的操作点(NPV97)。

表38描述了在DLCV中训练的分类器在基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1))方面按T分期分隔的平均性能。对于训练中NPV设置为0.97的操作点(NPV97)。

表39描述了在DLCV中训练的分类器在基因表达和临床病理变量组合(“GECL”,即年龄、Breslow深度,GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,SERPINE2和TGFBR1)方面按T分期分隔的平均性能。对于训练中NPV设置为0.97的操作点(NPV97)。

表40描述了在DLCV中训练的分类器在临床病理变量(“CL”即年龄、Breslow深度和是否存在血管淋巴管浸润)方面按T分期分隔的平均性能。对于训练中NPV设置为0.98的操作点(NPV98)。

表41描述了在DLCV中训练的分类器在基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1)方面按T分期分隔的平均性能。对于训练中NPV设置为0.98的操作点(NPV98)。

表42描述了在DLCV中训练的分类器在基因表达和临床病理变量组合(“GECL”,即年龄、Breslow深度,GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,SERPINE2和TGFBR1)方面按T分期分隔的平均性能。对于训练中NPV设置为0.98的操作点(NPV98)。

按临床分期分隔的性能

表43描述了在DLCV中训练的分类器在临床病理变量(“CL”即年龄、Breslow深度和是否存在血管淋巴管浸润)方面按临床分期分隔的平均性能。对于训练中NPV设置为0.97的操作点(NPV97)。

表44描述了在DLCV中训练的分类器在基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1)方面按临床分期分隔的平均性能。对于训练中NPV设置为0.97的操作点(NPV97)。

表45描述了在DLCV中训练的分类器在基因表达和临床病理变量组合(“GECL”,即年龄、Breslow深度,GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,SERPINE2和TGFBR1)方面按临床分期分隔的平均性能。对于训练中NPV设置为0.97的操作点(NPV97)。

表46描述了在DLCV中训练的分类器在临床病理变量(“CL”即年龄、Breslow深度和是否存在血管淋巴管浸润)方面按临床分期分隔的平均性能。对于训练中NPV设置为0.98的操作点(NPV98)。

表47描述了在DLCV中训练的分类器在基因表达(“GE”,即GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、PRKCB、SERPINE2、ADAM12、LGALS1和TGFBR1)方面按临床分期分隔的平均性能。对于训练中NPV设置为0.98的操作点(NPV98)。

表48描述了在DLCV中训练的分类器在基因表达和临床病理变量组合(“GECL”,即年龄、Breslow深度,GDF15,MLANA,PLAT,IL8,ITGB3,LOXL4,ADIPOQ,SERPINE2和TGFBR1)方面按临床分期分隔的平均性能。对于训练中NPV设置为0.98的操作点(NPV98)。

基因子集

图8描述了逻辑回归分类器的ROC曲线下面积(AUC)的箱线图,这些分类器具有从GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、ADIPOQ、SERPINE2和TGFBR1中选择的2、3、4、5、6、7、8基因子集,并在整个队列中进行训练。

表49描述了从每个特征中的基因总数中选择特定尺寸的子集的数量,以及ROC曲线下最小和最大面积的性能。

实施例9:非前哨淋巴结(N-SLN)分布。

前哨淋巴结(SLN)阳性的临床淋巴结阴性黑色素瘤患者的标准治疗是完全淋巴结剥离(CLND)并切除非前哨淋巴结(N-SLN)。SLN活检后立即行CLND可改善局部疾病控制,且随机临床试验表明,与淋巴结复发时手术相比,早期手术治疗低量SLN阳性疾病可减少长期后遗症(如淋巴水肿)。此外,SLN和N-SLN转移是用于选择患者进行辅助治疗的不良预后因素。然而,对于参与MSLT-II的患者,CLND不能提高生存率,其并发症发生率高于单纯SLN手术。需要新的方法来确定可能受益于CLND的患者,即那些有N-SLN区域转移风险的患者,以改进CLND患者的选择。在此,我们根据基因表达(KRT14、SPP1、FN1和LOXL3)、临床病理变量(年龄、阳性SLN数量、SLN最大尺寸、最大Breslow深度和最大有丝分裂率)以及两者设计了三个分类器,以预测N-SLN的状态,即是否存在转移。这些分类器可用于选择哪些患者应接受CLND手术。

所使用的方法与实施例1所示基本相同。评估了相同的29个基因。基于基因表达的逻辑回归分类器模型的参数如下。

模型性能

整个队列中的患者数为140人。

表11描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

表12描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

基于临床变量的分类器(CL)

基于临床变量的逻辑分类器模型参数如下:

表13描述了在整个140名患者队列分类器上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

表14描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

基于基因表达和临床变量的分类器(GECL)

逻辑回归参数

基于基因表达的逻辑分类器模型的参数。

表15描述了在整个140名患者队列分类器上针对四个不同操作点进行训练的最终分类器的性能:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

表16描述了在DLCV中训练的分类器在四个不同操作点的性能,对100个重复取均值:1)最大bACC:最大平衡准确性,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97,4)LRNn025,训练中阴性试验结果的对数似然比设置为0.25。

图4描述了在DLCV中训练的逻辑回归分类器的平均ROC曲线:1)基因表达,2)临床病理变量,3)基因表达与临床病理变量相结合。x轴代表假阳性发现率(即1-特异性),y轴代表真发现率(即灵敏度)。

图5:ROC曲线下各基因亚群和全套4个基因的区域的箱线图。

表17描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达,2)临床病理变量,3)基因表达与临床病理变量相结合。考虑了三个不同的操作点:1)最大bACC:最大平衡准确度,2)SEeqSP,灵敏度等于特异性,3)NPV97,训练中NPV设置为0.97。

N-SLN分析器基因特征包括4个基因:KRT14、SPP1、FN1和LOXL3。

我们也研究了所有可能的2、3和4基因子集。

从每个特征中的基因总数中可以选择的特定尺寸的子集的数目。

我们根据ROC曲线下的面积评估了性能(见表格和附图)

全部4个基因的不同基因子集的曲线下面积(AUC)范围。

图5描绘了不同基因子集和全套4个基因的ROC曲线下面积的箱线图。

我们描述了N-SLN分析器的发现、设计和开发。我们已经证明,N-SLN分析器可用于选择哪些患者应接受CLND手术。

基于基因表达的分类器的性能是令人感兴趣的,因为目前(i)没有可用于选择将受益于CLND操作的患者的方法,并且(ii)分类器使用的临床病理变量在临床上可能并不总是可用的。

实施例10

基于Breslow深度的预选择(BD<=2和BD>2)

Breslow深度(BD)是表征原发性皮肤黑色素瘤的重要临床病理变量,薄黑色素瘤(BD<=2mm)与厚黑色素瘤(BD>2mm)具有不同的分子和生理特征。因此,对于薄黑色素瘤和厚黑色素瘤,选择两个不同的操作点是有意义的。对于Breslow深度≤2mm的薄黑色素瘤(561个样品队列),我们继续使用前一节(7.8)中所述的分类器,选择操作点,使NPV在训练中为0.97:

表18a描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达,2)临床病理变量,3)基因表达与临床病理变量相结合。选择的操作点是NPV97,即训练中NPV设置为0.97。

对于BD>2mm的厚黑色素瘤(209个样品的队列),我们使用相同的分类器,但使用不同的操作点,即选择一个点来最大化平衡准确性:

表18b描述了在DLCV中训练的分类器在以下方面的平均性能:1)基因表达,2)临床病理变量,3)基因表达与临床病理变量相结合。选择选定的操作点,使其最大化平衡准确性。

Breslow深度>2的性能虽然低于Breslow深度<=2mm的性能,但仍然可以接受,因为分类器在亚群中实现了90%的NPV,SLNB阳性的先验概率为35%:在接受测试并且具有阴性转归时,SLN阳性的概率从35%下降到10%。

用于确定对象被分类为淋巴结阳性还是淋巴结阴性的方法

分类方法以虚构数据(见表)为例,为简单起见使用2个基因,预测样品将被分类器标记为淋巴结阳性还是淋巴结阴性(SLN分析器和N-SLN分析器的方法/模型相同,只是基因和临床变量的参数和种类不同)。该表描述了双

类标签。对数奇数比和概率按式1计算,概率按式2计算。通过比较估计概率和截止值θ来分配输出标签:如果估计概率大于或等于θ,则将样品分类为淋巴结阳性;如果估计概率小于θ,则将样品分类为淋巴结阴性。

表.基因x、y的模型参数β

实施例11

与实施例8中执行的分析相当,发现了本发明的优选实施例,其采用8个基因和2个临床病理变量(年龄和Breslow深度),包括以下一组基因:GDF15、MLANA、PLAT、IL8、ITGB3、LOXL4、SERPINE2和TGFBR1,逻辑回归模型的参数如下所示:

对不同的操作点进行了评估,发现多个操作点提供了临床相关的分类器,具有高NPV,并大大减少了SLNB程序的数量(SLNB.RR=SLNB降低率)。NPV975操作点为0.116是特别优选的,见下表。

具有8个基因和2个临床病理变量的GECL模型性能表

将该GECL模型与8基因和2个临床病理变量与实施例1和8的性能进行比较,表明该模型优于(NPV和SLNB.RR)仅表达(GE)或仅临床病理(CL)模型,其性能与实施例1中的GECL模型非常相似。

进行Kaplan-Meier分析以评估与RFS、DRFS和MSS相关的与SLNB相交的GECL模型。5年/60个月生存率见下表。GECL和SLNB各自在阳性pos/阴性neg组之间都具有较大的分离。更重要的是,那些被GECL确定为阳性的SLNB阴性(并因此而漏掉)的患者的生存率非常低。这证明了GECL模型作为预后标志物的临床相关性。

表格:

表1

表2

表3

表4

表5

表6

表7

表8

表9

表10

表11

表12

表13

表14

表15

表16

表17

表18a

Breslow深度≤2mm

表18b

Breslow深度>2mm

表19a:基于GECL分类器状态或SLNB状态的组在不同时间点的存活估计。生存曲线采用Cox比例风险模型进行比较,见表25。

表19b:

表19c:

表20a:基于GECL分类器状态或SLNB状态的组在不同时间点的存活估计。生存曲线采用Cox比例风险模型进行比较,见表25。

表20b

表20c:

表21a:基于GECL分类器状态或SLNB状态的组在不同时间点的存活估计。生存曲线采用Cox比例风险模型进行比较,见表25。

表21b:

表21c:

表22a:基于SLNB和GECL分类器状态的组在不同时间点的存活估计。

用对数秩检验比较生存曲线,p<0.0001。

表22b:

表22c:

表23a:基于SLNB和GECL分类器状态的组在不同时间点的存活估计。

用对数秩检验比较生存曲线,p<0.0001。

表23b:

表23c:

表24a:基于SLNB和GECL分类器状态的组在不同时间点的存活估计。

用对数秩检验比较生存曲线,p<0.0001。

表24b:

表24c:

表25a:GECL分类器输出和SLNB活检结果的2条曲线的危险比和p值。

表25b:

表25c:

表26a:GECL分类器输出和SLNB活检结果的2条曲线的多变量危险比和p值。

表28

表29

表30

表31

表32

表33

最大bACC

表34

SEeqSP

表35

NPV 97

表36NPV 98

表37CL

表38GE

表39GECL

表40CL

表41GE

表42

GECL

表43

CL

表44

GE

表45

GECL

表46

CL

表47

GE

表48

CLGE

表49

最小和最大AUC

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号