首页> 中国专利> 用于预测局部晚期胃癌预后的系统

用于预测局部晚期胃癌预后的系统

摘要

本发明涉及可预测局部晚期胃癌的预后的新型预后预测系统,更具体地,本发明可以通过对基因集的表达进行比较分析来预测经过胃癌切除术后的临床结果。

著录项

  • 公开/公告号CN105431737A

    专利类型发明专利

  • 公开/公告日2016-03-23

    原文格式PDF

  • 申请/专利权人 延世大学校产学协力团;

    申请/专利号CN201480024658.4

  • 申请日2014-04-07

  • 分类号G01N33/574(20060101);C12Q1/68(20060101);G01N33/53(20060101);

  • 代理机构44224 广州华进联合专利商标代理有限公司;

  • 代理人黎艳;万志香

  • 地址 韩国首尔

  • 入库时间 2023-12-18 14:50:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-28

    专利权人的姓名或者名称、地址的变更 IPC(主分类):C12Q1/68 变更前: 变更后: 申请日:20140407

    专利权人的姓名或者名称、地址的变更

  • 2017-11-24

    授权

    授权

  • 2017-07-18

    专利申请权的转移 IPC(主分类):C12Q1/68 登记生效日:20170629 变更前: 变更后: 申请日:20140407

    专利申请权、专利权的转移

  • 2016-04-20

    实质审查的生效 IPC(主分类):G01N33/574 申请日:20140407

    实质审查的生效

  • 2016-03-23

    公开

    公开

说明书

技术领域

本发明涉及通过基因表达的对比分析法可预测局部晚期胃癌的预后的新型预测预后系 统。

背景技术

在2000年造成700,349名死亡的原因中,胃腺癌(Gastricadeno-carcinoma)是第二 大死因,是世界上最常诊断出来的第四大癌症。胃腺癌被视为具有几种流行病学和组织病理 学特征的单一的异质性疾病。胃癌的治疗主要依据临床参数如TNM(肿瘤、淋巴结、转移) 分期,TNM分期用于决定能否仅通过手术或通过手术和化疗法来进行治疗。与乳腺癌和大肠 癌不同,胃癌会根据TNM分期系统的I期至IV期具有明显差异。亦即,I期的五年生存率为 90%或以上,而IV期的五年生存率小于20%,可见差异巨大。由此可知,TNM分期系统具有优 异的预后预测能力(参考文献、7theditionoftheAJCCcancerstagingManual:stomach. AnnSurgOncol2010;17:3077-3079)。基于TNM分期系统,胃癌通常被分为早期胃癌(Early GastricCancer)、局部晚期胃癌(LocallyAdvancedGastricCancer)、局部晚期浸润性胃 癌(LocallyAdvancedInvasiveGastricCancer)和转移性胃癌(MetastaticGastricCancer) 等。

尽管手术是可实施的胃癌的主要治疗方法,然而晚期胃癌的复发率比较高。为了预防复 发并提高胃癌患者的预后,导入了包括化疗和化放疗的综合治疗方法。然而,这种治疗方法 虽能改善患者的常规临床结果,然而肿瘤的临床病理学的异质性和处于相同分期内患者的不 同结果对预测辅助性化疗的任务上能力有限,从而不能足以最佳地接近个别患者。

肿瘤浸润和淋巴结转移的深度是胃癌中的两个主要预后因素。50%或以上的胃癌患者在诊 断时伴有淋巴结转移,且出现了五年生存率小于30%的不良预后。因此,从胃癌患者中准确 分类淋巴结转移是继胃癌根治术之后进行的治疗决定上起重要作用。然而,仅根据淋巴结的 状态无法说明预后结果的异质性和化疗法药剂的任务。甚至于包括相同淋巴结分期的相同分 期的患者都没有展示相同的预后结果。因此,原因在于内在临床异质性的肿瘤之间存在的鲜 明的生物学差异是在研发治疗胃癌的新策略中的首要阶段。

由于胃癌是在流行病学和组织病理学上存在差异的异质性疾病,想要理解那些影响胃癌 患者的预后结果的生物学特征是比较困难的。胃癌的预后结果中虽有包括扩散型和肠型胃癌 等胃癌亚类在内的很多不同的预后因素,然而主要还是受分期的影响。然而,虽处于相同分 期,但具有异质性的预后结果,且无法完整地说明大部分的异质性。在相同分期内,对预后 结果的差异中存在原因的遗传性特征的鉴定在选择患者的治疗方案中起极为重要的作用。然 而,已研发的大部分遗传性特征不太可能得以再现,且在选择治疗方案时可使用的信息也不 足,从而无法应用在临床上。阻碍遗传性特征的预后导入的其他重要因素在于,这些预后中 的任一种预后在定义胃癌患者的预后结果时都不能控制分期。因此,有必要向处于相同分期 内的患者导入预后预测因素。

发明内容

技术问题

本发明的目的在于提供一种新型的预后预测系统,该系统可以基于基因表达的风险分数 (RskScore,RS),并查明对局部晚期胃癌,尤其在N0期(N0区域淋巴结转移)对胃癌患 者的临床结果产生影响的重要生物学特征。

技术方案

为了实现所述目的,本发明提供用于预测被诊断为胃癌的患者的预后的方法、该方法包 括如下步骤:在包括从受试者采集的癌细胞的生物学样本中测定GART、PTN、PCNA、GLI3、 SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、 CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、 VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、 GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本(transcript) 的表达水平;及基于所述步骤中所确定的RNA转录本的表达水平,计算所述生物学样本的风 险分数(RS)和RS百分比(RS(%)),然后根据所述RS(%)判断预后。

本发明提供用于预测被诊断为胃癌的患者的预后的方法、该方法包括如下步骤:在包括 从受试者采集的癌细胞的生物学样本中测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、 ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、 TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、 HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、 CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及将所述转录本表达的 增加判断为积极临床结果的可能性的增加。

所述预后的预测方法可以为,对TNM分期中T1NO期、T2N0期、T3N0期或T4N0期的局部 晚期胃癌经过切除术后的临床结果进行预测。

此外,本发明提供一种计算机可读的记录媒体,该记录媒体中记录有用计算机运行如下 步骤的程序:从患者采集的核酸样本中确定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、 ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、 TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、 HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、 CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及基于上述步骤中所确 定的RNA的表达水平,计算风险分数(RS)和RS百分比(RS(%)),并从总生存(Overall Survival,OS)的角度上,当所述RS(%)的设定值范围为50%或以上时将患者分类为高风险组 患者,当所述RS(%)的设定值范围为25%或以上且小于50%时将患者分类为中度风险组患者, 且当所述RS(%)的设定值范围小于25%时将患者分类为低风险组患者。

所述记录媒体可以预测对TNM分期中的T1NO期、T2N0期、T3N0期或T4N0期的局部晚期 胃癌进行切除术后的临床结果。

通过以下公式1和2,可以计算所述RS和RS(%):

【公式1】

RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn* normLogTransValuen

【公式2】

RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS 最小值)。

其中,HRn表示第n次RNA转录本的风险比(hazardratio),当所述HRn小于1时,转 换成-1/HRn来使用。

normLogTransValuen指与RNA转录本的表达相关的值,该值为相对于对应基因的总值以 其中位数为中心进行大小变化的值。

所述总群组指,一定数量的具有TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0期 或T4N0期局部晚期胃癌的群组,其中一定数量是指能够计算RS最大值和最小值的任一整数。

有益效果

本发明可以从TNM分期中N0期胃癌患者组的总生存率的角度上制作预测模型,然后确定 具有统计显著性且影响生存的RNA转录本的表达水平,从而建立风险评分系统来计算预后指 标值,进而可以预测胃癌切除术后的临床结果。

此外,本发明可以通过使用根据基因的生物学功能的基因集合系统来分析根据胃癌固有 的生物学功能的基因组的分析。

附图说明

图1a-d展示了经过分散过滤后通过使用探针的无监督分层聚类分析(unsupervised hierarchicalclusteringanalysis)来实现的两个主要的群集的预后结果。a)为经过分散 过滤后在无监督分层聚类分析中使用的探针的数量和聚类分析中产生的两个主要分类在log rank检验分析中的预后p值。各群集会基于过滤标准来命名。M过后,第一个数字表示相对 于各探针的平均值的倍数(fold)差异,第二个数字表示与第一个数字的倍数差异相比时显 示高或低表达的探针的数量。例如,M2_3为选取具有至少3个样本的探针并经过分散过滤后 利用该探针形成的群集,其中所述样本展示了平均值的2倍或以上的高或低的表达。b)为经 过分散过滤后的2个主要群集的患者样本的分布。在logrank检验中,对良好预后组和不良 预后组进行注释后,对两个主要分类的样本进行的聚类分析。c)展示了M2_5群集患者的 KaplanMeierPlot。P值是进行logrank检验后获得。d)展示了M3_3群集患者的KaplanMeier Plot。P值是进行logrank检验后获得。

图2展示了经过分散过滤后根据无监督分层聚类分析形成的两个主要代表群集。对M2_5 进行的聚类分析为,对具有那些显示出比平均值增加或减少2倍或以上的至少5个样本的探 针进行过滤后制成经过滤的1556个探针。对M3_3进行的聚类分析为,对具有那些显示出比 平均值增加或减少3倍或以上的至少3个样本的探针进行过滤后制成经过滤的706个探针。

图3展示了经过无监督聚类分析后对2个主要分类进行比较时显示出显著差异的基因及 生物学特征,A)展示了通过使用根据M2_5的聚类分析形成的2个主要分类的比较中显示统 计显著性(p<0.001和2倍差异,554个探针)的探针的附条件聚类的热图(heatmap)。B) 展示了通过使用根据M3_3的聚类分析形成的2种主要分类的比较中显示统计显著性(p<0.001 和2倍差异,453个探针)的探针的附条件聚类的热图。

图4a-b展示了在Biocarta通路数据库中M2_5的两个主要分类组的GSEA分析结果(A) 和M3_3的两个主要分类组的GSEA分析结果(B)。

图5a-f展示了在GSEA结果(p<0.001)中显著增加的基因的表达,热图展示了M2_5的 各分类组的平均表达水平。

图6a-f展示了在GSEA结果(p<0.001)中显著增加的基因的表达,热图展示了M3_3的 各分类组的平均表达水平。

图7a-i展示了根据M3_3的分类组的NO胃癌患者的预后预测。根据M3_3聚类所定义的 2个分类的比较中探针具有显著差异(p<0.001)。为了进行该分析,使用3个不同的预测算 法(CCP、LDA和NC)。为了估计各模型的预测误差,使用留一法交叉验证(leave-one-outcross validation)。预后差异是通过logrank检验来进行估计。图7a-i中记载的A-C)展示了 训练数据(YUSH数据)的预测结果的KaplanMeierPlot。D-F)展示了验证数据(MDACC数 据)的预测结果的KaplanMeierPlot。G-I)展示了总样本数据(YUSH数据和MDACC数据) 的预测结果的KaplanMeierPlot。

图8a-i展示了根据M2_5的分类组的NO胃癌患者的预后预测。根据M2_5聚类所定义的 2个分类的比较中探针具有显著差异(p<0.001)。为了进行该分析,使用3个不同的预测算 法(CCP、LDA和NC)。为估算各模型的预测误差,使用留一法交叉验证。预后误差是通过 logrank检验来进行估计的。图8a-i中记载的A-C)展示了训练数据(YUSH数据)的预测 结果的KaplanMeierPlot。D-F)展示了验证数据(MDACC数据)的预测结果的KaplanMeier Plot。G-I)展示了总样本数据(YUSH数据和MDACC数据)的预测结果的KaplanMeierPlot。

图9a-b展示了NO胃癌患者的预后结果中根据CGAP已定的功能基因分类的影响,图9a-b 中记载的A)为YUSH、MDACC和总数据集中根据CGAP得到功能分类的基因的预后结果。无监 督分层聚类分析是通过利用CGAP的功能基因分类中的基因来进行的。主要群集的预后差异是 通过logrank检验进行比较。将logrank检验的p值转换为p值的对数,并用柱形图表表 示。B)为显示各功能基因分类中的主要群集的差异的生物学特征。进行GSEA分析,将GSEA 的统计显著性用p值的对数来表示。

图10a-c展示了风险评分系统的百分比的生成。图10a-c中记载的A)展示了根据预测 模型和CGAP的功能基因分类所定义的死亡率的热图。对总样本用根据分类组或群集定义的各 分类组的死亡率进行注释,为了检查在预后结果中患者分布和功能生物学的各分类的影响, 进行无监督聚类分析。B)为总样本数据集中的各患者的风险分数的百分比。C)为YUSH样本 数据集中的各患者的风险分数的百分比。D)为MDACC样本数据集中的各患者的风险分数的百 分比。E-G)展示了3个不同的数据集(YUSH、MDACC和总样本数据集)中以%风险分数定义 的3个不同的风险组(高、中度和低风险组)的KaplanMeierPlot。将3个不同的风险组 之间的预后差异的显著性通过logrank检验来定义。

具体实施方式

下面,将详细地说明本发明的结构。

为了在无淋巴结转移的相对早的分期内定义胃癌患者的预后差异中存在原因的主要生物 学特征,本发明的发明人是从无淋巴结转移的患者中制作全基因组的基因表达谱。为此,在 改变过滤标准的同时进行连续分散过滤,然后使用无监督分层聚类分析(unsupervised hierarchicalclusteringanalysis)方法。根据聚类分析所定义的2个主要分类组进行log rank检验,来对预后结果进行推测。由于可通过使用能够显示每名癌患者的全部生物学特征 的基因进行自动分析,那些显示互不相同的预后组的生物学特征为预后差异中存在原因的主 要生物学特征,且可被用作研发治疗方案中的潜在靶。

分析结果表明,NO期胃癌患者的预后差异中存在原因的2个不同的生物学特征(细胞 增殖和免疫应答)得到了鉴定,所述2个生物学特征,与基于分散过滤的分类组或CGAP的功 能基因分类无关,通常会存有较多。在独立的数据集中验证能够展示细胞增殖和免疫激活的 生物学特征的分类组,并在logrank检验中展示出与训练数据集相似的预后结果。通过留一 法交叉验证法测试校准预后比,结果可知,根据分类组的类型和预后预测算法,显示的范围 为85~96%。与正常细胞相比时,大多数癌细胞具有更高的增殖率,因此良好预后组中与细 胞增殖相关的基因表达有增加的结果是预料不到的。然而,早期胃癌的细胞增殖比晚期胃癌 的细胞增殖要强得多,因此可推测细胞特征为干细胞特征的获得和转移潜力的变化。用于说 明具有较高细胞增殖的患者的良好预后结果的另一要素在于,化疗法药剂所起的作用。在接 受过化疗法药剂治疗的患者中,具有高表现的细胞增殖特征的患者展示出如预想的良好反应。 然而,没有接受化疗药剂治疗的患者只有在与那些接受化疗法药剂治疗的患者相似具有高表 现的细胞增殖特征时才能展示良好的预后结果,从而MDACC验证数据集的预后结果无法得到 这种想法的支持。因此,具有高表现的增殖特征的良好预后结果的原因在于,除了化疗法药 剂的敏感性外,还在于反映细胞增殖生物学的生理上的巨大差异。

经发现,免疫活化特征能够影响无淋巴结浸润的胃癌患者的良好预后,这证明了免疫活 化,尤其在癌患者的治疗中CTL的活化状态能起重要作用。免疫应答的有意作用已在与胃癌 的下游非前哨淋巴结转移相关的前哨淋巴结中能够提供高的Foxp3阳性调节T-细胞密度的胃 癌中做过报道。在几篇论文中报道过,肿瘤进展调节中免疫活化的重要作用,且通常作为不 同治疗方法而被很多种类的癌所接受。根据照射致死量的放射线和处理疫苗的活化免疫治疗、 为了分泌GMCSF而制成的自体肿瘤细胞和细胞毒性T淋巴细胞相关抗原-4(CTLA-4)的抗体 封闭,是通过靶向肿瘤血管生成来破坏肿瘤血管结构的。据我们所知,作为免疫耐受,尤其 作为对肿瘤抗原特异的T细胞的主要机制的肿瘤捕获(co-opt)特异免疫检查点的通路。通 过T细胞受体的抗原识别,开启T细胞反应的极限扩大和质量,并通过共同刺激和平衡控制 信号来调节。共同调节受体的激动剂和抑制信号的拮抗剂均能增强抗原特异性T细胞的反应, 免疫检查点的封闭在治疗人类癌症时显示出抗肿瘤免疫应答的潜力。尤其,CTLA-4作为重要 的免疫检查点受体能够下调T细胞活化强度。CTLA-4抗体作为免疫治疗剂已获得美国FDA的 承认,且利用了拮抗性CTLA-4抗体的临床研究证实了在晚期黑人患者中的存活优势。因此, 在胃癌患者的治疗中导入拮抗性CTLA-4抗体的方法是,治疗那些在早期NO患者中得到不良 预后结果的患者的另一种方法。本发明中阐明的基因特征可以在治疗方法中对适宜患者的选 择起指导性作用。

本发明的发明人证明了,主要由细胞增殖相关特征和免疫应答相关特征组成的两个不同 的生物学特征就是在NO期胃癌患者的预后结果中存在原因的主要生物学特征。根据他们的发 现,本发明的发明人建议向胃癌患者导入免疫治疗和选择患者时为了最大程度发挥免疫治疗 的优势应基于基因特征来进行治疗。

因此,本发明提供一种预测获得胃癌诊断的受试者的预后的方法,该方法包括如下步骤: 在包括从受试者采集的癌细胞的生物学样本中测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、 ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、 TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、 HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、 CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及

基于上述步骤中所确定的RNA转录本的表达水平,计算所述生物学样本的风险分数(RS) 和RS百分比(RS(%)),并根据所述RS(%)判断预后。

本发明的预后预测的方法的特征在于,作为决定胃癌患者的临床结果的2个主要生物学 特征的免疫活化和细胞增殖相关的基因中,在CGAP(癌肿基因组解剖学计划)中所发现的经过 功能分类的基因组(functionalcategorizedgenegroup)中,将通过COX回归分析而具有 统计显著性(p<0.001)的基因选为预后相关的靶基因,且将所述基因的风险比(hazardratio) 与基因的表达值相乘,并根据以下公式1和2计算风险分数和RS百分比(RS(%)),然后 从总生存(OS)的角度上,当所述RS(%)为50%或以上时将所述样本分类为高风险组,当所 述RS(%)25%或以上且小于50%时将所述样本分类为中度风险组,且当所述RS(%)小于25% 时将所述样本分类为低风险组,从而预测获得胃癌诊断的受试者的预后。

根据以下公式1和2,计算所述RS和RS(%):

【公式1】

RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn* normLogTransValuen

【公式2】

RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS 最小值)

在上述公式中,HRn表示第n次RNA转录本的风险比(hazardratio),当所述HRn小于 1时,通过转换成-1/HRn来使用。

normLogTransValuen指RNA转录本的表达相关值,该值为相对于对应基因的总值以其中 位数为中心进行大小变化的值。

所述总群组是指,一定数量的具有TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0 期或T4N0期局部晚期胃癌的群组,其中一定数量是指能够计算RS最大值和最小值的任一整 数。

所述总群组的数量不受特别限制,在一个具体实施例中,将TNM分期中无淋巴结转移的 T1NO期、T2N0期、T3N0期或T4N0期局部晚期胃癌的158个组织用作总群组。

在所述公式中,术语“风险比(HazardRatio:HR)”是指,反映对癌症的进展、复发 或疗法反应的贡献程度的系数。风险比可通过各种统计方法导出。所述风险比,即HR值可在 各种统计学模型得到确定,例如,可在多变量COX比例风险回归分析中得到确定。在一个具 体实施例中,将HR值导入RS公式中,当HR值等于或大于1时可直接使用原来的HR值,而 当HR值小于1时可以使用-1/HR值。

此外,在所述公式中,RNA转录本的表达值是指,与单独的基因,即与RNA转录本的表 达相关的值。所述值可通过各种公知的统计方法进行确定。例如,表达数据可以使用,根据 COX回归分析中测得的p值在通过进行以2为底的对数变换和分位数归一化(quantile normalization)后获得的值。所述公式1中所用的表达值使用相对于对应基因的总值以其中 位数为中心进行大小变化的值。

根据一个具体实施例,可以将RS确定为如下:

RS=-GART×3.584+PTN×3.631-PCNA×2.7027+GLI3×4.073+SMARCD3×2.266- SULT1A3×3.278+ILK×2.251-FUCA1×2.80899+PKD1×2.827-TOP2A×1.7668+ ABL1×2.784-CKS2×1.9685+FZD1×4.302-TIAL1×4.2553+SGCD×2.494-PIGF×2.6525 -CCNB1×2.4272-CSK×3.2573+CRYAB×1.524+TPM1×2.975-RFC4×2.817+ GUCY1B3×2.801-TYMS×2.0617-FEN1×2.3148+GNAI1×2.758+CSRP1×1.642- UNG×2.695+AXL×2.018+MAP1×B1.705+VCL×2.478+ITGA5×1.642-LIG1×2.841- HPRT1×2.95-GRB2×3.636-HMMR×1.98-MCM4×2.02+SRF×2.287+DMPK×1.925- ACP5×2.551-CD38×2.16-PRIM1×3.003-CCNF×2.024+GLRB×2.138-IFNAR2×3.717 +HSPA2×1.734-CLN3×2.445-BUB1×1.74+CALM1×2.839-CDC2×1.562+ATF4×5.677 -RRM1×3.717

根据上述公式1计算的RS可根据所述公式2表示为RS(%)。

将在上述确定的值转换成总群组中的相应顺序,并从总生存(OS)的角度上,将RS(%) 为50%或以上的样本分类为高风险组,将RS(%)等于或大于25%且小于50%的样本分类为中 度风险组,且将RS(%)小于25%的样本分类为低风险组。可判读,高风险组为不良预后,而 低风险组为良好预后。亦即,RS(%)为50%或以上的高风险组意味着在3年或以上、6年或 以上、10年或以上的期间内的总生存(OS)低,而RS(%)小于25%的的低风险组意味着在3 年或以上、6年或以上、10年或以上期限内的总生存高。所述术语“良好预后”表示临床结 果的积极临床结果可能性的增加,而“不良预后”表示临床结果的积极临床结果可能性的降 低。

所述方法可以有助于预测TNM分期中的NO期胃癌患者组,如T1NO期、T2N0期、T3N0期 或T4N0期局部晚期胃癌在切除术后的临床结果。

本发明的预后预测方法中所用的所述基因可被分成参与免疫应答和细胞增殖的基因集, 在良好预后组中的表达有统计显著的增加。

参与免疫应答的基因集:GART、PTN、SULT1A3、FUCA1、PKD1、ABL1、TIAL1、SGCD、PIGF、 CSK、CRYAB、TPM1、GUCY1B3、GNAI1、CSRP1、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、 HMMR、CD38、GLRB、IFNAR2、HSPA2、CLN3、BUB1、ATF4和RRM1

参与细胞增殖/DNA修复的基因集:PCNA、GLI3、SMARCD3、ILK、TOP2A、CKS2、FZD1、 CCNB1、RFC4、TYMS、FEN1、UNG、MCM4、SRF、DMPK、ACP5、PRIM1、CCNF、CALM1和CDC2

所述参与免疫应答的基因集主要与抗原处理与递呈(MHC通路)和IFN-r信号传导通路 相关,除此之外,还与Th1/Th2分化(TH1TH2通路)、相对于靶细胞的CTL介导的免疫应答 (CTL通路)、NK细胞中NO2依赖的IL12通路(NO2IL12通路)、T细胞活化中Tob的作用 (TOB1通路)、Th1发育时的IL12和Stat4依赖性信号传导通路(IL12通路)及细胞毒性T 细胞膜表面分子(T细胞毒性通路)相关。

所述参与细胞增殖/DNA修复的基因集会与癌敏感性(ATRBRCA通路)中BRCA1、BRCA2 和ATR的作用、对DNA损伤(cdc25通路)的应答中cdc25和chk1调节通路,细胞周期蛋白 和细胞周期调节(细胞周期通路)、细胞周期蛋白E破坏通路(FBW7通路)、细胞周期:G1/S 检查点(G1通路)、细胞周期:G2/M检查点(G2通路)、CDK调节(MCM通路)、细胞周期 进展中p27磷酸化调节(P27通路)、用于调节细胞周期的SonicHedgehog(SHH)受体Ptc1 (PTC1通路)、对DNA损伤的应答中RB肿瘤抑制因子/检查点信号传导(RB通路)及E2F1 破坏通路(SKP2E2F通路)相关。

本发明还提供一种预测获得胃癌诊断的受试者的预后的方法,该方法包括如下步骤:在 包含从受试者采集的癌细胞的生物学样本中检测GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、 ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、 TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、 HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、 CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及

将所述转录本表达的增加判断为获得积极临床结果的可能性的增加。

所述方法可以为阵列基片法。

所述表达水平可以通过与一个或多个RNA转录本的表达水平比较而进行归一化。

所述临床结果可以在总生存(OS)的角度上进行表示。

所述方法可通过测定RNA转录本的全部表达水平并分析表达的增加来判断积极临床结果 的可能性的增加或降低而预测预后。

所述方法可有助于预测TNM分其中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期 的局部晚期胃癌经过手术切除后的临床结果。

本发明还提供一种计算机可读记录媒体,该记录媒体中记录有用计算机运行如下步骤的 程序:从患者获得的核酸样本中确定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、 PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、 GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、 HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、 CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及

根据上述步骤中所确定的RNA的表达水平,计算风险分数(RS)和RS百分比(RS(%)), 并从总生存(OS)的角度上,当所述RS(%)的设定值的范围为50%或以上时将患者分类为高危 险群患者,当所述RS(%)的设定值的范围为25%或以上且小于50%时将患者分类为中间危险群 患者,且当所述RS(%)的设定值范围小于25%时将患者分类为低危险群患者。

所述记录媒体提供有助于预测TNM分其中无淋巴结转移的T1NO期、T2N0期、T3N0期或 T4N0期的局部晚期胃癌在经过切除术后的临床结果的媒体。

所述RS和RS(%)可根据所述公式1和2来计算。

所述记录媒体在总生存(OverallSurvival,OS)上将RS(%)为50%或以上的样本分类 为高风险组,将RS(%)等于或大于25%且小于50%的样本分类为中度风险组,且将RS(%) 小于25%的样本分类为低风险组。亦即,可判断,RS(%)为50%或以上的高风险组意味着在 3年或以上、6年或以上、10年或以上的期间内的总生存(OS)要低,而RS(%)小于25%的 的低风险组意味着在3年或以上、6年或以上、10年或以上期限内的总生存要高。所述术语 “良好预后”表示临床结果的积极临床结果可能性的增加,而“不良预后”表示临床结果的 积极临床结果可能性的降低。

如没有其他定义,本文中使用的技术和科学术语与本领域的技术人员的通常理解具有相 同的意义。本发明不会受任何方式的说明方法和材料的限制。为了本发明的目的,在下面定 义以下术语。

术语“微阵列”是指,在基质上可杂交的阵列组成要素,优选为多核苷酸探针的有规律 的排列。

术语“多核苷酸”通常指任一的多核糖核苷酸(polyribonucleotide)或多聚脱氧核糖 核苷酸(polydeoxyribonucleotide),例如,可指修饰的或非修饰的RNA或DNA。在本发明 中,“多核苷酸”具体包括cDNA。

术语“寡核苷酸”是指,不受限制地包括单链脱氧核糖核苷酸、单链或双链核糖核苷酸、 RNA:DNA杂交及双链DNA的较短的多核苷酸。寡核苷酸,例如,单链DNA寡核苷酸探针通常 如通过使用可购买的寡核苷酸自动合成仪的化学方法来合成。然而,寡核苷酸可以通过包括 试管中DNA介导的重组技术在内的各种不同方法及细胞与有机体内的DNA表达来制成。

术语“差异表达基因”或“差异基因表达”是指,与正常或对照用受试者的表达相比, 在患有胃癌等癌的患者体内得到更高或更低水平的活化的基因。此外,“差异表达基因”或 “差异基因表达”包括相同疾病的不同分期内得到更高或更低水平的活化的基因。差异表达 基因还可以在核酸或蛋白质水平上被活化或受抑制,或经过其他剪接而生成不同的多肽产物。 这种差异可通过如多肽的mRNA水平、表面显示、分泌或其他分配上的变化而得以证明。从本 发明的目的出发,将“差异基因表达”视为从正常的或患有疾病的受试者中,或从患有疾病 的受试者的各分期中的取得的基因的表达之间存在1.5倍或以上、约4倍或以上、约6倍或 以上、约10倍或以上的差异时存在的现象。

与基因转录本或基因表达的产物相关的术语“归一化”是指与标准基因集的转录本/产物 的平均水平相比时的转录本或基因表达产物的水平,其中内参基因是通过患者、组织或治疗 并基于这些基因的最低变化来进行选择(“管家基因(housekeepinggene)”),或内参基 因是指被测试的整体基因。当指后者时,通常被称为“整体归一化(globalnormalization)”, 关键点在于所测基因的总数要较大,优选为超过50。具体地,与RNA转录本相关的术语“归 一化”是指与标准基因集的平均转录水平相比时的转录水平。

术语“表达阈值”可与“被定义的表达阈值”相混用,此时,“表达阈值”可指将基因 或基因产物用作对患者反应的预测标记时的相应基因或基因产物的水平。阈值是一般在临床 研究中通过实验方式进行定义。表达阈值可被选作最大敏感性、或最大选择性(如,仅选择 对一种药物有反应的对象)、或最小误差。

术语“基因扩增”是指,在特定细胞或细胞株中形成基因或基因片段的多个拷贝的过程。 复制区域(扩增的DNA长度)常被称为“扩增子”。通常,生成的mRNA的量,即基因表达水 平还与特异基因的拷贝数成比例增加。

在本发明中,“预后”用来预测本发明的因癌死亡或如胃癌等肿瘤性疾病的进展(包括 复发、转移性扩散及耐药性)的可能性。术语“预后”用来说明本发明的患者在经过主要肿 瘤的切除术后无癌症复发下生存特定期间的可能性。这种预测是通过对任一特定患者选择最 适宜的疗法而在临床上可用来确定治疗。这种预测可在患者对治疗养生,例如对能否易于对 手术做出积极反应,或患者在手术结束后能否长期存活的判断成为宝贵的工具。术语“预后 指标”可与“风险分数”相混用。

如没有其他说明,可使用现有的分子生物学(包括重组技术)、微生物学、细胞生物学 及生物化学的技术来实施本发明。

1.基因表达谱的制作(Profiling)

基因表达谱的制作方法可包括基于多核苷酸的杂交分析的方法、基于多核苷酸序列的方 法及基于蛋白组学的方法。例如,mRNA表达的定量方法包括:northernblotting和原位杂 交;RNAse保护检测试验;和基于PCR的方法,如逆转录-聚合酶链反应(RT-PCR)等。又或, 可以使用用来识别包括DNA双链、RNA双链和DNA-RNA杂交双链或DNA-蛋白质双链在内的特 异双链的抗体。基于序列的基因表达分析中具代表性的方法包括,基因表达系列分析(SAGE) 和根据大规模平行信号测序(MPSS)的基因表达分析。

2.微阵列

从新鲜的或石蜡包埋的肿瘤组织中测定癌相关基因的表达谱。在该方法中,将受关注的 序列(包括cDNA和寡核苷酸)平铺或排列于微芯片的基片上。然后,将排列的序列与受关注 的细胞或组织中的特异DNA探针进行杂交。与RT-PCR法相同,mRNA的典型来源为从人的肿 瘤或肿瘤细胞株、和相应的正常组织或细胞株中提取出来的总RNA。因此,RNA可以从各种主 要肿瘤或肿瘤细胞中进行提取。微阵列技术能将cNDA克隆的PCR扩增的插入物以密集阵列形 式提供在基片上。优选地,在基片上添加10,000或以上的核苷酸序列。在严格条件下,将 10,000个元件适于分别地与在微芯片上进行固定并微排列的基因进行杂交。作荧光标记的 cDNA探针是根据从受关注的组织中提取的RNA的反转录而通过掺入荧光素核苷酸来形成的。 添加于芯片中的标记cDNA探针与阵列上的DNA各点进行特异性杂交。为了去除非特异性结合 的探针,进行严格清洗,并通过激光共聚焦显微镜或其他检测方法如CCD相机对芯片进行扫 描。通过对排列的每个元件的杂交进行定量化,可以评估相应mRNA的过量表达。当所述荧光 为双色荧光时,从两个RNA来源生成并经过分别标记的cDNA探针在阵列上进行成对杂交。因 此,能同时确定与所明示的基因分别对应的两个来源中的转录本的相对过量的表达。通过小 规模杂交即可对为数众多的基因的表达模式进行方便且迅速的评价。这种方法具有所需的敏 感性,从而能检测稀有转录本(其以细胞为单位表达成少量拷贝数),以及在表达水平上具 有至少约2倍的差异而能够实施可再现的检测。微阵列分析可利用可购买的仪器并根据制造 商的规定,如通过使用AffymetrixGenChip技术或Incyte's微阵列技术来实施。

3.关于mRNA提取、纯化及扩增的一般说明

下面,说明通过使用石蜡包埋的组织的基因表达谱的制作技术。通过分析最终获得的数 据,基于所观察到的肿瘤样品中所能确认的特异基因的表达模式,辨别出可用于患者的最佳 治疗选择项目。

本发明的关键在于,通过利用癌组织的特异基因的特异表达来提供预后信息。为此,必 须对经过校准测试的RNA的量、所用的RNA质量的变化及其他因素,如仪器和操作人的差距 上的差异,进行校准处理(归一化)。因此,校准测试通常是测定标准RNA的使用并进行掺 入,该标准RNA包含从公知管家基因如GAPD和ACTB转录的产物。对基因表达值进行归一化 的正确方法在文献【"UserBulletin#2"fortheABIPRISM7700SequenceDetectionSystem (AppliedBiosystems;1997)】中提供。相区别的是,归一化是将经过校准测试的基因或它 们的众多子集总体的平均值或中间信号(Ct)设定为标准值(全归一化接近法)。在下面的 实施例所说明的研究中使用了被称为中心归一化的策略,为了进行归一化处理,该策略使用 基于与临床成果的相关性的缺乏来选取的经过筛选的基因子集。

术语“训练集”是指,用于提取对预后具有统计显著性的RNA转录本的靶样本。

术语“验证集”或“测试集”是指,所述提取的变量实际上测试预后的良好与否的准确 度的判断集合。使用此方法的原因在于,不仅是特定样本组具有有效判断预后的能力,而且 为了判断对独立样本同样有效。

4.对于复发的风险分数及其应用

用于区分关于胃癌复发的可能性的癌预后方法的运算方法,其特征包括:1)用来测定复 发可能性的独特试验mRNA集(或相应基因的表达产物);2)用于将表达数据带入公式的特 定加权值;和3)用于将患者划分为风险程度不同的组如低、中和高风险组的阈值。通过该 运算方法可以计算风险分数(RS)和RS(%)的数值。

试验需要进行用来测定明示的mRNA或这些mRNA的表达产物的水平的实验室校准测试, 然而可以使用少量的新鲜组织或冷冻组织、或者必然从患者中采集并保存下来且经固定后被 石蜡包埋的肿瘤活检测试物。因此,试验可以为非浸润性测试。例如,与通过核心活检或细 针穿刺来收集的肿瘤组织的几种不同方法具有兼容性。根据该方法,通过以下步骤确定癌风 险分数(RS):

(a)用生物学样本制作基因或蛋白质表达谱,所述生物学样本包括从所述患者采集的癌 细胞;

(b)通过对多个单独的基因的表达水平,即对mRNA水平进行定量,从而确定对每个基 因的表达值;

(c)生成基因表达值的子集,该子基因表达值的子集包括分别通过癌相关的生物学函数 和(或)共表达进行连接的基因的表达值;

(d)在一个子集合内每个基因的表达水平与反映对于所述子集的癌复发反应的相对贡献 程度的系数相乘,然后对所得值求和,从而计算所述子集的值;

(e)与每个子集相对应的值与反映对于所述子集的癌复发反应的相对贡献程度的系数相 乘;

(f)对通过每个子集分别与所述系数相乘而获得的值进行相加,从而获得风险分数(RS) 和RS(%),

其中,与癌的复发没有呈现线性相关关系的各子集的贡献程度仅包括一定阈值或以上的 值,所明示的基因的所增加的表达能够降低癌复发风险的子集被赋予负值,所明示的基因的 表达能够增加癌复发风险的子集被赋予正值。

在具体实施例中,RS和RS(%)为:

(a)测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、 ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、 FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、 SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、 ATF4和RRM1的RNA转录本的表达水平;

(b)根据下面公式1和2,计算并确定风险分数(RS)和RS(%):

【公式1】

RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn* normLogTransValuen

【公式2】

RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS 最小值)

其中,HRn表示第n次RNA转录本的风险比(hazardratio),当所述HRn小于1时,将 其转换成-1/HRn来使用,

normLogTransValuen指与RNA转录本的表达相关的值,该值为相对于对应基因的总值以 其中位数为中心进行大小变化的值。

所述总群组指具有一定数量的具有TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0 期或T4N0期局部晚期胃癌的群体,其中一定数量指能够计算RS最大值和最小值的任一整数。

其中,当RS(%)值为50%或以上时,判断为不良预后,而当RS(%)值小于25%时,判断为 良好预后。

实施例

下面,根据本发明的实施例进行具体说明。然而,以下实施例仅为本发明的示例,本发 明的内容不限于以下实施例。

【制备实施例】预后预测的靶的选择及实验设计

为了选择预后预测的靶,收集了1999年至2006年为止在延世大学校SEVERANCE医院作 为一线治疗接受过胃切除术的胃腺癌患者(YUSH,n=78)的肿瘤标本和临床数据。所有样本 都是让患者签署记载有详细内容的同意书之后采集的,且该项研究也通过了延世大学校 SEVERANCE医院的调查伦理委员会的承认。临床数据是追溯以前的数据来获得的。总存活期 限被定义为从手术至死亡的期限,数据则视为在与患者进行最后接触时患者在活着的情况下 接受了检查。YUSH数据用来查明主要在预后结果中存在原因的生物学特征,且作训练数据集 来使用,从而用来开发预后预测模型。

为了验证预后预测模型和风险评分系统,在本发明中使用了MD安德森癌症中心所制作的 基因表达谱。肿瘤标本和临床数据来源于1999年至2006年为止在延世大学校SEVERANCE医 院、高丽大学校九老医院和高神大学校医科大学中作为一线治疗接受过胃切除术的胃腺癌患 者。所有样本都是让患者签署记载有详细内容的同意书之后采集的,且该项研究通过了MD安 德森癌症中心的调查伦理委员会的承认。

(基因表达数据)

对YUSH数据集的78个样品的实验及分析是在延世大学校SEVERANCE医院完成的。基因 表达谱是通过将包含有48803个基因特征的Illumina人类株阵列(Illuminahumanbead arrays,HumanHT-12,v3.0,Illumina,SanDiego,CA)与经过标记的cRNAs进行杂交来制 作。总RNA是通过使用mirVanaTMRNA分离标记试剂盒(Ambion公司)从新鲜的冷冻组织中 提取。根据制造企业(Illumina)的说明书,为了标记和杂交而使用500ng的总RNA。所述 株芯片可用IlluminaBeadArray扫描仪进行扫描,然后在R语言环境(BolstadBM,2003) 中的用于微阵列数据(LIMMA)包的线性模型中,根据分位数归一化法对微阵列数据进行归一 化处理。在NCBI基因表达GEO公开数据库(microarrayplatformGEO0000,microarraydata GEO0000)中可使用第一次微阵列数据。对MDACC数据集的80个样本进行的实验和分析与YUSH 数据集相同,是在MD安德森癌症中心的系统生物学院实施的。在NCBI基因表达GEO公开数 据库(microarrayplatformGEO0000,microarraydataGEO0000)中可使用MDACC数据集 的第一次微阵列数据。

(微阵列数据分析)

聚类分析是用群集和TreeView(http://rana.lbl.gov/EigenSoftware.htm)来实施的。 为了进行聚类分析,经过以2为底的对数变换的数据记录了各基因表达值的中位数。为了制 作患者之间具有不同表达水平的基因,改变过滤标准并连续进行基因过滤。在实施连续分散 过滤后进行无监督聚类分析,由两个主要群集组成的2个类(class)的预后差异可通过log rank检验和KaplanMeierPlot进行测试。

为了微阵列数据集的分析,使用了BRBArrayToolsVersion4.1 (http://linus.nic.nih.gov./BRB-ArrayTools.html)。在进行主要数据的分析前和在分位 数归一化后,对数据集进行以2为底的对数转换。为了鉴定经比较的两个级别中表达有显著 差异的的基因,对两个样本进行t检测。为了查明主要的生物学功能和基因通路的特征,在 Biocarta数据库中对所罗列的281个通路进行GSEA分析(基因集富集分析)。

为了制作预后预测模型,将YUSH数据用作训练集,且将MDACC数据集用作验证集。为了 预测独立患者的数据集的分类,使用基于已研发的3个不同的预测算法的预测模式(线性判 别分析(LinearDiscriminantAnalysis,LDA)、混合共变预测法(CompoundCovariate Predictor,CCP)和最近质心法(NearestCentroid,NC))。如同根据两个样本测试进行 评估时一样,使所述模型在0.001显著水平上与基因之间的差异表达相结合。为了估计各模 型的预测误差,可使用留一法交叉验证法(LOOCV)。为了用留一法交叉验证训练集,可反复 进行包括基因筛选在内的整体模型构建过程。此外,还评估了以下项目,即能否在任一预测 中预期交叉验证错误率估值显著小于1的结果。为了评估预测模型的预后能力,使用用来制 作预测模型的验证数据集,并通过使用KaplanMeierPlot和logrank检验评估其结果。

为了评估分类的患者组的预后差异,使用KaplanMeierPlot和logrank检验。

为了评价作为共变量的与独立预后因子相关的生存、基因特征、肿瘤分期和病理学特征, 可使用多变量COX比例风险回归分析。

(预后风险评分系统的开发)

为了构建基于肿瘤的发生和转移中存在原因的基因的风险评分系统,实施从CGAP中带有 注释的基因中按功能进行分类的基因的预后影响。风险评分系统是通过使用CGAP中带有注释 的基因来建立的,且在COX回归分析(p<0.001)中具有有意义的预后值。风险评分是通过表 达值中的中位数乘于风险系数(HR)并对所得值求和来获得的。HR值小于1时,将其转换成 -1/HR。根据以下公式计算风险分数的百分比。

RS(%)=100×(生物学样本的RS-总群组RS的最小值)/(总群组RS的最大值-总群组RS的 最小值)

将RS(%)为50%或以上的样本分类成高风险组,且将RS(%)为25%或以上且小于50%的样 本分类成中度风险组。最后,将RS(%)小于25%的样本分类成低风险组。

【实施例1】NO胃癌患者的基因表达谱的调查

通过改变过滤标准来连续进行分散过滤,生成由独特的两种主要群集组成的15个群集。 经过分散过滤后,多数基因具有701~5612个探针,是多种多样的,且在logrank检验中基 于分散过滤标准的p值具有各种值,其中最大值为0.291(M2_1:通过对具有至少一个与中位 数相比时显示2倍或以上的增加或减少的探针的基因进行选择并经过分散过滤后具有5612个 探针的群集),而最小值为0.0181(M3_3:对具有至少3个与中位数相比时显示3倍或以上 的增加或减少的探针的基因进行选择并经过分散过滤后具有706个探针的群集)。在15个群 集中,其中11个群集在无监督分层聚类分析中生成在logrank检验中展示统计显著性的预 后差异的2种主要分类(图1a和表1)。

【表1】

分散过滤后的探针的数量和在分散过滤后根据无监督分层聚类分析制作的两个主要群集 的logrank检验中的p值

通过使用在预后结果中显示统计显著性的11个群集来分析患者样本模式的结果,根据无 监督聚类分析生成的2个类的组成与过滤标准无关地显示出相当近似的模式,并展示样本组 成的2种不同模式,甚至各群集中的一个或两个群集显示出根据过滤标准的分类上的差异(图 1b)。因此,对显示出样本组成的2种不同模式的两个群集进行选取(图2)。

M2_5(通过对具有至少5个与中位数相比时显示2倍或以上的增加或减少的探针的基因 进行选择并经过分散过滤后具有1556个探针的群集)的良好预后组中只有1名患者死亡(4% 的死亡率),不良预后组中有15名患者死亡(28%的死亡率)(logrank检验p=0.0279,图 1c)。M3_3的良好预后中只有2名患者死亡(6%死亡率),不良预后中有14名患者死亡(29.8% 的死亡率)(logrank检验p=0.0181,图1d)。

【实施例2】两个主要群集的生物学特征

为了定义在预后结果中显示这种差异的两种分类的主要基因特性,对2个样本进行t测 试。通过在无监督聚类分析后显示M2_5的两个主要群集的2种分类之间进行比较,而生成 2886个显著不同的探针(p<0.001)。

图3A展示了使用在M2_5的2种分类之间进行比较时具有统计显著性(p<0.001)并显示 2倍或以上差异的探针的附条件聚类分析的热图。与免疫应答相关的很多基因(IFNG、GZMA、 GZMB、CD8A、STAT1、JAK2、HLADPA1)在良好反应组中的表达有大幅增加。

在Biocarta通路数据库中对上述2种分类进行GSEA分析时,最为显著提高的通路为具 有统计显著性(p=0.00001)的抗原处理及递呈(AntigenProcessingandpresentation) (MHC通路)、和IFN-r信号传导通路。除了它们的两种主要信号传导通路外,Th1/Th2分化 (TH1TH2通路)、对靶细胞的CTL介导的免疫应答(CTL通路)、NK细胞中NO2依赖性IL12 通路(NO2IL12通路)、T细胞活化中Tob的作用(TOB1通路)、Th1发育时的IL12和Stat4 依赖性信号传导通路(IL12通路)及细胞毒性T细胞膜表面分子(T细胞毒性通路)为与免 疫应答相关的信号传导通路,且在Biocarta通路数据库的GSEA分析中得到显著提高(图4A)。 有显著提高的各通路中的基因成分在良好预后组中展示出与免疫活化相关的基因的单向活化 (图5a-f)。

通过无监督聚类分析后显示M3_3的两个主要群集的2种分类之间进行比较,而生成2680 个显著不同的探针(p<0.001)。

图3B展示了使用在M3_3的2种主要分类之间进行比较时具有统计显著性(p<0.001并 显示3倍或以上差异的探针的附条件聚类分析的热图。与细胞增殖(CCNE1、CCNA2、CDCA5、 AURKA、E2F7、CDC25A)相关的基因和与DNA修复相关的基因(TOP2A)在良好反应组中的表 达有显著增加。

当在Biocarta通路数据库中对上述2种分类进行GSEA分析时,最为显著提高的通路是 癌敏感性(ATRBRCA通路)中BRCA1、BRCA2和ATR的作用、对DNA损伤(cdc25通路)的应 答中的cdc25和chk1调节通路、细胞周期蛋白和细胞周期调节(细胞周期通路)、细胞周期 蛋白E破坏通路(FBW7通路)、细胞周期:G1/S检查点(G1通路)、细胞周期:G2/M检查 点(G2通路)、CDK调节(MCM通路)、细胞周期发展中的p27磷酸化调节(P27通路)、用 于调节细胞周期的SonicHedgehog(SHH)受体Ptc1(PTC1通路)、对DNA损伤的应答中的 RB肿瘤抑制因子/检查点信号传导(RB通路)及E2F1破坏通路(SKP2E2F通路)(图4B, p=0.00001)。

有显著提高的各通路的基因成分在良好预后组中显示出与细胞增殖相关的基因的单向活 化(图6a-f)。

【实施例3】预后预测模型的形成

为了形成预后预测模型,可使用3种不同的预后预测算法,即混合共变预测法(CCP)、 线性判别分析(LDA)、最近质心法(NC)。为了对分类组进行预测,在0.001的显著水平上 对两种分类使用显著不同的基因,且通过使用留一法交叉验证,计算校准预测比。

相对于M3_3分类组的训练集(YUSH数据集)中的两个得到预测的组之间的预后差异具 有统计显著性(logrank检验,CCP:p=0.00933,LDA:p=0.0137和NC:p=0.00217),且 用于M3_3分类组的校准预测比在85%~92%的范围内(CCP:86%,LDA:85%和NC:92%)(图7A-C)。

MDACC数据集用来检验分类组。MDACC测试数据集的患者(80名)的预测结果在预后结 果中展示与训练YUSH数据集相似的模式。预后差异具有统计显著性(logrank检验,CCP: p=0.00645,LDA:p=0.00372和NC:p=0.0247),被分类成良好预后的组展示良好的预后结 果,即CCP显示3.3%的死亡率(30名患者中仅有1名患者死亡),LDA显示3.2%的死亡率(31 名患者中仅有2名患者死亡),且NC显示6.45%的死亡率(31名患者中仅有2名患者死亡)。 此外,被分成不良预后的组展示不良的预后结果,即CCP显示30%的死亡率(50名患者中有 15名患者死亡),LDA显示30.6%的死亡率(49名患者中有15名患者死亡),且NC显示28.6% 的死亡率(49名患者中有14名患者死亡)(图7D-F)。

总样本的预测结果为,logrank检验p值在CCP和LDA中具有0.000111,在NC中具有 0.000012,相对于三种不同算法均展示出两种主要分类之间相当强的预后差异(图7G-I)。

虽然校准分类比与M3_3分类组(CCP92%、LDA90%和NC95%)相比高得多,然而相对 于M2_5的测试数据集中所预测的结果没有统计显著性(logrank检验,CCP:p=0.0948,LDA: p=0.056和NC:p=0.06)(图8A-C)。

MDACC测试数据集的患者的预测结果在具有较强的统计显著性的预后结果中展示出与训 练YUSH数据集相似的模式。预后差异具有统计显著性(logrank检验,CCP:p=0.0155,LDA: p=0.0155和NC:p=0.0214),被分类成良好预后的组展示良好的预后结果,即CCP、LDA和 NC均显示3.8%的死亡率(26名患者中仅有1名患者死亡)。此外,被分类成不良预后的组 展示不良的预后结果,即CCP、LDA和NC均显示27.8%的死亡率(54名患者中仅有15名患者 死亡)(图8D-F)。总样本的预测结果为,logrank检验的p值在CCP中具有0.00377,LDA 中具有0.00203,且在NC中具有0.00284,并相对于三种其他算法中均展示出较强的预后差 异(图8G-I)。

【实施例4】对NO胃癌患者的预后产生影响的CGAP中的功能基因的分类

在NIH中,CGAP中的基因注释的特征在于主要对肿瘤生成、肿瘤发育和癌转移产生影响 的功能基因进行分类。因此,基于CGAP功能基因分类的预后特性的查明是,在CGAP接近法 展示出那些成为癌的某一分期的预后的主要原因的主要生物学特征时相当有利。因此,本发 明的发明人对YUSH(n=78)、MDACC(n=80)及相合并的所有患者的数据集(n=158)中测试其 中两个数据集中每个基因分类的影响。

在两个不同数据集中,通过按功能基因分类实施的无监督分层聚类分析所生成的主要群 集的预后结果会有多种多样。在YUSH数据中血管生成成为CGAP中显示统计显著性(logrank 检验p=0.0215)的唯一功能分类,与此相反,MDACC数据集在血管生成(p=0.0337)、DNA 损伤(p=0.0188)、DNA复制(p=0.0402)、转移(p=0.0235)、信号传导(p=0.0176)和 转录因子(p=0.0000706)上展示统计显著性。相合并患者的数据集在除了细胞凋亡和生成之 外的大部分功能基因分类中展示出显著性(图9A)。

通过使用总样本的功能基因分类的探针,对根据无监督分层聚类分析所定义的两个分类 进行Biocarta通路数据库的GSEA分析,结果发现功能基因分类显示出明显不同的基因集分 类的两种不同模式。大部分与细胞增殖相关的基因集(DNA复制的CNK调节、E2F1破坏通路、 细胞周期:G1/S检查点、细胞周期:G2/M检查点、对DNA损伤的应答中的CDC25和chk1调 节通路)在根据DNA复制、DNA损伤、基因调节、代谢和转录因子的功能基因分类的探针所 形成的两种分类的比较中得到显著提高。转移、免疫、血管生成、细胞信号传导、信号传导 和细胞周期的功能基因分类在免疫应答(T细胞活化中的Tob的作用、TCR活化、T细胞受体 与CD3复合物的启动中的Lck和Fyn酪氨酸激酶、辅助性T细胞表面分子、NK细胞与B细胞 受体的复合物中的NO2依赖性IL12通路)中,尤其在与T细胞相关免疫应答有关的基因集中 展示出最显著的差异。这提示了,2种主要生物学特征是,对通过使用M2_5和M3_3群集所 形成的2种分类的预后差异产生影响的生物学特征的原因所在(图9B)。

【实施例5】预后风险评分系统的建立

通过根据在无监督聚类分析后的各类中制作的死亡率和两个分类组M3_3和M2_5的预测 结果,对患者进行排列,发现有些患者会根据分类组和功能基因分类中所定义的群集类型被 分类成不同的分类。因此,对根据特征或分类组的特定类型的分类和预后预测来说,虽然所 定义的分类在logrank检验的预后比较中显示出统计显著性,然而并非完整地显示预后结果 (图10A)。主要的原因在于胃癌患者具有复杂生物学特征,这暗示了要考虑对胃癌患者的 预后结果产生影响的生物学或生理学特性的所有方面是重要的。

因此,接下来为了反映对各功能基因分类的预后结果的差异产生影响的主要生物学特征, 调差对功能基因分类中的预后差异产生影响的基因。在Cox回归分析中,筛选具有统计显著 性(p<0.001)的51个基因,将这些基因用于生成预后风险评分系统的百分比(表2)。根 据Cox回归分析(p<0.001),从CGAP中带有注释的探针中选取预后探针。

【表2】

风险评分系统的百分比生成中所用的探针列表

基于展示50%或以上风险分数的风险评分系统的百分比,总患者(n=158)中有21名患 者被指定为高风险组。高风险组的患者的死亡率为总样本的61.9%,死亡率极高,两个数据 集的患者展示出相当相似的临床结果(YUSH:54.5%死亡率,MDACC:70%死亡率)。

将70名患者指定为中度风险组(风险分数为25%或以上、且小于50%),中度风险组的 死亡率为20%。YUSH数据集的临床结果与相对于YUSH患者显示25%死亡率的MDACC数据患者 相比稍差,与此相反,相对于MDACC数据患者则显示16%死亡率。将总数为67名的患者指定 为低危险组,并在总样本数据中显示7.45%的死亡率。YUSH数据患者与具有9%死亡率的MDACC 数据患者相比展示出稍好的预后,死亡率为5.7%(图10B-D)。

预后差异明显的3个不同的风险组在总数据集在logrank检验中的p值为1.36e-07, 显示了极强的统计显著性。YUSH数据集在logrank检验中的p值显示为0.00254,而MDACC 数据集在logrank检验中的p值显示为1.11e-05(图10E-F)。

工业应用性

本发明可用作胃癌复发的预后预测领域中的诊断试剂盒。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号