首页> 中国专利> 肺癌的预后标志物、预后模型及相关应用

肺癌的预后标志物、预后模型及相关应用

摘要

本发明公开了肺癌的预后标志物、预后模型及相关应用,具体的涉及标志物ARRB1、BMP5、ERO1A、HDC、TMEM178A。本发明同时提供了预测肺癌预后的系统/装置、可读存储介质和电子设备。

著录项

说明书

技术领域

本发明涉及疾病诊断领域,更具体地,本发明涉及肺癌的预后标志物、预后模型及相关应用。

背景技术

肺癌是世界范围内最常见的恶性肿瘤,其发病率和死亡率在男性和女性中居于首位(Bray F, Ferlay J, et al. Global cancer mortality worldwide for 36 cancersin 185 countries. CA: a cancer journal for clinicians, 68(6), 394-424(2018))。肺癌分为小细胞肺癌(small cell lung cancer,SCLC)和非小细胞肺癌(non-small cell lung cancer, NSCLC ),80-85%的肺癌病人是NSCLC。NSCLC主要分为三种组织学类型,分别是肺腺癌、肺鳞癌和大细胞癌,其中肺腺癌是主要的组织学类型,占40%左右(Bender E. Epidemiology: The dominant malignancy. Nature, 513(7517), 52-3(2014))。不同的组织学类型对化疗的反应不同。肺癌的发生发展过程非常复杂,过去几十年的研究表明,某些基因(KARS, EGFR, HER2, MET, PI3KA)突变和ROS1,ALK等基因重排在肺癌的发病机制中发挥重要作用,也成为现阶段肺癌治疗的关键环节,为个性化医疗时代的到来奠定了基础(Bergethon K, Shaw AT, Ou SH et al. ROS1 rearrangementsdefine a unique molecular class of lung cancers. Journal of clinicaloncology:official journal of the American Society of ClinicalOncology, 30(8),863-870 (2012).)。由于肿瘤早期筛查的普及、医疗技术的发展和居民生活方式的改善,近年来肺癌的诊断和治疗上取得了明显进展,然而,流行病学资料显示所有分期的肺癌的5年总体生存率低至15.9%(Ettinger DS, Akerley W, Borghaei H et al. Non-small celllung cancer, version 2.2013. Journal of the National Comprehensive CancerNetwork:JNCCN, 11(6), 645-653; quiz 653 (2013).),影响肺癌患者生存时间的主要因素是复发和转移。

目前临床上常用TNM (tumor node metastasis,TNM)分期系统作为判断肺癌患者预后的指标,肺癌TNM分期标准由国际抗癌联盟(Union for International CancerControl,UICC)颁布实施,是现阶段肺癌诊断和治疗发展中应用最广泛的肿瘤分期系统。TNM分期系统依据原发肿瘤的状态(T)、区域淋巴结情况(N)和远处转移情况(M)三个指标,共分为四个分期(I期、II期、III期和IV期)。目前TNM分期系统预测能力也有一定限制,因此临床上迫切需要能够准确预测肺癌患者预后的新型标志物(Shi X, Li R, Dong X et al.IRGS: an immune-related gene classifier for lung adenocarcinoma prognosis.Journal of translational medicine, 18(1), 55 (2020).)。

发明内容

本发明的目的是提供生物标志物预测肺癌预后中的用途和通过分子标志物预测肺癌预后的产品以及系统/装置。

为了实现上述目的,本发明第一方面提供了检测生物标志物的试剂在制备预测肺癌预后的产品中的应用,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A。

进一步,所述生物标志物为ARRB1、BMP5、ERO1A、HDC和TMEM178A。

进一步,所述试剂包括通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物表达水平的试剂。

进一步述样本包括组织、体液。

本发明第二方面提供了一种预测肺癌预后的产品,所述产品包括检测生物标志物的试剂,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A。

进一步,所述产品包括芯片、试剂盒。

进一步,所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒。

进一步,所述试剂盒还包括用于预测肺癌预后的说明书。

进一步,所述试剂包括与所述生物标志物基因特异性结合的引物或探针;与所述标志物蛋白特异性结合的抗体、肽、适配体或化合物。

本发明第三方面提供了一种预测肺癌预后的装置,包括:

获取单元,用于获取待测样本中生物标志物的数据,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A;

处理单元,用于将所述生物标志物的数据输入肺癌预后预测模型中,获得待测样本肺癌进展的预测结果。

进一步,所述预后预测模型为Cox回归模型。

进一步,所述Cox回归模型为LASSO Cox回归模型。

进一步,所述预后预测模型的公式为风险评分=C1*ExpARRB1+C2*ExpBMP5+C3*ExpERO1A+C4*ExpHDC+C5*ExpTMEM178A;

其中ExpARRB1、ExpBMP5、ExpERO1A、ExpHDC、 ExpTMEM178A分别代表ARRB1、BMP5、ERO1A、HDC、TMEM178A的表达水平。

进一步,所述C1、C2、C3、C4、C5分别为-0.1375、-0.0552、0.285、-0.0951、-0.0713。

本发明的第四方方面提供了一种计算机可读存储介质,其存储有程序,所述程序用于执行由生物标志物ARRB1、BMP5、ERO1A、HDC和/或TMEM178A构建的肺癌预后预测模型。

进一步,所述预后预测模型为Cox回归模型。

进一步,所述Cox回归模型为LASSO Cox回归模型。

进一步,所述预后预测模型的公式为风险评分=C1*ExpARRB1+C2*ExpBMP5+C3*ExpERO1A+C4*ExpHDC+C5*ExpTMEM178A。

进一步,所述C1、C2、C3、C4、C5分别为-0.1375、-0.0552、0.285、-0.0951、-0.0713。

本发明的第五方面提供了一种电子设备,包括:

客户端组件,其中所述客户端组件包含用户界面;

服务器组件,其中所述服务器组件包含至少一个存储器单元,该至少一个存储器单元被配置为接收包含从样本中生成的生物标志物的测序数据的数据输入,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A;

与所述服务器组件可操作地耦合的所述用户界面;以及

与所述至少一个存储器单元可操作地耦合的计算机处理器,其中所述计算机处理器被编程为可执行程序,可执行程序用于运行由生物标志物构建的肺癌预后预测模型。

进一步,所述预后预测模型为Cox回归模型。

进一步,所述Cox回归模型为LASSO Cox回归模型。

进一步,所述预后预测模型的公式为风险评分=C1*ExpARRB1+C2*ExpBMP5+C3*ExpERO1A+C4*ExpHDC+C5*ExpTMEM178A。

进一步,所述C1、C2、C3、C4、C5分别为-0.1375、-0.0552、0.285、-0.0951、-0.0713。

本发明的第六方面提供了检测生物标志物的试剂在制备药物治疗肺癌的效果评价的产品中的应用,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A。

进一步,所述试剂包括与所述生物标志物基因特异性结合的引物或探针;与所述标志物蛋白特异性结合的抗体、肽、适配体或化合物。

本发明的优点和有益效果:

本发明选择包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A作为生物标志物,可以有效预测肺癌患者的预后,进而实现早干预早治疗。

附图说明

图1是训练集中ARRB1、BMP5、ERO1A、HDC和TMEM178A联合预测肺腺癌预后的生存曲线图;

图2是验证集中ARRB1、BMP5、ERO1A、HDC和TMEM178A联合预测肺腺癌预后的生存曲线图;

图3是训练集中ARRB1、BMP5、ERO1A、HDC和TMEM178A联合预测肺腺癌预后的ROC曲线图;

图4是验证集中ARRB1、BMP5、ERO1A、HDC和TMEM178A联合预测肺腺癌预后的ROC曲线图。

具体实施方式

现在将参照附图讨论本发明的一些方面和实施方案。其他方面和实施方案对于本领域技术人员将会变得明显。本文中提及的所有文件均通过引用并入本文。

样本

本文中使用的 “样本”可以是细胞或组织样本(例如活检物)、生物流体、提取物(例如从对象获得的蛋白质或DNA提取物)。特别地,样本可以是肿瘤样本,例如实体瘤,例如肺腺癌。样本可以是从对象新鲜获得的样本,或者可以是在进行确定之前已经加工和/或储存的样本(例如,冷冻、固定或经历一个或更多个纯化、富集或提取步骤)。

在本文中使用的“和/或” 应被视对在具有或不具有另一者的情况下两种指定特征或组分中的每一种的具体公开。例如,“A和/或B” 将被视为(i)A、(ii)B、以及(iii)A和B中的每一种的具体公开,就像每一种在本文中单独列出一样。

生物标志物

本文中使用的“生物标志物” 是指以可用于预测个体的癌症状态的不同浓度存在于个体中的生物分子。生物标志物可包括,但不限于,核酸、蛋白质及其变体和片段。生物标志物可以是包含编码该生物标志物的全部或部分核酸序列或这类序列的互补体的DNA。可用于本发明的生物标志物核酸被认为包括包含任何目的核酸序列的全部或部分序列的DNA和RNA。

在本发明的具体实施方式中,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A。生物标志物例如ARRB1(arrestin beta 1,gene ID:408)、BMP5(bonemorphogenetic protein 5,gene ID:653)、ERO1A(endoplasmic reticulumoxidoreductase 1 alpha,gene ID:30001)、HDC(histidine decarboxylase,gene ID:3067)、TMEM178A(transmembrane protein 178A,gene ID:130733),包括基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的生物标志物,以及源自细胞中加工的任何形式的生物标志物。该术语涵盖生物标志物的天然发生变体(例如剪接变体或等位变体)。gene ID可 在https://www.ncbi.nlm.nih.gov/gene/获得。在2021年6月23日以该NCBI基因ID号公开的每种基因的核苷酸序列明确地通过引用并入本文。

基因表达

提及确定表达水平是指确定基因的表达产物的表达水平。表达水平可以在核酸水平或蛋白质水平上确定。

确定的基因表达水平可以被认为提供表达谱。 “表达谱” 意指与个体中一种或更多种相关基因的表达水平有关的一组数据,其形式允许与可比较的表达谱(例如,来自已经知道预后的个体)进行比较,以帮助确定预后以及为个体患者选择合适的治疗。

基因表达水平的确定可涉及确定癌细胞样本中mRNA的存在或量。用于这样做的方法是技术人员公知的。基因表达水平可以使用任何常规方法,例如使用核酸微阵列或使用核酸合成(例如定量PCR)在癌细胞样本中确定。

作为替代或补充,基因表达水平的确定可以涉及在获自个体的包含癌细胞的样本中确定从基因表达的蛋白质水平。蛋白质表达水平可以通过任何可用的手段,包括使用免疫测定来确定。例如,表达水平可以通过免疫组织化学(IHC)、蛋白质印迹、ELISA、免疫电泳、免疫沉淀、流式细胞术、大量细胞计数法(mass cytometry)和免疫染色来确定。使用这些方法中的任何一种,都可以确定本文公开的生物标志物的蛋白质的相对表达水平。

作为一种可选择的实施方案,也可以使用高级测序方法检测基因的表达水平。例如,可以使用Illumina检测生物标志物。下一代测序(例如,Sequencing-By-Synthesis或TruSeq方法,其使用例如HiSeq、HiScan、GenomeAnalyzer或MiSeq系统)。生物标志物也可以使用离子流测序或其他合适的半导体测序方法来进行检测。

作为一种可选择的实施方案,可以使用质谱法使用RNase图谱(mapping)对生物标志物进行定量。在通过MS或串联MS(MS/MS)方法对分离的RNA进行分析之前,可以用具有高特异性的RNA内切核酸酶(RNase)(例如,RNase T1,其在所有未修饰的鸟苷残基的3 '侧切割)对分离的RNA进行酶促消化。开发的第一种方法使用直接与ESI-MS偶联的反相HPLC对核酸内切酶消化物进行在线色谱分离。转录后修饰的存在可以通过与基于RNA序列预期的那些的质量偏移来揭示。然后可以分离质量/电荷值异常的离子用于串联MS测序,从而定位转录后修饰的核苷的序列位置。

基质辅助激光解吸/电离质谱法(MALDI-MS)也已被用作获得关于转录后修饰的核苷的信息的分析方法。基于MALDI的方法可以通过分离步骤与基于ESI的方法区分。在MALDI-MS中,质谱仪用于分离生物标志物。

本文所使用的术语“引物”是指具有短游离3'-羟基的核酸序列,是可以与互补模板形成碱基对并充当模板链复制的起点的短核酸。在适当的缓冲溶液和温度下,在存在用于聚合的试剂(即DNA聚合酶或逆转录酶)和四种不同的核苷三磷酸的情况下,引物可以引发DNA合成。可以根据本领域已知的技术适当地选择PCR条件以及正义和反义引物的长度。

本文所使用的术语“探针”是指对应于可以特异性结合mRNA的几个碱基至数百个碱基的核酸片段(例如RNA或DNA),并且可以通过标签来确认特定mRNA的存在与否以及表达水平。探针可以以寡核苷酸探针、单链DNA探针、双链DNA探针或RNA探针的形式制备。可以根据本领域已知的技术适当地选择合适的探针和杂交条件。

本文所使用的术语“抗体”是本领域众所周知的,是指针对抗原位点的特异性免疫球蛋白。本发明中的抗体是指与本发明的生物标志物蛋白特异性结合的抗体,可以根据本领域中的常规方法来制造抗体。抗体的形式包括多克隆抗体或单克隆抗体、抗体片段(诸如Fab、Fab' 、F(ab ')2和Fv片段)、单链Fv(scFv)抗体、多特异性抗体(诸如双特异性抗体)、单特异性抗体、单价抗体、嵌合抗体、人源化抗体、人抗体、包含抗体的抗原结合位点的融合蛋白,以及包含抗原结合位点的任何其他修饰的免疫球蛋白分子,只要该抗体表现出所需的生物结合活性。

本文所使用的术语“肽”具有与靶物质高度结合的能力,并且在热处理/化学处理期间不会发生变性。而且,由于其尺寸小,可以通过将其附接到其它蛋白上而用作融合蛋白。具体而言,因为可以特异性地附接到高分子蛋白链上,它可以用作诊断试剂盒和药物递送物质。

本文所使用的术语“适配体”是指一种由特定类型的单链核酸(DNA、RNA或修饰的核酸)组成的多核苷酸,所述单链核酸自身具有稳定的三级结构,并且具有能够以高亲和力和特异性与靶分子结合的特性。如上所述,由于适配体可以像抗体那样特异性结合抗原性物质,但比蛋白更稳定并具有简单的结构,并且是由易于合成的多核苷酸组成,因此可以代替抗体来使用。

另外,本发明的试剂盒可以包含与标志物成分特异性结合的抗体;与通过与底物反应而显色的标志物缀合的二抗缀合物;与所述标志物发生显色反应的显色底物溶液、洗涤溶液和酶反应终止溶液等,并且可以制备为含有所用试剂成分的多个单独的包装或隔室。

预后

预后是否被认为是良好或不良可在癌症和疾病阶段之间变化。一般而言,良好预后是其中总体存活(overall survival,OS)和/或无进展存活(PFS)比该阶段和癌症类型的平均值长的预后。如果PFS和/或OS低于该癌症阶段和类型的平均值,则可认为预后不良。平均值可以是中位存活OS或PFS。

一般而言,“良好预后”是其中个体患者的存活(OS和/或PFS)与可比较的疾病环境中患者群体的预期相比可能有利的预后。这可以定义为优于中位存活(即,存活超过了群体中50%患者的存活)。

芯片/试剂盒

在本发明中,“芯片”也称为“阵列”,指包含连接的核酸或肽探针的固体支持物。阵列通常包含按照不同的已知位置连接至基底表面的多种不同的核酸或肽探针。这些阵列,也称为“微阵列”,通常可以利用机械合成方法或光引导合成方法来产生这些阵列,所述光引导合成方法合并了光刻方法和固相合成方法的组合。阵列可以包含平坦的表面,或者可以是珠子、凝胶、聚合物表面、诸如光纤的纤维、玻璃或任何其它合适的基底上的核酸或肽。可以以一定的方式来包装阵列,从而允许进行全功能装置的诊断或其它方式的操纵。

“微阵列”是杂交阵列原件有序排列在基质上,所述杂交阵列原件诸如聚核苷酸探针(例如寡核苷酸)或结合剂(例如抗体)。所述基质可以是固体基质,例如,玻璃或二氧化硅玻片、珠、纤维光学粘结剂或半固态基质,例如硝酸纤维素膜。核苷酸序列可以是DNA、RNA或其中的任何排列。

在本发明中,试剂盒的组分可以以水介质的形式或以冻干的形式来包装。试剂盒中适当的容器通常至少包括一种小瓶、试管、长颈瓶、宝特瓶、针筒或其它容器,其中可放置一种组分,并且优选地,可进行适当地等分。在试剂盒中存在多于一种的组分时,试剂盒中通常也将包含第二、第三或其它附加的容器,其中分离地放置附加的组分。然而,不同组合的组分可被包含在一个小瓶中。本发明的试剂盒通常也将包括一种用于容纳反应物的容器,密封以用于商业销售。这种容器可包括注模或吹模的塑料容器,其中可保留所需的小瓶。

基于基因表达的分类方法

本发明提供了用于在对象中对癌症进行分类、预测或监测的方法。特别地,可以使用一种或更多种模式识别算法来评价从基因表达分析获得的数据。这样的分析方法可用于形成预测模型,该预测模型可用于对测试数据进行分类。例如,一种方便且特别有效的分类方法采用多元统计分析建模,首先使用来自已知亚组(例如,来自已知具有特定癌症预后亚组的对象:高风险和低风险)的样品的数据(“建模数据”)形成模型(“预测模型”),以及其次根据亚组对未知样品(例如, “测试样品”)进行分类。

模式识别方法已被广泛用于表征许多不同类型的问题,例如遍及语言学、指纹法、化学和心理学。在本文中所述方法的情况下,模式识别是使用多元统计(参数和非参数二者)来分析数据,并且从而基于一系列观察到的测量值对样品进行分类并预测一些因变量的值。有两种主要方法。一组方法称为 “不受监督” 的,并且这些以合理的方式简单地降低了数据复杂性,并且还产生了可以由人眼解释的显示图。

另一种方法称为“受监督”的,其中使用具有已知类别或结果的样品训练集来产生数学模型,然后使用独立的验证数据集对该数学模型进行评价。这里,基因表达数据的“训练集”用于构建统计模型,该统计模型正确地预测每个样品的“亚组”。然后,利用独立的数据(称为测试或验证集)对该训练集进行测试,以确定基于计算机的模型的稳健性(robustness)。这些模型有时称为“专家系统” ,但可基于一系列不同的数学程序,例如支持向量机、决策树、k最近邻和朴素贝叶斯(Bayes)。受监督的方法可以使用具有降低的维数的数据集(例如,前面数个主要组分),但通常使用具有所有维数的未减少的数据。在所有情况下,这些方法都允许定量描述根据其内在基因表达谱来表征和分隔每种亚型的多元边界。也可以获得任何预测的置信限(confidence limit),例如,处于拟合优度上的概率水平。预测模型的稳健性也可以使用交叉验证通过从分析中省略选定的样品来检查。

模式识别方法已被广泛用于表征许多不同类型的问题,例如遍及语言学、指纹法、学和心理学。在本文中所述方法的情况下,模式识别是使用多元统计(参数和非参数二者)来分析数据,并且从而基于一系列观察到的测量值对样品进行分类并预测一些因变量的值。有两种主要方法。一组方法称为 “不受监督” 的,并且这些以合理的方式简单地降低了数据复杂性,并且还产生了可以由人眼解释的显示图。但是,这种类型的方法可能不适用于开发可用于对来源于对象的样品进行分类而不依赖于用于训练预测算法的初始样品群的临床测定。

装置

本发明提供了一种预测肺癌预后的装置,所述装置包括获取单元,用于获取待测样本中生物标志物的数据,所述生物标志物包括ARRB1、BMP5、ERO1A、HDC和/或TMEM178A;

处理单元,用于将所述生物标志物的数据输入肺癌预后预测模型中,获得待测样本肺癌进展的预测结果。

如本文应用的装置应至少包括上述单元。装置的单元可操作地彼此连接。如何以操作方式链接单元将取决于装置中包含的单元的类型。例如,在获取单元中应用用于自动定量测量生物标志物的工具的情况下,由所述自动操作单元获得的数据可以由处理单元处理,例如,由在作为数据处理器的计算机上运行的计算机程序处理,以便促进诊断。在一个实施方式中,数据处理器实行生物标志物的量与参考的比较。

进一步,在这种情况下,单元由单个装置构成。然而,获取单元和处理单元也可为物理上分离的。在这种情况下,可以经由允许数据传输的单元之间的有线和无线连接来实现操作连接(operative linkage)。无线连接可使用无线LAN(WLAN)或互联网。有线连接可通过单元之间的光学和非光学电缆连接实现。用于有线连接的电缆进一步适于高通量数据传输。

可读存储介质

本发明提供了一种计算机可读存储介质,其存储有程序,所述程序用于执行由生物标志物ARRB1、BMP5、ERO1A、HDC和/或TMEM178A构建的肺癌预后预测模型。所述计算机可读存储介质诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,诸如在任何计算机等中的任何存储设备,易失性存储介质包括动态存储器,诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频和红外数据通信期间生成的那些。因此,计算机可读介质的常见形式包括例如:软盘、软性磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路,或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些计算机可读介质的形式中的许多形式可以参与向处理器传送一个或更多个指令的一个或更多个序列以用于执行。

以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请,并不用于限制本申请。

实施例 与肺癌诊断与预测预后相关的基因标志物

1、数据下载

从TCGA数据库获取肺腺癌的RNA-seq数据及临床信息,去除生存信息缺失和生存期为0的样本,纳入样本量为496作为训练集;从GEO数据库获取肺腺癌的芯片测序数据及临床信息,去除生存信息缺失和生存期为0的样本,纳入样本量为226作为验证集。

2、数据标准化

对于TCGA的RNA-seq数据使用Voom方法进行标准化处理,GEO的芯片数据使用RMA方法进行标准化处理。

3、单因素Cox分析

对训练集与验证集的基因进行单因素Cox分析,筛选在两个数据集中同时与肺癌患者生存相关的基因,P<0.05的基因被认为是对肺癌患者的生存有影响。

4、LASSO Cox回归分析

进行LASSO Cox回归分析,构建LASSO回归模型。TCGA数据作为训练集,GEO数据作为测试集。利用LASSO Cox回归模型系与mRNA表达水平的线性组合构建预后genesignature,形成风险评分公式。

在GEO验证集中进行验证时利用相同的公式,计算每个样本的风险评分,根据风险评分的中位数,将所有样本分为高风险组与低风险组,进一步进行生存分析及受试者工作特征(ROC)曲线分析。

5、生存曲线分析

采用R软件“survival”、“survminer”“ggplot2”包对训练集、验证集的高风险组和低风险组的肺癌患者进行生存分析并绘制生存曲线,通过log-rank检验进行组间差异比较。

6、ROC曲线分析

为了评估由预后模型在预测肺癌预后的准确性,采用R软件“survival”“timeROC”包使用时间依赖性ROC曲线检测生物标志物1年、3年、5年的预后效能,用自助抽样法检测各组ROC曲线之间差异的显著性,P<0.05被认为有统计学差异。

7、结果

TCGA数据作为训练集,利用LASSO Cox回归模型系数与基因表达水平的线性组合构建预后gene signature,风险评分=-0.1375*ExpARRB1-0.0552*ExpBMP5+0.285*ExpERO1A-0.0951*ExpHDC-0.0713*ExpTMEM178A。

根据风险评分的中位数将肺癌患者分析高风险组(高评分)和低风险组(低评分)两组,通过KM生存分析,比较两组在生存时间上的差异,发现高风险组患者的累积生存率显著低于低风险组。使用相同的公式在GEO数据中计算了风险评分。与TCGA训练集的结果一致,高风险组患者的累积生存率显著低于低风险组(图1和图2)。

对训练集和验证集的肺癌患者进行预后ROC曲线分析, 结果显示,风险评分预后模型对肺癌患者的预后具有较好的区分性能(图3和图4)。

综上所述,基于本发明的五个基因的gene signature能够预测肺癌的预后。

以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。

此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号