【技术领域】
本发明涉及生物技术领域,具体为一种预测早期结肠癌患者预后风险的模型构建方法。
【背景技术】
结肠癌是全世界最常见的恶性肿瘤之一,其发生率和死亡率在所有恶性肿瘤中均占前3位;结肠癌患者的总体生存率取决于肿瘤的TNM分期,一般晚期患者较早期患者预后差,根据美国癌症联合委员会(AJCC)报道,Ⅰ、Ⅱ、Ⅲ和Ⅳ期结肠癌患者的5年生存率分别为93.2%、82.5%、59.5%和8.1%;然而在临床上经常会遇到部分早期(I/II期)结肠癌患者的预后非常差的状况,目前临床上常用的肿瘤标志物大多针对结肠癌的早期诊断,关于结肠癌患者预后的标志物要么笼统的囊括了所有TNM分期的患者,针对性较差,要么预测的基因数目单一,准确性较低。
由此可见,提供一种预测早期结肠癌患者预后风险的模型构建方法是本领域亟需解决的问题。
【发明内容】
为解决上述问题,本发明提供一种预测早期结肠癌患者预后风险的模型构建方法,具体包括以下步骤:
步骤一:通过手术获取患者的肿瘤组织标本;
步骤二:使用差异分析检测患者肿瘤组织标本中上述基因含量的表达;
步骤三:使用单因素Cox回归分析和LASSO回归分析筛选用于构建风险模型的基因,建立风险模型的计算公式;
步骤四:使用Kaplan–Meier预后分析和ROC分析验证该预后风险模型在早期结肠癌患者中用于预后预测的准确性。
进一步的,所述步骤一中获取患者的肿瘤组织标本首先制定患者选择标准,并根据标准选取患者,手术切除患者的肿瘤组织,经过病理诊断为结肠癌I期或II期后立即放入液氮保存。
进一步的,所述患者选择标准包括病理上确诊为结肠癌I期或II期的结肠癌患者、患者没有其他类型肿瘤、患者有具体的生存状态和随访时间。
进一步的,所述步骤二通过Trizol试剂提取总RNA,使用二代测序技术检测早期结肠癌预后较差患者和预后较好患者肿瘤组织标本中显著差异表达的基因。
进一步的,所述步骤三使用单因素Cox回归分析,从差异表达的基因中筛选出与早期结肠癌患者预后显著相关的基因。
进一步的,所述步骤三使用LASSO回归分析拟合高维广义线性模型,构造惩罚函数,过滤掉高度相关的基因。
进一步的,所述步骤三中筛选出15个代表性的基因,即FGF18、BZRAP1、FLJ42627、BTN3A3、C3orf58、TAPBP、ADRA2C、FCAMR、AKR1E2、LOC64417、TIMM17A、ODF3L2、ZRANB2、LRRC39和SYT2。
进一步的,所述十五个基因团的表达量与早期结肠癌患者预后的相关系数分别为-0.23、-0.11、-0.28、0.18、0.99、0.18、0.10、-0.10、0.065、0.17、-0.33、0.015、0.74、-0.48和-0.16。
本发明具有以下有意效果:
能更好地指导临床对早期结肠癌预后较差的患者设计更有针对性的治疗方案,实现精准医疗;构建预测模型的基因数目较多,能够最大程度地降低肿瘤异质性造成的影响,准确性高;基因检测方法简单,容易实施;此外,使用ROC分析验证了该预后风险模型在早期结肠癌患者中用于预后预测的准确性高。
【附图说明】
图1为早期结肠癌预后较差患者和预后较好患者的生存分析。
图2为早期结肠癌预后较差患者和预后较好患者肿瘤组织标本中显著差异表达的基因。
图3为早期结肠癌预后较差患者和预后较好患者肿瘤组织标本中与患者预后显著相关的差异表达的基因。
图4为LASSO回归分析筛选用于构建风险模型的基因。
图5为Kaplan–Meier预后分析和ROC分析验证预后风险模型的应用展示。
【具体实施方式】
本发明所提到的方向用语,例如「上」、「下」、「前」、「后」、「左」、「右」、「内」、「外」、「侧面」等,仅是附图中的方向,只是用来解释和说明本发明,而不是用来限定本发明的保护范围。
参见图1至图5,本发明构建了一种预测早期结肠癌患者预后风险的模型,其构建方法包括以下步骤:
步骤一:通过手术获取患者的肿瘤组织标本。
首先制定患者选择标准,并根据标准选取患者,手术切除患者的肿瘤组织,经过病理诊断为结肠癌I期或II期后立即放入液氮保存,直至使用时取出,如图1所示,根据患者术后生存时间将患者分为早期结肠癌预后较差患者和预后较好患者。
其中患者的选择标准如下:病理上确诊为结肠癌I期或II期的结肠癌患者、患者没有其他类型肿瘤、患者有具体的生存状态和随访时间。
步骤二:使用差异分析检测患者肿瘤组织标本中上述基因含量的表达。
从液氮中取出肿瘤组织标本,通过研磨工具将组织研磨成粉,后续加入Trizol试剂提取总RNA;如图2所示,使用二代测序技术检测早期结肠癌预后较差患者和预后较好患者肿瘤组织标本中显著差异表达的基因。
步骤三:使用单因素Cox回归分析和LASSO回归分析筛选用于构建风险模型的基因,建立风险模型的计算公式。
如图3所示,使用单因素Cox回归分析,从差异表达的基因中筛选出与早期结肠癌患者预后显著相关的基因;危险比大于1的基因表示这些基因的表达量越高患者预后越差;相反,危险比小于1的基因表示这些基因的表达量越高患者预后越好。
对预后相关基因的表达量和患者的预后进行Spearman相关性分析,得到每个基因表达量和患者预后的相关系数;危险比大于1的基因相关系数大于0,危险比小于1的基因相关系数小于0;将患者预后相关基因的表达量乘以相关系数,然后求和,算出的数值叫做风险值(Riskscore),风险值越大说明患者预后不良的风险就越大。
由于预后相关基因数目教多,全部用来构建预后风险模型会造成过度拟合,导致模型通用性和可靠性降低;因此,如图4所示,使用LASSO回归分析拟合高维广义线性模型,构造惩罚函数,过滤掉高度相关的基因,筛选出15个代表性的基因,即FGF18、BZRAP1、FLJ42627、BTN3A3、C3orf58、TAPBP、ADRA2C、FCAMR、AKR1E2、LOC64417、TIMM17A、ODF3L2、ZRANB2、LRRC39和SYT2。
上述代表性基因的表达量与早期结肠癌患者预后的相关系数分别为-0.23(FGF18)、-0.11(BZRAP1)、-0.28(FLJ42627)、0.18(BTN3A3)、0.99(C3orf58)、0.18(TAPBPL)、0.10(ADRA2C)、-0.10(FCAMR)、0.065(AKR1E2)、0.17(LOC644172)、-0.33(TIMM17A)、0.015(ODF3L2)、0.74(ZRANB2)、-0.48(LRRC39)和-0.16(SYT2)。
将这15个基因的表达量乘以它们的相关系数,求和,计算风险值=-0.23x(FGF18表达量)+(-0.11x BZRAP1表达量)+(-0.28x FLJ42627表达量)+(0.18x BTN3A3表达量)+(0.99x C3orf58表达量)+(0.18x TAPBPL表达量)+(0.10x ADRA2C表达量)+(-0.10x FCAMR表达量)+(0.065x AKR1E2表达量)+(0.17x LOC644172表达量)+(-0.33x TIMM17A表达量)+(0.015x ODF3L2表达量)+(0.74x ZRANB2表达量)+(-0.48x LRRC39表达量)+(-0.16x SYT2表达量)。
步骤四:使用Kaplan–Meier预后分析和ROC分析验证该预后风险模型在早期结肠癌患者中用于预后预测的准确性。
如图5所示,根据风险值的中位数将患者分为高风险值组和低风险值组,使用Kaplan–Meier预后分析检测高风险值组和低风险值组的早期结肠癌患者的总体生存率,发现高风险值组的早期结肠癌患者预后确实比低风险值组的早期结肠癌患者预后更差;此外,使用ROC分析验证了该预后风险模型在早期结肠癌患者中用于预后预测的准确性高。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
机译: 预测致密乳房的乳腺病变恶性风险模型,以及构建乳腺病变恶性风险模型的方法
机译: 疾病预后模型的制作方法,使用该模型的疾病预后预测方法,基于该模型的预后预测装置,以及执行存储该程序的装置及存储介质的程序
机译: 用于预测用于预测对象的青光眼风险的预测模型的方法,使用这种预测模型,用于预测对象,计算机程序和计算机可读介质中的青光眼风险的装置确定青光眼风险的方法