首页> 中国专利> 一种肝细胞肝癌患者预后预测模型的构建及应用

一种肝细胞肝癌患者预后预测模型的构建及应用

摘要

本发明提供了一组用于预测肝细胞肝癌患者预后的分子标志物,其所述生物标志物为lncRNA,所述lncRNA包括:MKLN1‑AS、LNCSRLR、POLH‑AS1、AC145207.5、LINC01063、AL161937.2和AC105345.1。本发明通过这7个lncRNA构建了可准确预测肝细胞肝癌患者预后的模型以及列线图,本发明中的风险评分预测模型和列线图均具有很好的普适性,和较高的准确性和灵敏度,其1年、3年、5年预测预后的AUC均大于0.7。

著录项

  • 公开/公告号CN113832227B

    专利类型发明专利

  • 公开/公告日2022-07-05

    原文格式PDF

  • 申请/专利权人 中山大学孙逸仙纪念医院;

    申请/专利号CN202111092690.4

  • 申请日2021-09-17

  • 分类号C12Q1/6886(2018.01);C12N15/113(2010.01);G16B40/00(2019.01);G16H50/20(2018.01);

  • 代理机构广州三环专利商标代理有限公司 44202;广州三环专利商标代理有限公司 44202;

  • 代理人颜希文;杨虹坤

  • 地址 510275 广东省广州市越秀区沿江西路107号

  • 入库时间 2022-08-23 13:58:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-05

    授权

    发明专利权授予

说明书

技术领域

本发明属于医学技术领域,具体涉及一种肝细胞肝癌患者预后预测模型的构建及应用。

背景技术

原发性肝癌作为最常见的全世界恶性肿瘤之一,其发病率占全世界癌症的4.7%,死亡率占8.3%,其中以肝细胞肝癌(Hepatocellular carcinoma,HCC)为主,占原发性肝癌的75%-85%。目前HCC的治疗主要是手术,辅助以局部治疗,其对放化疗不敏感。然而,对于中晚期患者,即使在接受根治性手术后,切除和移植的5年存活率分别只有30%和60%,预后并不乐观。临床迫切需要对HCC 患者的预后进行准确的评估,建立一个简洁便于临床实际操作的HCC预后的预测模型,从而更好地协助临床医生准确地评估患者的生存预后,对患者治疗过程中的决策提供有价值的参考,以便对患者进行更精准的治疗管理。

影响HCC患者预后的因素很多,包括肿瘤本身因素、患者一般状态等。目前临床上对HCC患者的预后评价的体系主要是临床病理分期系统和甲胎蛋白 (alpha fetoprotein,AFP)。目前,全球有多种肝癌临床分期系统,包括巴塞罗那分期(BCLC)、AJCC TNM分期、亚太肝脏研究协会分期(APASL)、意大利肝癌计划分期(CLIP)以及日本肝病学会分期(JSH)等,各分期方法各有优劣,在预测患者预后的方面各有偏重,且在生存相关预后预测中存在一定的局限性。此外,血清AFP是HCC最广泛使用的肿瘤标志物,是早期筛查患者并预测预后的方法,但血清AFP的水平受多种因素的影响,如肝硬化、慢性/活动性肝炎、妊娠、生殖细胞源性肿瘤等,且约30%的肝细胞肝癌患者AFP未见明显异常,同时其对预后预测的敏感度和特异度均较低。

长链非编码RNA(long noncoding RNA,lncRNA)是长度不小于200个核苷酸的RNA,其不参与或很少参与蛋白质编码,在细胞生长、分化、染色质调控以及基因表达调控等方面发挥着重要作用。越来越多的研究表明lncRNA与 HCC患者预后有密切关系。lncRNA可以在染色质调节、可变剪接调节以及转录调节等过程里发挥关键作用,同样也可以充当竞争性内源性RNA(competitive endogenous RNA,ceRNA),调控其下游的miRNA表达,最终影响mRNA的稳定性和翻译调控过程等。通过各种方式在表观遗传学、转录以及转录后水平等过程进行调控,提示lncRNA在HCC的发生发展起着重要作用,并且可以作为预测患者预后的独立因子。

发明内容

为解决上述技术问题,本发明提供了一种肝细胞肝癌患者预后预测模型的构建方法,获得可准确预测肝细胞肝癌患者预后预测模型。

本发明采用以下方案实现本发明的目的:

第一个方面本发明提供了一组用于预测肝细胞肝癌患者预后的lncRNA,所述lncRNA包括:MKLN1-AS,LNCSRLR,POLH-AS1,AC145207.5,LINC01063, AL161937.2,AC105345.1。

第二个方面本发明提供了一种用于预测肝细胞肝癌患者预后的试剂盒,所述试剂盒包括一组分子生物标记性的生物大分子,所述分子标记物包括一组 lncRNA,所述lncRNA包括:MKLN1-AS,LNCSRLR,POLH-AS1,AC145207.5, LINC01063,AL161937.2,AC105345.1。

优选地,所述试剂盒还包括核苷酸如SEQ ID NO:1~14所示的氨基酸序列。

第三个方面本发明提供一种肝细胞肝癌患者预后预测模型的构建方法,包括以下步骤:

S1从TCGA数据库中下载肝细胞肝癌患者的癌组织或癌旁正常组织样本的lncRNA表达量数据以及对应患者的临床信息数据;

S2根据纳入和排除标准筛序符合要求的癌组织样本和癌旁正常组织样本;

S3对所述S2样本的lncRNA与mRNA的表达谱分别进行差异分析,筛选正常组织与癌组织之间表达量显著差异的lncRNA,设定差异筛选标准为| logFc|>1,p<0.05;

S4将S3获得的差异lncRNA结合患者生存资料进行单因素Cox回归分析,筛选条件设定为p<0.01,筛选出与肝细胞肝癌预后明显相关的差异lncRNA,再进行多因素Cox回归模型构建,得到本发明用于预测肝细胞肝癌患者的预后预测模型,所述模型为如下的计算公式:

其中Risk Score为每个肝细胞肝癌样本的风险评分,Exp

优选地,所述与肝细胞肝癌预后明显相关的差异lncRNA具体包括: MKLNl-AS,LNCSRLR,POLH-AS1,AC145207.5,LINC01063,AL161937.2, AC105345.1。

优选地,所述预后预测模型具体如下:

Risk Score=-4.13484×AC105345.1+0.439897×AL161937.2+ 0.569063×LINC01063+0.598674×AC145207.5+0.922016×POLH-AS1+0.630741×LNCSRLR+1.3 69449×MKLN1-AS。

优选地,所述S1采用如下方式实现:选择Repository搜索模式,肿瘤部位选择liver and intrahepatic bile ducts,肿瘤病理类型选择TCGA-LIHC,数据类别选择transcriptome profiling,数据类型选择Gene Expression Quantification,数据处理形式选择HTSeq-FPKM。

优选地,所述纳入标准为:基因表达数据完整且质量高,临床资料完整,随访时间不小于30天;所述排除标准为:生存时间与生存状态缺失,AJCC TNM分期缺失,病理分级缺失或不明。

优选地,所述S2的表达谱采用如下方法获得:从Ensemble官网下载人类 Ensembleid与Symbol id的对应集以及人类编码基因/非编码基因注释的基因集,使用Perl语言进行基因名称转换以及lncRNA与mRNA的分离。

优选地,所述构建方法还包括:将根据Cox回归分析得到的独立临床因素,结合lncRNA风险评分模型,绘制列线图。

本发明的有益效果为:相比于传统的预测方法,本专利中的风险评分预测模型和列线图均具有很好的普适性,和较高的准确性和灵敏度。

附图说明

图1为本发明构建预测模型的流程图

图2为TCGA数据库显示肝细胞肝癌组织lncRNA的表达谱情况示意图。 A.差异表达的lncRNA火山图,B.差异表达的lncRNA热图(仅展示前50个 lncRNA);分组Type中,N代表癌旁正常组织,T代表癌组织。

图3为训练组中的模型评价示意图。A.样本总体风险曲线;B.样本总体生存状态分布图;C.7个lncRNA在高/低风险评分组表达的热图,除保护性 lncRNA-AC105345.1以外,其余lncRNA均是在高风险组的表达明显高于低风险组的表达;D.高/低风险评分组的生存分析。高风险组预后较差;E.1年、 3年、5年的模型时间依耐性ROC曲线。

图4为验证组中的模型验证示意图。A.样本总体风险曲线;B.样本总体生存状态分布图;C.7个lncRNA的表达热图;D.高/低风险组的生存分析曲线; E.1年、3年、5年的模型时间依耐性ROC曲线。

图5完整数据集中的模型验证示意图。A.样本总体风险曲线;B.样本总体生存状态分布图;C.7个lncRNA的表达热图;D.高组/低风险组的生存分析曲线;E.1年、3年、5年的模型时间依耐性ROC曲线。

图6为本发明预测模型的中7个lncRNA在临床样本中的验证示意图。T: Tumor;N:Normal.*p<0.05。

图7为独立临床危险因素筛选示意图。A.训练组中各临床因素对预后贡献的森林图;B.完整数据集中各临床因素对预后贡献的森林图。

图8为结合风险评分模型与TNM分期构建的列线图。纵向标尺为已筛选出的独立临床危险因素,横向标尺为对应分数。

图9为列线图的评价示意图。A.纳入所有临床因素、模型与列线图的决策分析曲线;B.1年、3年、5年的列线图时间依耐性ROC曲线。

图10为列线图的矫正曲线图。A.1年预测生存率矫正曲线;B.3年预测生存率矫正曲线;C.5年预测生存率矫正曲线。

图11为时间依耐性ROC曲线图。A.1年、3年、5年的TNM分期时间依耐性ROC曲线图;B.1年的TNM分期、lncRNA风险评分模型和列线图的时间依耐性ROC曲线对比图;C.3年的TNM分期、lncRNA风险评分模型和列线图的时间依耐性ROC曲线对比图;D.5年的TNM分期、lncRNA风险评分模型和列线图的时间依耐性ROC曲线对比图。

具体实施方式

为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例详细说明本发明的技术方案。如无特殊说明,本发明实施例中所涉及的试剂均为市售产品,均可以通过商业渠道购买获得。

①数据获取与初步处理

为了获取肝细胞肝癌的转录组表达谱数据与对应的患者临床信息数据,访问TCGA数据库(https://portal.gdc.cancer.gov/)。选择Repository搜索模式,肿瘤部位选择liver and intrahepatic bile ducts,肿瘤病理类型选择TCGA-LIHC,数据类别选择transcriptome profiling,数据类型选择Gene Expression Quantification,数据处理形式选择HTSeq-FPKM(官方矫正后的数据)。由此可下载TCGA数据库中424例肝细胞肝癌的癌组织/癌旁正常组织样本的lncRNA表达量数据以及对应患者的临床信息数据,其中癌组织374例,癌旁正常组织50例。本发明的总体流程见图1。

随后确定纳入和排除标准。纳入标准:1.基因表达数据完整且质量高;2.临床资料完整;3.随访时间不小于30天。排除标准:1.生存时间与生存状态缺失;2.AJCC TNM分期缺失;3.病理分级缺失或不明。经筛选后,共有338例肝细胞肝癌的癌组织样本纳入本发明,此外,另有50例肝细胞癌旁正常组织作为差异分析的对照组。

使用实用报表提取语言(Practical Extraction and Report Language,Perl)对经筛选后的TCGA转录组表达量数据和临床数据进行批量提取并整合(版本 5.30.2.1)。从Ensemble官网(http://asia.ensembl.org/index.html)下载人类Ensemble id与Symbolid的对应集以及人类编码基因/非编码基因注释的基因集,使用Perl 语言进行基因名称转换以及lncRNA与mRNA的分离,得到338例癌组织和50 例癌旁正常组织的lncRNA的表达谱,用于下一步的差异分析。

②差异分析与lncRNA模型的筛选

本发明接下来的数据分析均采用R语言(版本3.6.3)进行,使用工具为R Studio(版本1.2.1335)。通过调用“limma”包对338例癌组织和50例癌旁正常组织的lncRNA与mRNA的表达谱分别进行差异分析,设定差异筛选标准为| logFc|>1,p<0.05,分别从14143个lncRNA中筛选出3401个差异lncRNA,调用“pheatmap”包绘制热图,调用“ggplot2”包绘制火山图(图2),同时使用merge ()函数将临床数据与转录组表达量数据进行合并,用于下一步分析。

通过调用“caret”包中的createDataPartition()函数,将338例肝细胞肝癌的癌组织样本按7∶3的比例随机分为训练组和验证组,其中训练组238例,验证组 100例。createDataPartition()函数是针对分类标签进行混合后的分层随机抽样,可以保证训练集与测试集内的各类标签分布比例与样本总体的分布比例严格一致。接下来,通过调用“survival”、“survminer”包,对3401个差异lncRNA结合训练组患者生存资料进行单因素Cox回归分析,筛选条件设定为p<0.01,共筛选出39个与肝细胞肝癌预后明显相关的差异lncRNA,基于此39个lncRNA。通过调用“glmnet”包,进行多因素Cox回归模型构建(逐步回归,后退法),分别通过AIC值、LR值来评估逐步回归中每个模型的拟合度、准确性,从其中挑选AIC值最低,同时LR最大的模型,最终得到包含7个lncRNA的预后模型,基于此模型,对338例肝细胞肝癌样本分别计算风险评分(Risk Score),其计算公式为

表1:纳入模型的7个lncRNA信息

③lncRNA风险评分模型的验证

本发明对模型的评价主要采用时间依耐性受试者工作曲线,即时间依耐性 ROC曲线(the time dependent receive rope rating characteristic curve,time ROC)、生存曲线(survivorship curve)来进行评估,时间依赖性ROC曲线是经典ROC 曲线的扩展,经典ROC分析中要求研究对象的生存状态维持不变,但在医学随访研究中,患者的生存状态往往随着随访而发生变化,且由于依从性问题,不可避免会出现截尾数据,此时可采用时间依赖性ROC分析,其将生存分析和 ROC曲线相结合,可包含截尾数据,在反映模型预测的准确度的同时,也可以反映出不同时间节点模型的预测能力变化。在时间依耐性ROC分析中,可以根据研究对象在某个时点的生存状态,分别绘制各个时刻的ROC曲线,算出ROC 曲线下面积(area under the ROC curve,AUC),采用常用时间节点:1年、3年和5年,一般认为,AUC在0.6-0.7间为低准确度,0.7-0.9间为中等准确度,0.9-1.0 间为高准确度,但可能存在过度拟合。

根据前述模型得到的风险评分数值,通过中位数分别将训练组、验证组、完整数据集(图5)的样本各分为高风险与低风险两组,然后分别在训练组、验证组、完整数据集中根据高/低风险组分组情况进行生存分析,绘制风险曲线、生存状态图、热图、生存曲线以及时间依耐性ROC曲线。其中,训练组、验证组和完整数据集组病人的临床数据如表2。训练组的生存分析相关曲线用于评价模型的准确性和预测能力,验证组的相关曲线用于验证模型的预测能力与适用性。风险评分模型在训练组体现出较好的肝细胞肝癌患者预后预测的准确性(图 3),在验证组(图4)和完整数据集组(图5)也较好的验证了模型的预测能力。

表2训练集与验证集的基线特征表

(1)标本收集与组织RNA提取

本发明从中山大学孙逸仙纪念医院收集了2021年3月至2021年4月的肝细胞肝癌患者的癌组织与癌旁组织新鲜标本,共9例,手术切除后均立即置于液氮中保存。纳入标准:1.肝脏原发肿瘤;2.经病理切片证实为肝细胞肝癌;3. 初诊患者,未接受过放疗、化疗、免疫治疗等抗癌治疗。排除标准:1.随访资料缺失;2.合并其他恶性肿瘤。所有患者在收集标本前均已签署知情同意书。本研究已由中山大学孙逸仙纪念医院伦理委员会批准。

(2)RNA提取步骤:

1.将组织从液氮中取出,切割成约0.5cm×0.5cm×0.5cm绿豆大小,加入Trizol溶液1ml,使用研磨棒与研钵将组织充分研磨,静置5min,此过程均在冰上进行。

2.加入氯仿200ml,立即盖上盖子,剧烈摇晃15s,随后室温静置5min。

3. 4℃、12000rpm离心15min,取最上层澄清液体,即为RNA层。

4.取新管加入前述上清,加入一半体积异丙醇,混匀后静置10min。

5. 4℃、12000rpm离心10min,弃去上清。

6.加入75%乙醇500μl(预冷),洗涤后再次于4℃下离心5min(转速<7500 rpm)。

7.弃去上清,重复一次步骤6。

8.弃去上清,加入EP管,室温晾干至半透明。

9.加入DEPC水20μl,水浴锅60℃水浴10min,溶解RNA。

10.Nanodroop测定RNA浓度与纯度,-70℃保存备用。

(3)定量PCR

本发明所有引物由北京睿博兴科生物技术有限公司设计并合成,引物序列如下表3所示:

表3:引物序列

PCR具体步骤如下:

1.备好EP管、逆转录试剂盒、PCR试剂盒、冰盒、枪头等物品。

2.根据逆转录与PCR试剂盒说明,计算反应体系。

3.按逆转录试剂盒说明在冰上合成cDNA。

4.混合引物与SYBR mix,混合cDNA与水。

5.加样,摇晃均匀后上机。

结果如图6所示,AC105345.1在癌组织中低表达,在正常组织中高表达;AL161937.2、LINC01063、AC145207.5、POLH-AS1、LNCSRLR、MKLN1-AS 在在癌组织中均为高表达,在正常组织中均为低表达。

①独立临床危险因素筛选

为了寻找可能存在的影响肝细胞肝癌预后的独立临床因素,通过调用“survival”包对训练组和完整数据集进行Cox回归分析,绘制森林图用于直观表示,临床数据包括:年龄、性别、病理分级、AJCC TNM分期,接下来结合 Cox回归分析结果,通过独立临床因素将完整数据集分成对应亚组,分别绘制生存曲线,以评估模型在亚组中的预测能力。从森林图中可以看出无论是在训练组还是完整数据集,RiskScore、Stage、T的p值均小于0.001,其余临床因素p 值均大于0.05,由于Stage(即AJCC TNM分期)中包含T分期的内容,因此认为风险评分Risk Score和AJCC TNM分期均为影响肝细胞肝癌预后的独立临床危险因素。

②列线图的构建与评价

根据上一步Cox回归分析得到的独立临床因素,结合lncRNA风险评分模型,通过调用“rms”包,绘制可直观反映患者的预后情况的列线图(图8)。接下来对构建的列线图的预测能力与准确度做了相应的验证,包括决策分析曲线 (图9)、时间依耐性ROC曲线(图9)、矫正曲线(图10)以及C指数。矫正曲线通过Bootstrap自抽样方法来实现(Bootstrap自抽样是最常用的重复抽样方法之一,通过有放回地反复从原始样本群中抽取得到不同的新样本群),矫正曲线的基本思想是以真实生存率为纵坐标,以预测生存率为横坐标,然后根据列线图模型预测出所有患者在指定时间点的生存率,按生存率由低至高将患者分为数个节点,计算模型中每个节点的平均生存率预测值和校准点,用平滑曲线将所有校准点相连即得到预测曲线,而标准曲线反映真实生存情况,预测曲线与标准曲线越吻合,就说明模型的预测准确度越高。C指数(C-index)同样是通过Bootstrap自抽样来实现,用于评价模型是否存在过度拟合偏倚,C指数的评价与ROC曲线的AUC值类似,在0.6-0.7间为普通准确度,0.7-0.9间为中等准确度,0.9-1.0间通常存在过度拟合偏倚。决策曲线分析法可通过计算在不同阈值下模型的净获益(Net Benefit,NB),从而评估模型的临床实用性,净获益的计算公式如下:

其中tp为真阳性人数,fp为假阳性人数,n为总患者数,pt为阈值概率。净获益的含义是指在最大程度避免假阳性与假阴性的同时,模型能发现真正的高死亡风险患者的能力。一般来说,在指定阈值范围内,模型净获益越高则认为其临床实用价值越高,因此,决策曲线分析可以直观并准确地各种预后影响因素的临床价值并进行相互对比。

从矫正曲线中可以看出,列线图在1年、3年、5年的预测值与实际值吻合度均较高,说明列线图具有良好的准确度;决策分析曲线反映了基于RiskScore 与Stage分期建立的列线图对患者的净获益优于RiskScore与Stage分期本身,且明显优于其他的单个临床因素,这反映了此列线图是能最大程度避免假阳性和假阴性的预测指标;而时间依耐性ROC曲线的1年、3年、5年AUC值分别为0.796、0.811、0.795,同时经计算可得到列线图的C指数为0.696(95%CI: 0.644-0.767,p<0.001),这都说明列线图(图8)具有良好的预测预后能力。

③不同预测方式的预后价值比较

为了对本发明中涉及到的不同预测方式做比较,首先对TCGA数据库中338 个肝细胞肝癌的样本进行了TNM分期的时间依耐性ROC曲线绘制(图11A),计算其曲线下面积AUC值,并且和lncRNA风险评分模型、列线图的时间依耐性ROC曲线分别做了对比(图11B,C,D),从中可以看出,1年、3年、5年的模型与列线图的曲线互有交叉且预测价值相似,但都普遍优于TNM分期,为了进一步了解模型、列线图与TNM分期的曲线下面积AUC值在两两之间有无统计学差异,先进行了正态性检验,结果显示均满足正态分布(p值分别为:0.187、 0.107、0.328),接下来使用配对t检验比较两两之间的平均AUC值有无明显差异(表3),从结果中可以看出,模型与TNM分期之间、列线图与TNM分期之间的平均AUC值有统计学差异,模型与列线图之间的平均AUC值则无明显差异,同时模型与列线图的AUC平均值均大于TNM分期,可以认为模型与列线图的预后预测能力不劣于AJCC TNM分期,而模型与列线图之间比较,预后预测能力相似。

表3三种预后方式的AUC值比较结果

最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号