公开/公告号CN112680519A
专利类型发明专利
公开/公告日2021-04-20
原文格式PDF
申请/专利权人 北京泱深生物信息技术有限公司;
申请/专利号CN202011592194.0
申请日2020-12-29
分类号C12Q1/6886(20180101);C12N15/11(20060101);G16B25/20(20190101);G16B50/00(20190101);
代理机构
代理人
地址 100176 北京市大兴区荣华南路10号院荣华鑫泰大厦3号楼1210
入库时间 2023-06-19 10:41:48
技术领域
本发明涉及疾病诊断领域,更具体地,本发明涉及用于肺癌诊断或预测肺癌预后的分子标志物。
背景技术
肺癌是中国以及全球发病率最高的恶性肿瘤,也是导致男性癌症死亡的首要原因。在女性人群中肺癌的发生率仅次于乳腺癌。全球疾病负担(Global Burden ofDisease,GBD)数据显示,2016年全球患有气管、支气管或肺癌的人数超过280万,其中中国患病人数高达100万。2016年全球患有上述癌症的死亡人数为170万,占总死亡人数的3.12%。中国2016年死亡患者数为59万,占总死亡人数的6.11%。统计结果显示,从1990年到2016年全球气管、支气管和肺癌患病率和死亡率持续增长,中国患病率和死亡率也持续增长且增长趋势和全球增长趋势相对一致。
中国云南是癌症高发区之一,特别是女性肺癌发病率是世界上最高的地区之一。云南省肺癌平均发病率为44人/10万人,是全国平均发病率的两倍。其中,云南省宣威地区肺癌发病率位居全国第一。宣威肺癌的发病机制尚不清楚。从近几年统计来看,宣威、富源等以采矿业较为集中的地区发病率较高,因此临床上不排除环境污染与肺癌的关系。目前针对肺癌尚无有效的治疗手段。早期肺癌患者可通过手术治疗达到较好的预后,因此肺癌的早发现早预防早治疗,防止疾病进展,避免临床失代偿性并发症的出现是肺癌治疗的基本原则。由于肺具有较强的代偿性,早期肺癌往往并不表现出明显的临床症状,而到了症状较明显时,往往已到了肺癌晚期。因此发现肺癌的诊断标志物具有良好的临床意义及应用价值。
临床上用于确诊肺癌的手段主要依靠超声影像并由肺穿刺进行确诊。超声诊断的灵敏度较低,而肺穿刺对患者的肺部有损伤,存在风险,不易推广,导致很多患者直到肺癌失代偿期才被确诊。最近有研究发现基因分子可以作为肺癌诊断的标志物,但是单个基因诊断的敏感度与特异性有待提高。
发明内容
本发明的目的是提供一种涉及分子标志物在诊断肺癌或预测肺癌预后中的用途和通过分子标志物诊断肺癌或预测肺癌预后的试剂盒和系统。
为了实现上述目的,本发明提供了一种诊断肺癌或预测肺癌预后的系统,该系统包括用于输入分子标志物的表达量的输入装置、用于输出肺癌诊断结果或预测肺癌预后结果的输出装置;其中所述分子标志物为GPR87、MFAP5、PKIB、TCN1。
进一步,所述系统还包括计算装置,所述计算装置包括存储器和处理器;所述存储器中存储有计算机程序,所述处理器被配置为执行所述存储器中存储的计算机程序;计算装置用于根据所述标志物的表达量,分析出肺癌风险结果的可能性或预测出肺癌患者预后情况。
例如,所述计算机程序运行以下公式:riskScore=(0.023942*GPR87基因mRNA表达水平)+(0.030008*MFAP5基因mRNA表达水平)+(0.086919*PKIB基因mRNA表达水平)+(0.041988*TCN1基因mRNA表达水平)。所述计算装置以riskScore的中位数为阈值,高于该阈值,判断肺癌患者预后差;低于该阈值,判断肺癌患者预后良好。
进一步,该系统还包括分子标志物的表达量的检测装置;优选地,所述检测装置包括实时定量PCR仪和实时定量PCR引物、高通量测序平台、检测芯片和芯片信号读取器。
进一步,所述芯片包括检测标志物表达量的探针;优选地,所述芯片还包括内参探针,所述内参探针为检测GAPDH或β-Actin的表达量的探针。
进一步,实时定量PCR引物包括检测分子标志物表达量的实时定量PCR引物;优选地,实时定量PCR引物还包括内参引物,所述内参引物为检测GAPDH或β-Actin的实时定量PCR引物。
本发明还提供了检测分子标志物的试剂在制备用于诊断肺癌或预测肺癌预后的产品中的用途,其中,所述分子标志物为GPR87、MFAP5、PKIB、TCN1。
进一步,所述试剂包括能够结合所述分子标志物的核酸;所述核酸能够检测所述分子标志物的表达水平。
更进一步,所述核酸包括实时定量PCR中使用的特异扩增所述分子标志物的引物。
更进一步,所述核酸包括基因芯片中使用的针对所述分子标志物的探针。
进一步,检测分子标志物是通过以下步骤进行的:
1)获得受试者样本;
2)确定所述样本中所述分子标志物的表达量。
本发明还提供了一种用于诊断肺癌或预测肺癌预后的产品,所述产品包括检测分子标志物表达量的试剂,所述分子标志物为GPR87、MFAP5、PKIB、TCN1。
进一步,所述产品包括芯片、试剂盒、试纸或高通量测序平台。
进一步,所述试剂的限定同前面所述。
所述芯片包括固相载体以及固定在固相载体的寡核苷酸探针。
所述试剂盒包括用于检测所述分子标志物转录水平的试剂。
所述高通量测序平台包括用于检测所述分子标志物转录水平的试剂。
所述试纸包括试纸载体和固定在试纸载体上的寡核苷酸,所述寡核苷酸能够检测所述分子标志物的转录水平。
本发明还提供了一种用于诊断肺癌或预测肺癌预后的分子标志物组合,所述分子标志物组合包括GPR87、MFAP5、PKIB、TCN1。
本发明还提供了用于检测前面所述的分子标志物组合表达量的试剂。
进一步,所述试剂包括能够结合所述分子标志物的核酸;所述核酸能够检测所述分子标志物的表达水平。
更进一步,所述核酸包括实时定量PCR中使用的特异扩增所述分子标志物的引物、基因芯片中使用的针对所述分子标志物的探针。
本发明的引物可以通过化学合成来制备,通过使用本领域技术人员知道的方法参考已知信息来适当地设计,并通过化学合成来制备。
本发明的探针可以通过化学合成来制备,通过使用本领域技术人员知道的方法参考已知信息来恰当设计,并通过化学合成来制备,或者可以通过从生物材料制备含有期望核酸序列的基因,并使用设计用于扩增期望核酸序列的引物扩增它来制备。
与基因的核酸序列杂交的探针可以是DNA、RNA、DNA-RNA嵌合体、PNA或其它衍生物。所述探针的长度没有限制,只要完成特异性杂交、与目的核苷酸序列特异性结合,任何长度都可以。所述探针的长度可短至25、20、15、13或10个碱基长度。同样,所述探针的长度可长至60、80、100、150、300个碱基对或更长,甚至整个基因。由于不同的探针长度对杂交效率、信号特异性有不同的影响,所述探针的长度通常至少是14个碱基对,最长一般不超过30个碱基对,与目的核苷酸序列互补的长度以15-25个碱基对最佳。所述探针自身互补序列最好少于4个碱基对,以免影响杂交效率。
根据本申请,GPR87在NCBI数据库中的参考编号为53836;MFAP5在NCBI数据库中的参考编号为8076;PKIB在NCBI数据库中的参考编号为5570;TCN1在NCBI数据库中的参考编号为6947。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请,但并不构成对本申请的限制。在附图中:
图1显示GPR87基因mRNA差异表达的箱线图,其中A:TCGA;B:GEO;
图2显示MFAP5基因mRNA差异表达的箱线图,其中A:TCGA;B:GEO;
图3显示PKIB基因mRNA差异表达的箱线图,其中A:TCGA;B:GEO;
图4显示TCN1基因mRNA差异表达的箱线图,其中A:TCGA;B:GEO;
图5显示GPR87基因诊断肺腺癌的ROC曲线图,其中A:TCGA;B:GEO;
图6显示MFAP5基因诊断肺腺癌的ROC曲线图,其中A:TCGA;B:GEO;
图7显示PKIB基因诊断肺腺癌的ROC曲线图,其中A:TCGA;B:GEO;
图8显示TCN1基因诊断肺腺癌的ROC曲线图,其中A:TCGA;B:GEO;
图9显示GPR87+MFAP5+PKIB+TCN1联合诊断肺腺癌的ROC曲线图,其中A:TCGA;B:GEO;
图10显示TCGA中GPR87+MFAP5+PKIB+TCN1预测肺腺癌预后的生存曲线图;
图11显示GEO中GPR87+MFAP5+PKIB+TCN1预测肺腺癌预后的生存曲线图。
具体的实施方式
以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请,并不用于限制本申请。
实施例1与肺癌诊断与预测预后相关的基因标志物
1、数据下载
从TCGA数据库下载肺腺癌的RNA-seq数据及临床信息,去除生存信息缺失的样本后,剩余样本量为癌旁:癌=59:500。从GEO下载了GSE31210数据集的芯片数据及临床信息,样本量为癌旁:癌=20:226。
2、数据标准化
对于TCGA的RNA-seq数据使用Voom方法进行标准化,GEO的芯片数据使用RMA方法进行标准化。
3、差异表达分析
使用R软件中的“limma”包进行差异表达分析,差异基因的筛选标准为adj.Pvalue<0.05,|log2FC|>1。在此标准下,TCGA中差异表达的基因有3948个,上调的差异表达基因有1504个,下调的差异表达基因有2444个。GEO中差异表达的基因有866个,上调的差异表达基因有323个,下调的差异表达基因有543个。在两个数据库中差异表达一致的基因有717个,一致上调的有241个,一致下调的有476个。
4、单因素Cox分析
对差异表达一致的717个基因进行单因素Cox分析,P<0.05的基因被认为是对肺腺癌患者的生存有影响。在此标准下,TCGA数据库中有246个基因,GEO数据库中有314个基因。两者进行取交集处理后,共156个基因。
5、多基因联合预测ROC曲线分析
使用R包“pROC”(版本1.15.0)绘制受试者工作曲线(ROC),分析AUC值、敏感性和特异性,判断指标单独或者联合的诊断效能。
在判断单独指标的诊断效能时,直接使用基因的表达量(log2表达量)进行分析,选择约登指数最大的一点对应的水平作为其cutoff值。
在判断指标联合的诊断效能时,首先是对基因进行logistics回归,其中,自变量为对应的指标,因变量为患病情况,通过拟合出的回归曲线可以计算出每个个体患癌与否的概率,确定不同的概率划分阈值即可得到预测结果。最佳概率划分阈值通过约登指数最大的一点确定。根据确定的概率划分阈值,可以计算得出每种联合方案在训练组和验证组的灵敏度、特异性。
6、Lasso cox回归分析
进行Lasso cox回归分析,构建LASSO回归模型。TCGA数据作为训练集,GEO数据作为测试集。利用Lasso cox回归模型系数(X1-4)与mRNA表达水平的线性组合构建预后genesignature。
riskScore=(X1*expression level of mRNA1)+(X2*expression level ofmRNA2)+(X3*expression level of mRNA3)+(X4*expression level of mRNA4)。
根据riskScore的中位数将肺腺癌患者分析高危(高分)和低危(低分)两组,通过KM生存分析,比较两组在生存时间上的差异,以此来评价gene signature在预后方面的预测价值。为了验证gene signature的预测价值,使用相同的公式在GEO数据中计算了风险评分。
7、结果
1)基因差异表达
GPR87、MFAP5、PKIB、TCN1在TCGA和GEO数据库中差异表达情况见图1-图4,差异具有统计学意义。
2)ROC曲线分析
GPR87、MFAP5、PKIB、TCN1和组合的诊断效能数据参见表1、表2和图5-图9。
表1 TCGA诊断效能分析
表2 GEO诊断效能分析
3)预后分析
TCGA数据作为训练集,利用Lasso cox回归模型系数与mRNA表达水平的线性组合构建预后gene signature。
riskScore=(0.023942*GPR87基因mRNA表达水平)+(0.030008*MFAP5基因mRNA表达水平)+(0.086919*PKIB基因mRNA表达水平)+(0.041988*TCN1基因mRNA表达水平)。
根据riskScore的中位数将肺腺癌患者分析高危和低危两组,通过KM生存分析,比较两组在生存时间上的差异,发现高危组患者的总体生存率显著低于低危组。使用相同的公式在GEO数据中计算了风险评分。与TCGA队列的结果一致,高危组患者的总体生存率显著低于低危组(图10和图11)。
综上所述,基于本发明的四个基因的gene signature能够预测肺腺癌的总体生存率。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。
此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
机译: 用于预测放疗后预测肺癌预后的生物标志物
机译: 用于预测肺癌患者预后的多态性生物标志物及其预测方法
机译: 用于预测肺癌患者预后的多态生物标志物及其预测方法