首页> 中国专利> 用于骨肉瘤分型和评估骨肉瘤预后的基因及其应用

用于骨肉瘤分型和评估骨肉瘤预后的基因及其应用

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

在本发明中，针对肿瘤异质性，我们比较了常规骨肉瘤和正常松质骨之间细胞动力学和分子特征的差异，基于单细胞RNA测序(scRNA‑seq)技术或基因检测试剂盒、基因检测芯片技术或免疫组化法，检测了骨肉瘤细胞的明显分化方向，并研究了肿瘤微环境中每种细胞类型之间可能的相互作用。根据骨肉瘤细胞的分化方向，可将常规骨肉瘤分为三类，描述了每种类型的肿瘤微环境特征，并根据癌症基因组图谱(TCGA)数据验证了每种类型的预后。

著录项

公开/公告号CN113881768B

专利类型发明专利
公开/公告日2023.10.03

原文格式PDF
申请/专利权人上海长征医院;上海理工大学;
展开▼

申请/专利号CN202110663031.5
发明设计人肖建如;魏海峰;周旺;张浩;龚海熠;王霆;
展开▼

申请日2021.06.15
分类号C12Q1/6886(2018.01);G01N33/574(2006.01);G01N33/543(2006.01);C12N15/11(2006.01);
代理机构上海九泽律师事务所 31337;
代理人辜佳麒
地址 200003 上海市黄浦区凤阳路415号
入库时间 2023-11-27 17:39:07

法律信息

法律状态公告日

法律状态信息

法律状态
2023-10-03

授权

发明专利权授予

说明书

技术领域

本发明属于生物医学技术领域，具体涉及用于骨肉瘤分型和评估骨肉瘤预后的基因、检测试剂盒、检测芯片及其应用。

背景技术

骨肉瘤(Osteosarcoma,OS)是最常见的原发性骨恶性肿瘤。在1970年代广泛使用化学疗法之前，手术切除是OS患者可用的主要治疗方式。辅助化疗的实施显着改善了OS患者的预后，非转移患者的五年生存率从20％提高到60％以上。但是，具有转移或复发性疾病的患者的预后并未得到明显改善，两组的生存率仅为20％。随后，在过去的四十年中，OS患者的治疗模式和预后没有发展多少。因此，迫切需要确定可以改善OS管理的分子机制和新疗法。

随着近年来靶向疗法的巨大成功，骨肉瘤的治疗有了新的希望。已经针对骨肉瘤患者进行了许多靶向药物的临床试验，其中包括酪氨酸激酶抑制剂(TKIs)，这是癌症治疗中最常见的靶向药物之一。在一系列的TKIs报告中，阿帕替尼在晚期OS患者中获得了最高的43％的部分缓解(PR)率，而毒性作用导致68％的患者剂量减少或中断。鉴于靶向治疗在未选择的OS患者中观察到的临床益处有限，因此有必要发现OS的分子亚型，因为基于亚型的靶向治疗可能在癌症治疗中获得临床益处。

现有的临床分期(TNM)及分级(病理)诊断方法无法很好的解释患者预后的异质性，也无法很好地指导患者进行化疗、靶向治疗等个性化治疗。

发明内容

基于此，本发明的目的在于提供一种可很好解释患者预后的异质性，并适用于指导患者进行化疗、靶向治疗等个性化治疗的用于骨肉瘤分型和评估骨肉瘤预后的基因。具体技术方案如下：

一种用于骨肉瘤分型和评估骨肉瘤预后的基因集，其特征在于，所述基因群包括44个基因，如表2所示。

在其中一些实施例中，所述的44个基因及其与一个或多个相关基因的组合，所述相关基因选自：AC074351.1、AC091729.3、AC245595.1、ACAN、ACTA2、ACTG1、ACTN1、ACTR3B、ADIRF、AKR7A2、AL118516.1、ALKBH5、ALPL、ANKH、ANP32B、ANXA2、ANXA6、AOC2、APRT、ARF1、ARF4、ARGLU1、ARL1、ARL3、ARL4D、ARL6IP5、ASPM、ASS1、ATF3、ATP2B1、ATP5F1D、ATP5IF1、ATP5MC2、ATP5MC3、ATP5MD、ATP5ME、ATP5PF、ATPAF2、ATRAID、AURKB、B2M、B9D1、BAMBI、BASP1、BEX3、BGN、BIRC5、BMP3、BMP8B、BNIP3、BSG、BST2、BTF3、C12orf57、C12orf75、C19orf12、C19orf24、C19orf70、C1orf54、C1QBP、C1QTNF1、C1QTNF3、C4orf3、C5orf15、C7orf50、C8orf59、CA2、CADM1、CADM2、CALD1、CALM1、CALM2、CALU、CAMTA1、CAPZB、CARHSP1、CAVIN3、CBLN4、CBX5、CCDC80、CCNB1、CCNB2、CCND1、CCPG1、CCSER2、CCT2、CCT5、CCT6A、CD151、CD200、CD24、CD320、CD59、CD63、CD99、CDC20、CDC34、CDH11、CDK1、CDKN1C、CDKN2A、CDKN3、CEBPD、CENPA、CENPE、CENPF、CENPW、CERCAM、CETN2、CFH、CFL1、CGGBP1、CHCHD2、CHMP2A、CHN1、CIRBP、CKAP2、CKS1B、CKS2、CLEC11A、CLNS1A、CLSPN、CLU、CMSS1、CNN2、CNN3、CNPY2、COA4、COL10A1、COL11A1、COL18A1、COL1A1、COL1A2、COL3A1、COL5A2、COL6A1、COL6A2、COL8A1、COMMD4、COPS3、COPS9、COPZ1、COPZ2、COX20、COX6C、COX7A1、COX7C、CPE、CPQ、CRABP2、CRELD2、CRISPLD1、CRYAB、CRYGS、CSAG1、CSNK2B、CSRP1、CSRP2、CTGF、CTHRC1、CTNNAL1、CXCL14、CYB5A、CYB5R3、CYC1、CYP1B1、CYR61、CYTOR、DAD1、DAP、DBI、DCN、DCP1A、DDIT4、DDOST、DDT、DDX18、DDX24、DEK、DGCR6L、DGUOK、DNAJC15、DNAJC19、DNM3OS、DOHH、DPT、DSTN、DTYMK、DUT、DYNLL1、DYNLT1、DYNLT3、EBNA1BP2、EBPL、ECI1、EEF1A1、EEF1B2、EEF2、EFEMP2、EFHC1、EGFL6、EID1、EIF2S1、EIF3E、EIF3F、EIF3H、EIF3I、EIF4A1、EIF4A2、EIF6、ELOB、ELOC、EMP1、EMP2、EMP3、ENAH、ENO1、ENPP1、ENPP2、ENY2、EPB41L4A-AS1、EPDR1、EPSTI1、ERGIC3、ERH、ERLEC1、ERV3-1、ESF1、FAAP20、FAM114A1、FAM162A、FAP、FBLN1、FBN1、FDPS、FERMT2、FGF7、FGFR1、FGFR3、FHL1、FHL2、FIS1、FKBP10、FKBP11、FKBP3、FKBP7、FLOT1、FLRT3、FLYWCH2、FMOD、FN1、FNDC1、FOLR1、FOXK1、FSTL1、FUNDC1、FXYD1、FXYD6、GABARAP、GABPB1-AS1、GADD45B、GAL、GAMT、GAPDH、GAS6、GCSH、GGT5、GJA1、GLRX5、GLT8D2、GNAS、GNL1、GNPAT、GOLT1B、GPAA1、GPC1、GPX4、GPX8、GRP、GSTA1、GSTM3、GTSE1、GUK1、H2AFV、H2AFZ、HACD3、HADH、HAPLN1、HAS2、HCFC1R1、HES4、HILPDA、HIST1H1C、HIST1H2AC、HIST1H2BC、HIST1H2BN、HIST1H4E、HIST2H2BE、HLA-A、HLA-B、HLA-C、HMGB1、HMGB2、HMGB3、HMGN2、HMGN5、HNRNPA1、HNRNPAB、HP1BP3、HPF1、HSD17B10、HSP90AB1、HSPD1、HTRA1、IBSP、ID1、ID3、IER2、IER3、IER5L、IFI27、IFI27L1、IFI27L2、IFI35、IFI44L、IFI6、IFIT1、IFIT3、IFITM2、IFITM3、IFITM5、IGFBP2、IGFBP3、IGFBP4、IGFBP6、IGFBP7、IKBIP、ILF2、IMPDH2、INAFM1、INHBA、INSC、IRS1、IRX3、ISG15、ISLR、ITGA10、ITGA11、ITGAE、ITGBL1、JPT1、JUNB、KCNJ15、KDELR1、KDELR2、KDELR3、KIZ、KLF10、KLK4、KNOP1、LAGE3、LAMA4、LAMP1、LAPTM4A、LAPTM4B、LARP6、LAS1L、LDHA、LDHB、LENG8、LGALS1、LGALS3、LGALS3BP、LHFPL6、LIMA1、LINC00662、LMAN1、LMNA、LOXL1、LRRC1、LRRC15、LRRC17、LRRFIP2、LSM7、LTBP1、LUC7L3、LUM、LY6E、LY6K、LYPLA1、MAD2L1、MAGEA3、MAGED1、MAGED2、MAGEH1、MAP1B、MAP3K13、MARCKSL1、MCRIP1、MDH2、MDK、MED9、MEGF10、MELTF、METTL5、MFAP2、MFGE8、MFSD10、MGST3、MIF、MIR4458HG、MKI67、MLF2、MLLT11、MMP11、MMP13、MMP23B、MNS1、MORF4L1、MORF4L2、MPC1、MPG、MRC2、MT1E、MT1F、MT1G、MT1M、MT1X、MT2A、MTDH、MUC20-OT1、MXRA8、MYC、MYL12A、MYL12B、MYL6、MYL6B、MYL9、MYO6、MZT1、MZT2A、NACA、NASP、NBL1、NCBP2-AS2、NCLN、NCOR1、NDN、NDUFA4、NDUFA4L2、NDUFA6、NDUFB10、NDUFB11、NDUFB9、NDUFC2、NDUFS5、NEDD8、NELFE、NENF、NEU1、NFIC、NHP2、NIFK、NIPSNAP2、NME1、NME4、NNMT、NOP56、NOTCH3、NPB、NPM1、NPW、NQO2、NSMCE1、NSMCE3、NT5E、NTHL1、NTM、NUBP2、NUCB1、NUCKS1、NUDCD2、NUPR1、NUSAP1、OAS1、OAT、OCIAD1、OGN、OLFML3、OMD、OST4、OSTC、PA2G4、PABPC1、PALLD、PAXX、PCBP1、PCBP2、PCLAF、PCNA、PCOLCE、PCOLCE2、PDCD2、PDCD5、PDGFD、PDGFRL、PDLIM2、PDLIM4、PDLIM7、PDRG1、PFDN2、PFDN4、PHB、PHF19、PHGDH、PHLDA3、PHPT1、PIGL、PIGT、PITX2、PLAC9、PLAT、PLEKHA5、PLIN3、PLOD2、PLP2、PLS3、PMEPA1、PODNL1、POLR1D、POLR2F、POLR2K、POLR3K、POP4、POR、PPA1、PPFIBP1、PPIB、PPIC、PPP1CB、PRAF2、PRDX2、PRDX4、PRDX6、PRELP、PRKDC、PRPSAP2、PRRX1、PRRX2、PRSS23、PSIP1、PSMA2、PSMA3、PSMA4、PSMA7、PSMB1、PSMB5、PSMB6、PSMB7、PSMB8、PSMB9、PSME1、PSME2、PSMG3、PSMG4、PTGDS、PTGES、PTGES3、PTH1R、PTMS、PTN、PTS、PTTG1、PTTG1IP、PTX3、PVT1、PYCR1、QPCT、RAB2A、RAB31、RAB34、RABAC1、RAC3、RAD21、RAI1、RALY、RAMP1、RAN、RANBP1、RARRES3、RASD1、RBBP6、RBBP7、RBX1、RCN1、RCN3、REXO2、RFT1、RGCC、RGS3、RHOC、RHOD、RIDA、RNASEH2B、RNPS1、RPN2、RPS19BP1、RRBP1、RRM2、RSF1、RSL1D1、RSRP1、RSU1、RTRAF、RUNX2、S100A10、S100A11、S100A13、S100A16、S100A4、S100A6、SAP25、SAR1A、SDC2、SDF2L1、SEC11A、SEC61B、SEC61G、SELENOK、SELENOM、SELENOW、SEM1、SEPTIN11、SERBP1、SERF2、SERPINA1、SERPINE2、SERPINF1、SERPING1、SERPINH1、SEZ6L2、SF3B6、SFTA1P、SGCB、SHMT2、SIVA1、SLC25A39、SLC25A6、SLC29A1、SLIRP、SMC1A、SMC2、SMC3、SMC4、SMDT1、SMIM10、SMIM26、SMOC1、SNAI2、SNHG8、SNRNP25、SNRPA1、SNRPB、SNRPB2、SNRPD3、SNRPE、SNRPG、SNX3、SNX7、SOD1、SOX4、SPARC、SPATS2L、SPHK1、SPP1、SPRY1、SRM、SRPX、SRSF1、SSB、SSR3、ST13、STAT1、STMN1、STMP1、STXBP6、SUB1、SULF1、SUMF2、SUN1、SUPT16H、SURF4、SWI5、SYNGR1、TAF1D、TAF7、TAGLN、TAGLN2、TAX1BP3、TBCA、TCEA1、TCEAL3、TCEAL9、TECR、TERF1、TEX30、TFDP1、TFPI、TGFB1I1、TGFBI、THUMPD3-AS1、THY1、TIMM13、TIMP1、TIMP3、TKT、TM2D3、TMBIM6、TMED10、TMED2、TMED9、TMEM106C、TMEM14A、TMEM167A、TMEM258、TMEM259、TMEM45A、TMEM50A、TMEM98、TMSB15A、TNC、TNFAIP6、TNFRSF12A、TNFSF10、TOMM20、TOP2A、TPI1、TPM1、TPM2、TPM4、TPX2、TRAPPC1、TRIM16L、TRIR、TSPO、TUBA1A、TUBA1B、TUBA1C、TUBB、TUBB2A、TUBB2B、TUBB4B、TUBB6、TUFM、TUSC3、TVP23B、TXN、TXNL1、TYMS、UACA、UBB、UBE2C、UBE2I、UBE2L3、UBE2L6、UBE2S、UBE2T、UBE2V2、UCHL1、UCHL3、UFD1、UNC5B、UQCRB、UQCRC2、UQCRFS1、UQCRH、URI1、USP1、USP11、UTP11、VAMP5、VBP1、VCAN、VDR、VKORC1、VWA1、WDR18、WFDC1、WIPI2、XRCC6、YIF1A、YPEL3、YWHAE、YWHAQ、ZFHX4、ZNHIT1、ZRANB2、ZSCAN16-AS1和ZSWIM7。

在其中一些实施例中，所述基因群是由840个基因组成的基因群，所述基因群如表1所示。

本发明还涉及一种基因集的应用，具体技术方案如下：

如上所述的基因集在制备用于骨肉瘤分型和评估预后的检测试剂盒中的应用，所述检测试剂盒包括：扩增如上所述评估用于骨肉瘤分型和评估预后的基因集的基因的引物；和/或

特异性结合如上所述评估用于骨肉瘤分型和评估预后的基因集的基因和/或其互补序列的探针；和/或

特异性结合如上所述评估用于骨肉瘤分型和评估预后的基因集的基因表达的蛋白的抗体。

在其中一些实施例中，所述引物包括：核苷酸序列如SEQ ID NO.1-SEQ ID NO.88所示的引物。

在其中一些实施例中，所述应用为所述的基因集在制备用于骨肉瘤分型和评估预后的蛋白检测芯片中的应用，所述基因芯片包括固相载体和检测抗体，在所述固相载体上固定有与如上所述的基因集的基因特异性结合的捕获抗体，所述检测抗体与抗体标记物连接。

在其中一些实施例中，所述抗体标记物为：酶标记、荧光素标记、同位素标记或生物素标记。

本发明还涉及一种用于骨肉瘤分型和评估骨肉瘤预后的试剂盒，具体技术方案如下：

一种用于骨肉瘤分型和评估骨肉瘤预后的试剂盒，包括

1)扩增如上所述评估用于骨肉瘤分型和评估预后的基因集的基因的引物；和/或

2)特异性结合如上所述评估用于骨肉瘤分型和评估预后的基因集的基因和/或其互补序列的探针；和/或

3)特异性结合如上所述评估用于骨肉瘤分型和评估预后的基因集的基因表达的蛋白的抗体。

在其中一些实施例中，所述检测试剂盒包括：总RNA抽提试剂、逆转录试剂和/或测序试剂。

在其中一些实施例中，所述检测试剂盒包括：dNTP溶液和/或RNA逆转录酶。

在其中一些实施例中，所述的测序试剂包括二代测序试剂或单细胞测序试剂。

在其中一些实施例中，所述引物包括：核苷酸序列如SEQ ID NO.1-SEQ ID NO.88所示的引物。

本发明还涉及一种用于骨肉瘤分型和评估骨肉瘤预后的芯片，具体技术方案如下：

一种用于骨肉瘤分型和评估骨肉瘤预后的基因检测芯片，所述基因芯片所述基因芯片包括固相载体和检测抗体，在所述固相载体上固定有与如上所述的基因集的基因特异性结合的捕获抗体，所述检测抗体与抗体标记物连接。

本发明还涉及一种用于骨肉瘤分型和评估骨肉瘤预后的方法，可以理解的，骨肉瘤的分型和评估骨肉瘤的预后不仅在医学诊断和治疗中应用，同时还可应用于科研，具体应用为用于相关分型和评估产品的开发(例如试剂盒、检测芯片的开发)、分型和评估模型的建立等。本发明要求保护的具体技术方案如下：

一种非诊断、非治疗目的的骨肉瘤分型方法，其特征在于，检测样本中的如上所述的基因集中骨肉瘤分型和评估预后的基因含量或所述基因表达的蛋白的含量。

在其中一些实施例中，采用如上所述的试剂盒或如上所述的基因检测芯片，检测样本中的基因表达水平，并通过数据分析得到骨肉瘤分型结果。

在其中一些实施例中，，ABCF1、ADAMTS1、ALDH3A2、ALKBH5、ATPAF2、C19orf12、CENPV、CPNE3、DRG2、EPN2、FLII、FSCN1、GID4、HIST1H2BD、LSM2、MPRIP、MYO15A、PEMT、PI15、PRAME、PRR3、TOM1L2、TTC19、VARS中的任意2个以上基因高表达时，其骨肉瘤分型为1型，该型骨肉瘤患者预后好；和/或

AEBP1、ASPN、C1R、C1S、COL12A1、COL5A1、COL6A3、OLFML2B、POSTN、SFRP4、THBS2中的任意2个以上基因高表达时，其骨肉瘤分型为2型，该型骨肉瘤患者预后尚可；和/或

ATP1B3、CDK4、DNAJC3、GGH、HSPB11、LMO7、PFN2、SGO2、UPF3A中的任意2个以上基因高表达时，其骨肉瘤分型为3型，该型骨肉瘤患者预后差。

在其中一些实施例中，ABCF1、ADAMTS1、ALDH3A2、ALKBH5、ATPAF2、C19orf12、CENPV、CPNE3、DRG2、EPN2、FLII、FSCN1、GID4、HIST1H2BD、LSM2、MPRIP、MYO15A、PEMT、PI15、PRAME、PRR3、TOM1L2、TTC19和VARS基因高表达时，其骨肉瘤分型为1型，该型骨肉瘤患者预后好；和/或

AEBP1、ASPN、C1R、C1S、COL12A1、COL5A1、COL6A3、OLFML2B、POSTN、SFRP4和THBS2基因高表达时，其骨肉瘤分型为2型，该型骨肉瘤患者预后尚可；和/或

ATP1B3、CDK4、DNAJC3、GGH、HSPB11、LMO7、PFN2、SGO2和UPF3A基因高表达时，其骨肉瘤分型为3型，该型骨肉瘤患者预后差。

基于上述技术方案，本发明具有以下有益效果：

在本发明中，针对肿瘤异质性，我们比较了常规骨肉瘤和正常松质骨之间细胞动力学和分子特征的差异，基于单细胞RNA测序(scRNA-seq)技术或基因检测试剂盒、基因检测芯片技术或免疫组化法，检测了骨肉瘤细胞的明显分化方向，并研究了肿瘤微环境中每种细胞类型之间可能的相互作用。根据骨肉瘤细胞的分化方向，可将常规骨肉瘤分为三类，描述了每种类型的微环境特征，并根据癌症基因组图谱(TCGA)数据验证了每种类型的预后。

附图说明

图1为经典型(成骨型)骨肉瘤与正常松质骨样本的测序数据的UMAP与所有亚群的鉴定。

图2为A\B\C三种亚型富集通路的热图展示。

图3为Targert-OS数据集中患者临床信息与44个特征基因集的表达情况展示。

图4为Target-OS数据集中病例分型后不同亚型的生存情况。

图5为A型24个基因的表达高低和生存时间对应关系绘制曲线。

图6为B型9个基因的表达高低和生存时间对应关系绘制曲线。

图7为C型11个基因的表达高低和生存时间对应关系绘制曲线。

图8-10分别针对44个基因的表达高低和生存时间对应关系绘制曲线。

具体实施方式

为了便于理解本发明，下面将参照实施例对本发明进行更全面的描述，以下给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。应理解，下列实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。实施例中所用到的各种常用试剂，均为市售产品。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面通过实施例对本发明进行详细介绍：

实施例1用于骨肉瘤分型和评估骨肉瘤预后的基因筛选

我们通过对GEO公共数据库(全称Gene Expression Omnibus，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库)中单细胞高通量测序数据的筛选，筛得一项编号为GSE152048的骨肉瘤10x单细胞测序数据，选择其中6例经典型骨肉瘤(成骨型骨肉瘤)数据进行后续分析。此外选取了来自上海长征医院接受外科手术的9例退变患者的松质骨样本的单细胞测序数据。综合上述两组数据集进行骨肉瘤分子分型及预后分析。

通过对上述数据集的无监督降维和聚类分析获得可视化UMAP及不同细胞簇。UMAP(Uniform Manifold Approximation and Projection)是一种新的降维流形学习技术，建立在黎曼几何和代数拓扑理论框架上。UMAP是一种非常有效的可视化和可伸缩降维算法。通过将为和可视化展示细胞数据特征。进一步地，通过公认标志基因对每个细胞簇进行细胞类型的注释，并使用单细胞分析Monocle 3算法对肿瘤细胞群进一步细分，一共获得28个不同细胞类型的细胞群，以及经典型骨肉瘤的3种不同分化方向的亚型，分别定义为A型、B型和C型，如图1所示。

通过基因组变异分析(GSVA，Gene Set Variation Analysis)计算了A型、B型和C型此3种不同分化方向的骨肉瘤亚型的通路富集情况，使用热图展示了差异最大的及治疗相关通路的富集情况，如图2所示。

通过计算此3种不同亚型的肿瘤细胞群的差异基因，我们一共筛选获得了840个与骨肉瘤预后及治疗相关的基因集，见表1(其中，表格中的分型为该基因高表达时可能对应的3种不同分化方向)。

表1与骨肉瘤预后及治疗相关的基因集

我们使用FindMarker方法计算了OS-A2，OS-B2和OS-C2中分别特征性表达的基因，各取TOP300的基因，去除重复基因，共获得850个差异基因，绘制了这850个基因在整体28个细胞群中表达情况的小提琴图，从中筛选出在肿瘤群OS-A2，OS-B2和OS-C2中特征性高表达的44个基因。

实验结果：获得44个与骨肉瘤预后及治疗相关的基因的基因集，见表2。

表2与骨肉瘤预后及治疗相关的基因集

实施例2 TARGET-OS分类和生存分析

在整体骨肉瘤公共数据库样本中验证，从癌症基因组图谱(TCGA)数据库中筛选了骨肉瘤测序数据。于2021年1月30日从TCGA数据门户网站下载了标准化的RNA测序FPKM和Clinic文件。

根据44个基因在Target-OS数据集中各个病例样本中的表达高低，将85例骨肉瘤病例与临床信息进行了分类，我们可以将Target-OS数据集中的临床病例分为相应的Cluster1，Cluster2和Cluster3。例如将A型基因高表达、B型和C型基因低表达的患者定义为Cluster1，将C型基因高表达、B型和A型基因低表达的患者定义为Cluster2，将B型基因高表达、A型和C型基因低表达的患者定义为Cluster3。将我们通过热图显示了分类数据集的临床信息和差异基因表达，如图3所示。

根据病例的回顾性分析数据，制作3中分型患者的生存曲线，用于证明各个基因及基因集在骨肉瘤患者中存在生存的差异。根据生存曲线和5年生存率，如图4所示，我们发现Cluster3(B型)患者的预后最差，Cluster2(C型)患者的预后稍好于Cluster3，而Cluster1(A型)患者的预后最好。

实施例3分析方法

实施例1所述单细胞样本制备、测序以及分析方法如下：

一、样品制备和测序

分离样品后1小时内将所有样品冷链运输到实验室。根据标准的10x Genomics样品制备方法，首先将组织样品切成2-4毫米大小的片，然后用胶原酶消化，并在37℃的振荡器中孵育。消化和孵育后的细胞悬液通过滤网过滤，并将过滤后的内容物离心以去除酶。取上清液计数细胞，根据细胞技术的结果调整细胞密度，然后进行单细胞测序。单细胞测序使用10xGenomics公司Single Cell A Chip Kit，Single Cell 3’Library和Gel Bead KitV2对每个样品的细胞悬液进行3'单细胞RNA测序，目标细胞回收数目为10,000。

二、scRNA-seq数据的过滤和标准化

将下载的raw_UMI_matrix文件中UMI计数的对数归一化为相似的TPM值，然后使用log2刻度将每百万个笔录(TPM)加1。我们过滤每个样品的数据，保留至少3个细胞中表达的基因，除去表达线粒体基因的细胞(占表达基因总数的20％以上)，以及nFeature_RNA小于200或超过5000以上的细胞时，剩余的细胞和基因的表达矩阵将用于后续分析。

三、下载的sc-RNA测序数据的无监督降维和聚类

使用Seurat V3.2.2集成上一步中获得的过滤后的表达式矩阵，使用FindIntegrationAnchors和IntegrateData函数进行数据集成，并使用RunUMAP和FindClusters函数进行UMAP可视化和单元群集。使用已知的标记基因为每个细胞簇注释细胞类型。

四、差异基因的计算和显示

在Seurat软件包中使用FindAllMarkers和FindMarker函数来计算专门为每个细胞亚组表达的基因。对于被Monocle3细分的上皮细胞和Clara细胞群体，我们将这些细胞亚群的分组信息映射回Seurat对象，并计算重写该分组信息的Seurat对象的差异基因。根据计算结果，使用ggplot2和heatmap包以可视方式显示热图，小提琴图和气泡图。

五、途径富集(GSVA)

将所有细胞和基因的表达矩阵作为输入，并使用GSVA方法计算每个细胞中不同代谢途径的富集(主要是计算GO和KEGG相关途径)，并通过热图对其进行可视化。

六、上皮细胞分化轨迹Monocle3的分析

使用Monocle3 V 0.2.3.0算法，通过将Seurat对象中已确定的细胞亚群的基因-细胞矩阵作为输入，并使用new_cell_data_set函数创建cds对象，并使用默认参数进行降维、聚类和分化轨迹推断，以计算该细胞群中细胞的细胞状态变化。

接下来如实施例2所述，通过TCGA里面的Target-OS数据集进行了生存验证，方法如下：

七、Target-OS数据集

癌症基因组图谱(TCGA)数据库中筛选了骨肉瘤测序数据。于2021年1月30日从TCGA数据门户网站下载了标准化的RNA序列FPKM和Clinic文件。总共获得了85个具有临床随访信息的骨肉瘤病例的Target-OS数据集。

八、Kaplan-Meier生存曲线(特征基因集)

对于上一步中下载的Target-OS数据集，在归一化之后对其进行了整合。将整合后的数据集，我们使用Survival软件包绘制了数据集中不同亚型基因集的Kaplan-Meier生存曲线(包括OS和RFS)。具体而言，从诊断到死亡或最后一次随访时间计算总生存率(OS)。RFS(无复发生存率)是指从患者完全缓解(基本上在诊断后约1个月)到患者复发或随访截止日期之间的时间。

实验结果：我们可以根据患者骨肉瘤组织的检测结果将骨肉瘤患者分为3类，并对其治疗有不同建议。Cluster1型：患者预后最好。Cluster2型：患者预后尚可。Cluster3型：患者预后最差。其预测结果与随访得到的实际患者预后情况一致。

实施例4用于骨肉瘤分型和评估骨肉瘤预后的试剂盒—IHC法(免疫组织化学染色)

采用免疫组化法，检测骨肉瘤样品中的实施例2所述44个基因的基因集的表达量高低，并分析得到骨肉瘤患者的分型，并对其治疗给出建议。

(一)组织包埋

(1)取材：新鲜组织固定于4％多聚甲醛24h以上。将组织从固定液取出在通风橱内用手术刀将目的部位组织修平整，将修切好的组织和对应的标签放于脱水盒内。

(2)脱水：将脱水盒放进吊篮里于脱水机内依次梯度酒精进行脱水。75％酒精4h-85％酒精2h-90％酒精2h-95％酒精1h-无水乙醇I 30min-无水乙醇II 30min-醇苯5-10min-二甲苯I 5-10min-二甲苯II 5-10min-蜡I1h-蜡II 1h-蜡III 1h。

(3)包埋：将浸好蜡的组织于包埋机内进行包埋。先将融化的蜡放入包埋框，待蜡凝固之前将组织从脱水盒内取出按照包埋面的要求放入包埋框并贴上对应的标签。于-20℃冷冻台冷却，蜡凝固后将蜡块从包埋框中取出并修整蜡块。

(4)切片：将修整好的蜡块置于石蜡切片机上切片，片厚4μm。切片漂浮于摊片机40℃温水上将组织展平，用载玻片将组织捞起，并放进60℃烘箱内烤片。待水烤干蜡烤化后取出常温保存备用。

(二)免疫组织化学染色

(1)脱蜡：用二甲苯脱蜡，并用梯度酒精和水使切片充分复水。具体流程为：二甲苯Ⅰ5分钟-二甲苯Ⅱ5分钟-无水酒精Ⅰ30秒-无水酒精Ⅱ30秒-95％酒精Ⅰ30秒-95％酒精Ⅱ30秒-90％酒精30秒-80％酒精30秒-70％酒精30秒-自来水洗-0.3％H2O2甲醇处理切片10-20分钟-水洗。

(2)抗原修复，PBS洗3次，1分钟/次。

(3)加入血清孵育20分钟。

(4)甩干血清，加入一抗60分钟。PBS洗3次，2分钟/次。

(5)加入二抗孵育30分钟。PBS洗3次，2分钟/次。

(6)加入ABC复合物，孵育30分钟。PBS洗3次，2分钟/次。

(7)DAB-H

(8)Harris苏木素染核5-10分钟。水洗，分化，蓝化，脱水，透明并封固。

由病理学专家通过对IHC组化染色结果进行打分，打分按照染色强度的分数被定为：0-12分，染色效果越好(基因表达越高)打分越高。

根据不同亚型的基因集组化染色的得分结果进行加权计算，从而将染色样本进行分型。

实施例5用于骨肉瘤分型和评估骨肉瘤预后的试剂盒—RT-PCR法

采用RT-PCR法，检测骨肉瘤样品中的实施例2所述44个基因的基因集的表达量高低，并分析得到骨肉瘤患者的分型，并对其治疗给出建议。

RT-PCR法具体步骤如下:

(一)总RNA提取

取液氮冻存肿瘤组织置于玻璃匀浆器中，按100g:3ml的比例加入Trizol试剂，严格按照TrizolRNA提取试剂盒说明书的流程进行。

(1)加Trizol(按3ml/100mg组织，宁多勿少)置于玻璃匀浆器中匀浆后，冰浴10-15min。

(2)移入1.5mlEP管中，4℃13000g离心10min。

(3)上清液移至另一EP管中，室温放置10-15min。

(4)加入0.2ml氯仿/1mlTrizol，振荡15s，室温置5min。

(5)4℃12000g离心15min。

(6)仔细吸取上层水相，移至新的EP管中。

(7)加入0.5ml异丙醇/1mlTrizol，振摇，置室温10min。

(8)4℃12000g离心10min，EP管底部可见白色沉淀物。

(9)弃上清，纸巾吸干，加入75％乙醇1ml，振摇，充分洗涤沉淀。

(10)4℃11000g离心5min。

(11)吸尽乙醇，空气干燥10min(可离心加快干燥，尽量吸尽离心液体)。

(12)半透明时将RNA溶于去核酸酶的水20ul中(可吹打混匀)，-20℃冻存备用。

(13)所提取的总RNA用核酸蛋白分析仪分析RNA含量和纯度，所有标本260/280nm吸光度的比值均为1.8-2.0。

(14)取所提取的总RNA用1％琼脂糖凝胶电泳，显示出清晰的28s和18s两条rRNA。

(二)逆转录反应

体系组成：DEPC水9ul，dig primer 1ul，5×buffer 4ul，10M dNTPmix 2ul，RNA酶抑制剂1ul，总RNA 2ul，逆转录酶1ul，共20ul，42℃60min

(三)PCR反应

体系组成：DEPC水17.5ul，10×Taq buffer 2.5ul，MgCl2 2.0ul，10M dNTP Mix0.5ul，上游引物0.5ul，下游引物0.5ul，Tap酶(5u/ul)0.5ul，CDNA 1.0ul。共25ul。

PCR仪参数设置：

94℃5min℃

72℃30s 45s 2min

表3与骨肉瘤预后及治疗相关的基因集及其PCR法上下游引物序列

通过上述PCR方法，通过consensus cluster算法计算这44个基因的表达情况，然后计算获得分型。我们可以根据患者骨肉瘤组织的检测结果将骨肉瘤患者分为3类，并对其治疗有不同建议。Cluster1型：患者预后最好。Cluster2型：患者预后尚可。Cluster3型：患者预后最差。其预测结果与随访得到的实际患者预后情况一致。可见，本发明所述的骨肉瘤分型及其预后的方法准确可靠。结果如图5-7所示。

图5为针对A型基因的表达量数据和生存绘制患者的生存曲线，在85例患者中，其中有42例患者A型基因集表达量较高，43例患者该基因集表达量较低，在表达量较高的人群中，有24例患者在50个月后生存，生存率高达57.14％，而在表达量较低的人群中仅17例在50个月后生存，生存率为39.53％。可见，A型基因集中的基因表达量高得骨肉瘤患者趋向于有更好得预后及生存时长。

图6为针对9个B型基因的表达量数据和生存绘制患者的生存曲线，，在85例患者中，其中有48例患者B型基因集表达量较高，37例患者该基因集表达量较低，在表达量较低的人群中，有24例患者在50个月后生存，生存率高达50％，而在表达量较低的人群中仅17例在50个月后生存，生存率为45.94％。且根据生存曲线可见，B型基因集中的基因表达量低的骨肉瘤患者趋向于有更好得预后及生存时长。

图7为C型基因的表达量数据和生存绘制患者的生存曲线在85例患者中，其中有64例患者C型基因集表达量较高，21例患者该基因集表达量较低，在表达量较高的人群中，有33例患者在50个月后生存，生存率高达51.56％，有9例患者在100个月后生存，生存率为14.06％。而在表达量较低的人群中仅8例在50个月后生存，生存率为38.09％，仅1例患者100个月后生存，生存率仅为4.76％。且根据生存曲线可见，C型基因集中的基因表达量低的骨肉瘤患者趋向于有更好得预后及生存时长。

实施例6基因集用于骨肉瘤分型和评估骨肉瘤预后的效果验证

采用如表表3与骨肉瘤预后及治疗相关的基因集及其PCR法上下游引物序列，采用癌症基因组图谱(TCGA)数据库中85个具有临床随访信息的骨肉瘤病例数据，分别针对44个基因的表达高低和生存时间对应关系绘制曲线，用于效果验证，如图8-10所示。可见基因集的基因表达量与其生存期的关系。

可见，A型基因集的24个基因中，23个基因，包括ABCF1，ADAMTS1，ALDH3A2，ALKBH5，ATPAF2，C19orf12，CENPV，CPNE3，EPN2，FLII，FSCN1，GID4，HIST1H2BD，LSM2，MPRIP，MYO15A，PEMT，PI15，PRAME，PRR3，TOM1L2，TTC19和VARS高表达时对应的患者预后生存率都较高，而表达量较低时，其预后生存率较低。

B型基因集的9个基因的其中8个基因，包括ATP1B3,DNAJC3,GGH,HSPB11,LMO7,PFN2,SGO2和UPF3A基因的表达量较高的患者生存预后都较差，而表达量低的患者预后生存率较高。

C型基因集的11个基因中，其中10个基因，包括AEBP1、ASPN、C1R、C1S、COL12A1、COL6A3、OLFML2B、POSTN、SFRP4和THBS2的表达量较高的患者生存预后都较好，而表达量低的患者预后生存率较低。

实施例7COX回归模型分析

COX回归模型，又称“比例风险回归模型(proportional hazards model，简称Cox模型)”，是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。由于上述优良性质，该模型自问世以来，在医学随访研究中得到广泛的应用，是迄今生存分析中应用最多的多因素分析方法。

生存分析的主要目的在于研究变量X与观察结果即生存函数(累积生存率)S(t,X)之间的关系。当生存函数(累积生存率)受很多因素影响，传统的方法是考虑回归方程——即诸变量Xi对生存函数(累积生存率)的影响。

Cox回归模型的基本形式：

h(t,X)＝h0(t)exp(β1X1+β2X2+…+βmXm)

式中，β1，β2，…βm为自变量的偏回归系数，它是须从样本数据做出估计的参数；h0(t)是当X向量为0时，h(t,X)的基准危险率，它是有待于从样本数据做出估计的量。

通过R算法，使用survival包进行Cox多因素分析，某个基因在不同年龄下对预后的影响可能不同，该基因在老人中对预后的影响大，而在年轻人中对预后的影响小，此时通过Cox多因素分析就能够得到年龄和该基因共同作用下对预后的影响。所以，Cox多因素分析得到的预测模型将更加准确。分析得出截断值(cutpoint)，P值(P-value)，HR值(HazardRatio)如下：

根据上述结果可知：

对于Target-OS数据集，将A型/B型/C型基因集内所有基因的表达值分别取平均值作为A型/B型/C型基因集的表达值，计算这3种表达值是否为影响该数据集中患者预后的独立危险因素，结果证明该基因分型模型可以较准确地预测骨肉瘤患者的生存。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对以上实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

序列表

<110> 上海长征医院

<120> 用于骨肉瘤分型和评估骨肉瘤预后的基因及其应用

<130> 全

<160> 88

<170> SIPOSequenceListing 1.0

<210> 1

<211> 21

<212> DNA