首页> 中国专利> 一种适合于食管癌早期诊断的诊断标记物

一种适合于食管癌早期诊断的诊断标记物

摘要

本发明公开了一种适合于食管癌早期诊断的诊断标记物,为下述7种血清代谢标记物中的两种或两种以上的组合:溶血磷脂酸LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14:0/0:0)、溶血卵磷脂LysoPC(18:2(9Z,12Z))、溶血卵磷脂LysoPC(24:0)、磷脂PC(14:1(9Z)/P-18:1(11Z))、磷脂PC(16:0/18:2(9Z,12Z))和磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z))。采用本发明诊断标记物可以构建诊断模型,该模型效果良好,灵敏度高,特异性好,适合早期和晚期食管癌的诊断,具有良好的临床使用和推广价值。

著录项

  • 公开/公告号CN105044342A

    专利类型发明专利

  • 公开/公告日2015-11-11

    原文格式PDF

  • 申请/专利权人 山东省肿瘤防治研究院;

    申请/专利号CN201510497782.9

  • 申请日2015-08-14

  • 分类号G01N33/574(20060101);

  • 代理机构37218 济南泉城专利商标事务所;

  • 代理人贾波

  • 地址 250117 山东省济南市槐荫区济兖路440号

  • 入库时间 2023-12-18 11:57:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-06

    授权

    授权

  • 2015-12-09

    实质审查的生效 IPC(主分类):G01N33/574 申请日:20150814

    实质审查的生效

  • 2015-11-11

    公开

    公开

说明书

技术领域

本发明涉及食管癌的诊断,具体涉及一种食管癌诊断标记物,诊断标记物的筛选方法、 以该诊断标记物为基础构建的诊断模型,以及诊断模型的构建方法,该诊断标记物和诊断模 型对于食管原位癌、早期和晚期食管癌都具有很好的诊断效果,特别适合于食管癌早期诊断, 属于食管癌诊断技术领域。

背景技术

食管癌(esophagealcancer)是由食管鳞状上皮或腺上皮的异常增生所形成的恶性 病变。据世界卫生组织最新数据表明:全世界每年约有40万人死于食管癌,我国是食管癌发 病率和死亡率最高的国家,且90%患者的组织类型为鳞状细胞癌(ESCC)。食管癌发病隐匿, 早期无症状或症状很不典型,发现时已是临床晚期,普遍预后不佳(5年生存率约为13%)。 因此,早期诊断和早期治疗是改善食管癌预后、降低死亡率的关键。目前,在食管癌高发区 的早诊早治平台和临床上常用的早期筛查和诊断方法包括食管拉网细胞学检查、X线钡餐造 影、食管超声内镜、食管内镜检查等。但这些方法均为有创检查、操作复杂、且价格高昂, 限制了其在食管癌筛查和早期诊断中的广泛应用。

食管癌发生涉及多因素、多阶段、多基因变异积累及与环境因素相互作用的复杂过程, 包括在分子水平上涉及众多原癌基因、抑癌基因以及蛋白质的改变,以及长期不良的生活或 饮食习惯的影响(进食含亚硝胺类较多的食物、如喜欢腌制酸菜或霉变食品、长期喜进烫食、 吸烟、饮酒不良嗜好等)。代谢组学是对生物样品(如血清、尿液、唾液等)中所有分子量低 于1000Da小分子代谢物(如脂肪酸、氨基酸、核苷及甾体等生物小分子)进行定性定量检 测,从而监测机体受疾病或危险因素累积等干扰后内源性物质做出的代谢响应。体内的生物 信息由基因经转录传递给蛋白质,最终体现为小分子代谢物。不同于基因组学和蛋白组学反 映的生物体内在差异,代谢组学的研究领域扩展到了机体与环境之间的相互影响和作用。小 分子代谢物不仅是机体生命活动、生化代谢的物质基础,还体现了某些外来因素对体内代谢 环境的改变,因而某些独特代谢物的浓度在不同个体间的差异事实上反映了疾病内在的表现 和外在病因。近年来研究发现,诸如代谢性疾病和恶性肿瘤(卵巢癌)等疾病发生发展过程 中,机体基础生化代谢均发生了明显变化,对人类理解复杂疾病的代谢机制将发挥重要作用, 同时为复杂疾病的筛检和早期诊断提供崭新的技术方法。

食管癌的发生发展是由多基因及环境因素相互作用所致,首先是相关的功能基因表达 发生改变或突变,然后是一系列细胞信号传导及蛋白质合成改变,最终在与环境因素相互作 用下使得代谢产物发生变化。食管癌的发生正是环境危险因素逐渐积累并不断损伤机体各代 谢通路稳态的结果。目前,已经有人利用代谢组学对食管癌进行研究,例如Wu等(WuH, XueR,LuC,etal.Metabolomicstudyfordiagnosticmodelofoesophagealcancer usinggaschromatography/massspectrometry.JChromatogrBAnalytTechnolBiome dLifeSci,2009,877(27):3111-7.)、Zhang等(ZhangJ,BowersJ,LiuL,etal.Esoph agealcancermetabolitebiomarkersdetectedbyLC-MSandNMRmethods.PLoSO ne,2012,7(1):e30181.)、Xu等(XuJ,ChenY,ZhangR,etal.Globalandtargeted metabolomicsofesophagealsquamouscellcarcinomadiscoverspotentialdiagnostic andtherapeuticbiomarkers.MolCellProteomics,2013,12(5):1306-18.)都利用代谢组 学技术对食管癌进行了研究。

食管癌的发生发展伴随着体内多种代谢物的改变,一般需要几年甚至十几年,如能在 癌变早期阶段发现,进行早期治疗,可有效提高预后效果。而事实上,已有研究证明在疾病 发病前或危险因素累积阶段,内源性物质就会做出相应的代谢响应。例如,Zhao等通过代 谢指纹图谱研究揭示了糖尿病前期患者的代谢特征,并证实了脂肪酸、色氨酸、尿酸、胆汁 酸等的代谢改变发生于疾病出现临床症状前很长一段时间里,为代谢性疾病的筛查、早期诊 断和干预提供了新的可能。然而,上述食管癌代谢组学研究纳入的主要是食管癌晚期患者, 而大多没有纳入或很少的纳入早期食管癌病例。晚期食管癌已发生淋巴结和远处转移,甚至 出现肿瘤恶病质状态,此时机体代谢已发生很大的变化,因此,这些研究仅能发现食管癌发 病晚期同健康对照相比的代谢轮廓差异,根据这些代谢轮廓的差异仅能较好的诊断出晚期食 管癌,而对于早期食管癌却无法进行诊断,即不能实现食管癌的早期诊断。其次,上述食管 癌代谢组学研究仅获得很少一部分与食管癌发病相关的代谢物(从研究层次上仅是代谢靶标 分析,而不是代谢轮廓或代谢组学分析)。此外,上述研究大多未从食管癌的客观分子筛查/ 早期诊断标准模型的角度评价代谢组学的转化医学潜力及应用效果,大部分并未报告筛选的 代谢物的筛查/诊断食管癌的灵敏度、特异度以及ROC曲线下面积AUC值。

发明人前期针对食管癌已经进行了一系列研究,采用代谢组学的技术研究了能够进行食 管癌早期筛查的代谢组学分析模型,该技术对于我国食管癌高发区的高危人群发现具有的应 用和推广价值,目前已经在山东肥城市试点应用。然而,食管癌高发群筛查和临床早期诊断 仍具有诸多不同。食管癌高发区筛查是高发区的以健康或表面健康的人为观察对象,目的是 在健康的人群中发现那些表面健康,但可疑患有食管部位病变的人(高危个体),筛查试验阳 性者须作进一步的诊断或干预;而诊断是在临床环境下以患者或可疑患者为观察对象,目的 是区分患者是否有相应病症,对患者病情做出及时、正确的判断,以便采取相应有效的治疗 措施,临床上诊断阳性者要给予治疗(如手术、化疗或放疗)。目前,医院普遍使用有创伤、 操作复杂、且价格高昂的影像学检查临床诊断食管癌病例,并且患者主动就诊是大多已为晚 期,因此仍缺少能简单有效的用于临床食管癌诊断(特别是早期食管癌诊断)的血清生物标 记物。因此,寻找特异、敏感、经济和无创的食管癌早期诊断血清代谢标记物,并建立一种 安全有效的食管癌早期分子诊断模型具有重要的临床应用价值。

发明内容

针对现有技术中食管癌(也可称为食管鳞状细胞癌)的诊断操作复杂、价格昂贵、有 创伤性,目前的标记物仅对晚期食管癌灵敏度高,不能实现食管癌的早期诊断等不足,本发 明提供了一种适合于食管癌早期诊断的诊断标记物,该诊断标记物对于食管原位癌、早期食 管癌、晚期食管癌都具有较好的灵敏度和特异度,不仅能够用于晚期食管癌的诊断,还能够 较好的用于食管癌的早期诊断,对于改善食管癌预后、降低死亡率有很重要的意义。

本发明还提供了上述适合于食管癌早期诊断的诊断标记物的筛选方法,通过该方法所得 的标记物对于早期和晚期食管癌都具有很好的灵敏度和特异性,尤其是适合食管癌的早期诊 断,对于食管癌的治疗有重要的临床意义。

本发明还提供了一种食管癌诊断模型及诊断模型的构建方法,该模型构建方法简单,能 够代替现今有创的诊断方法,方便快捷,避免了待检人员的痛苦,对于食管原位癌、早期食 管癌、晚期食管癌都具有较好的灵敏度和特异度,为食管癌的早诊早治提供了有效的技术支 持。

本发明还提供了一种采用该诊断模型诊断食管癌的方法,采用本发明模型仅通过取血就 能进行诊断,方便快捷,无内创,尤其是对于早期食管癌灵敏度高,特异度好,具有很好的 临床应用价值。

目前,本领域大都从基因和大分子蛋白质方面研究筛选食管癌诊断标记物,本发明一 改以往的研究思路,首次提出采用血清代谢组学技术筛选食管癌诊断标记物的思路,发现了 特别适合于食管癌早期诊断的标记物,使不便于发现的早期食管癌有了很好的诊断方法。本 发明依托“国家食管癌早诊早治示范基地(山东省肥城市)”的食管癌筛检与随访人群队列, 获得食管原位癌(简称原位癌,0期39例)、早期食管癌(简称早期癌,I期17例、II期11 例)及晚期食管癌(简称晚期癌,III期30例)患者的血清标本,并随机抽取经确定无任何 食管病变及其他代谢疾病(如甲亢、甲减、高血压和糖尿病、肾病等)的健康人群为健康对 照,使用UPLC-QTOF/MS获得1466个小分子代谢物的代谢指纹图谱,经过对食管癌患者、 及健康对象的小分子代谢物的代谢指纹图谱的对比、分析,得到适合于食管癌早期诊断的诊 断标记物,以这些诊断标记物进行模型构建,得到食管癌诊断模型,利用该模型可以快速的 诊断出是否为食管癌,尤其是可以诊断出早期食管癌,灵敏度高、特异度好,具有临床使用 和推广价值。

本发明中,所述食管原位癌是指TNM分期标准中0期,指粘膜上皮层内或皮肤表皮内 的非典型增生(重度)累及上皮的全层,但尚未侵破基底膜而向下浸润生长的癌;早期食管 癌是指TNM分期标准中I和II期,指无淋巴结累及、无远处转移的局限于黏膜后或黏膜下层 的癌;晚期食管癌是指TNM分期标准中III期和IV期,指已累及肌层或达外膜或外膜以外, 有局部或远处淋巴结转移的癌。TNM分期标准依据AmericanjointCommitteeonCancer (AJCC)TNMClassficationofCarcinomaoftheEsophagusandEsophagogastricJunction (7thed,2010)。

本发明的诊断标记物和诊断模型可以将无症状或症状不明显的早期食管癌诊断出来,无 内创性,减轻了检测者的痛苦,且诊断过程简洁、快速,提高了工作效率,对于食管癌的早 诊早治、预后的改善、死亡率的降低都有十分重要的意义。实现本发明的具体技术方案如下:

一种适合于食管癌早期诊断的诊断标记物,为下述25种血清代谢标记物中的任意一 种或一种以上的组合:beta-丙氨酸-赖氨酸(beta-Ala-Lys),左旋肌肽(L-Carnosine),顺-9-十 六碳烯酸(cis-9-Palmitoleicacid),棕榈酸(Palmiticacid),油酸(OleicAcid),溶血磷脂酸 LPA(18:1(9Z)/0:0),溶血卵磷脂LysoPC(14:0/0:0),溶血卵磷脂LysoPC(18:2(9Z,12Z)),溶 血卵磷脂LysoPC(24:0),磷脂PC(14:1(9Z)/P-18:1(11Z)),磷脂PC(16:0/18:2(9Z,12Z)),磷 脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z)),亚油酸(Linoleicacid),烟酰胺腺嘌呤二核 苷酸(NADH),皮质醇(Cortisol),L-酪氨酸(L-Tyrosine),L-色氨酸(L-Tryptophan),甘氨胆酸 (GlycocholicAcid),牛磺胆酸盐(Taurocholate),次黄嘌呤(Hypoxanthine),尿囊酸(Allantoic acid),肌苷(Inosine),1-磷酸鞘氨醇(Sphingosine1-phosphate),硫酸半乳糖基酰基鞘氨醇 3-O-Sulfogalactosylceramide(d18:1/20:0),乳糖神经酰胺Lactosylceramide(d18:1/22:0)。

上述诊断标记物中,可以是上述25种血清代谢标记物中的任意一种,也可以是它们之间 的两种或者两种以上的随意组合。当使用两种或两种以上的血清代谢标记物的组合作为诊断 标记物时,诊断的效果会优于单一的血清代谢标记物作为诊断标记物的效果。

进一步的,上述诊断标记物可以为下述(a)-(h)中的任意一种血清代谢标记物的 组合:(a)可以为beta-丙氨酸-赖氨酸(beta-Ala-Lys)和左旋肌肽(L-Carnosine)的组合;(b) 或者为顺-9-十六碳烯酸(cis-9-Palmitoleicacid)、棕榈酸(Palmiticacid)和油酸(OleicAcid) 的组合;(c)或者为溶血磷脂酸LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14:0/0:0)、溶血卵 磷脂LysoPC(18:2(9Z,12Z))和溶血卵磷脂LysoPC(24:0)的组合;(d)或者为磷脂PC(14:1(9 Z)/P-18:1(11Z))、磷脂PC(16:0/18:2(9Z,12Z))、磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16 Z,19Z))和亚油酸(Linoleicacid)的组合;(e)或者为烟酰胺腺嘌呤二核苷酸(NADH)、L-酪氨 酸(L-Tyrosine)和L-色氨酸(L-Tryptophan)的组合;(f)或者为皮质醇(Cortisol)、甘氨胆酸(Gl ycocholicAcid)和牛磺胆酸盐(Taurocholate)的组合;(g)或者为次黄嘌呤(Hypoxanthine)、 尿囊酸(Allantoicacid)和肌苷(Inosine)的组合;(h)或者为1-磷酸鞘氨醇(Sphingosine1-ph osphate)、硫酸半乳糖基酰基鞘氨醇3-O-Sulfogalactosylceramide(d18:1/20:0)和乳糖神经 酰胺Lactosylceramide(d18:1/22:0)的组合。

进一步的,上述诊断标记物可以为下述15种血清代谢标记物中的两种或两种以上的组 合:溶血磷脂酸LPA(18:1(9Z)/0:0),溶血卵磷脂LysoPC(14:0/0:0),溶血卵磷脂LysoPC(18: 2(9Z,12Z)),溶血卵磷脂LysoPC(24:0),磷脂PC(14:1(9Z)/P-18:1(11Z)),磷脂PC(16:0/18:2 (9Z,12Z)),磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z)),烟酰胺腺嘌呤二核苷酸(NAD H),皮质醇(Cortisol),L-色氨酸(L-Tryptophan),牛磺胆酸盐(Taurocholate),次黄嘌呤(Hypox anthine),肌苷(Inosine),硫酸半乳糖基酰基鞘氨醇3-O-Sulfogalactosylceramide(d18:1/20:0), 乳糖神经酰胺Lactosylceramide(d18:1/22:0)。

进一步的,上述诊断标记物可以为下述7种血清代谢标记物中的两种或两种以上的组 合:溶血磷脂酸LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14:0/0:0)、溶血卵磷脂LysoPC(18: 2(9Z,12Z))、溶血卵磷脂LysoPC(24:0)、磷脂PC(14:1(9Z)/P-18:1(11Z))、磷脂PC(16:0/18: 2(9Z,12Z))和磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z))。

进一步的,上述诊断标记物可以为下述5种血清代谢标记物中的两种或两种以上的组合: L-酪氨酸(L-Tyrosine)、L-色氨酸(L-Tryptophan)、甘氨胆酸(GlycocholicAcid)、牛磺胆酸盐(T aurocholate)和皮质醇(Cortisol)。

优选的,上述诊断标记物为下述25种血清代谢标记物的组合(记为诊断标记物A,下同): beta-丙氨酸-赖氨酸(beta-Ala-Lys),左旋肌肽(L-Carnosine),顺-9-十六碳烯酸(cis-9-Palmitol eicacid),棕榈酸(Palmiticacid),油酸(OleicAcid),溶血磷脂酸LPA(18:1(9Z)/0:0),溶血卵 磷脂LysoPC(14:0/0:0),溶血卵磷脂LysoPC(18:2(9Z,12Z)),溶血卵磷脂LysoPC(24:0),磷 脂PC(14:1(9Z)/P-18:1(11Z)),磷脂PC(16:0/18:2(9Z,12Z)),磷脂PC(24:1(15Z)/22:6(4Z,7Z, 10Z,13Z,16Z,19Z)),亚油酸(Linoleicacid),烟酰胺腺嘌呤二核苷酸(NADH),皮质醇(Cortiso l),L-酪氨酸(L-Tyrosine),L-色氨酸(L-Tryptophan),甘氨胆酸(GlycocholicAcid),牛磺胆酸 盐(Taurocholate),次黄嘌呤(Hypoxanthine),尿囊酸(Allantoicacid),肌苷(Inosine),1-磷酸 鞘氨醇(Sphingosine1-phosphate),硫酸半乳糖基酰基鞘氨醇3-O-Sulfogalactosylceramide (d18:1/20:0),乳糖神经酰胺Lactosylceramide(d18:1/22:0)。

优选的,上述诊断标记物为下述7种血清代谢标记物的组合(记为诊断标记物B,下 同):溶血磷脂酸LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14:0/0:0)、溶血卵磷脂LysoPC(1 8:2(9Z,12Z))、溶血卵磷脂LysoPC(24:0)、磷脂PC(14:1(9Z)/P-18:1(11Z))、磷脂PC(16:0/1 8:2(9Z,12Z))和磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z))。

优选的,上述诊断标记物为下述5种血清代谢标记物的组合(记为诊断标记物C,下同): L-酪氨酸(L-Tyrosine)、L-色氨酸(L-Tryptophan)、甘氨胆酸(GlycocholicAcid)、牛磺胆酸盐(T aurocholate)和皮质醇(Cortisol)。

本发明提供了多种血清代谢物或血清代谢物组合构成的诊断标记物,上述诊断标记物 共涉及25种血清代谢标记物,这25种血清代谢标记物与10种代谢通路密切相关。其中,b eta-丙氨酸-赖氨酸(beta-Ala-Lys)和左旋肌肽(L-Carnosine)这2种血清代谢标记物与beta丙 氨酸代谢(beta-Alaninemetabolism)代谢通路密切相关;顺-9-十六碳烯酸(cis-9-Palmitoleicac id)、棕榈酸(Palmiticacid)和油酸(OleicAcid)这3种血清代谢标记物与脂肪酸合成(Fattya cidbiosynthesis)代谢通路密切相关;溶血磷脂酸LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14: 0/0:0)、溶血卵磷脂LysoPC(18:2(9Z,12Z))和溶血卵磷脂LysoPC(24:0)这4种血清代谢标记 物与甘油磷脂代谢(Glycerophospholipidmetabolism)代谢通路密切相关;磷脂PC(14:1(9Z)/P- 18:1(11Z))、磷脂PC(16:0/18:2(9Z,12Z))、磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z)) 和亚油酸(Linoleicacid)这4种血清代谢标记物与甘油磷脂代谢(Glycerophospholipidmetabo lism)和亚油酸代谢(Linoleicacidmetabolism)这两种代谢通路密切相关;烟酰胺腺嘌呤二核苷 酸(NADH)与氧化磷酸化(Oxidativephosphorylation)代谢通路密切相关;L-酪氨酸(L-Tyrosine) 和L-色氨酸(L-Tryptophan)这2种血清代谢标记物与苯基丙氨酸/酪氨酸和色氨酸代谢(Phen ylalanine,tyrosineandtryptophanbiosynthesis)代谢通路密切相关;甘氨胆酸(GlycocholicAc id)和牛磺胆酸盐(Taurocholate)这2种血清代谢标记物与初级胆汁酸合成(Primarybileacidb iosynthesis)代谢通路密切相关;皮质醇(Cortisol)与癌症通路和胆汁分泌(Pathwaysincancer, andBilesecretion)代谢通路密切相关;次黄嘌呤(Hypoxanthine)、尿囊酸(Allantoicacid)和肌 苷(Inosine)这3种血清代谢标记物与嘌呤代谢(Purinemetabolism)代谢通路密切相关;1-磷 酸鞘氨醇(Sphingosine1-phosphate)、硫酸半乳糖基酰基鞘氨醇3-O-Sulfogalactosylcerami de(d18:1/20:0)和乳糖神经酰胺Lactosylceramide(d18:1/22:0)这3种血清代谢标记物与鞘 脂类代谢(Sphingolipidmetabolism)代谢通路密切相关。

本发明还提供了上述各种适合于食管癌早期诊断的诊断标记物的筛选方法,包括以下 步骤:

(1)收集食管癌患者和健康人群血清样本,作为分析样本,其中食管癌血清样本包括食 管原位癌血清样本、早期食管癌血清样本和晚期食管癌血清样本;

(2)将每个分析样本采用UPLC-QTOF/MS血清代谢组学技术进行分析,得到各血清样 本的原始代谢指纹图谱;

(3)使用R语言XCMS软件包将食管癌血清样本和健康血清样本的原始代谢指纹图谱 分别进行图谱预处理,得到每行为分析样本,每列为代谢物信息的二维矩阵,并使用R语言 的CAMERA软件包对二维矩阵进行代谢物峰标识,用于进一步的统计分析;

(4)将步骤(3)的二维矩阵依次进行主成分分析和偏最小二乘判别分析,得到PLS-D A模型,该PLS-DA模型显示食管癌患者与健康人群有代谢模式差异和明显的分类趋势;

(5)根据上述得到的PLS-DA模型,借助PLS-DA建模的变量重要性评分和单变量的非 参数检验进行差异代谢物筛选,筛选标准为:VIP≥1,且经假发现率FDR的多重检验校正 后q值小于0.05;

(6)将上述筛选得到的差异代谢物根据R语言的CAMERA包确定差异代谢物的准分子 离子、加合物和同位素信息,获得潜在代谢标记物;

(7)在上述潜在代谢标记物的基础上,结合潜在代谢标记物的一级、二级质谱信息、准 分子离子信息、加合物信息和同位素信息,推测诊断标记物的分子质量和分子式,并与现有 的标准化合物进行对比、匹配,得到血清代谢标记物。单一的血清代谢标记物或血清代谢标 记物的组合即可作为适合于食管癌早期诊断的诊断标记物。

上述筛选方法中,所述健康人群为无上消化道病变及其他代谢疾病(如甲亢、甲减、高 血压和糖尿病、肾病等)的人群。

上述筛选方法中,进行LC-MS血清代谢组学技术分析时,每10个分析样本加入一个质 量控制样品,用于实时监测分析样本从进样前处理到分析过程中的质量控制情况,所述质量 控制样品为5份食管癌血清样本和5份健康血清样本的混合样品。

上述筛选方法中,所述分析样本和质量控制样品进样前进行以下预处理:

(1)用移液器抽取50μl分析样本或质量控制样品,置于Bravo自动标本处理系统的96 孔板上;

(2)加入150μl甲醇提取,涡旋30s,并在-20℃下孵化以沉淀蛋白;

(3)然后于高速离心机中在4℃下以4000转/分离心20min;

(4)将步骤(3)的上清液倒入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。

上述筛选方法中,对原始代谢指纹图谱进行图谱预处理是指:用Masshunter软件将 获得的原始代谢指纹图谱转换为MZdata数据文件,然后将MZdata数据文件使用XCMS软 件包进行包括保留时间校正、峰识别、峰匹配和峰对齐的预处理操作,得到二维矩阵。

上述筛选方法中,使用R软件包CAMERA对二维矩阵进行代谢物峰标识包括同位素峰、 加合物和碎片离子的代谢物峰标识。

上述筛选方法中,对每个分析样本采用LC-MS血清代谢组学技术进行分析时,液相色谱 所用色谱柱为WatersACQUITYUPLCHSST3色谱柱,规格为100mm×2.1mm,1.8μm;进样 量为6μL,进样温度为4℃,流速为0.5ml/min;色谱流动相包含两种溶剂A和B:正离子ESI+ 模式下的A为0.1wt%甲酸水溶液,负离子ESI-模型下的A为0.5mmol/L氟化铵水溶液,正 离子ESI+模式下的B为0.1wt%甲酸的乙腈溶液,负离子ESI-模型下的B为纯乙腈;色谱梯 度洗脱条件为:0-1min为1%B,1-8min为1%B-100%B逐渐递增,10-10.1min为100%B迅 速减为1%B,然后1%B持续1.9min。

上述筛选方法中,对每个分析样本采用LC-MS血清代谢组学技术进行分析时,质谱 检测使用四极杆时间飞行质谱仪Q-TOF,并采用电喷雾离子源的正离子模式ESI+和负离子模 式ESI-,离子源温度为400℃,锥孔气流量为12L/min,脱溶剂气温为250℃,脱溶剂气流量 为16L/min;在正离子和负离子模式下毛细管电压分别为+3kV和-3kV,锥孔电压均为0V; 正离子模式下锥孔压力为20psi,负离子模式下锥孔压力为40psi;图谱数据采集的质荷比范 围为50~1200m/z,采集的扫描频率为0.25s。

本发明的优选方案中,筛选时所用的食管原位癌患者39人,早期食管癌患者28人,晚 期食管癌患者30人,健康人群105人。

本发明的优选方案中,筛选过程中得到的PLS-DA模型的R2X=0.167,R2Y=0.569, Q2Y=0.523。

本发明还提供了一种食管癌诊断模型的构建方法,包括以下步骤:

(1)收集食管癌患者和健康人群血清样本,作为分析样本,其中食管癌血清样本包括食 管原位癌血清样本、早期食管癌血清样本和晚期食管癌血清样本;

(2)将每个分析样本采用LC-MS血清代谢组学技术进行分析,得各血清样本的原始代谢 指纹图谱;

(3)使用R语言XCMS软件包对各血清样本的原始代谢指纹图谱分别进行图谱预处理, 得到每行为分析样本,每列为代谢物信息的二维矩阵,同时使用R软件包CAMERA对二维矩阵 进行代谢物峰标识,用于进一步的统计分析;

(4)根据质荷比和保留时间从二维矩阵中筛选出本发明适合于食管癌早期诊断的诊断标 记物的信息,得到诊断标记物二维矩阵;

(5)根据该诊断标记物二维矩阵,使用R语言中randomForest软件包构建随机森林模 型,得食管癌诊断模型。

上述构建方法中,所述食管原位癌是指TNM分期标准中0期,指粘膜上皮层内或皮肤表 皮内的非典型增生(重度)累及上皮的全层,但尚未侵破基底膜而向下浸润生长的癌;早期 食管癌是指TNM分期标准中I和II期,指无淋巴结累及、无远处转移的局限于黏膜后或黏膜 下层的癌;晚期食管癌是指TNM分期标准中III期和IV期,指已累及肌层或达外膜或外膜以 外,有局部或远处淋巴结转移的癌。TNM分期标准依据AmericanjointCommitteeonCancer (AJCC)TNMClassficationofCarcinomaoftheEsophagusandEsophagogastricJunction (7thed,2010)。

本发明的优选方案中,构建随机森林模型时,建模参数ntree=5000。

本发明的优选方案中,模型构建时,是基于以下的样本数目构建的:所用的述食管原位 癌患者39人,早期食管癌患者28人,晚期食管癌患者30人,健康人群105人。

本发明的优选方案中,当适合于食管癌早期诊断的诊断标记物为25种血清代谢标记物的 组合(诊断标记物A)时,所得的诊断模型的诊断界值(Threshold)为0.3552;当适合于食 管癌早期诊断的诊断标记物为7种血清代谢标记物的组合(诊断标记物B)时,所得的诊断 模型的诊断界值(Threshold)为0.7431;当适合于食管癌早期诊断的诊断标记物为5种血 清代谢标记物的组合(诊断标记物C)时,所得的诊断模型的诊断界值(Threshold)为0.4943。 当诊断模型给出的预测数值大于等于诊断界值时,说明患有食管癌,当小于诊断界值时,说 明未患有食管癌。

本发明还提供了一种食管癌诊断模型,该诊断模型按照上述食管癌诊断模型的构建方 法构建而得。同上,在本发明优选方案中,当诊断模型所用的诊断标记物为诊断标记物A时, 诊断模型的诊断界值为0.3552;当为诊断标记物B时,诊断模型的诊断界值为0.7431;当为 诊断标记物C时,诊断模型的诊断界值为0.4943。

本发明还提供了一种食管癌诊断模型的使用方法,即采用该食管癌诊断模型诊断食管癌 的方法,包括以下步骤:

(1)取待检血清样本,通过预处理达到进样要求,将预处理后的待检血清样本采用 LC-MS血清代谢组学技术进行分析,得该待检血清样本的原始代谢指纹图谱;

(2)使用R语言XCMS软件包将该原始代谢指纹图谱进行图谱预处理,并进行代谢物 峰标识,得到可以用于统计分析的二维矩阵;

(3)根据质荷比和保留时间从二维矩阵中筛选出本发明适合于食管癌早期诊断的诊断 标记物的信息,得到诊断标记物二维矩阵;

(4)将诊断标记物二维矩阵带入食管癌诊断模型中,根据模型给出的数值和模型的诊断 界值(Threshold),判断是否为早期食管癌。

在本发明的优选方案中,当以25种血清代谢标记物的组合(诊断标记物A)为适合 于食管癌早期诊断的诊断标记物时,诊断模型给出的数值大于或等于0.3552时,诊断为食管 癌,否则为不是;当以7种血清代谢标记物的组合(诊断标记物B)为适合于食管癌早期诊 断的诊断标记物时,诊断模型给出的数值大于或等于0.7431时,诊断为食管癌,否则为不是; 当以5种血清代谢标记物的组合(诊断标记物C)为适合于食管癌早期诊断的诊断标记物时, 诊断模型给出的数值大于或等于0.4943时,诊断为食管癌,否则为不是。

本发明优点为:本发明采用血清代谢组学技术以及数据统计分析技术得到适合于食管癌 早期诊断的诊断标记物和食管癌诊断模型,并且发现了与诊断标记物有密切相关的10个代谢 通路。本发明诊断标记物筛选方法可操作性强,模型构建方法简单,所得诊断模型效果良好, 灵敏度高,特异性好,不仅适合晚期食管癌的诊断,还适合于早期食管癌的诊断,特别适合 于食管癌的早期诊断。本发明仅通过取血就能实现诊断,无创、花费低,能够很好的替代现 今内创性诊断模式,大大减轻了患者的痛苦,且本发明诊断快速、便捷,所需时间短,提高 了工作效率,有利于食管癌的早发现、早治疗,具有良好的临床使用和推广价值。

附图说明

图1.原始代谢指纹图谱的总离子色谱图(LC-QTOF/MS,+ESI为正离子模式,-ESI为 负离子模式),横轴为保留时间(RetentionTime,min),纵轴为代谢物相对浓度,Normal 为健康血清样本,ESCC为食管癌血清样本。

图2.代谢轮廓预分析的PCA得分图,其中Normal为健康血清样本,ESCC为食管癌血清 样本,QC表示质量控制样品。

图3A为食管癌和健康对照的代谢轮廓比较的PLS-DA三维得分图,建模的R2X=0.167, R2Y=0.569,Q2Y=0.523;图3B为相应的基于随机置换方法的PLS-DA建模验证图。其中Normal 为健康血清样本,ESCC为食管癌血清样本。

图4.L-色氨酸(L-Tryptophan)的鉴定流程图,其中图(a):m/z为205.0974的色谱图中 保留时间特征;图(b):保留时间为181.38s的一级质谱图;图(c):保留时间为181.38s, m/z为205.0974的二级离子MS/MS碎片图;图(d):代谢物(RT:181.38s,m/z:205.0974) 的碎片裂解机制。

图5.25个代谢标记物所构建的随机森林模型的外部测试样本的ROC曲线图。

图6.7个代谢标记物所构建的随机森林早期食管癌诊断模型的外部测试样本ROC曲线。

图7.5个代谢标记物所构建的随机森林早期食管癌诊断模型的外部测试样本ROC曲线。

具体实施方式

下面,通过以下具体实施方式对本发明进行进一步的解释,并对本发明优点进行进一步 的证明。

本发明诊断标记物的筛选、诊断模型的构建方法以及效果验证如下:

1、研究对象

本研究依托“国家食管癌早诊早治示范基地(山东省肥城市)”的食管癌筛查平台,针 对山东省肥城市40-69岁胃镜下碘染色指示性活检对象(作为金标准确认),采集食管原位癌 (0期39例)、早期食管癌(I期17例、II期11例)及晚期食管癌(III期30例);并随机抽 取筛检中胃镜下碘染色阴性受试者即无上消化道病变的健康对象105例作为健康样本。

2、LC-MS的血清代谢组学检测

所有采集的血清样本离心后放于-80℃冰箱内保存,使用超高效液相色谱-质谱联用仪 (UPLC-QTOF/MS6550,Agilent)和Bravo自动标本预处理系统(Agilent,USA)进行代谢 组学检测(分3个大批次检测,并做好质量控制),获得样本的包含色谱和质谱信息的原始代 谢指纹图谱。具体操作如下:

2.1仪器和设备

实验设备包括:UPLC-QTOF/MS6550系统(Agilent,USA)、Bravo系统(Agilent,USA)、 高速低温离心机、振动涡旋机、氮气干燥装置、4℃冷藏冰箱(海尔)、纯水仪(西门子)。

实验耗材包括:WatersACQUITYHSST3(particlesize,1.8μm;100mm (length)×2.1mm)色谱柱、液氮、高纯氮;锥底进样瓶、2ml离心转子、2ml离心管(圆底)、 移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。

实验试剂包括:甲醇(迪马,HPLC级纯)、乙腈(迪马,HPLC级纯)、甲酸(光复精 密化学研究所,天津)、纯水(TOC<10ppb)。

2.2血清样本预处理

血清样本预处理前,制备21份质量控制样品(QC),将所有早期食管癌血清样本、 食管原位癌血清样本、晚期食管癌血清样本、健康血清样本和质量控制样品进行随机编号, 以早期食管癌血清样本、食管原位癌血清样本、晚期食管癌血清样本、健康血清样本作为分 析样本,每隔10个分析样本加入一个质量控制样品。将早期食管癌血清样本、食管原位癌血 清样本和晚期食管癌血清样本统称为食管癌血清样本,质量控制样品为5份食管癌血清样本 和5份健康血清样本的混合样品。食管癌血清样本、健康血清样本和质量控制样品均进行预 处理,预处理包括以下4个步骤:

(1)用移液器抽取50μl分析样本或质量控制样品,置于Bravo自动标本处理系统(Agilent, USA)的96孔板上;

(2)加入150μl甲醇提取,涡旋30s,并在-20℃下孵化以沉淀蛋白。

(3)然后于高速离心机中在4℃下以4000转/分离心20min;

(4)将步骤(3)的上清液倒入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测;

2.3血清UPLC-QTOF/MS检测

UPLC系统(1290series,Agilent)将6μL等份预处理后的样品注入ACQUITYUPLCHSST3 (particlesize,1.8μm;100mm(length)×2.1mm)色谱柱(Waters,Milford,USA)。进样顺序为 完全随机化进样,以排除进样顺序带来的偏倚。色谱流动相包含两种溶剂:A为0.1wt%甲酸 (水稀释,正离子ESI+)或0.5mM氟化铵(水稀释,负离子ESI-),B为0.1wt%甲酸(乙腈稀 释,正离子ESI+)或100%乙腈(负离子ESI-)。色谱梯度为:0-1min为1%B,1-8min为 1%B-100%B逐渐递增,然后10-10.1min为100%B迅速减为1%B,然后1%B持续1.9min。 流速为0.5ml/min。整个样品检测过程维持在4℃。其中,A和B的百分含量指的是体积百 分含量。

质谱检测使用Agilent四极杆时间飞行质谱仪Q-TOF(6550,Agilent),并采用电喷 雾离子源的正离子模式(ESI+)和负离子模式(ESI-)。离子源温度设定为400℃,而锥孔气流量 为12L/min。同时,脱溶剂气温设定为250℃,而脱溶剂气流量16L/min。在正离子和负离子 模式下毛细管电压分别为+3kV和-3kV,且锥孔电压均为0V。锥孔压力为20psi(正离子) 和40psi(负离子)。图谱数据采集的质荷比范围为50~1200m/z,采集的扫描频率为0.25s。 MS/MS二级质谱分析中,高纯度氮作为碰撞气体用于生成目标离子碎片,碰撞能量设置为 10、20、或40eV。

3、XCMS图谱预处理

UPLC-QTOF/MS血清正离子ESI+和负离子ESI-检测获得原始代谢指纹图谱数据(见 图1),通过Agilent公司的Masshunter软件转化为Mzdata数据文件,然后使用R语言的 XCMS软件包进行XCMS图谱预处理,预处理包括保留时间校正、峰识别、峰匹配、峰对齐、 滤噪、重叠峰解析、阈值选择、标准化等。XCMS预处理的相关参数为:峰半腰峰宽为10 (fwhm=10),保留时间窗设置为10(bw=10),而其他参数为默认值。XCMS图谱预处理后得 到可用于统计分析的二维矩阵,其中每行为样本(观测),每列为代谢物(变量),矩阵中值 为相应的代谢物浓度。并且每个代谢物峰使用保留时间(retentiontime,RT)和质荷比 (mass-to-chargeratio,m/z)定性。然后该二维矩阵使用R软件包CAMERA进行代谢物 峰标识(包括同位素峰、加合物和碎片离子)。统计分析前对样本进行标准化处理,待分析保 留时间范围设定为0.5~10min。经XCMS图谱预处理,在正离子检测模式的 UPLC-QTOF/MS谱生成的数据矩阵中包含981个代谢物峰,负离子检测模式为485个代谢 物峰,共有1466个代谢物峰。

4、LC-MS实验质量控制

在血清样本进行代谢组学检测时,将制备的QC样品按每10个分析样本安排1个QC 的顺序均匀地插入分析样本中,从而实时监测从样本前处理到样本检测过程中的质量控制情 况。所得原始代谢指纹图谱经XCMS图谱预处理后,计算每个代谢物在QC样本中的%RSD 值(变异系数),绝大多数代谢物的%RSD值控制在30%以下,说明样本前处理到样本品检 测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。

5、基于PCA的代谢轮廓预分析

使用无监督分析方法即主成分分析(principalcomponentanalysis,PCA)来初步观察组 间分类趋势和离群点,见图2。图中QC标本的重复性可表明LC-MS实验质量控制良好。从 图中还可以看出,食管癌及健康对照间具有一定的分类趋势,但仍有部分交叉,需要采用有 监督学习方法实现进一步的分类。

6、基于PLS-DA的代谢轮廓分析

将得到的二维矩阵数据随机分配成4/5作为训练样本trainingdata,另外1/5作为外 部测试样本testdata(见表1)。为尽量消除组内差距引起的偏差,获得较为明显的分组趋势, 进一步针对训练样本使用有监督分析方法即偏最小二乘判别分析(partialleast squares-discriminantanalysis,PLS-DA)显示食管癌及健康对照间的代谢轮廓的差异和分类 趋势。如图3所示,食管癌同健康对照间具有代谢模式差异和明显的组间分类趋势,其建模 的R2X=0.167,R2Y=0.569,Q2Y=0.523。

表1.食管癌早期诊断的代谢组学研究的基线和临床病理特征

7、食管癌早期诊断的差异代谢物筛选和化学物质鉴定

为筛选出早期食管癌诊断的差异代谢物,我们借助于PLS-DA建模的变量重要性评分 (VIP)和单变量的非参数检验(nonparametricKruskal-Wallisranksumtest)进行筛选。 变量筛选标准为:VIP≥1;且经假发现率FDR的多重检验校正后q值小于0.05。按照此标 准,共筛选出在食管癌与健康对照之间差异表达血清代谢组标记物551个,进一步根据R语 言的CAMERA包确定差异代谢物的准分子离子、加合物和同位素信息,排除化学信号和人 体内没有的,获得242个潜在代谢标记物。

针对上述242个潜在代谢标记物,按照以下化学物质鉴定步骤(如代谢标记物L-色氨酸 RT181.38s,m/z205.0974的鉴定过程,见图4),进行代谢标记物的鉴定:

(1)根据潜在代谢标记物的一级质谱裂解分布特征,结合R语言的CAMERA软件包 (CAMERA为R语言package软件包Collectionofannotationrelatedmethodsformass spectrometrydata, http://bioconductor.org/packages/release/bioc/html/CAMERA.html)确定潜在代谢标记 物的准分子离子、加合物和同位素信息,推测潜在代谢标记物的分子质量和分子式;

(2)根据分子质量查找在线人类代谢物数据库HMDB(http://www.hmdb.ca/)和METLIN (http://metlin.scripps.edu/),确定若干备选化合物;

(3)对242个潜在代谢标记物进行RRLC-QTOF/MS/MS二级质谱实验,进一步获得代 谢物相应的质谱离子碎片信息,并同数据库中备选化合物进行二级质谱图碎片离子匹配;比 对化合物标准样品库的色谱和质谱特征进行最终的物质确定。

根据上述鉴定方法,通过二级质谱或标准品确认的情况下共成功鉴定出25个血清代谢标 记物,这25个血清大小标记物的通用名(CommonName)分别为:beta-Ala-Lys;L-Carnos ine;cis-9-Palmitoleicacid;Palmiticacid;OleicAcid;LPA(18:1(9Z)/0:0);LysoPC(14:0/ 0:0);LysoPC(18:2(9Z,12Z));LysoPC(24:0);PC(14:1(9Z)/P-18:1(11Z));PC(16:0/18:2(9 Z,12Z));PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z));Linoleicacid;NADH;Cortisol; L-Tyrosine;L-Tryptophan;GlycocholicAcid;Taurocholate;Hypoxanthine;Allantoicac id;Inosine;Sphingosine1-phosphate;3-O-Sulfogalactosylceramide(d18:1/20:0);Lact osylceramide(d18:1/22:0)。

对比已发表文献,本发明这25个血清代谢标记物均为首次在早期食管癌中发现,这 对于早期食管癌的诊断、治疗有十分重要的意义。其中,beta-Ala-Lys的中文译名为beta- 丙氨酸-赖氨酸,L-Carnosine的中文译名为左旋肌肽,cis-9-Palmitoleicacid的中文译名为顺 -9-十六碳烯酸,Palmiticacid的中文译名为棕榈酸,OleicAcid的中文译名为油酸,LPA的 中文译名为溶血磷脂酸,LysoPC的中文译名为溶血卵磷脂,PC的中文译名为磷脂,Linoleic acid的中文译名为亚油酸,NADH的中文译名为烟酰胺腺嘌呤二核苷酸,Cortisol的中文译 名为皮质醇,L-Tyrosine的中文译名为L-酪氨酸,L-Tryptophan的中文译名为L-色氨酸, GlycocholicAcid的中文译名为甘氨胆酸,Taurocholate的中文译名为牛磺胆酸盐, Hypoxanthine的中文译名为次黄嘌呤,Allantoicacid的中文译名为尿囊酸,Inosine的中文 译名为肌苷,Sphingosine1-phosphate的中文译名为1-磷酸鞘氨醇, 3-O-Sulfogalactosylceramide的中文译名为硫酸半乳糖基酰基鞘氨醇,Lactosylceramide的 中文译名为乳糖神经酰胺,各中文译名因翻译可能存在偏差,以英文标准名为准。

上述25个血清代谢标记物在HMDB和METLIN中的数据库检索信息如下表2所示,本 领域技术人员可以根据下表中的HMDBID号、METLINID号得到这25个血清代谢标记物 的详细信息,例如化学结构式:

表225个血清代谢标记物在HMDB和METLIN的数据库检索信息

此外,通过KEGG富集(enrichment)和代谢通路(pathway)分析,发现上述25 个血清代谢标记物与以下10个代谢通路密切相关:Glycerophospholipidmetabolism;Linoleic acidmetabolism;beta-Alaninemetabolism;Fattyacidbiosynthesis;Oxidativephosphorylation; Phenylalanine,tyrosineandtryptophanbiosynthesis;Primarybileacidbiosynthesis;Pathwaysin cancer,andBilesecretion;Purinemetabolism;Sphingolipidmetabolism。上述10个代谢通路为 代谢通路KEGG中的标准名(http://www.genome.jp/kegg/),其相应的中文译名为:甘油磷脂 代谢(Glycerophospholipidmetabolism)、亚油酸代谢(Linoleicacidmetabolism)、beta丙氨酸代 谢(beta-Alaninemetabolism)、脂肪酸合成(Fattyacidbiosynthesis)、氧化磷酸化(Oxidative phosphorylation)、苯基丙氨酸/酪氨酸和色氨酸代谢(Phenylalanine,tyrosineandtryptophan biosynthesis)、初级胆汁酸合成(Primarybileacidbiosynthesis)、癌症通路和胆汁分泌(Pathways incancer,andBilesecretion)、嘌呤代谢(Purinemetabolism)、鞘脂类代谢(Sphingolipid metabolism)。这证明食管癌发病早期这10个代谢通路发生了扰动,本发明的这一发现对于食 管癌的预防和药物的研发有很好的指导作用。

下表3为筛选得到的25个血清代谢标记物在食管癌患者和健康人群中的差异信息,其 中在正负两个离子模式下均发现了L-Tryptophan。FC为食管癌和健康对照相比的变化倍数 (foldchange),根据FC信息可以看出:beta-丙氨酸-赖氨酸(beta-Ala-Lys)、溶血磷脂酸 LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14:0/0:0)、磷脂PC(16:0/18:2(9Z,12Z))、烟酰胺腺 嘌呤二核苷酸(NADH)、L-酪氨酸(L-Tyrosine),L-色氨酸(L-Tryptophan)、甘氨胆酸(Glycoch olicAcid)、尿囊酸(Allantoicacid)、肌苷(Inosine)和1-磷酸鞘氨醇(Sphingosine1-phosphat e)在食管癌组中相比健康组表达量明显升高,而其他的代谢标记物在食管癌组中相比健康组 表达量明显降低。

FDR为基于非参数检验多重比较校正的假发现率,其值均小于0.05;AUC为单个代谢 组标记物的诊断试验评价的ROC曲线下面积AUC值,从该值可以看出这25个血清代谢标 记物单独作为标记物进行食管癌与非食管癌的诊断时,最低的AUC值为0.61,最高的AUC 值为0.85。由此可以看出,作为单一组分的诊断标记物来说,本发明筛选得到的25个血清 代谢标记物的诊断效果是较为显著的,以单一血清代谢标记物进行诊断具有一定的临床研究 价值。

为了使诊断效果更好,可以将血清代谢标记物组合进行使用,例如可以根据血清代谢 标记物与代谢通路之间的关系进行组合,形成以下8种诊断标记物:(a)beta-丙氨酸-赖氨 酸(beta-Ala-Lys)和左旋肌肽(L-Carnosine)的组合;(b)顺-9-十六碳烯酸(cis-9-Palmitoleic acid)、棕榈酸(Palmiticacid)和油酸(OleicAcid)的组合;(c)溶血磷脂酸LPA(18:1(9Z)/0:0)、 溶血卵磷脂LysoPC(14:0/0:0)、溶血卵磷脂LysoPC(18:2(9Z,12Z))和溶血卵磷脂 LysoPC(24:0)的组合;(d)磷脂PC(14:1(9Z)/P-18:1(11Z))、磷脂PC(16:0/18:2(9Z,12Z))、 磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z))和亚油酸(Linoleicacid)的组合;(e)烟酰 胺腺嘌呤二核苷酸(NADH)、L-酪氨酸(L-Tyrosine)和L-色氨酸(L-Tryptophan)的组合;(f)皮 质醇(Cortisol)、甘氨胆酸(GlycocholicAcid)和牛磺胆酸盐(Taurocholate)的组合;(g)次黄嘌 呤(Hypoxanthine)、尿囊酸(Allantoicacid)和肌苷(Inosine)的组合;(h)1-磷酸鞘氨醇 (Sphingosine1-phosphate)、硫酸半乳糖基酰基鞘氨醇3-O-Sulfogalactosylceramide (d18:1/20:0)和乳糖神经酰胺Lactosylceramide(d18:1/22:0)的组合。

还可以选择AUC效果好的几种代谢标记物进行组合形成诊断标记物,例如,诊断标记物 可以为下述血清代谢标记物中的两种或两种以上的组合:溶血磷脂酸LPA(18:1(9Z)/0:0),溶 血卵磷脂LysoPC(14:0/0:0),溶血卵磷脂LysoPC(18:2(9Z,12Z)),溶血卵磷脂LysoPC(24:0), 磷脂PC(14:1(9Z)/P-18:1(11Z)),磷脂PC(16:0/18:2(9Z,12Z)),磷脂PC(24:1(15Z)/22:6(4Z, 7Z,10Z,13Z,16Z,19Z)),烟酰胺腺嘌呤二核苷酸(NADH),皮质醇(Cortisol),L-色氨酸(L-Trypto phan),牛磺胆酸盐(Taurocholate),次黄嘌呤(Hypoxanthine),肌苷(Inosine),硫酸半乳糖基酰 基鞘氨醇3-O-Sulfogalactosylceramide(d18:1/20:0),乳糖神经酰胺Lactosylceramide(d18: 1/22:0)。

还可以为下述7种血清代谢标记物中的两种或两种以上的组合:溶血磷脂酸 LPA(18:1(9Z)/0:0)、溶血卵磷脂LysoPC(14:0/0:0)、溶血卵磷脂LysoPC(18:2(9Z,12Z))、溶 血卵磷脂LysoPC(24:0)、磷脂PC(14:1(9Z)/P-18:1(11Z))、磷脂PC(16:0/18:2(9Z,12Z))和磷 脂PC(24:1(15Z)/22:6(4Z,7Z,10Z,13Z,16Z,19Z))。

还可以为下述5种血清代谢标记物中的两种或两种以上的组合:L-酪氨酸(L-Tyrosine)、 L-色氨酸(L-Tryptophan)、甘氨胆酸(GlycocholicAcid)、牛磺胆酸盐(Taurocholate)和皮质醇(C ortisol)。

表3.食管癌与健康对照间差异表达的25种血清代谢标记物

FDR为假发现率(多重比较);AUC为ROC曲线下面积;FC为foldchange变化倍数; RSD%为基于质量控制样本计算的变异系数。

下面,详细列举本发明3种优选诊断标记物的进一步应用效果,其他诊断标记物的应用 情况在此不再一一列举。

8、食管癌早期诊断模型及外部验证

8.1以上述鉴定的25个血清代谢标记物的组合作为诊断标记物,在训练样本中基于 随机森林(randomForest)构建食管癌早期诊断模型。随机森林使用R语言中randomForest 软件包实现,建模参数ntree=5000(等同于下述b)。

随机森林建模步骤如下:

(1)原始训练集的样本含量为N,应用bootstrap法有放回地随机抽取b个新的自助样本 集,并由此构建b棵分类树,每次未被抽到的样本组成了b个袋外数据(out-of-bag,OOB);

(2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量(mtry<<mall), 然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;

(3)随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从 根节点开始依次对训练集进行划分。每棵树最大限度地生长,不做任何修剪。

(4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类, 分类结果按树分类器的投票多少而定。

(5)然后以该投票得分和实际分类情况行ROC曲线分析可获得诊断的诊断界值 (Threshold)。此模型的诊断界值(Threshold)为0.3552。

上述构建的随机森林模型即可以作为食管癌诊断模型,当采用构建的随机森林模型进行 诊断时,将待测血清中的25个血清代谢标记物的数据信息导入随机森林模型中,如果模型分 类器的投票结果大于或等于诊断界值,则判定为诊断阳性(患食管癌),如果低于诊断界值, 则判定为诊断阴性(未患食管癌)。

将外部测试样本的25个血清代谢标记物的二维矩阵数据代入上述建立的随机森林模型 中,得到测试样本的食管癌患病概率预测值,并同实际病理结果(食管癌或健康)相比做ROC 曲线分析(见图5),获得随机森林模型的灵敏度、特异度和ROC曲线下面积AUC值,结果 见表4。从图5和表4可以看出,本发明上述构建的食管癌诊断模型效果良好,其用于食管 癌诊断的ROC曲线下面积AUC为0.895(0.784~1),灵敏度为85.00%,特异度为90.48%。

进一步的,将测试样本的不同分期的食管癌患病概率预测值与实际病理结果(食管癌或 健康)相比分别做ROC曲线分析,用于评价该诊断模型对不同分期食管癌的诊断效果。随 机森林模型对于不同分期的食管癌的灵敏度、特异度和ROC曲线下面积AUC值见下表4, 从表中可以看出:随着食管癌的进一步恶化,AUC值和特异度有增高趋势,灵敏度在原位癌 和晚期癌期间较好,在早期癌中有所下降,总体来说该模型对于晚期食管癌的诊断效果较好, 但是原位癌和早期食管癌的诊断效果(AUC)也能够达到可以接受的0.85以上,也具有早期 诊断的价值,同时也说明本发明筛选得到的血清代谢标记物在早期食管癌甚至原位癌阶段就 有了代谢变化。

原位癌是比早期(I和II期)食管癌还要早的阶段,食管癌的诊断早期更难,晚期相 对容易一些。由表中的数据看,本发明的诊断模型能够很好的诊断出是否患有食管癌,并且 不仅对晚期食管癌的诊断效果好,对于早期食管癌和原位癌的准确度、灵敏度和特异度也较 好,能够有效地诊断出症状不明显的原位癌和早期食管癌,降低了癌症漏诊率,非常有利于 食管癌的早发现、早治疗,对于改善食管癌的预后、降低食管癌的死亡率有很好的帮助,具 有良好的临床使用和推广价值。

表4.食管癌诊断模型的外部推广的ROC分析结果

8.2以7个血清代谢标记物的组合作为诊断标记物进行建模,并用于诊断食管癌,具体 如下:

将得到的二维矩阵数据随机分配成4/5作为训练样本trainingdata,另外1/5作为外 部测试样本testdata(见表1)。仅采用溶血磷脂酸LPA(18:1(9Z)/0:0)、溶血卵磷脂Lyso PC(14:0/0:0)、溶血卵磷脂LysoPC(18:2(9Z,12Z))、溶血卵磷脂LysoPC(24:0)、磷脂PC(14: 1(9Z)/P-18:1(11Z))、磷脂PC(16:0/18:2(9Z,12Z))和磷脂PC(24:1(15Z)/22:6(4Z,7Z,10Z, 13Z,16Z,19Z))7种代谢标记物作为诊断标记物,在训练样本中基于随机森林(randomFores t)构建食管癌早期诊断模型。随机森林使用R语言中randomForest软件包实现,建模参数 ntree=5000,随机森林建模步骤同上。

采用构建的随机模型进行诊断时,将待测血清中的7个血清代谢标记物的数据信息导入 随机森林模型中,如果模型分类器的投票结果大于或等于诊断界值,则判定为诊断阳性(患 食管癌),如果低于诊断界值,则判定为诊断阴性(未患食管癌)。此模型的诊断界值 (Threshold)为0.7431。

将外部测试样本的7个血清代谢标记物的二维矩阵数据代入上述建立的随机森林模 型中,得到测试样本的食管癌患病概率预测值,并同实际病理结果(食管癌或健康)相比做 ROC曲线分析(见图6),获得随机森林模型的灵敏度、特异度和ROC曲线下面积AUC值, 结果见表5。从图6和表5可以看出,本发明上述构建的食管癌诊断模型效果良好,其用于 食管癌诊断的AUC为0.876(0.752~1),灵敏度为90%,特异度为85.71%。

进一步的,将测试样本的不同分期的食管癌患病概率预测值与实际病理结果(食管癌或 健康)相比分别做ROC曲线分析,用于评价该诊断模型对不同分期食管癌的诊断效果。随 机森林模型对于不同分期的食管癌的灵敏度、特异度和ROC曲线下面积AUC值见下表5, 从表中可以看出:随着食管癌的进一步恶化,AUC值和灵敏度有增高趋势,特异度在原位癌 和晚期癌期间较好,在早期癌中有所下降,总体来说该模型对于晚期食管癌的诊断效果较好, 但是原位癌和早期食管癌的诊断效果(AUC)也能够达到可以接受的0.83以上,也具有早期 诊断的价值,同时也说明本发明筛选得到的血清代谢标记物在早期食管癌甚至原位癌阶段就 有了代谢变化。

由表中的数据可以看出,本发明7个血清代谢标记物信息构建的诊断模型相比于采用25 个血清代谢标记物信息构建的诊断模型效果差一些,但该诊断模型也能够很好的诊断出是否 患有食管癌,并且不仅对晚期食管癌的诊断效果好,对于早期食管癌和原位癌的准确度、灵 敏度和特异度也较好,能够有效地诊断出症状不明显的原位癌和早期食管癌,降低了癌症漏 诊率,非常有利于食管癌的早发现、早治疗,对于改善食管癌的预后、降低食管癌的死亡率 有很好的帮助,具有良好的临床使用和推广价值。

表5食管癌诊断模型的外部推广的ROC分析结果

8.3、以5个血清代谢标记物的组合作为诊断标记物进行建模,并用于诊断食管癌, 具体如下:

将得到的二维矩阵数据随机分配成4/5作为训练样本trainingdata,另外1/5作为外部测 试样本testdata(见表1)。采用L-酪氨酸(L-Tyrosine)、L-色氨酸(L-Tryptophan)、甘氨胆酸 (GlycocholicAcid)、牛磺胆酸盐(Taurocholate)和皮质醇(Cortisol)5种血清代谢标记物作为诊 断标记物,在训练样本中基于随机森林(randomForest)构建食管癌早期诊断模型。随机森 林使用R语言中randomForest软件包实现,建模参数ntree=5000,随机森林建模步骤同上。

采用构建的随机模型进行诊断时,将待测血清中的5个血清代谢标记物的数据信息导入 随机森林模型中,如果模型分类器的投票结果大于或等于诊断界值,则判定为诊断阳性(患 食管癌),如果低于诊断界值,则判定为诊断阴性(未患食管癌)。此模型的诊断界值 (Threshold)为0.4943。

将外部测试样本的5个血清代谢标记物的二维矩阵数据代入上述建立的随机森林模型 中,得到测试样本的食管癌患病概率预测值,并同实际病理结果(食管癌或健康)相比做ROC 曲线分析(见图7),获得随机森林模型的灵敏度、特异度和ROC曲线下面积AUC值,结果 见表6。从图7和表6可以看出,本发明上述构建的食管癌诊断模型效果良好,其用于食管 癌诊断的AUC为0.84(0.703~0.978),灵敏度为95%,特异度为76.19%。

进一步的,将测试样本的不同分期的食管癌患病概率预测值与实际病理结果(食管癌或 健康)相比分别做ROC曲线分析,用于评价该诊断模型对不同分期食管癌的诊断效果。随机 森林模型对于不同分期的食管癌的灵敏度、特异度和ROC曲线下面积AUC值见下表6,从表 中可以看出:这5种血清代谢标记物对于原位癌、早期癌和晚期癌表现出不同的趋势。

由表中的数据可以看出,本发明5个血清代谢标记物信息构建的诊断模型相比于采用 25个和7个血清代谢标记物信息构建的诊断模型效果差一些,但该诊断模型也能够很好的诊 断出是否患有食管癌,并且不仅对晚期食管癌的诊断效果好,对于早期食管癌和原位癌的准 确度、灵敏度和特异度也较好,能够有效地诊断出症状不明显的原位癌和早期食管癌,降低 了癌症漏诊率,非常有利于食管癌的早发现、早治疗,对于改善食管癌的预后、降低食管癌 的死亡率有很好的帮助,具有良好的临床使用和推广价值。

表6食管癌早期诊断模型的外部推广的ROC分析结果

9、结论

9.1本发明所得25个血清代谢标记物中的任意一个作为诊断食管癌的诊断标记物都 具有较好的诊断效果,但是将多个血清代谢标记物组合应用的效果更好。

9.2本发明优选的3种诊断标记物(诊断标记物A、B、C)以及构建的诊断模型对于食 管癌具有很好的诊断效果,具有临床应用价值。

经过验证,本发明所得诊断标记物和诊断模型具有很好的应用价值,可以在临床上采用 本发明的诊断标记物和诊断模型进行食管癌的诊断,步骤如下:

(1)采集待检血清,离心后采用上述2.2中的步骤(1)-(4)对血清进行预处理,以备 进样检测;

(2)将预处理后的待检血清样本按照上述2.3的步骤进行LC-MS检测,得原始代谢指 纹图谱;

(3)将原始代谢指纹图谱按照上述步骤3的方法进行图谱预处理,并进行代谢物峰标识, 得到该待检血清的二维矩阵;

(4)根据质荷比和保留时间从二维矩阵中筛选出相应的诊断标记物(诊断标记物A、B 或C)信息,得到诊断标记物二维矩阵;

(5)将诊断标记物二维矩阵带入相应的诊断模型中,根据模型给出的数值和模型的诊断 界值(Threshold),判断是否为食管癌。当模型给出的数值大于等于诊断界值时,判定为诊 断阳性(患食管癌),如果低于诊断界值,则判定为诊断阴性(未患食管癌)。

除此之外,为了加快效率,可以同时采集多人的血清样本,并进行编号,将多个样本 一次性进行LC-MS检测、图谱预处理、代谢峰标识、诊断标记物二维矩阵筛选和数据导入。

在实际应用中,可以按照本发明建模方法选取更多的样本进行建模,增加模型的准确度。

以上为对本发明专利的描述而非限定,基于本发明专利思想的其他实施方式,均在本发 明保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号