首页> 中国专利> 一种基于机器学习和代谢组学预测泌尿结石的系统

一种基于机器学习和代谢组学预测泌尿结石的系统

摘要

本发明公开了一种基于机器学习和代谢组学预测泌尿结石的系统,属于基于新一代信息技术的医学诊断领域。所述系统包括用于存储由群体特征数据构成的数据库装置;用于接收受试者特征数据的输入的数据输入装置;和用于基于所述数据库中的特征数据利用机器学习方法建立预测模型,并利用所述预测模型基于所述受试者特征数据来预测受试者是否具有发生泌尿结石风险有泌尿结石发生风险预测装置,其中,所述特征数据包括尿液异柠檬酸含量和尿液柠檬酸含量。本发明的系统,能够基于受试者的特征数据,如尿液中异柠檬酸含量和柠檬酸含量,并基于机器学习,准确预测受试者的泌尿结石发生风险,从而进行早期干预,具有重要的临床应用价值。

著录项

  • 公开/公告号CN112802544A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 杭州度安医学检验实验室有限公司;

    申请/专利号CN202110273193.8

  • 申请日2021-03-12

  • 分类号G16B5/00(20190101);G16B40/00(20190101);G16H10/20(20180101);G16H50/20(20180101);G01N30/02(20060101);G01N30/06(20060101);

  • 代理机构33305 杭州信义达专利代理事务所(普通合伙);

  • 代理人万景旺

  • 地址 310000 浙江省杭州市五常街道向往街199号1幢2单元301、302、303、403室

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明属于基于新一代信息技术的医学诊断领域,具体地,涉及一种基于机器学习和代谢组学预测泌尿结石的系统。

背景技术

泌尿结石(Nephrolithiasis)是晶体物质在泌尿系统的异常聚积所致,为泌尿系统的常见病,严重可引起尿路感染、腹痛、肾积水、肾功能衰竭等。泌尿结石发病率高,中国南方地区发病率高达5-10%,且易复发,手术后患者生活质量低,对患者家庭和社会负担巨大,很多患者在出现症状之后才会发现结石,无法在早期及时评价结石风险,且对于结石手术后治疗效果的评估、尚缺乏有效检测方式。结石复发率极高,因此,建立合适的风险评估模型及检测手段,对结石患者治疗效果进行评估、预测患者结石复发或者发生风险具有重要的现实意义。

传统确定结石的方法通常是医学影像如B超、X线或者CT检测,患者检查时须已经产生结石,因此,此方法并不能用于早期结石预测。在评估结石患者的治疗效果方面也有一定滞后性。

近年来,生物标志物的出现,如尿中草酸、尿酸及钙等物质,使预测结石发生及评估结石患者治疗效果成为可能。然而,人体具有一个整体的代谢系统,结石产生受多种因素综合影响,现有的生物标志物缺乏整体研究数据。

代谢组学是通过研究生物体的大范围代谢物变化情况,综合评价生物的状况。目前代谢组学已经在多个人类疾病研究领域得到应用。然而在泌尿结石方面,尚缺乏此类综合数据,因此以代谢组学方法对泌尿结石进行研究更具有现实意义。

另一方面,基于其他表型的临床泌尿结石诊断也具有重要的意义。然而,目前尚没有将生物标志物和临床表型结合进行泌尿结石预测的技术或方法报道。

发明内容

为了解决上述技术问题中的至少一个,本发明采用的技术方案如下:

本发明提供一种基于机器学习预测受试者泌尿结石发生风险的系统,包括:

数据库装置,用于存储由群体特征数据构成的数据库;

数据输入装置,用于接收受试者特征数据的输入;

泌尿结石发生风险预测装置,分别与所述数据库装置和所述数据输入装置连接,其用于基于所述数据库中的特征数据利用机器学习方法建立预测模型,并利用所述预测模型基于所述受试者特征数据来预测受试者是否具有发生泌尿结石的风险,

其中,所述特征数据包括尿液异柠檬酸含量和尿液柠檬酸含量。

进一步地,所述特征数据还包括选自性别、体重、尿量、尿液草酸含量、尿钙含量、尿肌酐含量、尿酸含量和年龄中的至少一种。

在本发明的一些实施方案中,所述特征数据包括尿液异柠檬酸含量、尿液柠檬酸含量和尿量。

在本发明的另一些实施方案中,所述特征数据包括尿液异柠檬酸含量、尿液柠檬酸含量和年龄。

在本发明的又一些实施方案中,所述特征数据包括尿液异柠檬酸含量、尿液柠檬酸含量、尿量和年龄。

在本发明的一些实施方案中,所述群体特征数据是指大批量如20个以上、50个以上、100个以上、500个以上或者更多个体的相应的特征数据,以及是否在一定时期内患泌尿结石的数据。在本发明的一些优选实施方案中,所述一定时期为1年。

进一步地,所述泌尿结石预测装置进一步用于将所述受试者特征数据输入至所述数据库装置中,对所述数据库进行更新,形成新的数据库。

在本发明的一些实施方案如此,所述泌尿结石预测装置基于新的数据库生成新的预测模型。

在本发明中,所述机器学习方法为随机森林法或单因素分析法。

在本发明中,所述系统进一步包括预测结果输出装置,其与泌尿结石预测装置连接。

在本发明的一些实施方案中,所述尿液是指24h尿液。

在本发明中,所述受试者为人。

在本发明的一些实施方案中,所述尿液异柠檬酸含量、尿液柠檬酸含量、尿液草酸含量是利用高效液相色谱-串联质谱的方法测得的,包括以下步骤:

S1,利用衍生试剂对所述尿液样本进行衍生;

S2,利用高效液相色谱-串联质谱对衍生后的尿液样本进行检测。

在本发明的一些实施方案中,步骤S1利用衍生试剂对所述尿液样本进行衍生的步骤具体为:取10-20μL生物样本,加入10-50μL同位素标记的异柠檬酸和草酸内标,于60℃氮气吹干,加入100-300μL 3mol/L盐酸正丁醇溶液,涡旋3min,于60℃震荡20min,离心3min,于60℃氮气吹干,加入100-300μL甲醇复溶。

在本发明的一些实施方案中,步骤S2之前进一步包括步骤:

样品衍生化后,经过氮气干燥,分别加入0.5-1.5mL 0.3%的氨水•乙酸乙酯,超声15min,震荡15min,15000rpm离心5min,取上清300-800μL,于60-80℃氮气吹干,加入50-500μL甲醇复溶,待检测。

在本发明的一些实施方案中,步骤S2利用高效液相色谱-串联质谱对衍生后的生物样本进行检测的步骤具体为:

色谱柱条件:ACE Excel-2 C18-PFP柱(100×2.1 mm,2.6μm),柱温35℃;

洗脱条件:流动相A为0.1%甲酸-5mM乙酸铵水溶液,流动相B为0.1%甲酸-5mM乙酸铵甲醇溶液;流速0.1-0.5mL/min,等度洗脱,10-90%B流动相B,具体如下表。

在本发明的一些实施方案中,所述系统为计算机系统。

本发明的有益效果

本发明相对于现有技术,具有以下有益效果:

利用本发明的系统,能够基于受试者的代谢组学特征数据,即尿液中柠檬酸含量和异柠檬酸含量,利用机器学习的方法,准确预测受试者泌尿结石发生风险,从而进行早期干预,具有重要的临床应用价值。

附图说明

图1示出了柠檬酸与异柠檬酸的结构和生化反应。

图2示出了基于LC-MS/MS检测生物标志物的峰图。

图3示出了受试者24h尿液样本中异柠檬酸与草酸含量的关系。

图4示出了通过随机森林法拟合的参数重要性排列。

图5示出了本发明实施例4一种基于机器学习预测泌尿结石发生风险的系统的示意图。

图6示出了基于本发明实施例4一种基于机器学习预测泌尿结石发生风险的系统预测结石发生的ROC曲线。其中,实线为训练组(Train),虚线为测试组(Test)。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。

除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。

实施例 1 24h尿液样本中异柠檬酸分离与检测

异柠檬酸和柠檬酸是同分异构体的内源性物质(图1),以往检测方法中,很难实现对柠檬酸和异柠檬酸的分离检测,为此,发明人通过利用醇类衍生,实现了通过高效液相色谱对柠檬酸和异柠檬酸进行分离。

(一)标准溶液的配制。

(1)内标溶液配制:分析天平精确称取柠檬酸-D

(2)标准品配制:分析天平精确称取柠檬酸和异柠檬酸,各标准品分别用纯水配制成浓度为10mg/mL和50mg/mL的标准品母液。

(3)内标储备液:吸取100μL内标母液,用纯水定容到1mL,稀释成一个内标储备液。

(4)标准品储备液:依次吸取500μL和300μL柠檬酸与异柠檬酸标准品母液,用纯水定容到1mL,稀释成一个标准品储备液。

(5)人工尿配制:10mL超纯水,加180mg尿素,5mg尿酸,110mgNaCl ,超声10min,混匀3min,静置5min后,取上清溶液待用。

(6)标准曲线工作液:使用人工尿稀释标准品储备液,可以得到一系列不同浓度的标准曲线工作液(W1-W7),用于制作标准曲线。标准曲线工作液配制过程如下表:

(二)样本前处理

尿液的离心:取待检尿液样本(受试者24h尿液)至少4mL,在离心速度为3000rpm下离心15min,分离得到上清液尿液,置于-80℃保存备用。

(三)衍生化

取20μL待测尿液样本/标准曲线工作液,加入20μL内标,于60℃氮气吹干,加入100μL 3mol/L盐酸正丁醇溶液,涡旋3min,于60℃震荡20min,离心3min,于60℃氮气吹干,待提取。

(四)提取:样品衍生化后,经过氮气干燥,分别加入1mL 0.3%的氨水•乙酸乙酯,超声15min,震荡15min,15000rpm离心5min,取上清500μL,于60℃氮气吹干,加入100μL甲醇复溶,待检测。

(五)待测尿液样本/标准曲线工作液检测

色谱柱条件:ACE Excel-2 C18-PFP柱(100×2.1 mm,2.6μm),柱温35℃。

洗脱条件:流动性A为0.1%甲酸-5mM乙酸铵水溶液,流动性B为0.1%甲酸-5mM乙酸铵甲醇溶液;流速-0.3mL/min,等度洗脱,-90%B流动相B,具体如下表:

检测结果如图2所示,结果显示,柠檬酸与异柠檬酸实现基线分离,异柠檬酸保留时间为2.5-2.8min;柠檬酸保留时间为2.85-3.25min。

实施例 2 生物标志物含量测定

(一)标准溶液的配制。

(1)内标溶液配制:分析天平精确称取草酸-

(2)标准品配制:分析天平精确称取草酸、柠檬酸、异柠檬酸和胱氨酸,称量质量依次为20mg、500mg、50mg和30mg,各标准品分别用纯水配制成浓度依次为20mg/mL、500mg/mL、50mg/mL和30mg/mL的标准品母液。

(3)混合内标储备液:依次吸取100μL草酸-

(4)混合标准品储备液:吸取500μL草酸母液、500μL胱氨酸母液、500μL异柠檬酸母液、500μL柠檬酸标准品母液,用纯水定容到1mL,稀释成一个混合标准品储备液。

(5)人工尿配制:10mL超纯水,加180mg尿素,5mg尿酸,110mgNaCl ,超声10min,混匀3min,静置5min后,取上清溶液待用。

(5)标准曲线工作液:使用人工尿稀释混合标准品储备液,可以得到一系列不同浓度的标准曲线工作液(W1-W7),用于制作标准曲线。标准工作液配制过程如下表:

(二)样本前处理

尿液的离心:取待检尿液样本(受试者24h尿液)至少4mL,在离心速度为3000rpm下离心15min,分离得到上清液尿液,置于-80℃保存备用。

(三)衍生化

取20μL待测尿液样本/标准曲线工作液,加入20μL内标,于60℃氮气吹干,加入100μL 3mol/L盐酸正丁醇溶液,涡旋3min,于60℃震荡20min,离心3min,于60℃氮气吹干,待提取。

(四)提取:样品衍生化后,经过氮气干燥,分别加入1mL 0.3%的氨水•乙酸乙酯,超声15min,震荡15min,15000rpm离心5min,取上清500μL,于60℃氮气吹干,加入100μL甲醇复溶,待检测。

(五)待测样本的检测

色谱柱条件:ACE Excel-2 C18-PFP柱(100×2.1 mm,2.6μm),柱温35℃。

洗脱条件:流动性A为0.1%甲酸-5mM乙酸铵水溶液,流动性B为0.1%甲酸-5mM乙酸铵甲醇溶液;流速0.5mL/min,等度洗脱,90%B流动相B,具体如下表。

尿液样本的检测结果如图2所示。

对标准曲线工作液进行检测;通过标准曲线的浓度及峰面积,拟合得到标准曲线方程,通过待测尿液样本的峰面积计算出待测尿液样本中的草酸、柠檬酸、异柠檬酸和胱氨酸的浓度(含量)。

发明人利用本实施例的方法,对6位受试者的尿液样本(24h尿液)进行了检测,结果如下表:

↑表示高于正常范围;↓表示低于正常范围。

发明人经过对大量样本进行了检测,统计发现,受试者尿液样本中异柠檬酸和草酸含量存在一个显著正相关的关系,Pearson线性相关系数r=0.397(图3),表明异柠檬酸作用和柠檬酸不一致,其可能能够促进草酸的形成。同时,也意味着,对柠檬酸和异柠檬酸进行分离并同时进行检测,对诊断和预测泌尿结石具有重大的临床意义。

实施例 3 基于机器学习预测泌尿结石发生风险的模型

为了更好的预测结石的发生和复发,发明人收集了健康人24h尿液以及结石患者(在近一年内发生过结石)的24h尿液,通过实施例2建立的LC-MS/MS方法测定得到生物标志物草酸、柠檬酸、胱氨酸、异柠檬酸的含量,通过生化分析仪得到尿钾、尿钙、尿钠等指标,再获得其他的临床表型信息(如年龄、性别、体重等),部分受试者信息如下:

发明人通过机器语言学习(machine learning)的方式来筛选重要的预测指标(Predictive Features),最后通过ROC曲线来比较和确定最终的预测模型和参数。

模型一:通过随机森林法(Random Forrest)方法找到前5位重要的特征(Features)(图4),通过逻辑回归(Logistic Regression)的方法进一步找到p value <0.05的变量:柠檬酸含量、异柠檬酸含量、尿量和年龄。

模型二:通过单因素分析(One way ANOVA)方法找到p value<0.05的特征(Features):柠檬酸含量、异柠檬酸含量、年龄、尿量、尿镁、体重、pH、胱氨酸含量,如下表所示。对于这些变量,对于通过Logistic Regression回归的方法进一步找到p value<0.05的变量:柠檬酸含量、异柠檬酸含量、年龄和尿量。

通过模型一和模型二,可以看出,两个模型所筛选出来的重要的预测指标(Predictive Features)是一致性的。因此,发明人选定柠檬酸含量+异柠檬酸含量+年龄+尿量的预测模型通过Logistic回归的方式作为最终的预测结石发生风险的模型。

实施例4 基于机器学习预测泌尿结石发生风险的系统

基于实施例3,发明人建立如图5所示的系统,该系统包括:数据库装置1,用于存储由群体特征数据构成的数据库;数据输入装置2,用于接收受试者特征数据的输入;泌尿结石发生风险预测装置3,分别与所述数据库装置1和所述数据输入装置2连接,其用于基于所述数据库装置1中的特征数据利用机器学习方法建立预测模型,并利用所述预测模型基于所述受试者特征数据来预测受试者是否具有发生泌尿结石的风险,预测结果输出装置4,其与泌尿结石发生风险预测装置3连接,用于输出受试者发生泌尿结石的风险。

其中,特征数据包括100位个体24h尿液异柠檬酸含量、24h尿液柠檬酸含量、24h尿量和年龄。数据库上还包括100位个体在1年内是否患有泌尿结石的结果。部分结果如实施例3所示。

发明人通过利用进一步随机创建训练组(training set)和测试组(testing set)来对此系统进行验证(图6)。其中训练组AUC为0.868(实线),测试组的AUC为0.785(虚线)。

以上结果表明,发明人建立的基于机器学习预测泌尿结石风险的系统具有非常高的准确性。

在使用过程中,泌尿结石预测装置3可以将受试者特征数据及1年内是否发生泌尿结石输入至数据库装置1中,对数据库进行更新,从而形成新的数据库。在进行下次预测时,泌尿结石预测装置3可以基于新的数据库生成新的预测模型。随着数据的积累,数据库不断完善、升级,预测模型的准确度会不断提升。

在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号