首页> 中国专利> HIV患者马尔尼菲篮状菌病发病概率预测模型的建立方法

HIV患者马尔尼菲篮状菌病发病概率预测模型的建立方法

摘要

本发明提供HIV患者马尔尼菲篮状菌病发病概率预测模型的建立方法,属于疾病预测模型技术领域。所述预测模型是指基于随机森林算法的模型,包括以下步骤:患者信息数据的选择、提取;不同批次来源数据的标准化处理;建立在HIV患者中预测马尔尼菲篮状菌病发病概率的随机森林模型;测试并评估模型,剔除影响较小的自变量,得到优化的预测模型。本发明的方法通过对采集的患者信息数据进行统一标准化处理后,再输入软件中,建立自变量和因变量的关系,所得模型预测结果更加可靠准确,为HIV患者的马尔尼菲篮状菌病发病率预测提供了一种有效的方法。

著录项

  • 公开/公告号CN113140325A

    专利类型发明专利

  • 公开/公告日2021-07-20

    原文格式PDF

  • 申请/专利权人 柳州市人民医院;

    申请/专利号CN202010070717.9

  • 申请日2020-01-20

  • 分类号G16H50/80(20180101);G16H50/30(20180101);G16H50/20(20180101);

  • 代理机构45119 南宁新途专利代理事务所(普通合伙);

  • 代理人方明

  • 地址 545006 广西壮族自治区柳州市城中区文昌路8号

  • 入库时间 2023-06-19 11:54:11

说明书

【技术领域】

本发明涉及疾病发病概率预测模型技术领域,具体涉及一种HIV患者马尔尼菲篮状菌病发病率预测模型的建立方法。

【背景技术】

我国艾滋病(AIDS)疫情严峻,其中广西更是中国HIV/AIDS流行的一个重灾区。随着 ART联合抗逆转录病毒疗法的普及,各种机会性感染逐渐成为艾滋病患者致死的主要原因。在广西马尔尼菲篮状菌(Talaromyces marneffei,TM)已成为继肺结核之后最主要的机会性感染,同时也是致死率第一的机会性感染。马尔尼菲篮状菌,原称马尔尼菲青霉菌,作为一种地方性感染性真菌病,马尔尼菲篮状菌病主要流行于泰国、越南等东南亚国家以及我国华南地区。该病起病隐匿,多数患者病情发展迅速,死亡率高,严重者可在数天内死亡。既往研究报道HIV-1患者马尔尼菲篮状菌感染率为9%-18%,而HIV合并马尔尼菲篮状菌感染不治疗死亡率可达91.3%,治疗后死亡率仍高达20.7%。马尔尼菲篮状菌感染可分为局限型和播散型,艾滋病病人由于T淋巴细胞免疫缺陷,极容易发生播散型感染,并且临床症状缺乏特异性,容易与结核、淋巴瘤、肺孢子菌肺炎等机会性感染相混淆。TM感染已成为当地亟待解决的公共卫生问题。

目前真菌培养是HIV患者感染马尔尼菲篮状菌确诊的常规方法,但是检测需要耗费7-10 天时间才能从临床标本中分离和鉴定病原体,阳性率为76.7%左右,许多基层医院往往缺乏相关培养检测设备技术。这些原因均造成了该疾病诊断、治疗时间的延迟。最近虽然建立了如聚合酶链反应(PCR)检测,高通量测序分析,酶联免疫吸附测定(ELISA)和Mp1p测试等其他诊断方法,但是这些昂贵的方法在临床实践中广泛应用目前仍存在一定距离。因此,目前急需要一种能快速有效进行地在HIV人群中预测马尔尼菲篮状菌病发病的方法,以满足临床诊断的需求,本发明提供的预测模型构建方法即在此需求下研制产生。

随机森林技术目前已作为一种重要的数据分析工具,被广泛地应用于科学研究的众多领域,在图像识别、文本分类、基因表达谱分析等领域已取得诸多成功应用。实践证实随机森林具有速度快、抗噪声,可处理任意类型的数据,具有较高的分类准确率,可输出因素的重要性、不容易过拟合等优点。但将随机森林模型算法直接用于HIV患者马尔尼菲篮状菌病发病率的预测时,自变量的数据包括患者的一些生化、免疫等测试指标,而临床中同一指标在不同仪器、试剂下,参考值范围存在着差异,直接将这些数据输入模型中,所建立的预测模型不能反映真实的情况,导致预测结果不准确可靠。

【发明内容】

本发明的发明目的在于:针对上述存在的问题,提供一种HIV患者马尔尼菲篮状菌病发病率预测模型的建立方法,本发明的方法通过对采集的患者信息数据进行统一标准化处理后,再输入软件中,建立自变量和因变量的关系,所得模型测试结果更加可靠准确,为HIV患者的马尔尼菲篮状菌病发病率预测提供了一种有效的方法。

为了实现上述目的,本发明采用的技术方案如下:

HIV患者马尔尼菲篮状菌病发病概率预测模型的建立方法,所述预测模型是指基于随机森林算法的模型,包括以下步骤:

(1)患者信息数据的选择、提取;

(2)不同批次来源数据的标准化处理;

(3)建立在HIV患者中预测马尔尼菲篮状菌病发病概率的随机森林模型;

(4)测试并评估模型,剔除影响较小的自变量,得到优化的预测模型。

优选地,所述步骤(1)是指从HIV住院患者数据库中提取入院基线信息和出院马尔尼菲篮状菌诊断信息,其中入院基线信息包括患者初次入院后收集的人口学特征、临床表现、实验室检查结果三种类型信息;出院马尔尼菲篮状菌诊断信息是指出院是否诊断患马尔尼菲篮状菌病。

优选地,入院基线信息具体为:

人口学特征:包括性别、年龄、民族、职业、婚姻状况、HIV感染途径;

临床表现:包括发热或畏寒、咳嗽或咳痰、消瘦、脐凹样皮疹、外周或腹腔巴结肿大、肝肿大、脾肿大;

实验室检查结果:包括HB(血红蛋白)、WBC(白细胞)、PLT(血小板)、L(淋巴细胞计数)、肌酐、尿素氮、ALT(谷丙转氨酶)、AST(谷草转氨酶)、AST/ALT比值、CD4+T细胞计数。

优选地,所述步骤(2)所述的标准化处理是将患者信息数据中除年龄以外的连续变量数据转化为分类变量,从而处理临床实践中存在同一测量指标在不同仪器、试剂下参考值范围存在差异的问题,采用数字编码表示不同数据类别,编码规则为:1表示小于参考值范围下线,2表示在参考范围内,3表示大于参考值范围上线。

优选地,所述步骤(3)中随机森林模型的建立方法为:以入院基线信息数据为自变量,将其作为模型输入因子,因变量为是否感染马尔尼菲篮状菌病,感染用1表示,未感染用0 表示;将HIV患者的信息数据按照编码规则标准化处理后导入R软件,加载随机森林R语言包,设置模型参数,运行软件,建立随机森林预测模型。

优选地,步骤(4)包含以下步骤:

a、构建受试者工作特征曲线ROC以及计算ROC曲线下面积AUC,评价模型的分类效果, AUC越接近1,模型分类效果越好;

b、马尔尼菲篮状菌发病分类的影响因素及其重要性排序评价,采用平均精度下降(Mean Decrease Accuracy)和/或平均基尼指数下降(Mean Decrease Gini)参数评价马尔尼菲篮状菌发病的影响因素的重要性,其值越大表示因子重要性越大,剔除影响较小的自变量,得到优化的预测模型。

优选地,所述步骤(2)中数据标准化处理前,还包括根据数据的完整性、准确性,剔除明显异常数据和数据不完整患者样本的步骤。

优选地,所述的设置模型参数,包括设定训练样本与测试样本比例为7:3,设定随机森林树数为500颗。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1、本发明的方法所建立的预测模型操作方便简单,待测样本通过在建立的操作界面中输入相关数值后,即可有效地计算出HIV患者(待测样本)感染马尔尼菲篮状菌的概率值(P),该值可用于评估患者感染马尔尼菲篮状菌风险大小,通过模型评估可筛选出马尔尼菲篮状菌感染高危人群,可进一步结合真菌培养来早期确诊发现感染人群。

2、本发明的模型建立方法,在收集数据信息后进行标准化处理,使得模型的适应能力强,适用范围广特点,并能不断学习优化。即使各区域、各医院的临床仪器的检测范围、检测试剂、数据记录标准有所差异,通过应用本发明的处理方法,只需根据不同医院检测指标实际情况,标准化输入输出参数,即能获得较为准确可靠的预测结果。

【附图说明】

图1为基于随机森林模型在HIV人群中预测马尔尼菲篮状菌病发病的方法的流程图;

图2为本发明中随机森林方法构建ROC曲线以及曲线下AUC面积的结果;

图3为本发明方法中采用随机森林法时马尔尼菲篮状菌病发病影响因子重要性评价图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为提高HIV人群中马尔尼菲篮状菌病发病预测的准确性,实现疾病早期诊断、治疗,降低患者的死亡风险。本发明利用R软件作为马尔尼菲篮状菌病发病状态评估方法的开发平台,采用RandomForest功能包,编写相应代码以实现模型所需功能。R软件是一款免费、开源的自由软件,内置丰富的数学计算、统计计算函数,具有强大的统计分析功能及作图功能。

实施例1

图1示出了HIV患者马尔尼菲篮状菌病发病率预测模型的建立方法的流程图。现以本医院既往602例新入院HIV住院患者为实例,详细介绍HIV人群中预测马尔尼菲篮状菌病发病概率预测模型的建立方法,包括以下具体步骤:

(1)患者信息数据的选择、提取:从HIV住院患者数据库中提取入院基线信息和出院马尔尼菲篮状菌诊断信息;所述的入院基线信息包括人口学特征、临床表现、实验室检查结果三种类型信息。出院马尔尼菲篮状菌诊断信息是指出院是否诊断患马尔尼菲篮状菌病。在具体实施中,可根据实际数据质量情况,扩充数据数量、类型;

选取人口学特征:包括性别、年龄、民族、职业、婚否、HIV感染途径;

临床表现:包括发热或畏寒、咳嗽或咳痰、消瘦、脐凹样皮疹、外周或腹腔巴结肿大、肝肿大、脾肿大;

实验室检查结果:包括HB、WBC、PLT、L、肌酐、尿素氮、ALT、AST、AST/ALT比值、CD4+T细胞计数。

(2)不同批次来源数据的标准化处理:在本具体实施例中,首先根据数据的完整性、准确性,修正和剔除明显异常数据,然后根据输入因子数据属性,对临床中同一指标在不同仪器、试剂下参考值范围存在差异的指标进行连续变量数据转化为分类变量处理,需要转化为分类变量的处理因子为:HB、wbc、PLT、L肌酐、尿素氮、ALT、AST、CD4+T细胞数。采用数字编码表示不同数据类别,编码规则为:1表示小于参考值范围下线,2表示在参考范围内, 3表示大于参考值范围上线;标准化后的入院基线信息示例见表1,分类变量数字编码对照表见表2。

表1标准化后的入院基线信息示例

表2分类变量数字编码对照表示例

(3)建立在HIV患者中预测马尔尼菲篮状菌病发病概率的随机森林模型:入院基线信息数据为自变量,将数据标准化处理后的入院基线信息数据其作为模型输入因子,因变量为是否感染马尔尼菲篮状菌病,感染用1表示,未感染用0表示;将经过步骤(2)标准化处理后的数据导入R软件,加载随机森林R语言包,设置模型参数,设置训练样本与测试样本比例为7:3,建立随机森林树数为500颗,运行软件,建立随机森林预测模型。

随机森林方法中给定原始数据样本集D,由正样本和负样本同两部分组成,样本数量为N,从中有放回的重复取样N次,构成一个新的训练集D1,用于生成一棵决策树。随机森林的训练无需测试集,不需要另外预留部分数据做交叉验证,其采用袋外数据(Out-Of-Bag,OOB)用于估计模型误差,评估预测效果。OOB是随机森林在有放回的重复取样生成新训练集过程中不会被抽中样本。

(4)测试并评估模型:构建“受试者工作特征”ROC(Receiver OperatingCharacteristic) 以及计算ROC曲线下的面积AUC(Area Under ROC Curve),评价构建的二分类模型分类效果, AUC值越接近于1,表示模型的分类效果越好。

在本具体实施例中,纳入602个原始数据集,包含感染马尔尼菲篮状菌病数据(正样本) 和未感染马尔尼菲篮状菌病(负样本),以步骤(1)中筛选出的所有输入因子作为自变量,以是否感染马尔尼菲篮状菌病作为因变量,建立随机森林模型挖掘自变量与因变量间的关系。经计算,模型ROC曲线下面积为0.859,表明分类效果较好,测试模型建立的ROC曲线见图2。

随机森林模型可以通过varImpPlot函数用图形方式展示因子的重要程度,以及采用平均精度下降(Mean Decrease Accuracy)和/或者平均基尼指数下降(Mean DecreaseGini)两个参数评价马尔尼菲篮状菌发病的影响因素的重要性,其值越大表示因子重要性越大。其中平均精度下降衡量把一个因子的取值变为随机数,随机森林预测准确性的降低程度;平均基尼指数下降(Mean Decrease Gini),通过基尼指数计算每个因子对决策树每个节点不纯度的降低程度的影响。

图3为本具体实施例中马尔尼菲篮状菌发病分类的影响因素及其重要性排序影响因子重要性评价图。随机森林给出的因子重要性评价结果表明,影响马尔尼菲篮状菌发病的主导因素前5位因素(参考平均精度下降结果)为:脐凹样皮疹、AST/ALT比值、外周或腹腔巴结肿大、AST、CD4+T细胞计数。根据因子重要性排序,在后续数据收集、模型优化过程中剔除影响较小的自变量,对重要性较高因子可作为重要指标进行收集,在减少收集数据种类同时进一步提升质量。

本发明所建立的上述预测模型可以用于计算马尔尼菲篮状菌发病概率,具体方法如下:

通过将建立好的随机森林模型加载到操作界面进行待测样本马尔尼菲篮状菌发病概率计算,操作界面的运行环境为WINDOWS10系统,开发工具pycharm2019.3.1、node12.4.1、 vscode1.39.2,开发语言是python3.8.1。

打开运行界面后,在参数输入界面中参考分类变量数字编码对照表(表2)中分类变量的提示,输入待测样本参数数值。点击提交数据,即可在预测结果显示界面显示计算结果。计算的随机森林模型预测感染马尔尼菲篮状菌病概率,预测结果为介于[0,1]之间的数值,其中值越接近于1,表示患者感染马尔尼菲篮状菌病风险越大,值越接近于0,患者感染马尔尼菲篮状菌病风险越小;本实例部分预测结果见表3。

表3实例部分预测结果

以上结果说明,采用随机森林在HIV人群中对马尔尼菲篮状菌发病评估,预测结果与实际情况基本相符,表明该模型能够较有效地区分HIV人群中马尔尼菲篮状菌发病状态,因子重要性评价提高了马尔尼菲篮状菌病预测的准确性,为临床医生早期诊断、治疗提供一定的理论支持。

本申请人利用随机森林算法研究HIV患者马尔尼菲篮状菌病发病概率的过程中,发现同一测量指标在不同仪器、试剂下参考值范围存在差异,如果直接将该测试结果作为自变量输入模型,则所建立的预测模型不能反映真实的情况,导致预测结果不准确可靠。例如,PLT 指标在仪器A的检测范围是125-350*10

因此,本发明的预测模型建立方法有更好的科学性和准确性。

上述说明是针对本发明较佳可行实施例的详细说明,但实施例并非用以限定本发明的专利申请范围,凡本发明所提示的技术精神下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号