首页> 中国专利> 基于机器学习的重症心衰患者预后决策支持系统及方法

基于机器学习的重症心衰患者预后决策支持系统及方法

摘要

本发明属于人工智能辅助医疗决策领域,公开一种基于机器学习的重症心衰患者预后决策支持系统及方法,包括信息处理子系统、云数据库和预后决策支持系统,云数据库分别与信息处理子系统和预后决策支持系统连接,信息处理子系统与预后决策支持系统依次连接;云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态;信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据;预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。本发明有利于合理分配医疗资源,为ICU的医护人员提供临床决策支持。

著录项

  • 公开/公告号CN114927230A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利权人 四川大学华西医院;

    申请/专利号CN202210374070.8

  • 申请日2022-04-11

  • 分类号G16H50/70(2018.01);G16H50/20(2018.01);G16H50/30(2018.01);G16H20/00(2018.01);G06N20/20(2019.01);G06N5/00(2006.01);G16H70/20(2018.01);G16Y40/20(2020.01);

  • 代理机构成都高远知识产权代理事务所(普通合伙) 51222;成都高远知识产权代理事务所(普通合伙) 51222;

  • 代理人付红梅;谢一平

  • 地址 610000 四川省成都市武侯区国学巷37号

  • 入库时间 2023-06-19 16:25:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-23

    授权

    发明专利权授予

  • 2022-09-06

    实质审查的生效 IPC(主分类):G16H50/70 专利申请号:2022103740708 申请日:20220411

    实质审查的生效

说明书

技术领域

本发明属于人工智能辅助医疗决策领域,具体涉及一种基于机器学习的重症心衰患者预后决策支持系统及方法。

背景技术

心力衰竭(简称心衰)是一种由心脏功能紊乱所引起的临床综合征,是心脏疾病发展的终末阶段。心衰是导致心血管疾病死亡的主要原因,在全球范围内,心衰住院死亡率为5%-20%,已成为威胁人类健康和社会发展的重要因素。作为一种世界性的常见病,在21世纪,全球有2600多万心衰患者,并且呈现逐年上升趋势。有数据表明,预计2012年至2030年间,心衰的患病率将继续增加46%,达到850万。此外,在美国,每年10%的医疗预算用在心血管疾病和心衰的管理上;随着人口老龄化,政府投资的相关成本预计将翻一番,从2012年的310亿美元增加到2030年的700亿美元。

重症监护病房(ICU)中的危重症患者需要密切的监护服务和高质量的多学科辅助诊疗手段。尽管ICU在维持患者生命方面起着不可或缺的作用,但这却同时意味着有限的医疗资源分配和沉重的经济负担的难题。因此,对于ICU中心衰患者死亡风险的早期发现,可以向医护人员提供临床决策支持,精准预测心衰患者的预后、及时提供有效的治疗并进行更密切的观察可能会降低心衰患者的死亡率。但现代ICU以指数级增长生成大量患者数据,并且数据通常是异构的,包括结构化和非结构化信息,具有数据的多样性和混杂性,这对传统的统计学模型提出了挑战。

近年来,人工智能已被广泛应用于探索危重疾病的预后因素和评估患者的死亡风险。出于机器学习算法精准捕捉变量之间非线性关系的强大特性,越来越多的研究人员提倡使用基于机器学习的预后模型评估患者的死亡风险,而不是传统的疾病严重程度评分模型如SOFA、APACHE II或SAPS II等评价系统。

针对心衰这一疾病,利用机器学习预测患者死亡风险这一技术已经应用广泛并且较为成熟,包括随机森林,卷积神经网络,支持向量机等等,但其中仍然存在诸多问题:①重症心衰患者的预后变量过多导致所训练的机器学习模型过度拟合,反而使模型在预测新的心衰患者死亡风险时准确率降低,这些无关变量被称为“噪音”变量,会给实际临床应用中的死亡风险评估带来较大的干扰;②尽管机器学习技术的预测性能十分优越,但考虑到复杂机器学习算法的“黑箱”即难以解释的特性,无法从根本上取得临床医护人员的完全信任。③目前国内重症心衰患者的诊疗数据利用率低,并且单家医院的重症心衰患者病例数较少,造成其科研价值的浪费,每家医院的数据犹如信息“孤岛”,数据整合性差,利用率低,这些都是大数据应用中的核心难题。

发明内容

为解决上述现有技术中的不足,本发明提供的基于可解释的机器学习模型的重症心衰患者预后决策支持系统及方法解决了现有的机器学习模型预测重症心衰患者死亡风险难以解释,模型过度拟合,判读结果不够精准的问题。

为实现上述技术目的,本发明采用的技术方案是:

基于机器学习的重症心衰患者预后决策支持系统,包括信息处理子系统、云数据库和预后决策支持系统,所述云数据库分别与信息处理子系统和预后决策支持系统连接,所述信息处理子系统与预后决策支持系统依次连接;

所述云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态,预测变量包括人口统计学特征、实验室检验指标、重要体征和共病类型;

所述信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据;

所述预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。

进一步地,所述云数据库为基于NoSQL的DynamoDB。

进一步地,所述云数据库中内置的变量筛选算法为LASSO回归。

进一步地,所述信息处理子系统根据云数据库中LASSO回归方法确定的与生存状态显著相关的预测变量进行待预测的心衰患者信息的处理与抓取,并上传至预后决策支持系统。

进一步地,所述预后决策支持系统包括依次连接的训练的机器学习XGBoost模型和可解释的数学模型SHAP方法。

基于可解释的机器学习模型的重症心衰患者预后决策支持方法,包括以下步骤:

S1、将已有的重症心力衰竭患者的预后变量及对应的生存状态传输到云数据库中;

S2、应用LASSO回归方法筛选云数据库中与患者生存状态显著相关的预后变量;

S3、根据确定的预后变量将云数据库中的患者信息传输至XGBoost模型以完成训练;

S4、将待预测的重症心力衰竭患者信息传输至信息处理子系统,根据LASSO确定的相关变量自动抓取信息;

S5、将患者信息传输至预后决策支持系统中已完成训练的XGBoost机器学习模型并利用SHAP方法对预测风险解释,信息整合并输出。

进一步地,所述步骤S1中,所上传的重症心力衰竭患者的预后变量包括患者入住ICU24小时以内的生化指标、重要体征指标、共病类型以及人口统计学特征,以及上传患者对应的最终出院状态。

进一步地,所述步骤S3中,对XGBoost集成机器学习模型完成训练的具体方法为:

将云数据库中根据LASSO回归方法筛选出的重症心衰患者死亡风险预测变量与生存状态传输至XGBoost模型中进行训练,并利用十折交叉验证的方法检验模型的准确性,根据性能指标调整模型参数,直到该训练完成的XGBoost模型对重症心衰患者死亡风险的预测准确率达到95%以上时,得到训练完成的XGBoost模型。

进一步地,所述步骤S4中,根据步骤S2中LASSO对云数据库中的筛选的与最终出院状态显著相关的预测变量,自动抓取待预测的重症心力衰竭患者的变量信息;若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。

进一步地,所述步骤S5中,SHAP对XGBoost预测的死亡风险结果进行可加性解释,即计算重症心衰患者预测变量中每个特征在所有特征序列中的平均边际贡献以衡量各个特征的重要性程度以及该特征对于患者死亡风险属于不利影响或者有利影响,解释了预测变量与所预测的对应心衰患者死亡风险之间的关系。

与现有技术相比,本发明的有益效果有:

(1)合理分配医疗资源,为ICU的医护人员提供临床决策支持:本发明方法以XGBoost机器学习模型为基础,实现了重症心衰患者死亡风险的精准预测,降低了医护人员面对海量数据时根据直觉判断失误的风险,辅助医护人员对重症心衰患者给予科学合理的诊疗。

(2)避免模型过拟合,保证预测准确性:本发明方法所搭建的云数据库存储已有的重症心衰患者信息,缓解医学数据的不平衡性,并利用LASSO回归方法筛选显著相关的预后变量,打破了传统模式中机器学习模型“预测变量越多模型越准确”的局限观点,具有较强的普适性和兼容性。

(3)预测结果可解释,机器学习不再是“黑箱”:本发明方法利用SHAP数学模型对预测的风险结果进行解释,使得医护人员理解XGBoost机器学习模型的内在预测逻辑,准确识别重症心衰患者的死亡风险预后因素并及时给予治疗,更加赢得医护人员的信任。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明提供的基于可解释的机器学习模型的重症心衰患者预后决策支持系统结构图。

图2为本发明提供的基于可解释的机器学习模型的重症心衰患者预后决策支持方法流程图。

图3为XGBoost模型在测试集上预测性能的ROC曲线。

图4为SHAP方法对XGBoost模型所预测的死亡风险进行解释,图中f(x)值为对应死亡风险的对数比值比。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

实施例1:

如图1所示,基于可解释的机器学习模型的重症心衰患者预后决策支持系统,具体包括信息处理子系统、云数据库和预后决策支持系统。云数据库分别与信息处理子系统和预后决策支持系统连接;信息处理子系统与预后决策支持系统依次连接。

云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态,预测变量包括人口统计学特征、实验室检验指标、重要体征和共病类型。

信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据。

预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。

本发明实施例1中的云数据库为基于NoSQL的DynamoDB,对于存储于云数据库的重症心衰患者的数据,首先采用动态数据脱敏技术,在用户层对患者个人信息(包括姓名,身份证号,住院号等与患者生存状态无关的变量)进行独特屏蔽、加密、隐藏、审计或封锁访问,当应用程序、维护、开发工具请求通过动态数据脱敏时,实时筛选请求的SQL语句,依据用户角色、权限和其他脱敏规则屏蔽敏感数据,从而保护病人和医院隐私,增强本系统的安全性和可靠性。云数据库中内置的变量筛选算法为LASSO回归(Least absolute shrinkageand selection operator),即以缩小变量集(降阶)为思想的压缩估计,通过构造惩罚函数,将变量的系数进行压缩从而使某些无关变量回归系数变为0,进而实现变量选择,防止模型过度拟合。

其中惩罚函数为:

式中,假定第i个训练集有p个预测变量:

yi为第i个预测结果;

β

x

β

λ为调节参数,可根据具体数据信息进行选定。

信息处理子系统为根据云数据库中LASSO回归方法对已储存的重症心衰患者信息处理后所确定的与生存状态显著相关的预测变量,对待预测的心衰患者信息的处理与抓取,并上传至预后决策支持系统,若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。

预后决策支持系统包括依次连接的训练的机器学习eXtrenme GradientBoosting(XGBoost)模型和可解释的数学模型SHapley Additive exPlanation(SHAP)方法。其中,XGBoost模型将采用弱分类器集成算法来选取合适的参数,本系统中该模型将采用岭回归算法(Ridge Regression)和随机森林算法(RandomForest)运行训练数据从而选取最优alpha值和最优参数,并通过十折交叉验证的方法不断调整XGBoost模型中的学习率,最大树的深度,回归方法等参数进行数据拟合,直到模型的准确率达到95%以上后代表训练完成。同时预后决策支持系统将利用SHAP方法对预后结果进行解释。

实施例2:

如图2所示,与上述实施例1对应的,本发明还提供了一种基于可解释的机器学习模型的重症心衰患者预后决策支持方法,包括以下步骤:

S1、将已有的重症心力衰竭患者的预后变量及对应的生存状态传输到云数据库中。

S2、应用LASSO回归方法筛选云数据库中与患者生存状态显著相关的预后变量。

S3、根据确定的预后变量将云数据库中的患者信息传输至XGBoost模型以完成训练。

S4、将待预测的重症心力衰竭患者信息传输至信息处理子系统,根据LASSO确定的相关变量自动抓取信息。

S5、将患者信息传输至预后决策支持系统中已完成训练的XGBoost机器学习模型并利用SHAP方法对预测风险解释,信息整合并输出。

本发明实施例2步骤S1中,所上传的重症心力衰竭患者的预后变量包括患者入住ICU24小时以内的生化指标(例如血尿素氮水平、血红蛋白浓度等)、重要体征指标(例如呼吸频率、心率、血氧饱和度等)、共病类型(例如糖尿病、高血压等)以及人口统计学特征(例如性别、年龄、身高等),具体预测变量的数目应当视医院的实际情况确定,以及上传患者对应的最终出院状态(包括生存和死亡两种类型)。

所述步骤S2中,云数据库为基于NoSQL的DynamoDB,同时云数据库将通过管理员提前设置的变量数据范围标准对上传到已有的重症心衰患者的变量进行审核,考虑到XGBoost对数据有较好的兼容性,对于明显错误的数据(例如体重1000kg,身高4m等)将会设置为缺失值,训练模型将会根据默认分支自动填充;对于有争议的数据,数据库将会反馈给管理人员请求数据进一步人工复核以确定其准确性,待所有数据准确无误后,将会通过动态数据脱敏和云端上传方式保存至该数据库中。

所述步骤S3中,Xgboost算法本质是梯度提升决策树,是通过将一系列弱学习器的预测结果进行组合成为强学习器的集成机器学习技术,利用二阶泰勒展开公式将优化的目标函数展开,同时将对目标函数加入了正则项,简化目标函数实现计算资源优化。

所述步骤S3中,对XGBoost集成机器学习模型完成训练的具体方法为:

将云数据库中根据LASSO回归方法筛选出的重症心衰患者死亡风险预测变量与生存状态(标签)传输至XGBoost模型中进行训练,并利用十折交叉验证的方法检验模型的准确性,根据性能指标调整模型参数,直到该训练完成的XGBoost模型对重症心衰患者死亡风险的预测准确率达到95%以上时,得到训练完成的XGBoost模型。

所述步骤S4中,根据步骤S2中LASSO对云数据库中的筛选的与最终出院状态显著相关的预测变量,自动抓取待预测的重症心力衰竭患者的变量信息;若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。

所述步骤S5中,SHAP对XGBoost预测的死亡风险结果进行可加性解释,即计算重症心衰患者预测变量中每个特征在所有特征序列中的平均边际贡献(Shapley值)以衡量各个特征的重要性程度以及该特征对于患者死亡风险属于不利影响或者有利影响,解释了预测变量与所预测的对应心衰患者死亡风险之间的关系。SHAP的目标是通过计算每个特征对预测x的贡献来解释实例x的预测。本系统中,在对所预测的重症心衰患者死亡风险进行解释时,SHAP采用一种加法特征归因方法,采用线性模型来表示。具体表现形式如下:

其中g是解释模型,z′∈{0,1}

其中,g是解释模型,M是最大特征规模,φ

本发明的有效性可以通过实施例来进一步说明,实施例的数据不限制本发明的应用范围,以下实例用以说明基于可解释的机器学习模型的重症心衰患者预后决策支持方法的有效性。

实验平台:十二核Intel i7 CPU,8GB内存,512GB固态硬盘,10Mbps网络带宽;系统是Windows10(64位);程序语言环境为Python 3.8环境,PyTorch环境,R x64 4.1.0环境,MySQL环境

实验内容:所采用的数据来源于eICU合作研究数据库,是源于飞利浦医疗保健公司开发的一个远程保健系统,数据库中包含了美国超过200家医院数百个ICU,2014-2015年入住的患者的信息,数据量大,准确性高。按照国际疾病分类编码(ICD-9/10)提取其中重症心力衰竭患者的预测变量和生存状态,按照7:3随机分为训练组和测试组。

步骤如实施例2所述,将训练组数据传输到云数据库后,在进行数据核对和脱敏处理后,采用LASSO回归筛选与生存状态显著相关的预测变量,并将其传输到XGBoost模型中进行训练,根据十折交叉验证的结果进行参数的调整:max.depth=3,eta=0.1,nrounds=100,objective="binary:logistic",gamma=0。然后将训练集的数据传输到对应的信息处理子系统中,根据LASOO回归方法确定的预测变量数据传输到已完成训练的XGBoost模型中,输出预测风险并利用SHAP方法进行解释。

图3为XGBoost模型在测试集上预测性能的ROC曲线。

图4为SHAP方法对XGBoost模型所预测的死亡风险进行解释,图中f(x)值为对应死亡风险的对数比值比。

本发明的有益效果为:

(1)合理分配医疗资源,为ICU的医护人员提供临床决策支持:本发明方法以XGBoost机器学习模型为基础,实现了重症心衰患者死亡风险的精准预测,降低了医护人员面对海量数据时根据直觉判断失误的风险,辅助医护人员对重症心衰患者给予科学合理的诊疗。

(2)避免模型过拟合,保证预测准确性:本发明方法所搭建的云数据库存储已有的重症心衰患者信息,缓解医学数据的不平衡性,并利用LASSO回归方法筛选显著相关的预后变量,打破了传统模式中机器学习模型“预测变量越多模型越准确”的局限观点,具有较强的普适性和兼容性。

(3)预测结果可解释,机器学习不再是“黑箱”:本发明方法利用SHAP数学模型对预测的风险结果进行解释,使得医护人员理解XGBoost机器学习模型的内在预测逻辑,准确识别重症心衰患者的死亡风险预后因素并及时给予治疗,更加赢得医护人员的信任。

当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号