首页> 中国专利> 疾病风险调整模型建立方法

疾病风险调整模型建立方法

摘要

本发明公开了一种疾病风险调整模型建立方法,该方法针对某个医院或者某一地区所有医院住院病人的历史性数据,将病人入院时伴随的合并症/并发症,病人个体的人口特征,以及入院状态来源等整合成疾病治疗的影响变量因素,按疾病诊断相关分组DRG类别和这些病人最终的治疗信息,分别建立统计模型对医院病人的死亡率、住院周期和住院医疗成本进行数值预测和分析。该风险调整模型创新的利用了病人入院的合并/并发症和其他住院信息变量,采用了经典统计学中的检验和回归方法,并结合LASSO方法进行建模,避免了因变量过多而产生的过度拟合,达到了对病人死亡率、住院周期和成本的定量预测,从而为医疗分析和医院管理创造了新的手段和途径。

著录项

  • 公开/公告号CN104992058A

    专利类型发明专利

  • 公开/公告日2015-10-21

    原文格式PDF

  • 申请/专利权人 成都厚立信息技术有限公司;

    申请/专利号CN201510357827.2

  • 发明设计人 杨思坦;李涛;陶金蓝;陈霞;

    申请日2015-06-25

  • 分类号

  • 代理机构成都金英专利代理事务所(普通合伙);

  • 代理人袁英

  • 地址 610041 四川省成都市高新区天仁路222号1幢2单元4层6号

  • 入库时间 2023-12-18 11:23:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-02-08

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F19/00 专利号:ZL2015103578272 变更事项:专利权人 变更前:成都厚立信息技术有限公司 变更后:中科厚立信息技术(成都)有限公司 变更事项:地址 变更前:610041 四川省成都市成都市高新区天仁路222号1幢2单元4层6号 变更后:610041 四川省成都市成都市高新区天仁路222号1幢2单元4层6号

    专利权人的姓名或者名称、地址的变更

  • 2017-08-01

    授权

    授权

  • 2015-11-18

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20150625

    实质审查的生效

  • 2015-10-21

    公开

    公开

说明书

技术领域

本发明涉及一种疾病风险调整模型建立方法。

背景技术

近年来由于国内医院IT技术的迅猛发展,已经初步地完成了病人和疾病的原始数据积 累,然而苦于没有方法学,不能够将这些数据有效地提炼成为指导信息和医院管理的决策依 据,致使绝大部分数据只能储存在医院的数据仓库中,浪费了资源。如果能够充分地借鉴美 国政府对医院管理的成功模式和优秀的方法学,再加以本土化改良,不但能够让国内的医疗 管理机构增加有效的监控途径和手段,而且还能促使医院加快从粗放向精细化管理模式转型 的步伐。

近来政府积极倡导和鼓励传统行业向“互联网+”的转型,充分利用数字科技提高医院的 医疗质量,营运效率和减少医疗资源浪费已经成为时代潮流,把握时机,借鉴先进经验,建 立标准模式,将会占有先发优势,引领行业的改革浪潮。

临床医学的多学科和疾病的复杂性增加了数据深度分析和提纯为管理决策支持依据的难 度,与其他行业的数据相比较,医疗数据具有非叠加性(如财务数据)和非直接可比性(如 数据大小)特点,由于每个医院入院病人人群和疾病程度差异,通过直接采用死亡率、住院 天数和成本等数据对病种、医生、科室和医院之间的绩效比较评估是不合理的。譬如说由于 接受大量转院病人和收治病情更加严重的病人人群,四川华西医院就不能够直接同某个县级 医院进行简单的绩效评估。

为了有效解决临床数据不平的困境,医院通常采用的评估模式之一有以资源使用为标准 的疾病群组归纳方法,如各类DRG和DCG等,然后将治疗中使用的医疗成本,经过分析, 获得疾病群组的案例复杂性指数(CMI)。通过医疗资源成本使用情况倒推出住院疾病群组的 病情程度,从而实现医院和科室在同一个体系内的评估。然而以CMI计算的方法在评价医疗 质量、营运效率以及合理性用药等方面有其先天性不足,首先这种模式并未考虑到疾病本身 的特性和其他临床相关性影响因素,不符合医疗规律;其次过度检查和治疗而导致的虚高成 本治疗本身也会增加模型不稳定性,从而导致判断结果的偏差。

目前建立的统计模型以线性回归模型为主,主要强调线性模型稳定、预测方差较小的特 点,以及避免因为变量过多而带来的过度拟合。疾病数据具有如下特点:

模型的独立变量(independent variable)由两种类型组成:离散变量:病人死亡率(也属 于二分变量);连续变量:住院天数和住院成本。模型的预测变量(dependent variables)由病 人的人口统计、出入院信息和疾病的合并发症等数据组成,每个变量都是离散型变量,其中 每个变量数值为1时代表出现该合并或者并发症,0代表未出现症状。由于模型完全依靠病 人的人口统计、出入院信息和疾病的合并发症等数据来进行预测,能选择的模型类型也相对 局限于数据的简单信息量,特别是局限于预测变量的离散特点,所以在预测连续性变量的时 候模型方差应该会比较大,而更适合预测离散的结果或者对结果进行初步的分析。

发明内容

本发明的目的在于克服现有技术的不足,提供了一种新型的疾病风险调整模型建立方法, 采用国际疾病合并发症的集合标准,对同一相关疾病群组DRG中病人的人口统计信息、出入 院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码等进行群 组集合,形成不同类别的变量,在同一DRG群组中,通过统计模型对病人死亡率、住院天数 和医疗成本进行数值预测和分析。该风险调整模型创新的利用了病人入院的合并/并发症和其 他变量,采用了经典统计学中的检验和回归方法,并结合近年来发展的LASSO方法进行建模, 避免了因变量过多而产生的过度拟合,达到了对病人死亡率、住院周期和成本这些重要医疗 信息的定量预测,从而为医疗分析和医院管理创造了新的手段和途径。

本发明的目的是通过以下技术方案来实现的:疾病风险调整模型建立方法,包括以下步 骤:

S1.产生数据:采用国际疾病合并发症的集合标准,对同一相关疾病群组DRG中病人的 人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊断 或手术编码等进行群组集合,形成不同类别的变量;

S2.数据处理:在同一DRG群组中,通过统计学算法对病人死亡率、住院天数和成本具 有统计学显著意义的合并发症群和其他类别变量进行统计预处理;

S3.模型建立:进行统计学模型的建立,死亡率数据采用逻辑回归模型,住院天数和成 本数据采用多元线性回归模型。建模中运用基于统计LASSO方法的变量选择方法,并结合 临床经验分析,然后得到选中的显著性变量在模型中的系数,从而完成建模。

步骤S1中对同一相关疾病群组DRG中形成的变量具体为:

(1)病人的人口统计信息变量:包括病人年龄、性别、民族等。

(2)病人的出入院情况变量:包括入院途径、出院去处、入院时病情状态等。

(3)疾病的合并发症变量:包括采用国际疾病合并发症的集合标准对病人入院的疾病和 有关健康问题的国际统计分类ICD诊断或手术编码进行群组集合。

步骤S2中针对不同模型进行了如下的统计预处理:

(1)采用统计检验筛选出对死亡率、住院天数和医疗成本有显著性影响的变量。

(2)对有强相关联性的变量进行处理。强相关联性变量是指在模型中两个或者多个变量 在统计学意义上具有强的相似性。

具体针对不同模型的操作包括:

死亡率模型的预处理:

(1)采用卡方检验Chi-squared检验,假定值p-value设定为0.05,为保留较多变量,未 考虑P值的多重检验校正multiple testing correction;

(2)采用方差膨胀因子Variance Inflation Factor(VIF)作为检验标准,VIF的临界值取为 5,对VIF>5的预测变量进行删除。

住院天数和成本模型的预处理:

(1)考虑到住院天数和成本的原始分布不明确,对住院天数和成本数据进行对数变换log  transformation,使得变换后的数据更可能符合正态分布,从而更符合线性回归模型的假设。

(2)采用t-test(t检验)检验发生合并发症和未发生症状的两个群体的病人住院天数有 无显著区别,假定值p-value设定为0.05,为保留较多变量,未考虑P值的多重检验校正multiple  testing correction。

(3)采用方差膨胀因子Variance Inflation Factor作为检验标准,VIF的临界值取为5,对 VIF>5的预测变量进行删除。

以上模型中的Variance Inflation Factor(VIF)处理采用循环迭代的方法进行删除,即首 先计算每一个预测变量相对于其他所有预测变量的VIF值,然后得到所有VIF值后去掉最大 的,再重新计算余下变量的VIF值,直到所有变量的max VIF<5。

步骤S3中所述的模型建立过程包括以下环节:

(1)利用LASSO生成预测变量重要性列表:由于LASSO独有的放缩系数,在放缩系数 从0(没有放缩)到最大值(最大放缩)的过程中,每个预测变量在模型中出现的次数可以 被统计。相对重要的变量应该会比相对不重要的变量出现的次数更多,比如最重要的变量一 般会出现在各个模型中不论放缩值的大小。所以可以根据变量出现次数进行排序列表:从出 现次数最多的到出现次数最少的。这个列表可以从一个方面反映在线性回归中,各个变量对 独立变量的影响大小。其中影响为0(出现次数为0)的变量是使用LASSO后就直接删除 的变量。

(2)结合临床经验确定重要性列表的临界值(小于临界值的变量被删除):死亡率模型 的临界值:如果预测变量是急性疾病类的合并发症变量,而且后面连续三个变量为慢性疾病 类和/或与当前疾病非关联的合并发症,判断为后面三个变量,以及之后的所有变量对病人当 前疾病导致死亡的影响忽略不计。从急性疾病类的合并发症变量之后的第一个变量开始(不 包括)删除。住院天数和成本模型的临界值:无论是急性或慢性疾病类的合并发症变量,对 治疗所使用的资源均会产生强弱不同的影响,所以临界值定义为0。

(3)确定预测变量的选择:在预测变量选择确定以后,这些变量会被用来以LASSO的 方法重新建立线性回归模型。这里用到的方法是对原来所有预测变量(预处理后的)的系数 进行重新调整。在重要性中判定为不重要的变量其系数被强制设置为0,从而排除掉进入最 终模型的可能。另外,其他选中变量的系数范围也会进行规定,达到严格控制最终模型质量 的目的。系数范围的规定原则是变量的系数符号必须与两个标准保持一致:

第一条标准:系数符号必须与预处理中统计检验量的符号一致。

第二条标准:系数符号必须与临床判断的结果保持一致。

第二条标准针对变量实际的临床意义进行规定。比如合并并发症变量的符号(除特殊病 例外)一般规定为正(>0),即出现症状会增大死亡的风险,增加住院天数和住院成本。这 样符号的规定也符合对合并并发症的一般理解。另外,比如对于某些病例,不同年龄段的风 险大小在临床上有一致的理解(例如年龄大会增加风险和成本),在这种情况下,系数符号的 设定也应该和临床认识一致。

(4)建立回归模型:模型中放缩参数的优化利用了Cross-Validation(一般是5倍和10 倍)的方法,优化参数的标准根据数据类型定义:离散独立变量使用Misclassification Error, 而连续独立变量使用Mean Squared Error。使得错误率最小的参数选为最终模型使用的放缩参 数,建模完成。

本发明的有益效果是:提供了一种新型的疾病风险调整模型建立方法,采用国际疾病合 并发症的集合标准,对同一相关疾病群组DRG中病人的人口统计信息、出入院情况、社会经 济状况、疾病和有关健康问题的国际统计分类ICD诊断或手术编码等进行群组集合,形成不 同类别的变量,在同一DRG群组中,通过统计模型对病人死亡率、住院天数和医疗成本进行 数值预测和分析。该风险调整模型创新的利用了病人入院的合并/并发症和其他变量,采用了 经典统计学中的检验和回归方法,并结合近年来发展的LASSO方法进行建模,避免了因变 量过多而产生的过度拟合,提高了模型准确性和可靠性,达到了对病人死亡率、住院周期和 成本这些重要医疗信息的定量预测,从而为医疗分析和医院管理创造了新的手段和途径。

在建立统计模型之前,对数据特别是预测变量进行预处理,特别是在疾病风险问题中, 变量的个数都在上百个,而由于变量都是0/1型变量,变量之间可能会存在很强的相关性。 另外,变量过多会使得建模出现过度拟合(overfitting),使得模型在新数据上的预测性下降。

在对疾病风险数据的分析中,常用的stepwise selection结合AIC或者BIC的方法能会忽 略数据中包含的原始疾病信息,而单纯从数据的数值上出发去选择模型。但由于数据的预测 变量都是0/1类型变量,数值本身并不包含太多的信息,所以单纯从数值上去分析的做法可 能会导致对模型选择的不准确。所以,利用LASSO方法进行模型选择。

附图说明

图1为疾病风险调整模型建立流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所 述。

如图1所示,疾病风险调整模型建立方法,包括以下步骤:

S1:产生数据:采用国际疾病合并发症的集合标准,对同一相关疾病群组DRG中病人 的人口统计信息、出入院情况、社会经济状况、疾病和有关健康问题的国际统计分类ICD诊 断或手术编码等进行群组集合,形成不同类别的变量。例见下表所示。

细菌性心内膜炎合并发症群组(ICD9编码)

病人基本人口统计信息和入院状态变量(部分)

S2:数据处理:在同一DRG群组中,通过统计学算法对病人死亡率、住院天数和成本 具有统计学显著意义的合并发症群和其他类别变量进行统计预处理;

预处理的步骤如下:

(1)筛选出和独立变量有显著相关的预测变量。筛选的过程是一对一的,在这一步忽略 了预测变量之间的关系,而仅仅从单个预测变量对独立变量的影响出发。

(2)计算预测变量之间的相关性,排除掉有强相关性的变量,保证所有变量最大的相关 性小于一个临界值。

针对不同模型的不同预处理方法:

死亡率模型:

(1)采用了Chi-squared检验两个离散变量之间的相关联性,p-value设定为0.05,为保 留更多的预测变量,未考虑P值的multiple testing correction。

(2)采用了传统的Variance Inflation Factor(VIF)作为检验标准,VIF的临界值取为5, 对VIF>5的预测变量进行删除(详见例一)。

住院天数和成本模型:

(1)考虑到住院天数和成本的原始分布不明确(基本不可能是正态分布),对住院天数 和成本数据进行了Log transformation,使得变化后的数据更可能符合正态分布,从而更符合 线性回归模型的假设。

(2)采用了t-test检验两个群体(发生合并并发症和未发生症状)病人住院天数有无显 著区别。P-value设定为0.05,为保留更多的预测变量,未考虑P值的multiple testing correction。

(3)采用了Variance Inflation Factor(VIF)作为检验标准,VIF的临界值取为5,对VIF> 5的预测变量进行删除。

以上模型中的VIF处理采用了循环迭代的方法进行删除,即首先计算每一个预测变量(相 对于其他所有预测变量)的VIF值,然后得到的所有VIF值后去掉最大的,再重新计算余下 变量的VIF值,直到所有变量的max VIF<5。

S3:进行统计学模型的建立,死亡率数据采用逻辑回归模型,住院天数和成本数据采用 多元线性回归模型,然后得到选中的显著性变量在模型中的系数,形成预测值的量化公式。

合并发症变量在不同模型的影响:与病人当前疾病相关联的合并症/并发症为病人的伴随 性疾病的两种不同状态,由病人当前疾病引发状态改变,反过来又会对治疗结果产生影响, 但结果对象和程度不同。并发症与合并症相比,对当前疾病导致的病人死亡有更加强的作用。 但两者均对当前疾病导致的住院天数和成本等医疗资源使用有作用,但无法简单地分辨出强 弱大小,需要视其与病人当前疾病的共同作用而定。

模型建立过程包括以下环节:

(1)统计LASSO模型:利用LASSO生成预测变量重要性列表(详见例二):由于LASSO 独有的放缩系数,在放缩系数从0(没有放缩)到最大值(最大放缩)的过程中,每个预测 变量在模型中出现的次数可以被统计。相对重要的变量应该会比相对不重要的变量出现的次 数更多,比如最重要的变量一般会出现在各个模型中不论放缩值的大小。所以可以根据变量 出现次数进行排序列表:从出现次数最多的到出现次数最少的。这个列表可以从一个方面反 映在线性回归中,各个变量对独立变量的影响大小。其中影响为0(出现次数为0)的变量 是使用LASSO后就直接删除的变量。

(2)结合临床经验确定重要性列表的临界值(小于临界值的变量被删除):死亡率模型 的临界值:如果预测变量是急性疾病类的合并发症变量,而且后面连续三个变量为慢性疾病 类和/或与当前疾病非关联的合并发症,判断为后面三个变量,以及之后的所有变量对病人当 前疾病导致死亡的影响忽略不计。从急性疾病类的合并发症变量之后的第一个变量开始(不 包括)删除(见例三)。

住院天数和成本模型的临界值:无论是急性或慢性疾病类的合并发症变量,对治疗所使 用的资源均会产生强弱不同的影响,所以临界值定义为0。

(3)确定预测变量的选择:在预测变量选择确定以后,这些变量会被用来以LASSO的 方法重新建立线性回归模型。这里用到的方法是对原来所有预测变量(预处理后的)的系数 进行重新调整。在重要性中判定为不重要的变量其系数被强制设置为0,从而排除掉进入最 终模型的可能。另外,其他选中变量的系数范围也会进行规定,达到严格控制最终模型质量 的目的。系数范围的规定原则是跟变量的系数符号必须与两个标准保持一致:

第一条标准:系数符号必须与预处理中统计检验量的符号一致。

第二条标准:系数符号必须与临床判断的结果保持一致。

第二条标准针对变量实际的临床意义进行规定。比如合并并发症变量的符号(除特殊病 例外)一般规定为正(>0),即出现症状会增大死亡的风险,增加住院天数和住院成本。这 样符号的规定也符合对合并并发症的一般理解。另外,比如对于某些病例,不同年龄段的风 险大小在临床上有一致的理解(例如年龄大会增加风险和成本),在这种情况下,系数符号的 设定也应该和临床认识一致。

(4)建立回归模型:模型中放缩参数的优化利用了Cross-Validation(一般是5倍和10 倍)的方法,优化参数的标准根据数据类型定义:离散独立变量使用Misclassification Error, 而连续独立变量使用Mean Squared Error。使得错误率最小的参数选为最终模型使用的放缩参 数,建模完成。

全疾病的风险模型分三大类,共800多个模型单元,覆盖所有病种诊断、DRG和MDC, 根据医院病人历史性数据可以准确地判断出当年病人在死亡、住院天数和医疗成本等方面的 预期值,有效地提供了疾病风险程度可量化的依据。

实施方法案例

例一:肾脏衰竭死亡率模型的预测变量相关联性分析

模型#218:DRG 682,683,684

数据来源:美国德州医学中心赫尔曼纪念医院

病人样本数:2587出院时间7/1/2004-6/30/2014

筛选出的显著性变量数:37

强相关联变量数:4

统计学方法:Variance Inflation Factor(VIF)

注:从筛选出的37个变量中再进行强相关联性的检测,下方值为VIF值,VIF>5的变 量被标注。

例二:肾脏衰竭病人死亡率模型预测变量重要性列表

模型#218:DRG 682,683,684

数据来源:美国德州医学中心赫尔曼纪念医院

病人样本数:2587出院时间7/1/2004-6/30/2014

模型变量总数:280

筛选出的显著性变量数:37

统计学方法:LASSO

注:变量下方的数值代表变量重要性,数值越高变量对模型影响越大。

例三:肾脏衰竭死亡率模型的预测变量选择

模型#218:DRG 682,683,684

数据来源:美国德州医学中心赫尔曼纪念医院

病人样本数:2587出院时间7/1/2004-6/30/2014

模型变量总数:280

筛选出的显著性变量数:37

统计学方法:LASSO

注:结合模型和临床经验,变量横纹肌溶解症、慢性肝病和之后的变量被删除;强关联 性变量-器官内置管也被删除。

例四:DMIAES病死亡率模型#22:(病人年龄≥18)急性缺血性中风及使用溶解血栓剂 伴严重合并发症(MSDRG 61),合并发症(MSDRG 62),无合并发症(MSDRG 63)。

数据来源:美国德州医学中心赫尔曼纪念医院

建模样本中的病人数:996样本时间7/1/2004-6/30/2014

模型类别:逻辑回归模型

在建模样本中的拟合度:C-Index=0.890

模型中病人死亡平均预期率:68.4%

无疾病变量时病人病死预值是1.54%,有多个疾病变量时的预值升到64.14%。

例四示采用疾病风险调整模型对两个不同的急性缺血性中风病人入院时的风险预测,由 于病人的年龄、性别、合并发症和疾病程度等差异导致病死亡的不同的疾病风险系数。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式, 不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述 构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动 和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号