首页> 中国专利> 一种基于图神经网络的患者住院时长早期预测方法及装置

一种基于图神经网络的患者住院时长早期预测方法及装置

摘要

本发明提供了一种基于图神经网络的患者住院时长早期预测方法及装置,属于数据处理技术领域,该方法包括:获取病案首页数据集,并进行预处理;提取患者的基础特征和历史特征;根据预处理后的病案首页数据集,提取疾病向量;构建患者相似性网络;基于患者住院时长标签、基础特征、历史特征、疾病向量以及患者相似性网络,利用GraphSAGE图神经网络构建住院时长早期预测模型;利用住院时长早期预测模型预测待预测样本的住院时长,得到患者住院时长早期预测结果。本发明在入院点对患者的住院时长进行早期预测,具有更高的适用价值。

著录项

  • 公开/公告号CN113345564B

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN202110601268.0

  • 申请日2021-05-31

  • 分类号G16H40/20(2018.01);G16H50/50(2018.01);G16H50/70(2018.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京正华智诚专利代理事务所(普通合伙) 11870;

  • 代理人李林合

  • 地址 611731 四川省成都市高新区(西区)西源大道2006号

  • 入库时间 2022-09-06 00:40:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    授权

    发明专利权授予

说明书

技术领域

本发明属于数据处理技术领域,尤其涉及一种基于图神经网络的患者住院时长早期预测方法及装置。

背景技术

准确预测患者住院时长可以帮助医院管理者有效地分配有限医疗资源,控制患者医疗成本,提高医疗服务质量。然而,当前的患者住院时长预测采用的是临床检验、人口学等数据建模,其忽略了患者所患共病对住院时长所带来的影响;此外,少有研究在患者入院时间点进行患者住院时长的早期预测。因此,如何准确地在入院早期实现患者住院时长预测具有重要的现实意义。

发明内容

针对现有技术中的上述不足,本发明提供的一种基于图神经网络的患者住院时长早期预测方法、装置、电子设备以及存储介质,以更好地预测患者的住院时长。

为了达到以上目的,本发明采用的技术方案为:

根据本申请的实施例,提供一种基于图神经网络的患者住院时长早期预测方法,包括以下步骤:

S1、对获取的病案首页数据集进行预处理,并提取患者的住院时长标签;

S2、提取患者的基础特征和历史特征;

S3、根据预处理后的病案首页数据集,提取疾病向量;

S4、构建患者相似性网络;

S5、基于患者住院时长标签、基础特征、历史特征、疾病向量以及患者相似性网络,利用GraphSAGE图神经网络构建住院时长早期预测模型;

S6、利用住院时长早期预测模型预测待预测样本的住院时长,得到患者住院时长早期预测结果。

进一步地,所述患者住院时长标签具体为:根据患者的入院日期和出院日期之差获取患者的住院时长标签;

所述基础特征包括患者的个体信息和医院信息;所述历史特征包括患者历史住院时长的统计信息。

进一步地,所述步骤S3包括以下步骤:

S301、基于预处理后的病案首页数据集,构建疾病共现网络;

S302、根据所述疾病共现网络,利用Node2Vec算法生成疾病的低维向量嵌入表示,并利用聚合方法将同一患者的所有低维向量嵌入表示进行整合,完成对疾病向量的提取:

AGGREGATE

其中,AGGREGATE

进一步地,所述步骤S301包括以下步骤:

S3011、将预处理后的病案首页数据集按患者的身份证号进行聚合,并将患者不同的住院记录诊断进行归类;

S3012、根据归类结果,构建患者-疾病二维表;

S3013、根据患者-疾病二维表,利用相对危险度RR值衡量疾病对之间的风险,并将其作为网络边的权重RR

S3014、计算RR

S3015、根据保留的网络边,生成疾病共现网络。

进一步地,所述步骤S4包括以下步骤:

S401、根据患者住院时的疾病,生成利用邻接矩阵A表示的患者-疾病二部图,其中行代表患者,列代表疾病;

S402、对患者-疾病二部图进行压缩,并计算患者间的疾病共现次数,从而构建患者相似性网络,其中,患者相似性网络中患者i和患者j的边的权重e

e

其中,A

进一步地,所述步骤S5中GraphSAGE图神经网络的采样策略p

其中,p

进一步地,所述步骤S6包括以下步骤:

S601、输入待预测样本信息;

S602、将待预测样本信息输入至患者相似性网络中,并获取患者相似性网络中节点的二阶采样邻居;

S603、根据待预测样本信息提取包含基础特征、历史特征以及疾病向量的特征向量;

S604、根据二阶采样邻居以及特征向量,利用住院时长早期预测模型输出待预测样本的住院时长,得到患者住院时长早期预测结果。

根据本申请实施例的另一个方面,提供一种基于图神经网络的患者住院时长早期预测装置,其包括:

预处理模块,用于获取病案首页数据集,并进行预处理;

特征提取模块,用于提取患者的基础特征和历史特征;

疾病向量提取模块,用于根据预处理后的病案首页数据集,提取疾病向量,其包括:

疾病共现网络单元,用于基于预处理后的病案首页数据集,构建疾病共现网络;

特征提取单元,用于根据所述疾病共现网络,利用Node2Vec算法生成疾病的低维向量嵌入表示,并利用聚合方法将同一患者的所有低维向量嵌入表示进行整合,完成对疾病向量的提取;

患者相似性网络模块,用于构建患者相似性网络,其包括:

构建患者-疾病二部图单元,用于根据患者住院时的疾病,生成利用邻接矩阵A表示的患者-疾病二部图,其中行代表患者,列代表疾病;

构建患者相似性网络单元,用于对患者-疾病二部图进行压缩,并计算患者间的疾病共现次数,从而构建患者相似性网络;

训练模块,用于基于患者住院时长标签、基础特征、历史特征、疾病向量以及患者相似性网络,利用GraphSAGE图神经网络构建住院时长早期预测模型,其包括:

自定义采样策略单元,用于根据自定义采样概率,获取固定数量的邻居采样;

预测模块,用于利用住院时长早期预测模型预测待预测样本的住院时长,得到患者住院时长早期预测结果,其包括:

输入单元,用于输入待预测样本信息,将待预测样本信息输入至患者相似性网络中,并获取患者相似性网络中节点的二阶采样邻居;

特征向量提取单元,用于根据待预测样本信息提取包含基础特征、历史特征以及疾病向量的特征向量;

预测单元,用于根据二阶采样邻居以及特征向量,利用住院时长早期预测模型输出待预测样本的住院时长,得到患者住院时长早期预测结果。

根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一所述的患者住院时长的预测方法。

根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行,以实现上述任一所述的患者住院时长的预测方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:

(1)由于入院早期可获得的信息非常少,很少有研究在入院点就对住院时长进行的早期预测,通过提取患者的基础特征和历史特征,并建立基于图神经网络的预测模型,在入院点对患者的住院时长进行早期预测,具有更大的应用价值。

(2)本发明构建了个体基础特征和历史特征等多类特征集合,全方面的挖掘了可用的信息,能够加强模型的预测能力。

(3)本发明构建了疾病共现网络,并使用Node2Vec算法挖掘该网络的内在信息,获得了疾病的嵌入向量表示,该方法降低了表示疾病信息所需的特征维度,且表示效果更好。

(4)本发明构建了患者相似性网络来衡量患者之间的相似性,并采用GraphSAGE图神经网络模型对住院时长预测任务进行建模,本发明由于同时考虑了患者间的相似性和患者的特征向量,提高了模型对住院时长的预测精度。

(5)本申请利用GraphSage来进行建模,以往的研究利用一系列特征,采用传统机器学习模型来建模,较以往LOS预测中将住院时长这个问题抽象以图来进行学习建模的,本申请的创新之一是要将这个问题转换为图进行表达。

附图说明

图1示出了本申请一个实施例的住院时长预测方法流程图。

图2示出了本申请一个实施例的住院记录样本生成疾病向量的示意图。

图3示出了本申请一个实施例的从患者-疾病二部图(左)到患者相似性网络(右)的示意图。

图4示出了本申请一个实施例的预测阶段流程图。

图5示出了本申请一个实施例的住院时长预测装置结构图。

图6示出了本申请一个实施例提供的电子设备结构框图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

基于上述背景技术可知:现有患者住院时长预测方法主要存在以下问题:(1)在入院点早期预测住院时长的研究中,由于可获得数据非常有限且这些研究仅仅提取一些常规特征,导致其预测效果不佳。(2)疾病诊断信息对住院时长的预测十分重要,现有研究主要将疾病用独热编码表示或者用Charlson合并症指数进行特征量化。这些方法会导致表示疾病所需的特征维度达到数千维,且没有考虑疾病与疾病之间复杂的内在关系。(3)现有的研究把每个住院记录都独立看待,并没有挖掘记录与记录之间的关系,用这些额外信息来增强模型的性能。(4)大多数研究主要采用传统的机器学习模型,例如随机森林或者支持向量机来预测住院时长,预测效果不佳。鉴于此,本申请实施例将提供一种患者住院时长的早期预测方法、装置和基于该预测方法的电子设备以及存储介质等,本申请应用于对患者住院时长进行早期预测的场景中,在患者入院点就能预测出此次的住院时长,所述患者不局限于年龄阶段也不局限于所患疾病。

在本申请实施例的方案中,本发明基于患者的住院记录,提取了患者大量的基础特征和历史特征来表征患者的健康状况,然后利用疾病的共现信息构建疾病共现网络,并通过Node2Vec算法获得疾病的嵌入向量表示,在降低表示疾病所需维度的同时,保留了疾病间复杂的内在关系,最后构建患者相似性网络来衡量患者间的相似性,以及使用GraphSAGE(Graph Sample and Aggregate)图神经网络模型来卷积患者相似性网络的结构信息和患者的特征向量,得到最终的住院时长早期预测模型。

如图1所示,在本申请的一个实施例,提供了一种患者住院时长的早期预测方法,包括以下步骤:

S1、对获取的病案首页数据集进行预处理,并提取患者住院时长标签。

在本申请公开的实施例中,病案首页数据是患者在住院完成之后都会生成的一个记录项,每条记录包含患者的个体信息(加密的身份证号、性别、年龄、住院时间和出院时间等信息)、住院医院的信息(医院等级和医院住址等信息)和患者的住院疾病诊断(主诊断和最多15个次要诊断)。基于此,需要对其进行数据预处理,剔除缺失率大于30%的变量。对剩下的有缺失值的数据使用均值来填充缺失值,得到没有缺失值的数据形成建模数据库。由于该任务属于回归预测任务,即把住院时长当作数值型变量,所以对患者的入院日期和出院日期做差来获得患者的住院时长标签。

S2、提取患者的基础特征和历史特征;

在本申请公开的实施例中,在住院时长预测任务中,患者的个体信息比如性别和年龄等信息是重要的参考指标。除此之外,患者的历史住院记录也对本次住院时长的预测十分有用(经常长时间住院的患者在本次住院也更可能长时间住院)。因此,本申请提取了基础特征和历史特征来丰富特征集合。提取的详细规则如表1所示。

表1

基础特征主要是对患者的个体信息和医院信息的特征量化,使其转化为能够被机器学习模型识别的数据格式(数值型数据)。历史特征是对患者历史住院的住院时长的统计信息,比如历史住院时长的均值,最大值等特征。这些特征在以前的研究中都被证实是比较有用的特征。表1的第三列是特征的数据类型,如果是数值型,那么就把这些特征当作连续型特征,取值是实数。如果是离散型,就需要用独热编码,将其转化为0-1二值变量。然而,例如“住院情况”字段,它的取值有危急、紧急和一般。虽然它是离散型数据,但是取值会有一个顺序关系,为了降低数据维度,将该特征编码为数值型特征也就是1、2和3,这样既可以降低特征维度,还能保留其中的顺序信息。对于历史特征,是在患者的历史住院记录上进行提取。但是有一部分患者并没有任何的历史记录可以参考,因此这些特征就是空值,为了填补缺失值,统一使用-999来填充。

S3、根据预处理后的病案首页数据集,提取疾病向量,包括以下步骤:

S301、基于预处理后的病案首页数据集,构建疾病共现网络,包括以下步骤;

基于病案首页数据来构建疾病共现网络,去衡量疾病间的内在关系。该网络的节点是疾病,边是疾病与疾病的关系,疾病共现网络的构建步骤如下:

S3011、将预处理后的病案首页数据集按患者的身份证号进行聚合,并将患者不同的住院记录诊断进行归类;

S3012、根据归类结果,构建患者-疾病二维表,行代表患者,列代表疾病,二维表的取值为1或者0。1代表该患者有该疾病,0代表该患者没有该疾病。由于数据量可能会很大,造成该二维表会极度稀疏且内存消耗巨大,可以用稀疏矩阵进行存储;

S3013、根据患者-疾病二维表,利用相对危险度RR值衡量疾病对之间的风险,并将其作为网络边的权重RR

其中,RR

S3014、计算RR

S3015、根据保留的网络边,生成疾病共现网络,即有了网络的边,那么网络的节点也能从边中生成,从而生成整个疾病共现网络。

S301、基于预处理后的病案首页数据集,构建疾病共现网络;

S302、根据所述疾病共现网络,利用Node2Vec算法生成疾病的低维向量嵌入表示,并利用聚合方法将同一患者的所有低维向量嵌入表示进行整合,完成对疾病向量的提取:

在得到疾病共现网络之后,使用Node2Vec算法来将疾病节点量化为低维的嵌入向量,向量维度可以取100到300维之间。由于每个患者在住院时可能会有多个疾病在住院点被检测出来,并且每个患者的疾病数量不尽相同,所以需要一种聚合策略来将同一个患者的各个嵌入向量整合为一个标准向量。本申请提出了求和聚合策略:

AGGREGATE

其中,D表示患者的住院疾病诊断集合,d

S4、构建患者相似性网络:

S401、根据患者住院时的疾病,生成利用邻接矩阵A表示的患者-疾病二部图,其中行代表患者,列代表疾病;

S402、对患者-疾病二部图进行压缩,并计算患者间的疾病共现次数,从而构建患者相似性网络。

在本申请公开的实施例中,本发明将患者的基础特征、历史特征和疾病向量视作患者的特征向量。并且基于各个患者间的疾病共现,构建患者相似性网络,为住院时长的预测纳入额外信息。鉴于每个患者住院时会有多个疾病,因此可以生成一个患者-疾病二部图,如图3的左图所示。每个患者都可能患有若干疾病,从而形成该二部图。值得注意的是,这里把同一个人的不同住院记录当作两个不同个体来对待,这是因为住院时长的预测任务的对象是住院记录,而不是人。用邻接矩阵A表示该二部图,邻接矩阵的行代表患者(入院记录),列代表疾病。有了该患者-疾病二部图之后,为了抽象患者之间的相似性,对该图进行压缩,形成图3右图的形式。如果有两个患者共享一个疾病,这两个患者之间就有一条边,边的权重就是共享疾病的数量,权重越大,代表患者间的疾病相似度越大,从而建立了患者相似性网络。患者i和患者j的边的权重计算下式所示。*运算符是向量的点积。在该患者相似性网络中,节点是一条住院记录(患者),边代表住院记录和住院记录的相似性,也可以叫做患者与患者之间的相似性:

e

S5、基于患者住院时长标签、基础特征、历史特征、疾病向量以及患者相似性网络,利用GraphSAGE图神经网络构建住院时长早期预测模型。

在本申请公开的实施例中,将患者的特征向量视作患者相似性网络中节点的特征向量,使用GraphSAGE图神经网络同时考虑患者相似性网络的结构信息和特征向量,对住院时长进行建模,从而得到患者的住院时长早期预测模型。GraphSAGE图神经网络采用小批量的训练方式,每次采样一部分节点及其邻居,去训练网络,使得在大规模图数据上训练网络成为可能。当需要对新数据做出预测的时候,不必像其他图神经网络模型重新在整个图数据上训练,仅仅用节点的邻居信息就可以做出预测。在GraphSAGE的邻居采样策略中,一般基于均值分布随机的对邻居采样一定数量。本发明设计了一种自定义的采样策略,使得边的权重越大,采样的概率也越高,如下式所示:

上式使用softmax函数获得节点i的各个邻居节点j的采样概率,其中,N(i)表示节点i的邻居集合。基于该采样概率,对节点的邻居进行有放回采样,获得固定数量的邻居采样。

本发明设计了一个四层的GraphSAGE图神经网络,第一层是输入层,第二层和第三层是图卷积层,第四层是输出层,只包含1个神经元,直接输出节点的住院时长预测值,并采用均方误差作为损失函数,来评价预测值和真实值的差异。第二层的邻居采样数量为10,第三层的邻居采样数量为5。每一个图卷积层的聚合函数都选择均值聚合函数,并使用ReLU作为非线性激活函数。为了优化模型参数,使用梯度下降法进行反向传播,以此优化权重矩阵的参数,得到训练良好的住院时长早期预测模型。

S6、利用住院时长早期预测模型预测待预测样本的住院时长,得到患者住院时长早期预测结果,包括以下步骤:

S601、输入待预测样本信息;

S602、将待预测样本信息输入至患者相似性网络中,并获取患者相似性网络中节点的二阶采样邻居;

S603、根据待预测样本信息提取包含基础特征、历史特征以及疾病向量的特征向量;

S604、根据二阶采样邻居以及特征向量,利用住院时长早期预测模型输出待预测样本的住院时长,得到患者住院时长早期预测结果。

在本发明公开的实施例中,对于新的住院记录,同样可以获得个体信息、住院医院信息、患者的疾病诊断信息和患者的历史住院记录,并且可以提取出对应的特征向量(基础特征、历史特征和疾病向量)。把该住院记录加入到患者相似性网络中,获得该节点的二阶采样邻居。通过训练好的GraphSAGE模型对其作出预测,输出预测的住院时长。

需要说明的是,本申请公开的实施例可以应用于多个场景,本申请对应用场景不做具体限定。例如,本申请应用于对患者住院时长进行早期预测的场景中,在患者入院点就能预测出此次的住院时长,所述患者不局限于年龄阶段也不局限于所患疾病,不区分年龄和疾病,即使0个疾病也能预测。

如图5所示,本申请的另一个实施例,提供了一种患者住院时长的早期预测装置,包括:

预处理模块,用于对获取的病案首页数据集进行预处理,并提取患者住院时长标签;

特征提取模块,用于提取患者的基础特征和历史特征;

疾病向量提取模块,用于根据预处理后的病案首页数据集,提取疾病向量,其包括疾病共现网络单元,用于基于预处理后的病案首页数据集,构建疾病共现网络,以及特征提取单元,用于根据所述疾病共现网络,利用Node2Vec算法生成疾病的低维向量嵌入表示,并利用聚合方法将同一患者的所有低维向量嵌入表示进行整合,完成对疾病向量的提取。

患者相似性网络模块,用于构建患者相似性网络,其包括:构建患者-疾病二部图单元,用于根据患者住院时的疾病,生成利用邻接矩阵A表示的患者-疾病二部图,其中行代表患者,列代表疾病;构建患者相似性网络单元,用于对患者-疾病二部图进行压缩,并计算患者间的疾病共现次数,从而构建患者相似性网络。

训练模块,用于基于患者住院时长标签、基础特征、历史特征、疾病向量以及患者相似性网络,利用GraphSAGE图神经网络构建住院时长早期预测模型,其包括:

自定义采样策略单元,用于根据自定义采样概率,获取固定数量的邻居采样;

预测模块,用于利用住院时长早期预测模型预测待预测样本的住院时长,得到患者住院时长早期预测结果,其包括:输入单元,用于输入待预测样本信息,将待预测样本信息输入至患者相似性网络中,并获取患者相似性网络中节点的二阶采样邻居;特征向量提取单元,用于根据待预测样本信息提取包含基础特征、历史特征以及疾病向量的特征向量;预测单元,用于根据二阶采样邻居以及特征向量,利用住院时长早期预测模型输出待预测样本的住院时长,得到患者住院时长早期预测结果。

如图5所示实施例提供的患者住院时长的预测装置可以执行上述方法实施例所示的技术方案,其实现原理与有益效果类似,此处不再赘述。

在本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述程序,以上述任一所述的患者住院时长的预测方法。

如图6所示,电子设备可以包括:处理器,存储器,总线和通信接口,处理器、通信接口和存储器通过总线连接,存储器中存储有可在处理器上运行的计算机程序,处理器运行该计算机程序时执行本申请前述任一实施方式所提供的患者住院时长的预测方法。

本申请的另一个实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行,以实现前述任一实施例中任一所述的患者住院时长的预测方法。

上述计算机可读存储介质可以中由任何类型的易失性或非易失性存储设备或他们的组合实现,如静态随机存取存储器(SRAM),可擦除可维和只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘,可读存储介质可以是通用或专用计算机能够存取的任何可用介质。可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息,可读存储介质也可以是处理器组成部分,处理器和可读存储介质可以位于专用集成电路(ASIC)中,处理器和可读存储介质也可以作为分立组件存在于患者住院时长的预测装置中。

本申请的实施例可提供为方法、装置、或计算机程序产品,因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且本发明可采用一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中每一流程和/或方框图、以及流程图和/或方框图的结合,可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号