公开/公告号CN114913982A
专利类型发明专利
公开/公告日2022-08-16
原文格式PDF
申请/专利权人 之江实验室;
申请/专利号CN202210838416.5
申请日2022-07-18
分类号G16H50/30(2018.01);G06Q10/04(2012.01);G06K9/62(2022.01);G06N3/08(2006.01);
代理机构北京志霖恒远知识产权代理事务所(普通合伙) 11435;
代理人戴莉
地址 311121 浙江省杭州市余杭区之江实验室南湖总部
入库时间 2023-06-19 16:25:24
法律状态公告日
法律状态信息
法律状态
2022-10-11
授权
发明专利权授予
2022-09-02
实质审查的生效 IPC(主分类):G16H50/30 专利申请号:2022108384165 申请日:20220718
实质审查的生效
技术领域
本发明涉及一种医疗健康信息技术领域,尤其涉及一种基于对比学习的终末期肾病并发症风险预测系统。
背景技术
终末期肾病病程长,在长期的治疗过程中可能发生多种并发疾病,包括血管通路感染、高血压、冠心病、失眠、抑郁等,严重影响患者生存质量。因此,对终末期肾病并发症进行风险预测及早期干预十分必要。在长期的治疗过程中,医院电子信息系统随时间积累了大量的结构化医疗数据,包含了多维度、多尺度的临床特征以及多种类的结局事件标签。真实场景下的临床数据面临结构复杂、正负样本不均衡、部分类别样本量较少的问题,难以直接应用现有的机器学习方法获得有效的预测结果。当今对比学习已经广泛应用于各个领域,通过对比式的学习架构学习表征从而提升整体模型性能,但是将其应用于终末期肾病并发症风险预测仍然面临一些问题。一方面传统对比学习容易发生特征崩溃问题。自监督式的对比学习的一个弊端在于没有正负样例的修正,非常容易把所有输入映射到同一向量,从而发生特征崩溃问题。即使引入标签数据进行监督学习,虽然嵌入向量不会完全崩溃,但它们仍有可能会沿着特定的维度崩溃,这导致嵌入向量只能在较低维度的子空间中有效。另一方面,传统对比学习面向图像数据和文本数据,其数据扩增方法(如图像的翻转、变色、缩放等操作)并不适用于结构化的医疗数据。
本专利旨在克服现有技术的不足,针对终末期肾病场景下的复杂数据难以融合处理以及标签不均衡等问题,提出一种基于对比学习的终末期肾病并发症风险预测系统,构建终末期肾病并发症风险预测系统,为临床决策提供准确、有效的决策支持。
发明内容
本发明的目的在于提供一种基于对比学习的终末期肾病并发症风险预测系统,解决了现有技术中终末期肾病场景下的复杂数据难以融合处理以及标签不均衡的问题。
本发明采用的技术方案如下:
一种基于对比学习的终末期肾病并发症风险预测系统,包括:
终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
进一步地,所述终末期肾病数据准备模块具体包括:
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据。
进一步地,所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。
进一步地,所述数据扩增单元具体包括:
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
进一步地,所述并发症风险预测模块具体包括:
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
进一步地,所述并发症表征学习模型构建单元具体包括:
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建。
进一步地,所述并发症表征学习模型定义组件具体包括:
参数定义块:用于定义网络结构的超参数,包括编码器和投影器;
特征归一块:用于将所述扩增结构化数据成对的输入至所述编码器,得到初始的并发症表征,所述初始的并发症表征通过所述投影器得到对比表征,所述对比表征经过特征归一化操作得到归一化表征;
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数。
进一步地,所述并发症风险预测模型构建单元具体包括:
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
本发明的有益效果是:
1、提出基于倾向性得分的数据扩增和正负样本匹配的方法,以扩增结构化的终末期肾病数据,并解决正负样本不均衡的问题。
2、提出分层对比的学习架构,针对扩增数据、同类别数据、不同类别数据在不同层次进行相似性比较,使用协方差项、方差项、类别相似度量项、扩增相似度量项构建对比损失函数,以更全面的视角从多个角度防止特征崩溃现象,获得好的表征效果,从而提高模型性能。
3、传统倾向性评分匹配方法仅能处理二分类变量,本发明改进了倾向性评分的损失优化方法,使其可以处理连续值的变量。
附图说明
图1为本发明一种基于对比学习的终末期肾病并发症风险预测系统示意图;
图2为本发明一种基于对比学习的终末期肾病并发症风险预测方法流程图;
图3为本发明实施例终末期肾病数据准备模块示意图;
图4为本发明实施例并发症风险预测模块示意图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种基于对比学习的终末期肾病并发症风险预测系统,包括:
终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
所述终末期肾病数据准备模块具体包括:
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据。
所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。
所述数据扩增单元具体包括:
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
所述并发症风险预测模块具体包括:
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
所述并发症表征学习模型构建单元具体包括:
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建。
所述并发症表征学习模型定义组件具体包括:
参数定义块:用于定义网络结构的超参数,包括编码器和投影器;
特征归一块:用于将所述扩增结构化数据成对的输入至所述编码器,得到初始的并发症表征,所述初始的并发症表征通过所述投影器得到对比表征,所述对比表征经过特征归一化操作得到归一化表征;
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数。
所述并发症风险预测模型构建单元具体包括:
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
参见图2,一种基于对比学习的终末期肾病并发症风险预测方法,包括以下步骤:
步骤S1:利用医院电子信息系统和日常监测设备通过终末期肾病数据准备模块提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
步骤S2:通过并发症风险预测模块构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
实施例:
参见图3,终末期肾病数据准备模块,用于利用医院电子信息系统和日常监测设备提取患者的结构化数据,并对所述结构化数据处理得到扩增结构化数据;
数据获取单元,用于利用医院电子信息系统和日常监测设备提取结构化数据;所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据;人口统计学数据:性别、年龄、民族、地区;手术数据:主要是血管通路手术信息;用药数据:透析方案、并发症用药等;化验数据:肌酐、尿素氮等;诊断数据:并发症;日常监测数据:血压、体重等。
数据清洗单元,用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作,得到静态数据、一维时序数据和二维时序数据;数据清洗单元主要筛除不符合常理的脏数据。以血压数据为例,首先筛除包含特殊字符的血压数据。其次,筛除收缩压超过250mmHg或小于60mmHg的数据。
数据融合单元,用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征;
数据融合单元主要融合多维度、多尺度的临床结构化数据特征,将之规整为统一结构,方便后续方法使用。结构化数据主要包括性别、年龄等静态数据,肌酐、尿素氮等一维时序数据,以及血压(单次血液透析过程内部、多次血液透析过程之间两个时间维度)等二维时序数据。
数据扩增单元,用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法,得到扩增结构化数据;数据扩增单元主要用于增加样本多样性并解决正负样本不均衡的问题。本发明采用倾向性得分匹配与SMOTE相结合的数据扩增方法,以扩增结构化的终末期肾病数据,并解决正负样本不均衡的问题。
融合特征组件:用于将发生终末期肾病并发症的患者作为正样本,未发生终末期肾病并发症的患者作为负样本,以所述原始融合特征来表示正样本和负样本,将所述正样本和所述负样本的原始融合特征进行归一化操作,得到融合特征;本实施例具体利用发生心血管并发症的患者作为正样本,未发生心血管并发症的患者作为负样本;
对所述正样本和所述负样本进行0-1归一化操作,归一化后样本x的融合特征为
(x
其中,
倾向性评分组件:用于任意选取所述融合特征的一个维度作为干预变量,所述融合特征的其余维度作为协变量集,通过损失函数优化,得到倾向性评分;
选择所述融合特征x的任意一个维度
通过损失函数
匹配组件:用于所有所述正样本构成正样本全集,所有所述负样本构成负样本全集,所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集;
所有所述正样本构成正样本全集记作
正样本扩增组件:用于对所述正样本全集通过SMOTE算法获得扩增正样本,所述正样本全集和所述扩增正样本构成正样本扩增集;
在正样本全集
负样本扩增组件:用于对所述负样本子集通过SMOTE算法获得扩增负样本,所述负样本子集和所述扩增负样本构成负样本扩增集;
负样本
扩增组件:用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。
参见图4,并发症风险预测模块,用于构建并发症表征学习模型和并发症风险预测模型,将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征,并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
并发症表征学习模型构建单元:用于构建并发症表征学习模型;
并发症表征学习模型定义组件:用于构建网络结构和总损失函数;
参数定义块:用于定义网络结构的超参数,包括编码器
编码器为5层全连接网络,节点数为1024、512、256、128、64,激活函数为relu;投影器
特征归一块:用于将所述扩增结构化数据成对的输入至所述编码器
将扩增结构化数据
总损失定义块:用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数;
为了防止特征崩溃现象,本发明使用协方差项
其中N为随机抽样一个批次的正样本量,由于每个正样本匹配一个负样本且各自扩增u个样本,
其中,类别相似度量项度量了整个批次样本成对输入的类别相似性。具体公式为
其中
其中,扩增相似度量项
式中
其中,方差项
式中m是
其中,协方差项
上式表示
并发症表征学习模型优化组件:用于通过梯度下降法对所述网络结构中的参数进行优化,使得总损失函数达到收敛,完成并发症表征学习模型的构建;
通过对比总损失函数L训练编码器
并发症风险预测模型构建单元:用于构建并发症风险预测模型;
并发症风险预测模型定义组件:用于定义终末期肾病并发症风险预测网络的网络结构,并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法;
并发症风险预测模型优化组件:用于利用优化方法对所述并发症风险预测网络进行训练,完成并发症风险预测模型的构建。
首先,定义3层全连接网络作终末期肾病并发症风险预测网络
选择终末期肾病并发症风险预测网络
当对比总损失L收敛后,冻结编码器
并发症表征学习单元:用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征;
风险预测单元:用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。
以终末期肾病心血管并发症预测为例,样本分批次输入模型。一个批次的样本包含N个正样本(发生心血管并发症)及其uN个扩增正样本,以及匹配的N个负样本及uN个扩增负样本,总计2N(u+1)个样本。标签y=1表示发生心血管并发症,y=0表示未发生心血管并发症。输出为终末期肾病患者发生心血管并发症的概率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 基于阻塞性睡眠呼吸暂停水平自动预测围手术期并发症风险的系统和方法
机译: 基于阻塞性睡眠呼吸暂停水平自动预测围手术期并发症风险的系统和方法
机译: 基于自我学习的应用风险管理预测安全要求系统