首页> 中国专利> 医疗风险因子人群分类的方法、终端及计算机存储介质

医疗风险因子人群分类的方法、终端及计算机存储介质

摘要

本发明涉及风险评估技术领域,提供一种医疗风险因子人群分类的方法、终端及计算机存储介质,所述方法包括:步骤100,从公开医院电子病历系统,获取医疗数据信息;步骤200,对获取的医疗数据信息,进行命名实体识别和语义关系抽取,构建医学知识图谱;步骤300,将知识图谱转换为对偶关系图,采用标签传播算法推理出所有节点的标签情况,得到医疗风险分类模型;步骤400,在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。本发明能够提高保险行业的医疗风险因子人群分类效果。

著录项

  • 公开/公告号CN113849635A

    专利类型发明专利

  • 公开/公告日2021-12-28

    原文格式PDF

  • 申请/专利权人 上海商涌科技有限公司;

    申请/专利号CN202110883798.9

  • 发明设计人 邢静;黄可望;王竞;袁洁;豆正磊;

    申请日2021-08-03

  • 分类号G06F16/35(20190101);G06F16/36(20190101);G06F40/295(20200101);G06F40/30(20200101);G06N3/04(20060101);G16H50/70(20180101);G06Q40/08(20120101);

  • 代理机构21244 大连大工智讯专利代理事务所(特殊普通合伙);

  • 代理人崔雪

  • 地址 201203 上海市浦东新区自由贸易试验区金科路2889弄3号2层01单元

  • 入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及风险评估技术领域,尤其涉及一种医疗风险因子人群分类的方法、终端及计算机存储介质。

背景技术

保险行业不同于常规的统计学意义的根据疾病的人群分类,根据疾病名称或者根据疾病症形分类,目前通行的做法是根据ICD编码分类以及DRG分类,这些分类方法都是基于诊疗阶段医生主动分类,但是保险行业需要精准计算所在的某个人群未来疾病的发展走向,需要结合判断既往症信息,估算所在的人群的整体特征并且对未来可能的风险进行量化预估,目前没有一种同时兼顾群体分析和个人分析的成熟方法,用来解决保险行业的医疗风险量化的问题。因此适用于保险行业的医疗风险因子人群分类,成为一个急需解决的问题。

目前保险行业中主要使用传统统计学方法进行人群分类,根据既往统计学方法根据疾病大中小类所产生的疾病费用,结合所在的地区年龄性别信息,粗略划分人群,这种方法优点是有完备的数据支持,缺点是人工查阅资料整理数据投入非常大,人群的颗粒度非常粗,一般只能有4-5个风险因子(性别、年龄、行政区、疾病类别),分类效果不好。

发明内容

本发明主要解决目前保险行业中主要使用传统统计学方法进行人群分类,数据投入非常大,分类效果不好等技术问题,提出一种医疗风险因子人群分类的方法、终端及计算机存储介质,以达到提高保险行业的医疗风险因子人群分类效果。

本发明提供一种医疗风险因子人群分类的方法,包括以下过程:

步骤100,从公开医院电子病历系统,获取医疗数据信息;

步骤200,对获取的医疗数据信息,进行命名实体识别和语义关系抽取,构建医学知识图谱;

步骤300,将知识图谱转换为对偶关系图,采用标签传播算法推理出所有节点的标签情况,得到医疗风险分类模型;

步骤400,在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。

进一步的,所述步骤200,包括:

步骤201,对获取的医疗数据信息,采用BiLSTM-CRF模型对中文进行名称实体识别,获得待选实体;

步骤202,使用BiGRU-Attention模型进行语义关系抽取,得到待选实体关系;

步骤203,对所述待选实体实体和待选实体关系进行融合,形成知识图谱;

步骤204,对计算得到的知识图谱,储存到存储介质中。

进一步的,所述步骤300,包括:

步骤301,按照以下公式将知识图谱转换为GCN网络,GCN网络可以用以下公式表示:

其中,σ表示激活函数,

步骤302,根据得到的GCN网络,应用基于模块度优化的标签传播社区算法进行社区分类,得到医疗风险分类模型。

进一步的,所述步骤302,包括:

步骤3021,将GCN网络中所有节点初始化为唯一且不同的社区标签;

步骤3022,依次更新每个节点的社区标签,直到更新指定的K次或者模块度不再增加为止,将结果作为后续标签传播的初始划分;

步骤3023,将所有节点进行随机排列,依次更新所有节点的社区标签,更新为邻居节点中出现频率最高的社区标签,若多个社区标签频率同时最高,则随机选择;

步骤3024,重复步骤3023,直到所有的节点社区标签都与其邻居节点中出现频率最高的社区标签相同,得到分类模型。

进一步的,所述步骤400,包括:

步骤401,使用关系感知双图卷积网络,将步骤300中得到的分类模型,根据医疗疾病发展路径图谱进行实体对齐;

步骤402,基于注意力机制的图卷积网络模型的知识图谱推理算法,推理实体的关联关系,利用注意力机制学习知识图谱中实体节点的邻域实体信息,为邻域中的不同实体指定不同权重,采用GCN的参数共享技术学习实体的相邻关系特征。

对应的,本发明还提供一种终端,包括采集终端和计算模型终端;

所述采集终端定时读取医疗EMR系统内数据;

所述计算机终端,包括:处理器和存储器;

所述存储器用于存储计算机程序,所述处理器运行所述计算机;所述处理器运行计算机程序,所述计算机程序执行本发明任意实施例提供的医疗风险因子人群分类的方法。

对应的,本发明还提供一种计算机存储介质,所述计算机存储介质存储所述计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本发明任意实施例提供的医疗风险因子人群分类的方法。

本发明提供的一种医疗风险因子人群分类的方法、终端及计算机存储介质,在分布不均衡的数据集中预测依旧能保持模型预测的高稳定性,另一方面能有效解决人群分类颗粒度问题,能将粗粒度数据更精细化,将每个社区大小控制在有效范围内,过去人群分布一般按年龄段区分、地区按就医省市区分,本发明不再局限于粗粒度的统计维度,可以更进一步的细化,可以到社区、年龄段、疾病的具体分型分症等更为细致的颗粒度,能够提高医疗风险因子人群分类效果。本发明可以适用于保险行业,一方面能解决样本分布的问题,对正负样本不在要求一定要平衡,甚至可以负样本只有个例,只有极小概率发生理赔,降低发生骗保的可能性。

附图说明

图1是本发明提供的医疗风险因子人群分类的方法的实现流程图;

图2是BiLSTM-CRF模型示意图;

图3是BiGRU-Attention模型示意图;

图4是RDGCN模型的示意图;

图5是Attention-GCN模型的流程示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。

如图1所示,本发明实施例提供的医疗风险因子人群分类的方法,包括以下过程:

步骤100,从公开医院电子病历系统,获取医疗数据信息。

从公开医院电子病历(Electronic Medical Record,EMR)系统采集医疗数据信息。EMR系统(MIMIC III,Medical Information Mart for Intensive Care,共包含了2001年6月至2012年10月间在Beth Israel Deaconess Medical Center住院的38645名成年个体和7875名新生儿的的58000余次住院资料),由以色列女执事医疗中心(Beth IsraelDeaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立,内容包括但不限于:首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等,其中包括了结构化的数据,也包括了非结构化数据。根据调研,实体信息主要存在于首诊记录、入院记录和出院记录中。

步骤200,对获取的医疗数据信息,进行命名实体识别和语义关系抽取,构建医学知识图谱。

步骤201,对获取的医疗数据信息,采用BiLSTM-CRF模型对中文进行名称实体识别,获得待选实体。

所谓待选实体,表示需要后续加工处理才会正式成为实体。

BiLSTM+CRF是目前比较流行的序列标注算法,其将BiLSTM(Bi-directional LongShort-Term Memory,双向长短记忆网络),BiLSTM由前向LSTM(LSTM,Long Short-TermMemory,长短期记忆网络)与后向LSTM组合而成,BiLSTM和CRF(conditional random fieldalgorithm,条件随机场算法)结合在一起,使模型即可以像CRF一样考虑序列前后之间的关联性,又可以拥有LSTM的特征抽取及拟合能力。

BiLSTM-CRF模型以句子为单位,将含有n个字的句子记为x={x

BiLSTM-CRF模型分为三层,Lookup层、BiLSTM层和CRF层。Lookup层利用预训练的embedding矩阵将句子中的字x

其中,A

步骤202,使用BiGRU-Attention模型进行语义关系抽取,得到待选实体关系。

本步骤使用的是自注意力模型,是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。自注意力机制主要是通过计算单词间的互相影响,来解决长距离依赖问题。BiGRU(bidirectional gating recurrent unit,双向门控循环单元网络)模型以低维词向量作为文本的特征输入到网络,从前后两个方向提取文本的特征,具有较强的提取文本特征的能力。

BiGRU-Attention(注意力机制的双向门控循环单元网络)模型见图3。BiGRU-Attention模型分为四部分:输入层、BiGRU层、Attention层和输出层。输入层将通过词向量和位置向量表示一个句子中的每一个词用,然后输入到BiGRU网络中。BiGRU层,从前后向上同时获取上下文信息,以提高特征提取的准确率。并且BiGRU具有对词向量依赖小,复杂度低,响应快的优点。模型可以用以下公式表示:

γ

z

其中,γ

双向attention层,用来适应一个文本中不同的词语、不同的句子对文本不同的贡献程度,为不同的词和句子分配不同的权重,以突出强调对电子病历关系抽取有重要意义的词和句子,减少不相关的词和句子对模型的影像。

输出层为双层注意力机制层的输出,利用softmax函数达到关系分类的目的,具体公式如下:

p=softmax(ω

其中,ω

u

s=∑

其中,w

步骤203,对所述待选实体实体和待选实体关系进行融合,形成知识图谱。

使用上述方式获得的待选实体和待选实体关系,先将实体和现有公开的同类型知识图谱中的实体进行匹配,计算两个实体之间的皮尔森相关系数(Pearson CorrelationCoefficient),如果皮尔森相关系数超过阈值1,则认为两个实体相等(sameAs关系),如果皮尔森相关系数超过阈值2,则认为两个实体有关联(relatedTo关系),皮尔森相关系数的计算公式如下:

其中,Q

根据两个实体之间的皮尔森相关系数,得到知识图谱。知识图谱(KG,KnowledgeGraph),是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

步骤204,对计算得到的知识图谱,储存到存储介质中。

知识图谱包含两类信息,一类是实体(entity),另一类是关系(relation),举例来说,疾病是一类知识概念,因此是一类实体,有“白血病”、有“肺炎”等等,实体中有一类特殊的信息,例如:发病率,发病人群,治愈率,这类信息不足以说明实体,但对实体信息有很强的功能描述作用,这一类信息称为属性,一般出现在特定领域的知识图谱中。另外一类是关系,例如疾病发生在某个部位,“疾病”和“部位”之间就有一个发生关系。本发明涉及到的实体主要有以下几种,包括疾病、检查项目、科室、部位、症状、药物等,涉及临床、制药、健康、百科等多个领域的领域知识图谱。其中,疾病的主要属性有:疾病名称、治愈率、收费说明、发病人群,药品的主要属性有:国药准字、药品名。

步骤300,将知识图谱转换为对偶关系图,采用标签传播算法推理出所有节点的标签情况,得到医疗风险分类模型。

保险行业规定了25种重疾,每家保司又各自定义了不同保险产品的保障范围和高风险病种,我们利用节点的高风险、中风险标签,对大多数未知风险的节点进行推理,可以预测出未知节点的风险情况。

步骤301,按照以下公式将知识图谱转换为GCN网络,GCN网络可以用以下公式表示:

其中,σ表示激活函数,

GCN网络(Graph Convolutional Network,图卷积网络),将图像学中的卷积计算概念延展到网络中,可以说GCN网络是对图数据进行操作的神经网络。

步骤302,根据得到的GCN网络,应用基于模块度优化的标签传播社区算法进行社区分类,得到医疗风险分类模型。

首先以模块度贪婪为依据进行粗聚类,然后在此基础上进行标签传播算法(LabelPropagation,标签传播)。具体流程如下:

步骤3021,将GCN网络中所有节点初始化为唯一且不同的社区标签;

步骤3022,依次更新每个节点的社区标签,直到更新指定的K次或者模块度不再增加为止,将结果作为后续标签传播的初始划分;

更新社区标签的方法是:计算节点并入其邻居节点所在社区带来的模块度增量,如果模块度增量最大且为正的社区标签,则进行更新;如果模块度增量最大但非正的社区标签,则保留在原社区;

步骤3023,将所有节点进行随机排列,依次更新所有节点的社区标签,更新为邻居节点中出现频率最高的社区标签,若多个社区标签频率同时最高,则随机选择;

步骤3024,重复步骤3023,直到所有的节点社区标签都与其邻居节点中出现频率最高的社区标签相同,得到分类模型。

本步骤利用LP算法,只有少量的带标签的数据,通过图计算的半监督的推理算法,推理出所有节点的标签情况。

步骤400,在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。

本步骤考虑到不同疾病之间存在演变过程,我们还需要对在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。风险并不只是当前是高风险,如果一个病种有很高概率发展成为高风险疾病,那我们认为它成为高风险的概率也很高。在上述分类模型基础上,根据公开数据集的医疗疾病发展路径图谱进行推理。具体方法如下:

步骤401,使用关系感知双图卷积网络(Relation-Aware Entity Alignment forHeterogeneous Knowledge Graphs,RDGCN),将步骤300中得到的分类模型,根据医疗疾病发展路径图谱进行实体对齐。

图4展示了RDGCN的网络示意图。给定输入知识图谱,首先构造其对偶关系图,其顶点表示原始知识图谱中的关系,利用注意力机制加强对偶关系图和原始知识图谱之间的相互作用,然后将原始知识图谱中的顶点表示形式反馈入具有高速路神经网络门控的GCN层以捕获邻居的结构信息。最终实体表示将用于确定两个实体是否应对齐。经过训练后,将步骤300中得到的分类模型,根据医疗疾病发展路径图谱进行实体对齐。

步骤402,基于注意力机制的图卷积网络(Attention-GCN)模型的知识图谱推理算法,推理实体的关联关系,利用注意力机制学习知识图谱中实体节点的邻域实体信息,为邻域中的不同实体指定不同权重,权重是指在领域实体中影响程度的量化,采用GCN的参数共享技术学习实体的相邻关系特征。

如图5所示,本步骤实现关联关系推理,能够有效衡量不同邻域实体对当前实体的影响程度,达到多条路径信息传递的效果。采用GCN的参数共享技术学习实体的相邻关系特征,能够进一步避免密集矩阵操作的计算。

本实施例还提供一种终端,包括采集终端和计算模型终端;

所述采集终端读取、解析医疗EMR系统内数据;所述采集终端还能够对所述数据中的数据进行收集,只收集实体信息丰富的首诊记录、入院记录和出院记录。

所述计算机终端,包括:处理器和存储器;所述存储器用于存储计算机程序,所述处理器运行所述计算机;所述处理器运行计算机程序,所述计算机程序执行本发明任意实施例提供的医疗风险因子人群分类的方法。

本实施例还提供一种计算机存储介质,所述计算机存储介质存储所述计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本发明任意实施例提供的医疗风险因子人群分类的方法。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号