首页> 中国专利> 基于混合数据库结构的医疗大数据中心及其建设方法

基于混合数据库结构的医疗大数据中心及其建设方法

摘要

本发明公开了一种基于混合数据库结构的医疗大数据中心及其建设方法,包括院内数据、API数据操作接口、数据服务层、ETL数据清洗模块、海量各类型结构化数据处理模块、深度学习算法处理模块、关系型数据库以及非关系型数据库,建设方法包括以下步骤:1)数据收集;2)数据整合;3)数据清洗;4)结构化数据储存;5)非结构化数据处理并储存。本发明涉及医疗信息技术领域,具体是提供了一种高度信息化、规格统一、互联互通、智能分析的基于混合数据库结构的医疗大数据中心及其建设方法。

著录项

  • 公开/公告号CN112199425A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利号CN202010974825.9

  • 发明设计人 金博;王雷;高瞻;

    申请日2020-09-16

  • 分类号G06F16/25(20190101);G06F16/28(20190101);G06F16/36(20190101);G06F40/295(20200101);G06N20/00(20190101);G16H50/20(20180101);G16H10/20(20180101);G16H70/40(20180101);

  • 代理机构11616 北京盛凡智荣知识产权代理有限公司;

  • 代理人屠佳婕

  • 地址 100032 北京市西城区德胜门外大街甲10号1幢8层808、809

  • 入库时间 2023-06-19 09:29:07

说明书

技术领域

本发明涉及医疗信息技术领域,具体是指一种基于混合数据库结构的医疗大数据中心及其建设方法。

背景技术

随着“健康中国2030”纲要的提出,医疗健康大数据已经被提升到国家战略发展的高度而备受重视。我国的医疗信息化建设经过多年的区域级医疗服务信息系统建设的发展,尽管从政策上、管理上、技术上等角度来看互联互通的可行性与工作基础己经存在,但是各地依旧存在着数据、接口等标准不一致、信息化水平参差不齐、存在信息孤岛、数据多源异构等的情况,而且由于时间跨度过长以及技术发展水平的限制,其信息化发展缺少统一规划,导致了医疗信息分散、缺失、孤立、冗余等,形成了很多信息孤岛,非常不利于实现未来的标准医疗健康大数据发展的目标。

发明内容

为解决上述现有难题,发明提供了一种通过将院内数据按结构化和非结构化数据分类,将结构化数据通过关系型数据库存储,同时利用深度学习算法将非结构化数据进行实体识别、关系抽取、实体整合等形成全科医疗知识图谱,存储于非关系型数据库中,最终通过关系型和非关系型数据库的结合共同构成医疗大数据中心,且高度信息化、规格统一、互联互通,具有智能分析功能的基于混合数据库结构的医疗大数据中心及其建设方法。

本发明采取的技术方案如下:本发明一种基于混合数据库结构的医疗大数据中心,包括院内数据、API数据操作接口、数据服务层、ETL数据清洗模块、海量各类型结构化数据处理模块、深度学习算法处理模块、关系型数据库以及非关系型数据库,所述院内数据包括患者信息、临床数据、体检数据、运营数据、影像数据、科研数据等,所述ETL数据清洗模块包括ETL数据清洗工具以及数据清洗日志,所述海量各类型结构化数据处理模块包括分配模块、分配用工作节点、读取模块、存储模块以及存储用工作节点,所述数据服务层用于实现对不同格式数据的整合,所述ETL数据清洗模块可以实现对结构化数据与非结构化数据的划分,所述海量各类型结构化数据处理模块可以对结构化数据进行分类存储于关系型数据库并建立关系,所述深度学习算法处理模块可以对非结构化数据进行实体抽取、关系抽取、属性抽取,并构建知识图谱并储存于非关系型数据库。

本发明一种基于混合数据库结构的医疗大数据中心的建设方法,包括以下步骤:

1)数据收集:通过对院内各存储数据的设备以及数据输入设备布置API数据操作接口进行院内数据的获取;

2)数据整合:通过数据服务层对获取到的各种数据进行整合;

3)数据清洗:通过ETL数据清洗模块对整合后的数据进行清洗将各项数据划分为结构化数据和非结构化数据,所述结构化数据包括患者信息,医护人员信息、科室基本信息和科研信息,根据患者信息构建唯一的患者唯一ID,所述非结构化数据包括临床数据中的病人主诉、临床诊断、医嘱;

4)结构化数据储存:对于结构化数据,根据各医院实际需求通过海量各类型结构化数据处理模块建立关系型数据库,建立相应表单,存储结构化数据,其过程为ETL数据清洗工具分出的结构化数据与深度学习算法处理模块抽取出的结构化信息传输到分配模块,分配模块将结构化数据分配至分配用工作节点,读取模块从个节点读取元数据并生成工作计划传输给存储模块,存储模块将工作计划派发给个分配用工作节点,进而分配用工作节点将结构化数据传输给存储用工作节点,存储用工作节点将结构化数据存进关系型数据库;

5)非结构化数据处理并储存:对于非结构化数据,通过深度学习算法处理模块对其进行实体抽取、关系抽取、属性抽取,构建知识图谱,并存入存储,将抽取出的结构化信息存入非关系型数据库,并通过患者唯一ID将非关系型数据库与关系型数据库结合,同时可随着医院系统数据的增加自动对新增数据进行处理,然后对知识图谱进行扩充。

进一步地,步骤1)中所述API数据操作接口可实现跨计算机跨软件的数据传输,使各设备间互联互通,且不需对现有设备及系统做出较大更改,更容易实现分布式云部署。

进一步地,步骤2)所述数据服务层可以实现对不同格式数据的整合,使后续处理时的数据规格统一并方便管理以及其他操作。

进一步地,步骤5)所述深度学习算法处理模块的处理可使非结构化数据间以及与结构化数据建立联系,使整个信息化程度大大提高。

进一步地,步骤5)中所述深度学习算法处理模块采用BERT模型进行处理,完全可以对数据及操作进行智能分析处理,还可以实现知识图谱的自动扩充。

进一步地,所述BERT模型将非结构化数据抽取为患者、症状描述、病状诊断和药物,并利用BIO序列标记症状描述、病状诊断和药物相关的临床医疗命名实体,其中,B表示医疗命名实体的开始词,I表示医疗命名实体的中间词或结尾词,O表示非医疗命名实体。

采用上述方案本发明取得的有益效果如下:本发明一种基于混合数据库结构的医疗大数据中心及其建设方法具有高度信息化、规格统一、互联互通、智能分析处理数据的特点,不需要对医院现有各系统进行较大的变更,更容易实现分布式云部署,可以实现知识图谱的自动扩充,可以结合各种深度学习算法如GCN等,为辅助诊断、辅助治疗等人工智能系统提供数据基础的优点。

附图说明

图1是本发明一种基于混合数据库结构的医疗大数据中心及其建设方法的整体结构流程图;

图2是本发明一种基于混合数据库结构的医疗大数据中心及其建设方法的逻辑连接图;

图3是本发明一种基于混合数据库结构的医疗大数据中心及其建设方法的BIO序列标记结构示意图。

附图用来提供对发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

由图1-3所示,本发明一种基于混合数据库结构的医疗大数据中心,包括院内数据、API数据操作接口、数据服务层、ETL数据清洗模块、海量各类型结构化数据处理模块、深度学习算法处理模块、关系型数据库以及非关系型数据库,所述院内数据包括患者信息、临床数据、体检数据、运营数据、影像数据、科研数据等,所述ETL数据清洗模块包括ETL数据清洗工具以及数据清洗日志,所述海量各类型结构化数据处理模块包括分配模块、分配用工作节点、读取模块、存储模块以及存储用工作节点。数据服务层用于实现对不同格式数据的整合。ETL数据清洗模块可以实现对结构化数据与非结构化数据的划分。海量各类型结构化数据处理模块可以对结构化数据进行分类存储于关系型数据库并建立关系。深度学习算法处理模块可以对非结构化数据进行实体抽取、关系抽取、属性抽取,构建知识图谱并储存于非关系型数据库。

本发明一种基于混合数据库结构的医疗大数据中心的建设方法,包括以下步骤:

1)通过对院内各存储数据的设备以及数据输入设备布置API数据操作接口进行院内数据的获取;

2)通过数据服务层对获取到的各种院内数据进行整合;

3)通过ETL数据清洗模块对整合数据进行清洗将各项数据划分为结构化数据和非结构化数据,所述结构化数据包括患者信息、医护人员信息、科室基本信息和科研信息,根据患者信息构建唯一的患者唯一ID,所述非结构化数据包括临床数据中的病人主诉、临床诊断、医嘱,其中定期会对不确定数据及运行状况定期进行反馈运行信息,数据维护人员定期为数据清洗工具的不确定数据及清洗错误数据进行人工辅正,而人工辅正后的数据及辅正前的数据再次由ETL数据清洗工具反馈到下次的数据清洗日志,深度学习算法处理模块对数据清洗日志中的人工辅正后的数据及辅正前的数据进行学习进而对ETL数据清洗工具进行清洗改进,进而使得清洗效果越来越智能,对人工辅正需求越来越少,也充分利用了深度学习算法处理模块;

4)对于结构化数据,根据各医院实际需求通过海量各类型结构化数据处理模块建立关系型数据库,建立相应表单,存储结构化数据,其过程为ETL数据清洗工具分出的结构化数据与深度学习算法处理模块抽取出的结构化信息传输到分配模块,分配模块将结构化数据分配至分配用工作节点,读取模块从个节点读取元数据并生成工作计划传输给存储模块,存储模块将工作计划派发给个分配用工作节点,进而分配用工作节点将结构化数据传输给存储用工作节点,存储用工作节点将结构化数据存进关系型数据库;

5)对于非结构化数据,通过深度学习算法处理模块对其进行实体抽取、关系抽取、属性抽取,构建知识图谱,并存入存储,将抽取出的结构化信息存入非关系型数据库,并通过患者唯一ID将非关系型数据库与关系型数据库结合,同时可随着医院系统数据的增加自动对新增数据进行处理,然后对知识图谱进行扩充。

所述深度学习算法处理模块采用BERT模型进行处理,完全可以对数据及操作进行智能分析处理,还可以实现知识图谱的自动扩充,所述BERT模型将非结构化数据抽取为患者、症状描述、病状诊断和药物,并利用BIO序列标记症状描述、病状诊断和药物相关的临床医疗命名实体,其中,B表示医疗命名实体的开始词,I表示医疗命名实体的中间词或结尾词,O表示非医疗命名实体。

为了更好的理解,本发明对句子“左侧胸锁乳室局部增厚明显”进行分析,将上述句子输入至深度学习算法处理模块中,进行医疗命名实体识别,得到的命名实体识别结果为身体部位实体“左侧胸锁乳室局部”和症状实体“增厚”,非医疗命名实体为“明显”。

本发明一种基于混合数据库结构的医疗大数据中心及其建设方法具有高度信息化、规格统一、互联互通、智能分析处理数据的特点,不需要对医院现有各系统进行较大的变更,更容易实现分布式云部署,可以实现知识图谱的自动扩充,可以结合各种深度学习算法如GCN等,为辅助诊断、辅助治疗等人工智能系统提供数据基础的优点。

以上对发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号