首页> 中国专利> 基于深度神经网络的医疗卫生机构信息数据标准化方法

基于深度神经网络的医疗卫生机构信息数据标准化方法

摘要

本发明公开了一种基于深度神经网络的医疗卫生机构信息数据标准化方法,包括构建地址元素知识图谱和抽取深度主动地址要素抽取两个部分;构建地址元素知识图谱部分主要是建设与维护地址知识,包括知识图谱的构建与自学习;抽取深度主动地址要素部分主要是从医疗医疗机构的名称及地址中对地址的关键元素进行抽取,基于NLP的文本处理思想,采用深度神网络模型进行处理,具体包括地址主动标注策略与深度地址要素抽取模型。本发明可实现高效、有效的医疗卫生机构信息数据标准化。

著录项

  • 公开/公告号CN116680448A

    专利类型发明专利

  • 公开/公告日2023-09-01

    原文格式PDF

  • 申请/专利权人 广州中康数字科技有限公司;

    申请/专利号CN202310647378.X

  • 申请日2023-06-01

  • 分类号G06F16/901(2019.01);G06F16/29(2019.01);G06F18/10(2023.01);G06F18/24(2023.01);G06F18/214(2023.01);G06F16/35(2019.01);G06N3/0464(2023.01);G06N3/048(2023.01);G06N3/047(2023.01);G06F18/23(2023.01);G06F16/31(2019.01);G06F16/36(2019.01);

  • 代理机构广州德伟专利代理事务所(普通合伙) 44436;

  • 代理人何文颖

  • 地址 510000 广东省广州市南沙区黄阁镇望江二街5号1111房(仅限办公)

  • 入库时间 2024-01-17 01:27:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-19

    实质审查的生效 IPC(主分类):G06F16/901 专利申请号:202310647378X 申请日:20230601

    实质审查的生效

  • 2023-09-01

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于深度神经网络的医疗卫生机构信息数据标准化方法。

背景技术

医疗卫生机构包含医院、基层医疗卫生机构、专业公共卫生机构及其他机构。

随着医疗卫生服务体系规划逐渐完善,医疗信息化建设也越趋重要。对医疗机构而言,数字化建设和智慧医疗建设同样是其改革的重点。医疗卫生机构应用医疗信息化系统可以简化就医流程,实现医疗服务的流程化、规范化管理,并提高医疗服务水平,提升患者就医体验。

可是医疗卫生机构的数据来源所遵循的官方标准多样且信息不统一,从不同的官方网站获取的关于同一医疗卫生机构的数据信息极具差异性,如:数据属性不全,地址登记/注册描述不一致,名称不一致等。这使得多来源数据的合并具有一定的难度。因此需对数据进行清洗处理后入库为主数据。

医疗卫生机构数据整合、治理、标准是重要问题,其中医疗卫生机构名称及地址等相关信息抽取最为关键问题。当前的医疗卫生机构信息数据治理流程主要基于传统的规则来处理,具体地分为以下几个阶段:人工数据查验,正则表达的传统数据清洗,数据映射,数据去重合并,数据人工校验,最后到数据入库。

显然,当前的医疗卫生机构数据标准化治理技术存在如下的问题:

1)海量数据,消耗大量时间及人力:

传统处理大部分基于规则进行,贯穿了数据治理的整个过程,治理前,人工对特殊符号、不合规属性内容进行整理、对先验知识与规则进行设定;数据处理中,人工对数据准确性进行审查,特殊数据作记录;数据治理后,人工对处理的规则进行总结与维护。同时,由于维护内容庞大,先验知识维护具有滞后性,例如特殊符号的维护,需查验总结后才可行,影响数据更新应用的及时性。

2)多名称拆分与非连接地址元素抽取不完整:

获取信息时,数据记录差异性过大,易造成拆分错误。例如“滁州市第二人民医院(市传染病医院、市精神病医院)”,易拆分为“市传染病医院”,实际应为“滁州市传染病医院”;再例如医疗机构名称“黄塘医院(中山大学附属梅州医院)扶大院区”,易误拆分为“扶大院区”,实际应为“黄塘医院扶大院区及中山大学附属梅州医院扶大院区”;

3)医疗卫生机构地址文本质量低,先验知识缺乏,造成准确率低:

①地址文本内容短缺,描写不具体或无相关区划描述,或行政区划中不同省份存在重复区划。

②卫生机构登记后,行政区划发生变更导致:Ⅰ、登记的地址文本中描述变更前区划与其它省份或地区区划相同;Ⅱ、地址文本中变更前区划在行政区划标准中无记录,例如“杭州市余杭区星桥街道藕花洲大街西段555、557号”,由于原余杭区撤销,后来设立了新的余杭区、临平区,所以该地址解释的“余杭区”应该是新设的“临平区”,存在一致性问题。

③地址文本中内容描述为简称,村、路、社区等不规范描写等情况较多,例如“巴彦高勒镇贺兰社区”,实为“贺兰居委会”。

发明内容

针对现有技术的不足,本发明旨在提供一种基于深度神经网络的医疗卫生机构信息数据标准化方法。

为了实现上述目的,本发明采用如下技术方案:

基于深度神经网络的医疗卫生机构信息数据标准化方法,具体包括如下步骤:

S1、由专业人员收集通用地址区域关系和医疗卫生机构的原始信息数据;

S2、对结构化数据,即通用地址区域关系进行初始化,构建地址元素图谱;所述地址元素图谱设置为八层,具体包括:

第一层为经纬层,节点内容为具体地址对应的纬经度信息;

第二层为地址层,节点内容为具体地址,表示上层节点路径的具体地址;

第三层为村层,表示行政区分级中的第五层结构,包括居委会、村委会;

第四层为镇层,表示行政区分级中的第四层结构,包括镇、乡、街道;

第五层为区层,表示行政区分级中的第三层结构,包括区、地级市;

第六层为市层,表示行政区分级中的第二层结构,包括市;

第七层为省层,表示行政区分级中的第一层结构,包括省、直辖市;

第八层为国家层,表示国家概念的根节点;

记初始化后的地址元素图谱为G_0;初始化时,地址元素图谱各层具体的规则如下:

第八层只初始化一个根节点;

第三层到第七层采用国家统计局行政区划分来进行初始化,完成省、市、区、镇、村五层的数据初始化;

第二层的初始化,是根据第三层到第七层形成的完整名称,通过开放地理信息API或企业注册网站获取医生卫生机构的具体地址;

第一层的初始化,是对第二层的具体地址进行经纬度转换,获得经纬度数据;

S3、地址元素图谱自学习:

某一轮地址元素自学习具体过程如下:

S3.1、加载全量医疗卫生机构信息数据raw_data,获取其中的地理信息的相关内容,保存在a_map_infos表中;

S3.2、加载训练好的深度神经网络模型,即深度地址要素抽取模型NN_Model,遍历raw_data,记raw_data的每条记录为raw_x,对每条记录利用模型NN_Model进行预测,seq_list=NN_Model(raw_x),解释地址元素实体,预测结果保存在e_set_infos表中;

S3.3、把a_map_infos表与e_set_infos表根据主键关联起来,形成表e_table_infos;

S3.4、遍历e_tables_infos表中的元素,形成遍历的时序列e_seq_x,元素记为elmnt;按e_seq_x时序列与地址元素图谱G_0进行自上而下进行匹配,如果完全匹配,从地址元素图谱G_0中取出元素记为std_elmnt,并转到步骤S3.6,如果不完全匹配转向步骤S3.5,否则结束;匹配过程中需要严格按照顺序,类型与文本均一致即为匹配成功;

S3.5、获取不匹配的层号,并列出其所有孩子分支的经纬度,得到列表kg_map_als;获取e_seq_x对应地址的经纬度map_al,将map_al与kg_map_als中各个元素分别计算距离,取距离最小值mid_dist对应的元素记录为两元素三元组,关系是共现,记为(elmnt,std_elmnt,co_occur),其中两个经纬度的距离计算公式为:

其中,R表示地球半径,

S3.6、以上层节点作为条件,对地址元素进行频率统计;

S3.7、合并全库地址元素对,并计算地址元素与地址元素图谱中标准地址元素的相似度分布,具体公式为:

其中,freq(·)为频率统计操作;

S3.8、把计算的相似度更新到地址元素图谱中,完成本轮学习。

进一步地,步骤S3中,深度地址要素抽取模型的构建及训练过程如下:

D1、对样本数据进行清洗:将样本数据转为brat格式,并清洗掉多余空格;将清洗之后的数据集划分为训练集、验证集与测试集;对每个实体类型按照BIOS标注方式生成4种标签形式,并以JSON格式保存;

D2、将清洗后的训练集输入BERT+CRF模型进行训练,然后采用验证集进行调参,最后采用测试集对BERT+CRF模型进行评估;BERT+CRF模型架构包括输入层、嵌入层、编码层、CRF层及输出层;其中编码层由12个结构完全一致的编码块连接而成;BERT模型的基础参数为:学习率lr=2e

D2.1、文本经过Token Embeddings、Segment Embeddings、以及PositionEmbeddings后表示成向量的形式,记为X

D2.2、将3个向量X

X

记x表示X

其中,E(x)表示计算x的均值,Var(x)表示计算x的方差;ε为10

D2.3、按照给定的丢弃率,随机用0替换归一化后所得向量中的部分值,其余值放大为

D2.4、编码层由12个结构完全相同的Encoder构成;每个Encoder包括3个部分:多头注意力机制、残差连接及前馈神经网络;多头注意力机制由12个自注意力机制组成;每个自注意力机制得分可由下公式计算:

其中Q表示query矩阵,K表示key矩阵;d表示输入向量的维度;

对自注意力机制进行归一化处理;本实施例采用softmax激活函数,公式如下:

b=softmax(a(Q,K))V

V表示value矩阵;

D2.5、将多个自注意力池化首尾相连,并进行线性变换,公式如下:

X

其中,m表示自注意力池化的id;

D2.6、将X

X

D2.7、将X

X′

其中,W

D2.8、重复步骤2.1.2.4)-步骤2.1.2.7)k次,记编码层最终输出结果为X

D2.9、令y=X

依次计算各个序列得分,找到能够满足损失函数最大的序列组合,即为模型的预测结果;序列得分计算公式如下:

其中n为序列的总长度,

更进一步地,数据标注采用主动标注策略完成,所述主动标注策略包括和基于模型的主动选择策略;所述数据标注的具体流程如下:

C1、加载医疗卫生数据;

C2、判断是否有已训练好的深度地址要素抽取模型,如果没有选择冷启动选择策略,否则选择主动选择策略;

C3、根据步骤C2所选择的策略对医疗卫生数据进行标注;

C4、利用标注后的医疗卫生数据进行深度地址要素抽取模型的训练及评估,评估深度地址要素抽取模型是否可行,如果可行则保存训练好的深度地址要素抽取模型,流程结束,否则转向步骤C2,重新进行数据的标注;

所述冷启动选择策略主要采用无监督的聚类模型对数据进行聚类,对每类数据随机选择最具典型的数据作为目标样本;

基于模型的主动选择策略主要是采用已训练好的深度地址要素抽取模型对未标注的医疗卫生机构地址与名称进行预测,生成相应的伪标签,并对每个生成的伪标签进行评分,最后根据评分来确定是否需要进一步的标注与确定需要标注的未标注样本。

再进一步地,采用基于模型的主动选择策略进行数据标注的具体过程如下:

第一步、加载未标注的医疗卫生机构信息数据及已训练的深度地址要素抽取模型;

第二步、利用深度地址要素抽取模型预测未标注的医疗卫生机构信息数据,为数据加上伪标注;

第三步、对每条医疗卫生机构信息数据,设置评分策略;所述评分策略根据置信度思想选择最低置信策略,对应公式为:

其中y

第四步、对LC(y

本发明的有益效果在于:

1.本发明提出基于主动学习的样本标注;对于模型的学习,标注的样本数据是一个非常重要的一步,传统方法是随机抽取一定样本量去标注,这种方法不了解数据的分布,同时标注的数据训练出来的模型性能也会受到影响。本发明针对医疗卫生机构的相关信息设计了冷启动与模型主动选择的策略,可高效地达到信息抽取效果。

2.本发明提出基于深度神网络的医疗卫生机构地址元素抽取,把地理信息的信息抽取问题,采用了NLP的思维模式去思考,把信息看成文本字符串的信息问题,结合NLP流行的BERT预训练技术,提出BERT+CRF模型对医疗卫生机构地址元素抽取的创新方法,解决了传统的字典匹配一大痛点问题。

3.本发明提出基于医疗卫生机构地址元素知识图谱的地址元素的标准化,图谱可实现自学习。采用目前流行的知识图谱技术,构建可自学习的医疗卫生机构知识图谱,结合树型结构化先验知识,自动地对抽取关键地址元素与相似元素建立相关关系,在信息标准阶段,直接对维护好的图谱进行应用。

附图说明

图1为本发明实施例中地址元素图谱的结构示意图;

图2为本发明实施例中地址元素图谱自学习的流程图;

图3为本发明实施例中BERT+CRF模型的架构示意图;

图4为本发明实施例中数据标注的流程示意图;

图5为本发明实施例方法的总体流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。

本实施例提供一种基于深度神经网络的医疗卫生机构信息数据标准化方法,包括构建地址元素知识图谱和抽取深度主动地址要素抽取两个部分;构建地址元素知识图谱部分主要是建设与维护地址知识,包括知识图谱的构建与自学习;抽取深度主动地址要素部分主要是从医疗医疗机构的名称及地址中对地址的关键元素进行抽取,基于NLP的文本处理思想,采用深度神网络模型进行处理,具体包括地址主动标注策略与深度地址要素抽取模型。

(1)构建地址元素知识图谱:

1.1)由专业人员收集通用地址区域关系、医疗卫生机构信息数据的相关规则、医疗卫生机构的原始信息数据等;

1.2)对结构化数据,即通用地址区域关系进行初始化,构建地址元素图谱;所述地址元素图谱设置为八层,具体包括:

第一层为经纬层,节点内容为具体地址对应的纬经度信息;

第二层为地址层,节点内容为具体地址,表示上层节点路径的具体地址;

第三层为村层,表示行政区分级中的第五层结构,包括居委会、村委会等;

第四层为镇层,表示行政区分级中的第四层结构,包括镇、乡、街道等;

第五层为区层,表示行政区分级中的第三层结构,包括区、地级市等;

第六层为市层,表示行政区分级中的第二层结构,包括市等;

第七层为省层,表示行政区分级中的第一层结构,包括省、直辖市等;

第八层为国家层,表示国家概念的根节点;

记初始化后的地址元素图谱为G_0,如图1所示。初始化时,地址元素图谱各层具体的规则如下:

第八层只初始化一个根节点;

第三层到第七层采用国家统计局行政区划分来进行初始化,完成省、市、区、镇、村五层的数据初始化;

第二层的初始化,是通过第三层到第七层形成的完整名称,通过开放地理信息API或企业注册网站获取医生卫生机构的具体地址,例如根据第三层到第七层形成的完整名称“广东省茂名市高州市潘州街道东门居委会”,从企业注册网站获取具体地址为“广东省茂名市高州市潘州街道东门居委会东升巷42号”;

第一层的初始化,是对第二层的具体地址作一个经纬度转换,例如根据“广东省茂名市高州市潘州街道东门居委会东升巷42号”,查询到其经纬度为“113.35796,23.34233”。

1.3)地址元素图谱自学习:

由初始化阶段可知,地址元素图谱G_0为多层的树型数据结构模型,包括了开放域的结构化及规则化知识,而地址元素图谱自学习阶段则是从海量数据中学习到地址元素关联关系,建立地址元素相似度的过程。具体地,如图2所示,某一轮地址元素自学习具体过程如下:

1.2.1)加载全量医疗卫生机构信息数据raw_data,获取其中的地理信息的相关内容(例如经纬度相关信息),保存在a_map_infos表中;

1.2.2)加载训练好的深度神经网络模型,即深度地址要素抽取模型NN_Model,遍历raw_data,记raw_data的每条记录为raw_x,对每条记录利用模型NN_Model进行预测,seq_list=NN_Model(raw_x),解释地址元素实体,预测结果保存在e_set_infos表中;

1.2.3)把a_map_infos表与e_set_infos表根据主键关联起来,形成表e_table_infos;

1.2.4)遍历e_tables_infos表中的元素,形成遍历的时序列e_seq_x,元素记为elmnt;按e_seq_x时序列与地址元素图谱G_0进行自上而下进行匹配,如果完全匹配,从地址元素图谱G_0中取出元素记为std_elmnt,并转到步骤1.2.6),如果不完全匹配转向步骤1.2.5),否则结束;匹配过程中需要严格按照顺序,类型与文本均一致即为匹配成功。例如“北京路295号北京同仁堂”,这里的第一个“北京”是“路”类型,与地址元素图谱上的“北京”为“省”类型是匹配不上的。

1.2.5)获取不匹配的层号,并列出其所有孩子分支的经纬度,得到列表kg_map_als;获取e_seq_x对应地址的经纬度map_al,将map_al与kg_map_als中各个元素分别计算距离,取距离最小值mid_dist对应的元素记录为两元素三元组,关系是共现,记为(elmnt,std_elmnt,co_occur),其中两个经纬度的距离计算公式为:

其中,R表示地球半径,

1.2.6)以上层节点作为条件,对地址元素进行频率统计;

1.2.7)合并全库地址元素对,并计算地址元素与地址元素图谱中标准地址元素的相似度分布,具体公式为:

其中,freq(·)为频率统计操作。

1.2.8)把计算的相似度更新到地址元素图谱中,完成本轮学习。

(2)基于深度神经网络的地址要素抽取:

地址要素抽取主要包括标注数据的选择策略及深度地址要素抽取模型两大部分。

2.1)深度地址要素抽取模型的构建:

基于深度神经网络的地址要素抽取,本质上将每条记录文本当成序列进行处理。给定任一卫生医疗机构的信息文本,如:“天津市宁河区众康诊所”,其中包含常见的要素信息,“天津市”(市)、“宁河区”(区)、“众康”(特征词)、“诊所”(医疗机构)等。卫生医疗机构的信息文本中的常见实体共12个,实体类型与定义如表1所示:

表1

由于地址中的实体抽取往往存在上下文的依赖与约束关系,如“重庆市梁平区龙门镇龙凤街123号”中,“梁平区”(区)后面往往接“乡”的实体,而不会接“重庆市”的实体。常见的序列抽取模型,如RNN、LSTM、BERT等对各个位置的实体抽取有较好效果,但往往并没有考虑到前后实体类型之间的约束关系,因此本实施例方法采用BERT+CRF模型作为深度地址要素抽取模型。深度地址要素抽取模型的训练过程具体为:

2.1.1)对样本数据进行清洗。将样本数据转为brat格式,并清洗掉多余空格。将清洗之后的数据集按照7:2:1的比例划分为训练集、验证集与测试集。对每个实体类型按照BIOS标注方式生成4种标签形式,并以JSON格式保存。

2.1.2)将清洗后的训练集输入BERT+CRF模型进行训练,然后采用验证集进行调参,最后采用测试集对BERT+CRF模型进行评估。如图3所示,BERT+CRF模型架构包括输入层、嵌入层、编码层、CRF层及输出层。其中编码层由12个结构完全一致的编码块连接而成。BERT模型的基础参数为:学习率lr=2e

2.1.2.1)文本经过Token Embeddings、Segment Embeddings、以及PositionEmbeddings后表示成向量的形式,记为X

2.1.2.2)将3个向量X

X

记x表示X

其中,E(x)表示计算x的均值,Var(x)表示计算x的方差。ε为10

2.1.2.3)按照给定的丢弃率,随机用0替换归一化后所得向量中的部分值,其余值放大为

2.1.2.4)编码层由12个结构完全相同的Encoder构成。每个Encoder包括3个部分:多头注意力机制、残差连接及前馈神经网络。多头注意力机制由12个自注意力机制组成。每个自注意力机制得分可由下公式计算:

其中Q表示query矩阵,K表示key矩阵;d表示输入向量的维度。

对自注意力机制进行归一化处理。本实施例采用softmax激活函数,公式如下:

b=softmax(a(Q,K))V

V表示value矩阵。

2.1.2.5)将多个自注意力池化首尾相连,并进行线性变换,公式如下:

X

其中,m表示自注意力池化的id。

2.1.2.6)将X

X

2.1.2.7)将X

X′

其中,W

2.1.2.8)重复步骤2.1.2.4)-步骤2.1.2.7)k次,记编码层最终输出结果为X

2.1.2.9)令y=X

依次计算各个序列得分,找到能够满足损失函数最大的序列组合,即为模型的预测结果;序列得分计算公式如下:

其中n为序列的总长度,

进一步地,本实施例方法引入了深度神经网络对地址要素进行抽取,而在数据标注环节的传统流程中,一般会随机选择一部分数据进行标注来训练,这种方法虽然方便快捷,可是缺乏对数据特征的分析,随机性会出现大量重复的样本数据,因此,本实施例在数据标注中采用主动标注策略来完成,其中包括两大类策略,分别为冷启动选择策略与基于模型的主动选择策略。

所述冷启动选择策略主要采用无监督的聚类模型对数据进行聚类(例如划分聚类,层次聚类,密度聚类等),对每类数据随机选择最具典型的数据作为目标样本。记医疗卫生机构全量数据为N,没有任何的标注数据,从中选择M(M<<N)条样本进行标注。以采用k-means模型来进行对样本的选择为例,具体过程如下:

第一步、样本数据向量化:采用one-hot或语义嵌入(例如类BERT)对样本数据进行向量化,输出地址向量集v_sentence_set;

第二步、设置聚类参数k_num赋值为M,把地址向量集v_sentence_set输入到k-means模型中,直至迭代训练到结束。训练过程中,采用欧几里得距离:

其中,V、W表示两个地址向量,v

第三步、输出k_num个聚类中心C

第四步、对选择的M条样本进行手工标注。

基于模型的主动选择策略主要是采用已训练好的深度地址要素抽取模型对未标注的医疗卫生机构地址与名称进行预测,生成相应的伪标签,并对每个生成的伪标签进行评分,最后根据评分来确定是否需要进一步的标注与确定需要标注的未标注样本。具体过程如下:

第一步、加载未标注的医疗卫生机构信息数据及已训练的深度地址要素抽取模型;

第二步、利用深度地址要素抽取模型预测未标注的医疗卫生机构信息数据,为数据加上伪标注;

第三步、对每条医疗卫生机构信息数据,设置评分策略。具体地,本实施例根据置信度思想选择最低置信策略,对应公式为:

其中y

第四步、对LC(y

本实施例方法通过整合冷启动选择策略与基于模型的主动选择策略,得到数据标注的具体流程如下,如图4所示:

C1、加载医疗卫生数据;

C2、判断是否有已训练好的深度地址要素抽取模型,如果没有选择冷启动选择策略,否则选择主动选择策略;

C3、根据步骤C2所选择的策略对医疗卫生数据进行标注;

C4、利用标注后的医疗卫生数据进行深度地址要素抽取模型的训练及评估,评估深度地址要素抽取模型是否可行,如果可行则保存训练好的深度地址要素抽取模型,流程结束,否则转向步骤C2,重新进行数据的标注。

综上可见,本实施例提出的医疗卫生机构标准化方法,是以知识图谱G_0为基础,以深度神经网络NN作为核心工具,以主动策略选择标注样本,使用抽样高度平衡与节约标注成本,以医疗卫生机构信息数据库为核心,如图5所示,具体分为三个部分:

第一部分主要包括数据处理、选择和训练,具体过程为:

A1、医疗卫生机构信息数据的收集:收集开放的互联网医疗卫生机构信息数据及业务中出现的医疗卫生机构信息数据,保存到数据库或数据湖;

A2、数据处理:对全量数据进行清洗;

A3、冷启动选择策略:当没有已训练模型情况下,采取冷启动的样本选择策略进行数据标注,把未标注数据标注为可抽取的格式,例如“重庆市梁平区龙门镇龙凤街123号”的标注结果为“重庆市”为省、“梁平区”为区、“龙门镇”为镇、“龙凤街128号”为路;

A4、模型训练:基于标准好的样本数据,进行模型训练,得到训练好的深度地址要素抽取模型;

A5、主动选择样本:对未标注预测的数据,加载已训练的深度地址要素抽取模型进行评估,对新数据进行评分,选择下一批需要进行标注的样本数据。

第二部分主要是对模型的应用及知识图谱的更新,具体过程为:

B1、医疗卫生机构信息数据的预测:加载已训练的深度地址要素抽取模型,遍历全量医疗卫生机构信息数据,并利用深度地址要素抽取模型进行预测,保存标准化后的医疗卫生机构信息数据到已抽取数据集中;

B2、解释地址元素实体:把深度地址要素抽取模型对地址元素抽取的序列作进一步的清洗,得到地址元素实体集;

B3、基于地址元素图谱,对全量医疗卫生机构信息数据作规则化处理,保存到地址元素实体集中;

B4、处理地址信息:对全量医疗卫生机构信息数据进行地址信息的获取,例如经纬度、具体地址等相关内容,并保存到地址信息库中;

B5、计算地址元素实体的相似度,实现地址元素图谱的自学习功能。

第三部分主要是医疗卫生机构信息数据的标准化及编码,其中包含对全量的医疗卫生机构信息数据进行标准化并编码。基于最新的医疗卫生机构知识图谱的先验知识,从抽取数据集读取(已经过模型抽取并处理后的结果)实体数据,经过与先验知识图谱的匹配,来实现全库的数据标准化。

对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号