首页> 中国专利> 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法

一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法

摘要

本发明提供了一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法,该系统包括医学文本预处理模块、候选标准项目召回模块以及语义相似度评估模块;在医学文本预处理模块中,对医学中文文本进行预处理步骤;候选标准项目召回模块中,通过待标准化文本与标准项目之间的文本特征进行评估,召回匹配度最高的n个标准项目;语义相似度评估模块中,利用预训练深度学习模型对已召回的候选标准项目和待标准化项目依次进行语义相似度计算;知识图谱模块是系统的外部数据源,为文本预处理和语义匹配提供实体信息。本发明通过标准化处理,将不同医疗机构来源的医学检查项目名称能够映射到统一的标准检查项目中,为后续的信息处理提供支持。

著录项

  • 公开/公告号CN113191156A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 浙江禾连网络科技有限公司;

    申请/专利号CN202110475162.0

  • 申请日2021-04-29

  • 分类号G06F40/30(20200101);G06F16/2455(20190101);G06F16/2457(20190101);G06F16/35(20190101);G06F40/205(20200101);G06K9/62(20060101);G16H10/60(20180101);

  • 代理机构33357 杭州天启智汇专利代理事务所(普通合伙);

  • 代理人姜智慧

  • 地址 310000 浙江省杭州市西湖区文一西路与崇义路交叉口郡原公元里7幢6楼

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及自然语言处理领域和机器学习应用领域,尤其是一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法。

背景技术

随着社会的发展与全民健康意识的提高,越来越多的医疗数据需要进行统一处理,尤其是大量的医学文本数据,例如电子病历文本,体检报告文本以及影像学检查报告文本。然而由于医疗行业的发展状况与医学知识的复杂性,不同的医疗机构对于医学术语的应用规范是十分不同的,有时同一个含义的医学实体可能有十余种甚至几十种的不同表述,这也就给医学文本的处理带来了极大的不便,如果能够利用自然语言处理技术,提取文本之中的隐含语义,将不同的实体表述映射到同一个标准项目上来,无疑会为医学文本的后续处理和计算奠定基础。医院中,最重要的医学实体就包含检查项目这个类型,不同医院或者医疗机构中的检查项目大致都在同一个范围内,但表述各不相同,通过医学项目标准化,能够对这些文本名称进行标准化,从而为后续的数据处理统计和指标异常识别提供极大的便利。

为了解决上述问题,本领域工作人员对医学检查项目进行了不同的研究:

中国专利申请202011415694.7公开了一种用于医学知识图谱的处理方法,涉及人工智能领域,可用于知识图谱、深度学习、自然语言处理等领域。具体实现方案为:从医学文本中提取医学实体;利用通过迁移学习得到的医学实体模型对医学实体进行识别,得到对应的识别结果;以及响应于识别结果表征医学实体为既有标准实体的别名,在医学知识图谱中增加医学实体并针对医学实体增加对应的别名属性信息。但该发明专利是知识图谱构建阶段的方法,主要目的是进行知识图谱中实体的扩充和属性的更新,其主要的任务是命名实体识别和实体连接,在实体连接阶段的召回阶段也较为粗糙,仅使用编辑距离作为判断依据,指标项本身的名称和父类名称所包含的信息较少,容易引起匹配的误判和遗漏。

中国专利申请201910520186.6公开了一种基于预训练模型和微调技术的医疗文本命名实体识别方法,本发明首先利用大规模非结构化的电子病历等医疗文本对BERT预训练模型进行预训练,以训练出包含文本中语义表示信息的预训练模型。利用堆叠扩张卷积神经网络对所产生的预训练模型进行微调,以获得能够进行医疗领域命名实体自动识别的深度神经网络模型。本发明提供的预训练模型能够更为准确的捕获文本中的语义信息,能够更有效的迁移到特定的任务中,提高模型进行命名实体识别的准确性;本发明将堆叠扩张卷积神经网络与预训练模型结合以对模型进行微调,最终进行医疗文本命名实体的识别,不仅能够很好的捕获文本中的语义信息,而且能够进行并行计算,以提高模型训练速度。但该发明专利的任务为命名实体识别,主要目的是在一段文本中识别命名实体出现的位置,S1~S4为自然语言处理模型的常见步骤,预处理利用传统的方法对文本进行分词和停用词过滤,并未起到很好的效果。

因此有必要对一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法重新进行发明创造,以解决上述的各种不端。

发明内容

本申请的目的:在于解决和克服现有技术和应用的不足,提供一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法,通过标准化处理,不同医疗机构来源的医学检查项目名称能够映射到统一的标准检查项目中来,为后续的信息处理提供支持。

本申请的目的是通过如下技术方案来完成的,一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统,包括:医学文本预处理模块、候选标准项目召回模块以及语义相似度评估模块;

所述医学文本预处理模块:对医学中文本进行预处理步骤,预处理模块的处理步骤能够根据处理文本的范围、数量和类型进行配置;

所述候选标准项目召回模块:通过待标准化文本与标准项目之间的文本特征进行评估,召回匹配度最高的n个标准项目,快速缩小标准化的筛选范围,从粗粒度上来对标准项目与待标准化之间的差异性进行评估;

所述语义相似度评估模块:利用预训练深度学习模型对已召回的候选标准项目和待标准化项目依次进行语义相似度计算,如果语义相似度最高的标准项目超过了预设阈值,则输出为标准化结果,如果没有超过预设阈值,则输出为无匹配项。

优选地,在所述深度学习模型的训练中,除了医学文本本身的信息还可以利用已构建好的知识图谱属性来丰富标准项目的医学信息。

一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统,还包括,在服务器上分别部署三个模块的网络服务,三个模块分别为三个独立的web应用程序,它们之间的信息沟通和数据传递通过RestfulAPI进行处理。

一种基于医学知识图谱与预训练模型的医学检查项目标准化的方法,其特征在于,包括:

步骤一:检查项目一般包括父类名称、检查项目名称及其他属性信息三个部分,通过医学文本预处理模块对两个名称进行预处理,其中利用正则表达式和其他一些文本处理规则对文本进行简单的整理,删除噪音数据和无关的业务信息,以便进行后续的标准化计算更加准确和快速;

步骤二:利用信息检索手段,对海量标准化项目进行排序,排序的标准和指标可以根据具体的业务需求进行配置,一般为粗粒度的文本匹配指标,不进行计算密集型的操作,选取召回结果的前n位为语义识别的候选队列;

步骤三:对文本与候选队列中的标准检查项目进行语义相似度评估,标准检查项目通过知识图谱模块的检索,包含了相关实体的所有信息,能够全面综合地进行语义信息的比较;

步骤四:取队列中语义相似度评分最高的标准检查项目为最终匹配结果,如果最终匹配结果的评分过低,则不具备参考性。

优选地,所述知识图谱模块是系统的外部数据源,为文本预处理和语义匹配提供实体信息,知识图谱的原始数据源可以来自于结构化的数据库或者人工撰写的数据文档。

优选地,对待所述标准化项和候选标准检查项依次进行语义匹配,每一组语义匹配的结果为一个0到1之间的浮点数值,数字越大代表两组标准项之间的语义关联性越大,反之则越小。

优选地,所述知识图谱模块包含一张存储所有标准检查项信息的知识图谱网络,其他模块通过特定的SPARQL查询语句来进行推理查询,其他模块和知识图谱模块利用RestfulAPI来进行交互知识图谱模块是系统的外部数据源,为文本预处理和语义匹配提供实体信息。

本申请与现有技术相比,至少具有以下明显优点和效果:

1、在本发明中:通过知识图谱与深度学习自然语言处理技术的结合,将不同医疗机构中使用不同表述的医学检查项目映射到统一的标准项目,为后续的信息处理提供支持。

2、在本发明中:基于实际业务数据,提出了完整的预处理流程,以及更为完善的召回策略,更加契合实际应用场景,根据知识图谱中的属性信息,能够给予模型更多的医疗知识进行决策,例如知识图谱中的单位和简介能够对化验手段、检验物、检测部位进行更为细致的描述,提高匹配的准确性。

3、在本发明中:对深度学习预训练模型进行训练和精调,利用已有的包含标注标签的数据集,对当前的语义识别任务进行训练,优化预训练模型的语义匹配能力,提高模型的准确性和泛化性,保证在这一个任务上,模型具有较高的实用性。

4、本发明中的任务为文本匹配,主要目的是判断两个文本片段的语义是否相同,基于指标项的类别和文本模式,对文本进行基于医疗知识的特殊预处理,使用基于Transformer模型的大型预训练模型,根据文本匹配的标注数据进行微调训练,参数规模更大,表达效果更好,预测结果更加合理。

附图说明

图1是本申请的系统的整体架构图。

图2是本申请中系统医学文本预处理模块的整体架构图。

图3是本申请中系统预训练深度学习模型的匹配方式的框架图。

附图标记:

1项目检查信息、2医学文本预处理模块、21待文本处理、22文本清洗、23检查项纠错、24影像学检查部位匹配、25缩略词扩写、26特殊规则、27术语替换、28流程配置文件、29处理完成文本、3知识图谱、4候选标准项召回模块、5深度学习语义匹配模块、6标准检查项、7预训练模型、71待标准化项目信息、72标准项目信息、73组合输入文本信息、74预训练深度学习模型、75文本表征向量、76多层感知机分类器、77语义相似度。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1至图3示出,本申请的医学检查项目的系统与方法的一种具体实施例。

本发明提供了一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法,该系统包括医学文本预处理模块2、候选标准项目召回模块以及语义相似度77评估模块;检查项目一般包括父类名称、检查项目名称及其他属性信息三个部分,通过医学文本预处理模块2对两个名称进行预处理,其中利用正则表达式和其他一些文本处理规则对文本进行简单的整理,删除噪音数据和无关的业务信息,以便进行后续的标准化计算更加准确和快速;利用信息检索手段,对海量标准化项目进行排序,排序的标准和指标可以根据具体的业务需求进行配置,一般为粗粒度的文本匹配指标,不进行计算密集型的操作,选取召回结果的前n位为语义识别的候选队列;对文本与候选队列中的标准检查项6目进行语义相似度77评估,标准检查项6目通过知识图谱3模块的检索,包含了相关实体的所有信息,能够全面综合地进行语义信息的比较;取队列中语义相似度77评分最高的标准检查项6目为最终匹配结果,如果最终匹配结果的评分过低,则不具备参考性。本发明通过标准化处理,将不同医疗机构来源的医学检查项目名称能够映射到统一的标准检查项6目中来,为后续的信息处理提供支持。

如图1至图3所示,在本申请实施例中,

首先在服务器上启动医学知识图谱3模块,知识图谱3模块包含了一张存储所有标准项目检查信息1的知识图谱3网络,每个标准项目检查信息1实体包含检查项名称、父类名称、单位、指标范围、简介等相关属性,例如指标“促甲状腺激素”,父类名称为“激素检测”,单位为“mIU/L”,指标范围为“0.2~7”,简介为“促甲状腺激素是促进甲状腺激素合成与释放的一种激素,如果下丘脑和垂体前叶功能正常,其浓度反映了组织中甲状腺激素的状态”。其他模块通过特定的SPARQL查询语句来进行推理查询,其他模块和知识图谱3模块利用RestfulAPI来进行交互。知识图谱3模块是系统的外部数据源,为文本预处理和语义匹配提供实体信息。知识图谱3的原始数据源可以来自于结构化的数据库或者人工撰写的数据文档。

第二步,对深度学习预训练模型7进行训练和精调,利用已有的包含标注标签的数据集,对当前的语义识别任务进行训练,优化预训练模型7的语义匹配能力,提高模型的准确性和泛化性,保证在这一个任务上,模型具有较高的实用性。匹配的输入为由待标准化项目信息71和标准项目信息72组成的文本,其结构为“指标名称指标父类名称标准指标名称标准指标父类名称标准指标知识图谱3属性信息”这一步骤一般在具有GPU并行计算能力的计算机上进行完成。

第三步,在服务器上分别部署三个模块的网络服务,三个模块分别为三个独立的web应用程序,它们之间的信息沟通和数据传递通过RestfulAPI进行处理。医学文本预处理模块2的输入为原始的用户指标项信息,经过若干个独立的预处理步骤,将输入信息的噪声信息过滤,输出处理后的医学文本,例如“垂体催乳素(PRL),性激素六项(外送)”这个指标中的“外送”就会被过滤掉。处理后的医学文本及其他属性信息又被当作输入信息,传递给候选标准项召回模块4,此模块输出一个候选标准项列表,列表中一般只包含标准项的ID信息,列表的长度由用户配置参数决定。一般地,随着长度的增长,语义匹配的准确度会有一定幅度的提升,当达到某个峰值时,准确度不在提升,反而会影响语义匹配的响应速度。具体的用户配置参数需要进行多次业务实际数据实验来进行决定。候选列表输入到深度学习语义匹配模块5中进行语义匹配,为了提高深度学习预训练模型7的计算速度,该模块一般部署在拥有GPU并行计算能力的平台上。对待标准化项和候选标准检查项6依次进行语义匹配,每一组语义匹配的结果为一个0到1之间的浮点数值,数字越大代表两组标准项之间的语义关联性越大,反之则越小。取候选标准检查项6列表中语义匹配数值最高的项目作为最终输出的结果。特别地,如果最终输出的结果的语义匹配程度低于某个可接受程度,代表可能这个检查项不存在于标准检查项6目录中,知识图谱3不包含对应的实体,这时需要输出空值,表明未匹配到任何结果。

具体地需说明是,如图2所示,在本申请实施例中,

待文本清洗21:包括父类名称、检查项目名称及其他属性信息三个部分

文本清洗22:利用正则表达式和其他一些文本处理规则对文本进行简单的整理。

流程配置文件28:检查项纠错23、影像学检查部位匹配24、缩略词扩写25、特殊规则26、术语替换27,删除噪音数据和无关的业务信息,最后处理完成文本29。

需要说明的是,如图2所示,在本申请实施例中,

利用已有的包含标注标签的数据集,对当前的语义识别任务进行训练,优化预训练模型7的语义匹配能力,提高模型的准确性和泛化性,保证在这一个任务上,模型具有较高的实用性。匹配的输入为由待标准化项目信息71和标准项目信息72组成的文本,组合输入文本信息73其结构为“指标名称指标父类名称标准指标名称标准指标父类名称标准指标知识图谱3属性信息”这一步骤一般在具有GPU并行计算能力的计算机上进行完成。

在服务器上分别部署三个模块的网络服务,三个模块分别为三个独立的web应用程序,它们之间的信息沟通和数据传递通过RestfulAPI进行处理。预训练深度学习模型74:每一组语义匹配的结果为一个0到1之间的浮点数值,数字越大代表两组标准项之间的语义关联性越大,反之则越小

文本表征向量75:利用文本表征向量75对文本进行处理。

多层感知机分类器76:利用多层感知机分类器76进行分类。

语义相似度77:如果最终输出的结果的语义匹配程度低于某个可接受程度,代表可能这个检查项不存在于标准检查项6目录中,知识图谱3不包含对应的实体,这时需要输出空值,表明未匹配到任何结果。

由于本领域技术人员能够很容易想到,利用申请的构思和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号