首页> 中国专利> 基于医学文本的医学知识图谱通用评测系统、方法和装置

基于医学文本的医学知识图谱通用评测系统、方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请公开了基于医学文本的医学知识图谱通用评测系统、方法和装置，本申请的系统包括：评测任务以及数据集配置与管理模块、知识图谱任务评测模块、评测指标监控与对比模块。本申请支持用户自定义裁剪测评方案，用户可通过配置测评方案的必选项和可选项、内容要求，定义通用部分的测评指标范围，如系统是否涵盖错误率要求等，以及选择特定知识领域，定义内容部分的性能，如特定疾病模块的准确率和召回率。评测系统针对用户的需求转化为结构化的测评标准细则，根据实际提交的结果，个性化的展示提交和评测记录。

著录项

公开/公告号CN115629975A

专利类型发明专利
公开/公告日2023-01-20

原文格式PDF
申请/专利权人广州市妇女儿童医疗中心;广东省人民医院;
展开▼

申请/专利号CN202211301342.8
发明设计人林晓兰;梁铭标;李晓君;钱鹏;梁会营;
展开▼

申请日2022-10-24
分类号G06F11/36(2006.01);
代理机构广州嘉权专利商标事务所有限公司 44205;
代理人黎扬鹏
地址 510120 广东省广州市人民中路318号
入库时间 2023-06-19 18:22:39

法律信息

法律状态公告日

法律状态信息

法律状态
2023-02-14

实质审查的生效 IPC(主分类):G06F11/36 专利申请号:2022113013428 申请日:20221024

实质审查的生效
2023-01-20

公开

发明专利申请公布

说明书

技术领域

本申请涉及医学文本知识图谱评测领域，尤其是基于医学文本的医学知识图谱通用评测系统、方法和装置。

背景技术

在自然语言处理领域，知识图谱评测作为评估、量化机器分析和处理人类语言能力的一种手段，往往也将评测成绩作为衡量科学技术研究水平、应用技术水平的一个重要依据。

目前医学文本知识图谱评测方式，其中包括以下两种：

(1)采用特征工程的方法构建机器学习评测算法，但这种方式通常需要专家进行标注工作，提取显示特征，人力成本较大同时人为主观性也较强。

(2)借助医学概念术语集构建算法模型进行评测，通过具有层次结构化性质的ICD(国际疾病分类表)和UMLS(统一医学语言系统)作为权威知识语料进行衡量训练，最后得到评测结果。

因此，亟需填补针对医学知识图谱标准评测任务和标准评测数据研究的空白，建立医学知识图谱的评测任务体系和相应评测数据集生成机制。研究测试数据集生成技术，满足不同产品测试数据集个性化定制需求，研发知识图谱评测体系和针对性的数据集配置规范，是开展多场景医学人工智能产品定制化检测的核心环节。

在如今医学人工智能产品检测服务，应按不确定需求定制的动态检测服务新模式下，多样化用户需求为针对性检测数据集配置带来了挑战。传统测试方式中，没有标准的相似度数据集，在专家标注过程中，往往会存在一定的主观性，同时仅计算词的相似度，用以结合下游任务结果进行评测的方法，存在系统性评测指标体系不足的问题。

而在现有技术的研究中，对知识图谱评测体系和针对性的评测数据集配置也存在不足。其中用以评测数据集的测试集的生成配置方式较为僵硬，难以满足性能通用测试、专用测试、对抗测试等不同检测的数据集配置需求。

因此，相关技术存在的上述技术问题亟待解决。

发明内容

本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供基于医学文本的医学知识图谱通用评测系统、方法和装置，能够对医学文本的医学知识图谱进行系统评测。

根据本申请实施例一方面，提供一种基于医学文本的医学知识图谱通用评测系统，所述系统包括：评测任务以及数据集配置与管理模块、知识图谱任务评测模块、评测指标监控与对比模块；

系统自行配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案；

当使用命名实体识别功能时，输入原始医学文本数据，得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标；

当使用实体链指功能时，输入原始诊断原词文本，得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标；

当使用问答评测功能时，输入原始查询词文本，得到系统针对其输入的数据，返回问句之间相关性评估匹配程度的相关度分数并显示该文本的评测指标。

在其中一个实施例中，所述评测任务以及数据集配置与管理模块包括面向电子病历和医学文献的命名实体识别任务和评测数据、面向医学短文本的实体链指任务和评测数据、健康咨询和疾病诊疗领域的问答评测。

在其中一个实施例中，所述面向电子病历和医学文献的命名实体识别任务和评测数据，包括：

当用户输入的原始文本，通过标注流程、评测数据生成、评测指标输出环节标记出文本中符合要求的医学实体信息并显示该文本的评测指标。

在其中一个实施例中，所述面向医学短文本的实体链指任务和评测数据，包括：

针对中文电子病历中挖掘出的真实诊断实体进行语义标准化；

当用户输入的原始诊断原词文本，即可输出文本中符合要求的医学标准词信息并显示该文本的评测指标。

在其中一个实施例中，所述健康咨询和疾病诊疗领域的问答评测，包括：

根据健康咨询和疾病诊疗领域问答中用户问句之间的相关性，评估匹配程度并输出相关度分数；

当用户输入的原始查询词文本，输出文本中查询词的相关度分数并显示该文本的评测指标。

在其中一个实施例中，所述相关度分数至少包括1、2、3分数档，不同的分数档对应不同的相关度分数。

在其中一个实施例中，所述评测任务以及数据集配置与管理模块通过医院真实临床数据，以指定的标注方式构建命名实体识别任务算法模型、实体链指任务算法模型、问答评测任务算法模型的训练数据；

所述知识图谱任务评测模块将所述训练数据输入模型中进行训练，得到面向电子病历和医学文献的命名实体识别任务和评测数据、面向医学短文本的实体链指任务和评测数据、健康咨询和疾病诊疗领域的问答评测任务。

根据本申请实施例一方面，提供基于医学文本的医学知识图谱通用评测方法，所述方法包括：

配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案；

当使用命名实体识别功能时，输入原始医学文本数据，得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标；

当使用实体链指功能时，输入原始诊断原词文本，得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标；

根据本申请实施例一方面，提供基于医学文本的医学知识图谱通用评测装置，所述装置包括：

第一模块，用于配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案；

第二模块，用于当使用命名实体识别功能时，输入原始医学文本数据，得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标；

第三模块，用于当使用实体链指功能时，输入原始诊断原词文本，得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标；

第四模块，用于当使用问答评测功能时，输入原始查询词文本，得到系统针对其输入的数据，返回问句之间相关性评估匹配程度的相关度分数并显示该文本的评测指标。

根据本申请实施例一方面，提供基于医学文本的医学知识图谱通用评测装置，所述装置包括：

至少一个处理器；

至少一个存储器，所述存储器用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的基于医学文本的医学知识图谱通用评测系统。

本申请实施例提供的基于医学文本的医学知识图谱通用评测系统、方法和装置的有益效果为：本申请的系统包括：评测任务以及数据集配置与管理模块、知识图谱任务评测模块、评测指标监控与对比模块。本申请支持用户自定义裁剪测评方案，用户可通过配置测评方案的必选项和可选项、内容要求，定义通用部分的测评指标范围，如系统是否涵盖错误率要求等，以及选择特定知识领域，定义内容部分的性能，如特定疾病模块的准确率和召回率。评测系统针对用户的需求转化为结构化的测评标准细则，根据实际提交的结果，个性化的展示提交和评测记录。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于医学文本的医学知识图谱通用评测系统的系统示意图；

图2为本申请实施例提供的一种基于医学文本的医学知识图谱通用评测系统的系统架构图；

图3为本申请实施例提供的一种基于医学文本的医学知识图谱通用评测系统的流程图；

图4为本申请实施例提供的一种基于医学文本的医学知识图谱通用评测装置的示意图；

图5为本申请实施例提供的一种基于医学文本的医学知识图谱通用评测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

目前医学文本知识图谱评测方式，其中包括以下两种：

(1)采用特征工程的方法构建机器学习评测算法，但这种方式通常需要专家进行标注工作，提取显示特征，人力成本较大同时人为主观性也较强。

为了解决上述问题，本申请提出了基于医学文本的医学知识图谱通用评测系统、方法和装置。本申请的系统功能主要包括：评测任务以及数据集配置与管理、知识图谱任务评测、评测指标监控与对比。其中评测系统评测任务涵盖范围包括：命名实体识别、实体链指、问答评测三大任务。评测系统支持用户自定义数据集配置、管理以及评测项目。根据不同测评标准及测评方的需求，灵活配置必选和可选的评测内容。测评用户可通过评测系统实现数据管理、测评管理、测评报告管理和测评过程可视化检测。

如图1和图2所示，本申请的基于医学文本的医学知识图谱通用评测系统包括：评测任务以及数据集配置与管理模块、知识图谱任务评测模块、评测指标监控与对比模块；系统自行配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案。

本申请系统的工作过程为：当使用命名实体识别功能时，输入原始医学文本数据，得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标；当使用实体链指功能时，输入原始诊断原词文本，得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标；当使用问答评测功能时，输入原始查询词文本，得到系统针对其输入的数据，返回问句之间相关性评估匹配程度的相关度分数并显示该文本的评测指标。

此外，本申请还包括登录和注册模块，用于用户的登录和注册以及身份信息的验证。

系统包括以下功能内容：

(1)用户注册登录评测系统，选择用户自身所需评测的评测任务，对评测任务进行配置，上传需评测数据集。

(2)通过系统自行配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案。

(3)当用户使用命名实体识别功能，输入原始医学文本数据，即可得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标。

(4)当用户使用实体链指功能，输入原始诊断原词文本，即可得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标。

(5)当用户使用问答评测功能，输入原始查询词文本，即可得到系统针对其输入的数据，返回问句(即查询词)之间相关性评估匹配程度的相关度分数并显示该文本的评测指标。

可选的，所述评测任务以及数据集配置与管理模块包括面向电子病历和医学文献的命名实体识别任务和评测数据、面向医学短文本的实体链指任务和评测数据、健康咨询和疾病诊疗领域的问答评测。

如图3所示，评测系统评测任务配置模块实施流程：

(1)面向电子病历和医学文献的命名实体识别任务和评测数据

当用户输入的原始文本，通过标注流程、评测数据生成、评测指标输出环节标记出文本中符合要求的医学实体信息并显示该文本的评测指标。

(2)面向医学短文本的实体链指任务和评测数据

针对中文电子病历中挖掘出的真实诊断实体进行语义标准化；当用户输入的原始诊断原词文本，即可输出文本中符合要求的医学标准词信息并显示该文本的评测指标。

(3)健康咨询和疾病诊疗领域的问答评测

根据健康咨询和疾病诊疗领域问答中用户问句之间的相关性，评估匹配程度并输出相关度分数；当用户输入的原始查询词文本，输出文本中查询词的相关度分数并显示该文本的评测指标。其中，所述相关度分数至少包括1、2、3分数档，不同的分数档对应不同的相关度分数。

可选的，所述评测任务以及数据集配置与管理模块通过医院真实临床数据，以指定的标注方式构建命名实体识别任务算法模型、实体链指任务算法模型、问答评测任务算法模型的训练数据；所述知识图谱任务评测模块将所述训练数据输入模型中进行训练，得到面向电子病历和医学文献的命名实体识别任务和评测数据、面向医学短文本的实体链指任务和评测数据、健康咨询和疾病诊疗领域的问答评测任务。

本申请系统评测任务配置，通过医院真实的临床数据，以指定的标注方式构建命名实体识别任务算法模型、实体链指任务算法模型、问答评测任务算法模型的训练数据。

之后将数据分别投入模型之中进行训练完成得到面向电子病历和医学文献的命名实体识别任务和评测数据、面向医学短文本的实体链指任务和评测数据、健康咨询和疾病诊疗领域的问答评测任务。

评测系统以可视化的人机交互界面，支持用户自定义裁剪测评方案。用户可通过配置测评方案的必选项和可选项、内容要求，定义通用部分的测评指标范围，如系统是否涵盖错误率要求等，以及选择特定知识领域，定义内容部分的性能，如特定疾病模块的准确率和召回率。评测系统针对用户的需求转化为结构化的测评标准细则，根据实际提交的结果，个性化的展示提交和评测记录。

相较于传统的仅针对单一任务计算评测指标的评测方式，本申请可面向测评方用户的不确定、多样化的需求来定制与配置评测数据集，实现了评测相关信息的统一规范化描述，建立医学知识图谱的评测任务体系和相应评测数据集生成机制。

本申请的评测系统通过知识图谱评测数据配置模块，数据集配置中台支持对测评数据的精准调度、复杂配置流程的解耦和自定义集成等核心能力。实现以用户自定义检测需求为导向配置测试数据集，提高评测任务的高效性、指导性，适用于多场景医学人工智能产品定制化、精准化、集约化检测。本申请建立了规范性的医学知识图谱评测任务体系、标注流程和相应评测数据集生成机制；提供了便捷型的线上测试数据集配置、管理与可视化交互功能；针对命名实体识别任务、实体链指任务、问答评测任务，建立医学知识图谱三位一体的标准测评任务体系，面对多样化需求的评测方用户，提供的自定义式评测流程、评测指标结果以及评测对比功能。

此外，本申请还提出了基于医学文本的医学知识图谱通用评测方法，所述方法包括：

配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案；

当使用命名实体识别功能时，输入原始医学文本数据，得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标；

当使用实体链指功能时，输入原始诊断原词文本，得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标；

此外，本申请还提出了基于医学文本的医学知识图谱通用评测装置，所述装置包括：

第一模块401，用于配置评测任务，选择预置或者自定义的数据格式来定义评测任务的数据格式，选择预置或者自定义的评分方案来定义评分的计算方案；

第二模块402，用于当使用命名实体识别功能时，输入原始医学文本数据，得到系统针对其输入的数据，返回已命名实体识别完成的数据和文本评测指标；

第三模块403，用于当使用实体链指功能时，输入原始诊断原词文本，得到系统针对其输入的数据，返回已实体链指完成的医学标准词信息数据并显示该文本的评测指标；

第四模块404，用于当使用问答评测功能时，输入原始查询词文本，得到系统针对其输入的数据，返回问句之间相关性评估匹配程度的相关度分数并显示该文本的评测指标。

此外，本申请还提出了基于医学文本的医学知识图谱通用评测装置，所述装置包括：

至少一个处理器501；

至少一个存储器502，所述存储器502用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器501执行时实现如前面实施例所述的基于医学文本的医学知识图谱通用评测系统。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 医学知识图谱构建方法、装置、服务器及存储介质 [P] . 中国专利：
2. 自然语言文本与医学知识图谱的实体链指方法及系统 [P] . 中国专利： CN113821597A . 2021-12-21
3. 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 [P] . 中国专利： CN113191156A . 2021-07-30
4. APPARATUS AND METHOD FOR ANALYZING NATURAL LANGUAGE MEDICAL TEXT AND GENERATING MEDICAL KNOWLEDGE GRAPH REPRESENTING NATURAL LANGUAGE MEDICAL TEXT [P] . 欧洲知识产权局专利： EP3449396A1 . 2019-03-06

机译：用于分析自然语言医学文本并生成代表自然语言医学文本的医学知识图的装置和方法
5. APPARATUS AND METHOD FOR ANALYZING NATURAL LANGUAGE MEDICAL TEXT AND GENERATING A MEDICAL KNOWLEDGE GRAPH REPRESENTING THE NATURAL LANGUAGE MEDICAL TEXT [P] . 美国专利： US2018108443A1 . 2018-04-19

机译：用于分析自然语言医学文本并生成代表自然语言医学文本的医学知识图的装置和方法
6. APPARATUS AND METHOD FOR ANALYZING NATURAL LANGUAGE MEDICAL TEXT AND GENERATING MEDICAL KNOWLEDGE GRAPH REPRESENTING NATURAL LANGUAGE MEDICAL TEXT [P] . IN201717038509A . 2018-01-05

机译：用于分析自然语言医学文本并生成代表自然语言医学文本的医学知识图的装置和方法