首页> 中国专利> 使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊

使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊

摘要

本文公开了用于执行对疾病和病症的医疗诊断的基于人工智能(AI)的方法的方法和系统。自动化自然语言处理(NLP)系统执行深度学习技术以从电子健康记录(EHR)提取临床相关信息。这个框架提供了高诊断准确度,其展示用于全身性疾病诊断和管理的成功的基于AI的方法。

著录项

  • 公开/公告号CN113015977A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利号CN201980057172.3

  • 发明设计人 张康;李志焕;郑良宏;

    申请日2019-06-28

  • 分类号G06F40/279(20200101);G06F40/216(20200101);G06K9/62(20060101);G16H50/70(20180101);

  • 代理机构11262 北京安信方达知识产权代理有限公司;

  • 代理人俞立文;杨明钊

  • 地址 开曼群岛大开曼岛

  • 入库时间 2023-06-19 11:32:36

说明书

交叉引用

本申请要求2018年6月29日提交的第62/692,572号美国临时申请、2018年10月23日提交的第62/749,612号美国临时申请和2018年12月21日提交的第62/783,962号美国临时申请的利益,其中每个申请通过引用被全部并入本文。

本公开的背景

医疗信息随着时间的推移变得越来越复杂。疾病实体、诊断测试和生物标志物以及治疗方法的范围近年来呈指数级增加。随后,临床决策也变得更复杂,且需要综合大量数据点。

本公开的概述

在当前的数字时代中,电子健康记录(EHR)表示电子数据点的大规模存储库,该电子数据点表示各种各样的临床信息。本文公开了人工智能(AI)方法,其提供了挖掘和利用EHR数据以用于疾病诊断和管理的强大工具,其可以模拟和/或增强人类医生的临床决策。

为了为任何特定的患者制定诊断,医生经常使用假设演绎推理。以主诉开始,医生然后适当地询问与该主诉相关的有针对性的问题。从这个初始的小特征集起,医生形成鉴别诊断,并决定接下来获得什么特征(历史问题、体检发现、实验室测试和/或影像学检查)以决定或排除鉴别诊断集中的诊断。最有帮助的特征被识别,使得当诊断之一的概率达到预定可接受性水平时,过程停止,并且诊断被接受。也许可能仅用几个特征达到诊断的可接受的确定性水平而不必处理整个特征集。因此,医生可以被认为是种分类器。

本文描述了一种基于AI的系统,其使用机器学习来从EHR笔记提取临床相关特征以模仿人类医生的临床推理。在医学中,机器学习方法通常被限制到基于影像学的诊断,但是EHR数据的分析提出了许多艰难的挑战。这些挑战包括海量数据、非结构化文本的使用、语言处理的复杂性、高维度、数据稀疏性、不规则性(噪声)的程度以及在医疗数据中的偏差或系统性错误。此外,相同的临床表型可以被表达为多个不同的代码和术语。这些挑战使得使用机器学习方法来执行准确的模式识别和生成预测性临床模型变得困难。常规方法通常需要专家知识并且是劳动密集型的,这使规模化和一般化变得困难,或者是稀疏的、嘈杂的和重复的。本文描述的机器学习方法可以克服这些限制。

本文描述了利用用于EHR数据的数据挖掘框架的系统和方法,该数据挖掘框架整合先前的医疗知识和数据驱动的建模。在一些实施例中,开发并利用基于深度学习的自动化语言处理系统来提取临床相关信息。在一些实施例中,基于所提取的临床特征来建立诊断系统。在一些实施例中,该框架被应用于疾病(例如儿科疾病)的诊断。这种方法在大的儿科群体中被测试,以研究基于AI的方法跨越大量患者记录以及此外跨越各种条件的使自然语言处理方法自动化的能力。

本公开解决了基于EHR使对疾病的分析和诊断自动化的各种技术问题。本文描述的系统和方法通过使用信息模型提取语义数据、使用基于深度学习的语言处理而识别临床相关特征以及利用特征以成功地将疾病分类或诊断疾病来解决本文讨论的技术挑战。

对使用本文所述的电子健康记录来有效地实现基于计算机的算法疾病诊断的技术问题的技术解决方案开辟了机器学习技术的先前未实现的潜力以彻底改革基于EHR的分析和诊断。

本文公开了一种用于提供医疗诊断的方法,该方法包括:获得医疗数据;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类,该分类具有至少80%的灵敏度。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类(assertion class)的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式(schema),每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该方法包括将医疗数据标记化以供NLP信息提取模型处理。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,该方法还包括基于该分类来做出医学治疗建议。

本文公开了包括机器可执行代码的非暂时性计算机可读介质,机器可执行代码在由一个或更多个计算机处理器执行时实现用于提供对疾病或病症的分类的方法,该方法包括:获得医疗数据;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类,该分类具有至少80%的灵敏度。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该方法包括将医疗数据标记化以供NLP信息提取模型处理。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,该方法还包括基于该分类来做出医学治疗建议。

本文公开了一种计算机实现的系统,其包括:数字处理设备,该数字处理设备包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于提供医疗诊断的应用的指令的计算机程序,该应用包括:获得医疗数据的软件模块;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征的软件模块;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类的软件模块,该分类具有至少80%的灵敏度。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该系统还包括将医疗数据标记化以供NLP信息提取模型处理的软件模块。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,还包括基于该分类来做出医学治疗建议。

在另一方面中,本文公开了一种用于生成用于提供医疗诊断的疾病预测分类器的计算机实现的方法,该方法包括:a)提供基于医疗文本构建的词典,其中该词典包括与临床信息相关的关键词;b)获得包括电子健康记录(EHR)的医疗数据;c)使用NLP信息提取模型从医疗数据提取临床特征;d)将临床特征映射到假设的临床查询以生成问题-回答对;以及e)使用问题-回答对来训练NLP分类器,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该方法包括将医疗数据标记化以供NLP信息提取模型处理。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,该方法还包括基于该分类来做出医学治疗建议。

在另一方面中,本文公开了一种包括机器可执行代码的非暂时性计算机可读介质,机器可执行代码在由一个或更多个计算机处理器执行时实现用于生成用于提供对疾病或病症的分类的自然语言处理(NLP)分类器的方法,该方法包括:a)提供基于医疗文本构建的词典,其中该词典包括与临床信息相关的关键词;b)获得包括电子健康记录(EHR)的医疗数据;c)使用NLP信息提取模型从医疗数据提取临床特征;d)将临床特征映射到假设的临床查询以生成问题-回答对;以及e)使用问题-回答对来训练NLP分类器,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该方法包括将医疗数据标记化以供NLP信息提取模型处理。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,该方法还包括基于该分类来做出医学治疗建议。

在另一方面中,本文公开了一种计算机实现的系统,其包括:数字处理设备,该数字处理设备包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于生成用于提供医疗诊断的疾病预测分类器的应用的指令的计算机程序,该应用包括:a)用于提供基于医疗文本构建的词典的软件模块,其中该词典包括与临床信息相关的关键词;b)用于获得包括电子健康记录(EHR)的医疗数据的软件模块;c)用于使用NLP信息提取模型从医疗数据提取临床特征的软件模块;d)用于将临床特征映射到假设的临床查询以生成问题-回答对的软件模块;以及e)用于使用问题-回答对来训练NLP分类器的软件模块,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该方法包括将医疗数据标记化以供NLP信息提取模型处理。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,该方法还包括基于该分类来做出医学治疗建议。

在另一方面中,本文公开了一种数字处理设备,其包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于生成用于提供医疗诊断的疾病预测分类器的应用的指令的计算机程序,该应用包括:a)用于提供基于医疗文本构建的词典的软件模块,其中该词典包括与临床信息相关的关键词;b)用于获得包括电子健康记录(EHR)的医疗数据的软件模块;c)用于使用NLP信息提取模型从医疗数据提取临床特征的软件模块;d)用于将临床特征映射到假设的临床查询以生成问题-回答对的软件模块;以及e)用于使用问题-回答对来训练NLP分类器的软件模块,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。在一些实施例中,NLP信息提取模型包括深度学习程序。在一些实施例中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。在一些实施例中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。在一些实施例中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。在一些实施例中,该方法包括将医疗数据标记化以供NLP信息提取模型处理。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,该分类具有至少80%的特异性。在一些实施例中,该分类具有至少80%的F1分数。在一些实施例中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。在一些实施例中,疾病预测分类器包括逻辑回归分类器。在一些实施例中,疾病预测分类器包括决策树。在一些实施例中,该分类在严重状况和非严重状况之间进行区分。在一些实施例中,该分类包括至少两个类目级别。在一些实施例中,该分类包括指示器官系统的第一级类目。在一些实施例中,该分类包括指示器官系统的子类目的第二级。在一些实施例中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。在一些实施例中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。在一些实施例中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。在一些实施例中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。在一些实施例中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。在一些实施例中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,该方法还包括基于该分类来做出医学治疗建议。

通过引用并入

本说明书中提及的所有出版物、专利和专利申请通过引用并入本文,其程度如同每一个单独的出版物、专利或专利申请被具体地和单独地指明通过引用并入的相同程度。

附图简述

本专利或申请文件包含以彩色展示的至少一幅图。具有彩色附图的本专利或专利申请公布的副本在请求并支付必要的费用后将由专利局提供。

通过参考阐述其中利用了本发明的原理的例证性实施例的下面的详细描述和附图将获得对本发明的特征和优点的更好理解,以及在附图中:

图1示出了儿科疾病的无监督聚类的结果。

图2示出了用于数据提取、分析和诊断的工作流程图的示例。

图3示出了用于大的儿科群组的诊断框架的层级的示例。

图4示出了说明从输入EHR句子片段提取相关信息以使用LSTM模型来生成问题-回答查询-回答对的流程图。

图5示出了描绘基于混合自然语言处理和机器学习AI的系统的实施例的工作流程图。

图6A-6D示出了针对GMU1成人数据和GWCMC1儿科数据的诊断效率和模型性能。图6A示出了显示跨越成人群体的诊断效率的卷积表。图6B示出了跨越成人群体的模型性能的ROC-AUC曲线。图6C示出了显示跨越儿科群体的诊断效率的卷积表。图6D示出了跨越儿科群体的模型性能的ROC-AUC曲线。

图7A-7D示出了针对GMU2成人数据和GWCMC2儿科数据的诊断效率和模型性能。图7A示出了显示跨越成人群体的诊断效率的卷积表。图7B示出了跨越成人群体的模型性能的ROC-AUC曲线。图7C示出了显示跨越儿科群体的诊断效率的卷积表。图7D示出了跨越儿科群体的模型性能的ROC-AUC曲线。

图8A-8F示出了在儿科呼吸道疾病中的分级诊断方法(右)与端到端方法(左)的比较。图8A-8C示出了端到端方法。图8A描绘了显示在儿科患者中的上呼吸系统和下呼吸系统之间的诊断效率的混淆表。图8B描绘了显示在前四种上呼吸道疾病中的诊断效率的混淆表。图8C示出了显示在前六种下呼吸道疾病中的诊断效率的混淆表。图8D-8F示出了分级诊断方法。图8D描绘了显示在儿科患者中的上呼吸系统和下呼吸系统的诊断效率的混淆表。图8E描绘了显示在前四种上呼吸道疾病中的诊断效率的混淆表。图8F描绘了显示在前六种下呼吸道疾病中的诊断效率的混淆表。

图9示出了可在切分方法中使用的内分泌和代谢疾病病例的自由文本文件记录(free-text document record)的示例。

图10A-10D示出了在成人和儿科内部验证中,模型性能随时间变化,以及分类百分比和损失随时期的数量变化。

本公开的详细描述

认识到可以通过本公开的技术特征中的一个或组合来实现用于具有提高的可靠性和临床可解释性的针对医疗影像学的临床决策支持算法的实现方式。根据一些方面,本文公开了通过呈现针对疾病或病症(例如常见和危险的儿科疾病)开发的机器学习框架来正确地识别疾病或病症的诊断工具。在一些实施例中,机器学习框架利用深度学习模型,例如人工神经网络。在一些实施例中,本文公开的模型概括了许多医疗分类任务并在医疗分类任务方面表现良好。该框架可应用于医疗数据,例如电子健康记录。这种方法的某些实施例跨越许多类型的医疗记录产生优良性能。

医疗数据

在某些方面中,本文公开的机器学习框架用于分析医疗数据。在一些实施例中,医疗数据包括电子健康记录(EHR)。在一些实施例中,EHR是在临床医生的办公室中使用的纸质图表的数字版本。在一些实施例中,EHR包括患者的医学和治疗历史。在一些实施例中,EHR允许患者数据随着时间的推移被跟踪。

在一些实施例中,医疗数据包括患者信息,例如识别信息、年龄、性或性别、种族或民族、体重、身高、身体质量指数(BMI)、心率(例如ECG和/或外周脉搏率)、血压、体温、呼吸率、过去的检查、治疗或疗法、所施用的药物、观察、接种疫苗、当前和/或过去的症状(例如发烧、呕吐、咳嗽等)、已知的健康状况(例如过敏),已知的疾病或病症、健康史(例如过去的诊断)、实验室测试结果(例如血液测试)、实验室影像学结果(例如x射线、MRI等)、遗传信息(例如与疾病相关的已知遗传异常)、家族病史、或它们的任何组合。本文描述的框架除了EHR之外还适用于各种类型的医疗数据。

机器学习

在某些方面,本文公开了用于生成诊断、预测或分类一种或更多种病症或状况的模型或分类器的机器学习框架。在一些实施例中,本文公开了一种基于医疗数据(例如电子健康记录(EHR))来诊断一种或更多种病症或状况的分类器。在一些实施例中,医疗数据包括由用户输入或上传的一个或更多个临床特征。在一些实施例中,与普通人类临床医生(例如普通临床医生)相比,分类器对独立样本集展示更高的灵敏度、特异性和/或AUC。在一些实施例中,当对照至少100、200、300、400、500、600、700、800、900或1000个独立样本(例如EHR或由临床医生输入的医疗数据)被测试时,分类器提供至少约0.7、约0.75、约0.8、约0.85、约0.9、约0.95或约0.99的灵敏度(真阳性率)和/或至少约0.7、约0.75、约0.8、约0.85、约0.9、约0.95或约0.99的特异性(真阴性率)。在一些实施例中,当对照至少100、200、300、400、500、600、700、800、900或1000个独立样本被测试时,分类器具有至少约0.7、约0.75、约0.8、约0.85、约0.9、约0.95或约0.99的AUC。

各种算法可以用于生成基于输入数据(例如EHR信息)来生成预测的模型。在一些实例中,机器学习方法应用于这样的模型(例如经训练的分类器)的生成。在一些实施例中,通过向机器学习算法提供其中预期输出是预先已知的训练数据来生成模型。

在一些实施例中,本文描述的系统、设备和方法生成一个或更多个建议,例如受验者的治疗和/或健康护理选项。在一些实施例中,除了疾病或状况的诊断或检测之外,还提供了一个或更多个治疗建议。在一些实施例中,治疗建议是根据所诊断的疾病或状况的标准医学指导的所建议的治疗。在一些实施例中,本文的系统、设备和方法包括向用户提供一个或更多个建议的软件模块。在一些实施例中,治疗和/或健康护理选项是所诊断的疾病或状况特有的。

在一些实施例中,本公开的分类器或经训练的机器学习算法包括特征空间。在一些情况下,分类器包括两个或更多个特征空间。两个或更多个特征空间可以彼此不同。在一些实施例中,特征空间包括诸如经格式化的和/或处理的EHR数据的信息。当训练机器学习算法时,训练数据(例如EHR数据)被输入到算法中,该算法处理输入特征以生成模型。在一些实施例中,给机器学习算法提供包括分类(例如诊断或测试结果)的训练数据,因而使算法能够通过将它的输出与实际输出进行比较来训练以修改和改进模型。这常常被称为监督学习。可选地,在一些实施例中,机器学习算法可以被提供有未标记或未分类的数据,这允许该算法能够识别在病例当中的隐藏结构(被称为无监督学习)。有时,无监督学习对识别对将原始数据分类到单独的群组内最有用的特征是有帮助的。

在一些实施例中,一组或更多组训练数据被用于训练机器学习算法。尽管本公开的示例性实施例包括使用卷积神经网络的机器学习算法,但是各种类型的算法都被设想到。在一些实施例中,该算法利用预测模型,例如神经网络、决策树、支持向量机或其他可适用的模型。在一些实施例中,机器学习算法选自由以下项构成的组:监督、半监督和无监督学习,例如支持向量机(SVM)、朴素贝叶斯分类、随机森林、人工神经网络、决策树、K均值、学习向量量化(LVQ)、自组织映射(SOM)、图形模型、回归算法(例如线性的、逻辑的、多元的、关联规则学习、深度学习、降维和系综选择算法。在一些实施例中,机器学习算法选自由以下项构成的组:支持向量机(SVM)、朴素贝叶斯分类、随机森林和人工神经网络。机器学习技术包括装袋过程、增压过程、随机森林算法及其组合。用于分析数据的说明性算法包括但不限于直接处理大量变量的方法,例如统计方法和基于机器学习技术的方法。统计方法包括惩罚逻辑回归(penalized logistic regression)、微阵列的预测分析(PAM)、基于收缩质心的方法、支持向量机分析和正则化线性判别分析。

无监督诊断分组

本文公开了利用无监督聚类来识别临床特征的趋势的系统和方法。在一些实施例中,在缺乏具有人类输入的定义分类系统的情况下分析EHR。在一些实施例中,在没有预定义标注的情况下检测临床特征的趋势,以便生成例如在图1中所示的分组结构。在一些实施例中,聚集在一起的至少一些诊断具有相关的ICD-10代码。这反映了检测在与人类定义的分类系统一致的临床特征的趋势的能力。在一些实施例中,至少一些相关诊断(例如基于ICD-10代码)被聚集在一起,但是不包括该群集中的其他类似诊断。

使用自然语言处理的医疗记录重新格式化

本文公开了利用自然语言处理来从医疗数据提取关键概念和/或特征的系统和方法。在一些实施例中,NLP框架包括下列项中的至少一项:1)词典构建,2)标记化,3)词嵌入,4)模式构建,以及5)使用长短期记忆(LSTM)架构的句子分类。在一些实施例中,使用模式来手动地注释医学图表。在一些实施例中,带注释的图表用于训练NLP信息提取模型。在一些实施例中,带注释的图表的子集从训练集被扣除并用于验证模型。在一些实施例中,信息提取模型总结表示临床数据的关键概念类目(图2)。在一些实施例中,NLP模型利用深度学习技术来使将自由文本EHR笔记注释到标准化词典中自动化。在一些实施例中,NLP模型允许进一步处理用于诊断分类的标准化数据。

在一些实施例中,生成信息提取模型,用于总结在表示重新格式化的临床数据时使用的关键概念和相关类目(补充表1)。在一些实施例中,重新格式化的图表将相关症状分组到类目中。这有通过显示确切特征来增加透明度的益处,模型依赖于确切特征来做出诊断。在一些实施例中,模式由医生和/或医学专家组织和验证。在一些实施例中,模式包括以下项中的至少一项:主诉、现病史、身体检查和实验室报告。

在一些实施例中,基于在标准医疗文本中呈现的现病史(HPI)记述来开发初始词典。在一些实施例中,通过手动地读取在训练数据中的句子(例如,由超过11,967个句子组成的每个类的1%)并选择表示断言类的词来使词典丰富。在一些实施例中,关键词由医生组织。在一些实施例中,可选地通过使用医学词典(例如中文医学词典)(统一医学语言系统或UMLS16)来生成关键词。在一些实施例中,根据医生的临床知识和经验以及专家共识指南来修改词典中的错误。在一些实施例中,基于从委员会认证的内科医生、信息专家、健康信息管理专业人员或他们的任何组合得到的信息来修改词典。在一些实施例中,重复地进行这个过程,直到没有HPI和PE的新概念被发现为止。

在一些实施例中,信息模式是对医疗知识和/或医生经验的基于规则的综合。在一些实施例中,一旦模式被固定,自然语言处理可以从医疗记录中获得的信息就也被固定。在一些实施例中,模式包括问题和回答对。在一些实施例中,问题和回答对是医生组织的。在一些实施例中,所组织的问题和回答被医生用于在为了做出诊断而提取症状信息时使用。问题的示例如下:“患者发烧了吗?”、“患者咳嗽吗?”,等等。回答由key_location和数字特征组成。key_location对解剖位置(例如肺、胃肠道等)编码。

在一些实施例中,根据特征类型,值是类目变量或二进制数。在一些实施例中,为每种类型的医疗记录数据(例如现病史和主诉、身体检查、实验室测试和放射学报告)构建模式。在一些实施例中,该模式应用于文本重新格式化模型构建。

这种模式设计的一个优点是增加或最大化跨越医院的数据互操作性,以用于未来的研究。查询-回答对的预定义空间简化了跨越来自多个医院的EHR系统的数据内插过程。此外,与提供可能识别出患者的原始临床笔记相比,以简化格式提供临床信息可以帮助保护患者隐私。甚至在可能识别出患者的变量移除的情况下,在EHR中的书写的风格也潜在地揭示检查医生的身份,如由笔法工具(stylometry tools)的进步所暗示的,这可能增加提高患者的可识别性。

在一些实施例中,模式包括一组项目。在一些实施例中,模式包括三个项目。在一些实施例中,item_name是特征名称。在一些实施例中,key_location对解剖位置编码。在一些实施例中,根据查询类型,值包括自由文本或者二进制数。在一些实施例中,当进行模式匹配时,NLP结果被评估以检查它们是否可以匹配某个模式,并且结果被填写到表格的第四列,而前三列保持不变。

在一些实施例中,在医生组织的情况下构建模式。在一些实施例中,模式选自:现病史、身体检查、实验室测试和放射学报告。在一些实施例中,主诉和现病史共享相同的模式。在补充表1中示出了信息模式的非限制性实施例。

标记化和词嵌入

在一些实施例中,生成用于词切分的标准数据集。这提供了对公开地可得到的社区注释资源的任何缺乏情况的解决方案。在一些实施例中,用于标记化的工具是mecab(url:https://github.com/taku910/mecab),本文描述的所组织的词典作为可选参数。在一些实施例中,生成最小数量的用于在NLP框架中使用的标记。在一些实施例中,生成最大数量的用于在NLP框架中使用的标记。在一些实施例中,NLP框架利用至少500个标记、至少1000个标记、至少2000个标记、至少3000个标记、至少4000个标记、至少5000个标记、至少6000个标记、至少7000个标记、至少8000个标记、至少9000个标记或至少10000个标记或更多。在一些实施例中,NLP框架利用不超过500个标记、不超过1000个标记、不超过2000个标记、不超过3000个标记、不超过4000个标记、不超过5000个标记、不超过6000个标记、不超过7000个标记、不超过8000个标记、不超过9000个标记或不超过10000个标记。在一些实施例中,本文描述的NLP框架利用许多特征。在一些实施例中,特征是高维特征。在一些实施例中,标记被嵌有特征。在一些实施例中,标记被嵌有至少10个特征、至少20个特征、至少30个特征、至少40个特征、至少50个特征、至少60个特征、至少70个特征、至少80个特征、至少90个特征、至少100个特征、至少120个特征、至少140个特征、至少160个特征、至少180个特征、至少200个特征、至少250个特征、至少300个特征、至少400个特征或至少500个特征。例如,来自python Tensorflow包的word2vec用于以100个高维特征嵌入4363个标记。

在一些实施例中,数据集被组织,用于训练文本分类模型。在一些实施例中,在训练和验证群组中的查询-回答对被手动地注释。在一些实施例中,训练数据集包括至少500、至少1000、至少1500、至少2000、至少2500、至少3000、至少3500、至少4000、至少4500、至少5000、至少6000、至少7000、至少8000、至少9000或至少10000个查询-回答对。在一些实施例中,训练数据集包括不超过500、不超过1000、不超过1500、不超过2000、不超过2500、不超过3000、不超过3500、不超过4000、不超过4500、不超过5000、不超过6000、不超过7000、不超过8000、不超过9000或不超过10000个查询-回答对。在一些实施例中,对于具有二进制回答的问题,0/1用于指示文本给出“否”/“是”。例如,给定文本片段“患者发烧”,查询“患者发烧吗?”可以被赋予1的值。在一些实施例中,对于具有类目/数字值的查询,提取预定义的类目自由文本回答,如在模式(补充表1)中所示。

在一些实施例中,自由文本协调过程由基于注意力的LSTM建模。在一些实施例中,该模型使用tensorflow来实现,并用多个步骤来训练。在一些实施例中,步骤的数量为至少50,000、至少75,000个步骤、至少100,000个步骤、至少125,000个步骤、至少150,000个步骤、至少175,000个步骤、至少200,000个步骤、至少250,000个步骤、至少300,000个步骤、至少400,000个步骤或至少500,000个步骤。在一些实施例中,步骤的数量不超过50,000、不超过75,000个步骤、不超过100,000个步骤、不超过125,000个步骤、不超过150,000个步骤、不超过175,000个步骤、不超过200,000个步骤、不超过250,000个步骤、不超过300,000个步骤、不超过400,000个步骤或不超过500,000个步骤。在一些实施例中,NLP模型被应用于被转换成结构化格式的医生笔记,其中每个结构化记录包含采用查询-回答对的数据。

NLP模型的一个非限制性实施例展示了在EHR医生笔记的注释方面的优良结果(见示例1中的表2)。跨越所有类目的临床数据(主诉、现病史、身体检查、实验室检测和PACS报告),除了在一个实例中以外,F1分数均超过90%,该实例用于在实验室测试中检测到的类目变量。NLP模型的回想率(recall)对于身体检查最高(对于类目变量为95.62%,对于自由文本为99.08%),以及对于实验室测试最低(对于类目变量为72.26%,对于自由文本为88.26%)。NLP模型的精度对于主诉最高(对于类目变量为97.66%,对于自由文本为98.71%),以及对于实验室测试最低(对于类目变量为93.78%,以及对于自由文本为96.67%)。总的来说,NLP标注的精度(或阳性预测值)略大于回想率(灵敏度),但该系统在所有领域均展现出整体强大性能。

在一些实施例中,NLP模型产生具有按某个度量(例如回想率、精度、F1分数和/或关于每个类目的临床数据的确切匹配的实例)测量的性能的医疗数据样本(例如EHR医生笔记)的注释。在一些实施例中,对于至少一个类目的临床数据,NLP模型具有至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的F1分数。在一些实施例中,对于至少一个类目的临床数据,NLP模型产生的回想率为至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%。在一些实施例中,对于至少一个类目的临床数据,NLP模型产生至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的精度。在一些实施例中,对于至少一个类目的临床数据,NLP模型产生至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的确切匹配。在一些实施例中,至少一个类目的临床数据包括主诉、现病史、身体检查、实验室测试、PACS报告、或它们的任何组合。在一些实施例中,临床数据的类目包括分类、类目变量、自由文本、或它们的任何组合。

在一些实施例中,在EHR笔记的注释之后,逻辑回归分类器用于建立诊断系统(图3)。在一些实施例中,诊断系统基于解剖分区,例如器官系统。这意味着模仿在医生推理时使用的传统框架,其中可以针对鉴别诊断的制定采用基于器官的方法。

在一些实施例中,逻辑回归分类器被用于允许相关临床特征的直接识别和易于建立诊断分类的透明度。

在一些实施例中,诊断系统的第一级将EHR笔记按类目分为广泛的器官系统,例如:呼吸、胃肠、神经精神、泌尿生殖和全身性疾病。在一些实施例中,这是诊断层级中的唯一分离级别。在一些实施例中,这是诊断层级中的第一级分离。在一些实施例中,在第一级中的至少一个器官系统内,做出进一步的子分类和分级层。在一些实施例中,在诊断层级中使用的器官系统包括以下中的至少一项:外皮系统、肌肉系统、骨骼系统、神经系统、循环系统、淋巴系统、呼吸系统、内分泌系统、泌尿/排泄系统、生殖系统和消化系统。在一些实施例中,诊断系统包括类目的多个级别,例如第一级、第二级、第三级、第四级和/或第五级。在一些实施例中,诊断系统包括类目的至少两个级别、至少三个级别、至少四个级别或至少五个级别。例如,在一些实施例中,呼吸系统进一步被分为上呼吸道状况和下呼吸道状况。接下来,疾病进一步被分成更特定的解剖分区(例如喉炎、气管炎、支气管炎、肺炎)。图3示出了儿科疾病的分级分类的实施例。如图3所示,一般儿科疾病在第一级中被分类为呼吸道疾病、泌尿生殖疾病、胃肠疾病、全身性疾病和神经精神疾病。在一些实施例中,呼吸道疾病进一步被分类为上呼吸道疾病或下呼吸道疾病。在一些实施例中,上呼吸道疾病进一步被分类为急性上呼吸道感染、鼻窦炎或急性喉炎。在一些实施例中,鼻窦炎进一步被分类为急性鼻窦炎或急性复发性鼻窦炎。在一些实施例中,下呼吸道疾病进一步被分类为支气管炎、肺炎、哮喘或急性气管炎。在一些实施例中,支气管炎进一步被分类为急性支气管炎、细支气管炎或由于支原体肺炎而引起的急性支气管炎。在一些实施例中,肺炎进一步被分类为细菌性肺炎或支原体感染。在一些实施例中,细菌性肺炎进一步被分类为支气管肺炎或细菌性肺炎(其他部位)。在一些实施例中,哮喘进一步被分类为哮喘(无并发症的)、咳嗽变异型哮喘或急性加重型哮喘。在一些实施例中,胃肠疾病进一步被分类为腹泻、口腔相关疾病或急性咽炎。在一些实施例中,全身性疾病进一步被分类为手足口病、水痘(无并发症)、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。在一些实施例中,神经精神疾病进一步被分类为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。

在一些实施例中,在诊断层级的每个级别处评估分类器的性能。因此,在一些实施例中,该系统被设计成评估每个患者记录的所提取的特征,并将该组特征按类目分成沿着决策树的级别的诊断特异性的更精细级别,类似于人类医生可以如何评估患者的特征以基于合并到信息模型中的相同临床数据来实现诊断。在一些实施例中,消除了由医生标记为具有“发烧”或“咳嗽”的初步诊断的经历,因为这些表示症状而不是特定的疾病实体。

在一些实施例中,跨越诊断层级的所有级别,该诊断系统在基于由NLP信息模型提取的临床特征的所预测的初步诊断和由检查医生指定的初始诊断之间实现了高准确度水平(见示例1中的表3)。对于第一级——其中诊断系统将患者的诊断分类为广泛的器官系统,中位数准确度为0.90,范围从对于胃肠疾病的0.85到对于神经精神障碍的0.98(见示例1的表3a)。甚至在诊断规范的更深级别处,该系统也保持强大的性能水平。举例而言,在呼吸系统中,在诊断层级中的下一个分区在上呼吸道状况和下呼吸道状况之间。该系统在预测诊断和初始诊断之间实现上呼吸道状况的0.89和下呼吸道状况的0.87的准确度(表3b)。当将上呼吸道子系统分为更特定的类别时,中位数准确度为0.92(范围:急性喉炎的0.86到窦炎的0.96,表3c)。急性上呼吸道感染是在群组当中的单个最常见的诊断,且该模型能够准确地预测在95%的遭遇中的诊断(表3c)。在呼吸系统中,哮喘被单独地按类目分为它自己的子类目,且准确度范围从咳嗽变异型哮喘的0.83到不明急性加重型哮喘的0.97(表3d)。

在一些实施例中,根据一个或更多个性能度量来评估本文描述的诊断模型。在一些实施例中,对于至少200个独立样本,该模型具有至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的准确度。在一些实施例中,对于至少200个独立样本,该模型产生至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的灵敏度。在一些实施例中,对于至少200个独立样本,该模型产生至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的特异性。在一些实施例中,对于至少200个独立样本,该模型产生至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的阳性预测值。在一些实施例中,对于至少200个独立样本,该模型产生至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的阴性预测值。

本文公开了用于深入了解诊断系统如何利用由深度NLP信息模型提取的临床特征并生成预测诊断的系统和方法。在一些实施例中,驱动诊断预测的关键临床特征被识别。对于每个特征,确定该特征来源于的EHR临床数据(例如现病史、身体检查等)的类目连同其分类(例如二元或自由文本分类)。审查驱动计算机预测的诊断的临床特征的能力允许针对预测是否基于临床相关特征的评估。在一些实施例中,向用户或受验者(例如,患者或诊断和/或治疗患者的健康护理提供者)提供和/或解释这些特征以建立诊断和诊断系统的透明度和信任。

例如,以肠胃炎为例,诊断系统将例如“腹痛”和“呕吐”的词的存在识别为关键相关临床特征。二进制分类器被编码,使得特征的存在被表示为“1”,以及缺乏被表示为“0”。在这种情况下,“呕吐=1”和“腹痛=1”被识别为主诉和现病史两者的关键特征。在身体检查中,注意到“腹部压痛=1”和“皮疹=1”与这个诊断相关。有趣地,“可触及的胞块=0”也是相关的,意味着被预测患有肠胃炎的患者通常没有可触及的胞块,这与人类临床经验一致。除了二进制分类器以外,在模式中还有“自由文本”类目。具有大于39摄氏度的文本条目的“发烧”的特征也作为驱动对肠胃炎的诊断的相关临床特征出现。实验室和影像学特征没有被识别为强有力地驱动对这个诊断的预测,也许反映肠胃炎的大多数病例在没有广泛的辅助测试的情况下被诊断的事实。

诊断平台、系统、设备和介质

在某些方面中,本文提供了用于根据本公开的任何方法来分析医疗数据的平台、系统、设备和介质。在一些实施例中,系统和电子设备集成有包括由处理器可执行来执行医疗数据的分析的指令的程序。在一些实施例中,该分析包括利用使用EHR生成和训练的分类器来处理至少一个受验者的医疗数据。在一些实施例中,利用集成到设备中的本地软件在设备上在本地执行该分析。在一些实施例中,在医疗数据通过网络由系统或设备上传之后,该分析在云上远程地被执行。在一些实施例中,该系统或设备是适合于与在网络或云上操作的web应用对接以用于上传和分析医疗数据(例如EHR(或者可选地,从EHR提取的包含用于疾病诊断/分类的相关临床特征的特征集))的现有系统或设备。

在一些方面中,本文公开了一种被配置为执行医疗数据(例如电子健康记录)的基于云的分析的计算机实现的系统。在一些实施例中,对数据的批量上传执行基于云的分析。在一些实施例中,对一个或更多个受验者的单独的医疗数据或小分组的医疗数据实时地执行基于云的分析。在一些实施例中,一批医疗数据包括至少5个受验者、至少10个受验者、至少20个受验者、至少30个受验者、至少40个受验者、至少50个受验者、至少60个受验者、至少70个受验者、至少80个受验者、至少90个受验者、至少100个受验者、至少150个受验者、至少200个受验者、至少300个受验者、至少400个受验者或至少500个受验者的医疗数据。

在一些实施例中,电子设备包括用于与用户或受验者通信和/或从用户或受验者接收指令的用户接口、存储器、至少一个处理器以及提供由至少一个处理器可执行的用于分析医疗数据的指令的非暂时性计算机可读介质。在一些实施例中,电子设备包括用于与网络或云通信的网络部件。网络部件被配置为使用有线或无线技术通过网络进行通信。在一些实施例中,网络部件使用Wi-Fi、蓝牙、2G、3G、4G、4G LTE、5G、WiMAX、WiMAN或其他射频通信标准和协议通过网络进行通信。

在一些实施例中,系统或电子设备获得医疗数据,例如一个或更多个电子健康记录。在一些实施例中,电子健康记录被合并和/或被共同分析。在一些实施例中,电子设备未被配置成执行医疗数据的分析,替代地将数据上传到网络以用于基于云的或远程的分析。在一些实施例中,电子设备包括web门户应用,其与网络或云对接以用于远程分析,并且不在本地执行任何分析。这个配置的优点是医疗数据未被存储在本地,且因此不太容易受到随意删改或丢失。可选地或组合地,电子设备被配置成在本地执行医疗数据的分析。这个配置的优点是在缺乏网络接入或覆盖的位置上(例如,在缺乏互联网覆盖的某些远程位置上)执行分析的能力。在一些实施例中,电子设备被配置为当网络接入作为备份功能是不可用的时(例如在互联网中断或临时网络故障的情况下)在本地执行医疗数据的分析。在一些实施例中,医疗数据被上传用于存储在云上,而不管分析在哪里被执行。例如,在某些实例中,医疗数据被临时存储在电子设备上用于分析,并且随后被上传在云上和/或从电子设备的本地存储器被删除。

在一些实施例中,电子设备包括显示器,其用于提供分析(例如诊断或预测(疾病或病症的存在和/或进展))的结果、治疗建议、治疗选项、健康护理提供者信息(例如,可以提供所建议的治疗和/或确认诊断的附近提供者)、或它们的组合。在一些实施例中,从对于相同受验者相比于历史医疗数据(例如,来自先前医疗就诊的医疗数据或EHR)对当前医疗数据(例如,被输入用于分析的最近的医疗数据或EHR)的分析生成诊断或预测以确定疾病或病症的进展。在一些实施例中,医疗数据(例如电子健康记录)是带时间戳的。在一些实施例中,电子健康记录被存储为数据,其可选地包括元数据,例如时间戳、位置、用户信息或其他信息。在一些实施例中,电子设备包括提供用于供用户输入信息(例如姓名、地址、电子邮件、电话号码和/或其他识别信息)的工具的门户。在一些实施例中,门户提供用于输入或上传医疗信息(例如EHR、血压、温度、症状等)的工具。在一些实施例中,门户给用户提供通过电子邮件、消息传递(例如SMS、文本消息)、物理打印输出(例如打印出的报告)、社交媒体、打电话(例如自动电话消息或由健康护理提供者或顾问进行的会诊)、或它们的组合来接收分析的结果的选项。在一些实施例中,门户被显示在电子设备的数字屏幕上。在一些实施例中,电子设备包括模拟接口。在一些实施例中,电子设备包括数字接口,例如触摸屏。

在一些实施例中,本文公开了在线诊断、分诊(triage)和/或转诊AI系统。在一些实施例中,系统利用从EHR或其他数据提取的关键词。在一些实施例中,系统基于对关键词的分析来生成诊断。在一些实施例中,诊断用于相对于多个患者对一个患者进行分诊。在一些实施例中,诊断被用于将患者转交(refer)给健康护理提供者。

在一些实施例中,本文描述的平台、介质、方法和应用包括或利用数字处理设备、处理器或其使用。在一些实施例中,数字处理设备被配置成执行本文描述的任何方法,例如生成自然语言处理信息提取模型和/或利用所述模型来分析医疗数据,例如EHR。在另外的实施例中,数字处理设备包括执行设备的功能的一个或更多个处理器或硬件中央处理单元(CPU)。在又一些另外的实施例中,数字处理设备还包括被配置为执行可执行指令的操作系统。在一些实施例中,数字处理设备可选地连接到计算机网络。在另外的实施例中,数字处理设备可选地连接到互联网,使得它访问万维网(World Wide Web)。在又一些另外的实施例中,数字处理设备可选地连接到云计算基础设施。在其他实施例中,数字处理设备可选地连接到内联网。在其他实施例中,数字处理设备可选地连接到数据存储设备。根据本文的描述,作为非限制性示例,合适的数字处理设备包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、子笔记本计算机、上网本计算机、netpad计算机、机顶计算机、手持计算机、互联网用具、移动智能电话、平板计算机、个人数字助理、视频游戏控制台和交通工具。本领域中的技术人员将认识到,许多智能电话适合于在本文描述的系统中使用。本领域中的技术人员还将认识到,具有可选的计算机网络连接的选择电视机、视频播放器和数字音乐播放器适合于在本文描述的系统中使用。合适的平板电脑包括具有本领域中的技术人员已知的booklet、写字板和可转换的配置的平板电脑。

在一些实施例中,数字处理设备包括被配置为执行可执行指令的操作系统。例如,操作系统是软件,包括程序和数据,其管理设备的硬件并提供用于应用的执行的服务。本领域中的技术人员将认识到,作为非限制性示例,合适的服务器操作系统包括FreeBSD、OpenBSD、

在一些实施例中,该设备包括存储和/或存储器设备。存储和/或存储器设备是用于在临时或永久基础上存储数据或程序的一个或更多个物理装置。在一些实施例中,该设备是易失性存储器并且需要电力来维持所存储的信息。在一些实施例中,该设备是非易失性存储器并且当数字处理设备未被供电时保留所存储的信息。在另外的实施例中,非易失性存储器包括闪存。在一些实施例中,非易失性存储器包括动态随机存取存储器(DRAM)。在一些实施例中,非易失性存储器包括铁电随机存取存储器(FRAM)。在一些实施例中,非易失性存储器包括相变随机存取存储器(PRAM)。在一些实施例中,非易失性存储器包括磁阻随机存取存储器(MRAM)。在其他实施例中,该设备是存储设备,作为非限制性示例包括CD-ROM、DVD、闪存设备,磁盘驱动器、磁带驱动器、光盘驱动器以及基于云计算的存储装置。在另外的实施例中,存储和/或存储器设备是例如在本文公开的那些设备的组合的设备。

在一些实施例中,数字处理设备包括显示器,以将视觉信息发送给受验者。在一些实施例中,显示器是阴极射线管(CRT)。在一些实施例中,显示器是液晶显示器(LCD)。在另外的实施例中,显示器是薄膜晶体管液晶显示器(TFT-LCD)。在一些实施例中,显示器是有机发光二极管(OLED)显示器。在各种另外的实施例中,在OLED显示器上是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实施例中,显示器是等离子体显示器。在一些实施例中,显示器是电子纸或电子油墨。在其他实施例中,显示器是视频投影机。在又一些另外的实施例中,显示器是例如本文公开的那些设备的组合的设备。

在一些实施例中,数字处理设备包括输入设备,以从受验者接收信息。在一些实施例中,输入设备是键盘。在一些实施例中,作为非限制性示例,输入设备是指向设备,包括鼠标、轨迹球、触控板、操纵杆、游戏控制器或触笔。在一些实施例中,输入设备是触摸屏或多点触摸屏。在其他实施例中,输入设备是麦克风,以捕获语音或其他声音输入。在其他实施例中,输入设备是视频相机或其他传感器,以捕获运动或视觉输入。在另外的实施例中,输入设备是Kinect、Leap Motion,等等。在又一些另外的实施例中,输入设备是例如本文公开的那些设备的组合的设备。

在一些实施例中,本文描述的平台、介质、方法和应用包括用程序编码的一个或更多个非暂时性计算机可读存储介质,程序包括由可选地联网的数字处理设备的操作系统可执行的指令。在另外的实施例中,计算机可读存储介质是数字处理设备的有形部件。在又一些另外的实施例中,计算机可读存储介质可选地从数字处理设备是可移除的。在一些实施例中,计算机可读存储介质作为非限制性示例包括CD-ROM、DVD、闪存设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务,等等。在一些情况下,程序和指令在介质上永久地、实质上永久地、半永久地或非临时地被编码。

在一些实施例中,本文描述的平台、介质、方法和应用包括至少一个计算机程序或其使用。计算机程序包括在数字处理设备的CPU中可执行的、被写入以执行指定的任务的一系列指令。计算机可读指令可以被实现为执行特定任务或实现特定抽象数据类型的程序模块,例如功能、对象、应用编程接口(API)、数据结构等。根据在本文提供的公开内容,本领域中的技术人员将认识到,可以用各种语言的各种版本来编写计算机程序。

计算机可读指令的功能可以根据需要在各种环境中被组合或分配。在一些实施例中,计算机程序包括一个指令序列。在一些实施例中,计算机程序包括多个指令序列。在一些实施例中,从一个位置提供计算机程序。在其他实施例中,从多个位置提供计算机程序。在各种实施例中,计算机程序包括一个或更多个软件模块。在各种实施例中,计算机程序部分地或全部包括一个或更多个web应用、一个或更多个移动应用、一个或更多个独立应用、一个或更多个web浏览器插件、扩展、加载项或附件、或它们的组合。

在一些实施例中,计算机程序包括web应用。根据本文提供的公开内容,本领域中的技术人员将认识到,在各种实施例中,web应用利用一个或更多个软件框架和一个或更多个数据库系统。在一些实施例中,在软件框架(例如

在一些实施例中,计算机程序包括提供到移动数字处理设备(例如智能手机)的移动应用。在一些实施例中,移动应用在移动处理设备被制造的时间被提供给移动数字处理设备。在其他实施例中,经由在本文描述的计算机网络来将移动应用提供给移动数字处理设备。

鉴于本文提供的公开内容,通过本领域中的技术人员已知的技术使用本领域已知的硬件、语言和开发环境来创建移动应用。本领域中的技术人员将认识到,用若干种语言编写移动应用。作为非限制性示例,合适的编程语言包括C、C++、C#、Objective-C、Java

合适的移动应用开发环境可从几个源获得。作为非限制性示例,市场上买得到的开发环境包括AirplaySDK、alcheMo、

本领域中的技术人员将认识到,若干商业论坛可用于移动应用的分发,作为非限制性示例,商业论坛包括

在一些实施例中,计算机程序包括独立应用,其是作为独立计算机进程运行的程序,而不是现有进程的附件,例如不是插件。本领域中的技术人员将认识到,独立应用常常被编译。编译器是将用编程语言编写的源代码转换成二进制对象代码(例如汇编语言或机器代码)的计算机程序。作为非限制性示例,合适的编译编程语言包括C、C++、Objective-C、COBOL、Delphi、Eiffel、Java

在一些实施例中,本文描述的平台、介质、方法和应用包括软件、服务器和/或数据库模块或其使用。根据本文提供的公开内容,通过本领域中的技术人员已知的技术使用本领域已知的机器、软件和语言来创建软件模块。本文公开的软件模块以许多方式被实现。在各种实施例中,软件模块包括文件、一段代码、编程对象、编程结构或它们的组合。在另外的各种实施例中,软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或它们的组合。在各种实施例中,作为非限制性示例,一个或更多个软件模块包括web应用、移动应用和独立应用。在一些实施例中,软件模块在一个计算机程序或应用中。在其他实施例中,软件模块在多于一个计算机程序或应用中。在一些实施例中,软件模块被托管在一台机器上。在其他实施例中,软件模块被托管在多于一台机器上。在另外的实施例中,软件模块被托管在云计算平台上。在一些实施例中,软件模块被托管在一个位置中的一台或更多台机器上。在其他实施例中,软件模块被托管在多于一个位置中的一台或更多台机器上。

在一些实施例中,本文公开的平台、系统、介质和方法包括一个或更多个数据库或其使用。根据本文提供的公开内容,本领域中的技术人员将认识到,许多数据库适合于条形码、路线、包裹、受验者或网络信息的存储和检索。在各种实施例中,作为非限制性示例,合适的数据库包括关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体-关系模型数据库、关联数据库和XML数据库。在一些实施例中,数据库是基于互联网的。在另外的实施例中,数据库是基于web的。在又一些另外的实施例中,数据库是基于云计算的。在其他实施例中,数据库基于一个或更多个本地计算机存储设备。

详细的附图描述

图1示出了儿科疾病的无监督聚类的结果。本文描述的诊断系统在没有所定义的分类系统的情况下分析电子健康记录。这个分组结构通过基于深度学习的模型反映在临床特征中的趋势的检测而没有预定义标注或人工输入。所聚集的块用具有灰色线的方框来标记。

图2示出了工作流程图的实施例,该工作流程图描绘从电子医疗记录提取数据的过程,后面是对这些经历的基于深度学习的自然语言处理(NLP)分析,这些经历然后利用疾病分类器进行处理以预测关于每个经历的临床诊断。

图3示出了在大的儿科群组中的诊断框架的层级的示例。逻辑回归分类器用于基于解剖分区来建立诊断系统。使用了基于器官的方法,其中诊断首先被分成广泛的器官系统,且随后被分成器官子系统和/或更特定的诊断组。

图4示出了自然语言处理(NLP)信息提取模型的设计的示例。使用word2vec来嵌入来自电子健康记录的原始文本的切分句子。然后,LSTM模型以查询回答格式输出结构化记录。在这个特定示例中,样本EHR句子片段被用作输入(“在患者的肺的左上叶中的病变”)。接下来,词嵌入被执行,后面是使用长短期记忆(LSTM)架构进行句子分类。最后,对照一组查询及其相对应的回答来评估输入。特别地,图4所示的查询从左到右按顺序包括:“Q:肺的左上叶是可检测的吗?”/“A:1”;“在左上叶中有胞块吗?”/“A:1”;“Q:在左上叶中有可检测的病变?”/“A:1”;“Q:在支气管中有可检测到的阻塞?”/“A:0”;“支气管中有异常吗”/“A:0”。

图5示出了描绘基于混合自然语言处理和机器学习AI的系统的实施例的工作流程图。将综合医学词典和开放源中文切分软件应用于EHR数据,作为提取临床相关文本的手段。该信息通过NLP分析被馈送,且然后用疾病分类器进行处理以预测对每个经历的诊断。

图6A-6D示出了针对GMU1成人数据和GWCMC1儿科数据的诊断效率和模型性能。图6A示出了显示跨越成人群体的诊断效率的卷积表。图6B示出了跨越成人群体的模型性能的ROC-AUC曲线。图6C示出了显示跨越儿科群体的诊断效率的卷积表。图6D示出了跨越儿科群体的模型性能的ROC-AUC曲线。

图7A-7D示出了针对GMU2成人数据和GWCMC2儿科数据的诊断效率和模型性能。图7A示出了显示跨越成人群体的诊断效率的卷积表。图7B示出了跨越成人群体的模型性能的ROC-AUC曲线。图7C示出了显示跨越儿科群体的诊断效率的卷积表。图7D示出了跨越儿科群体的模型性能的ROC-AUC曲线。

图8A-8F示出了在儿科呼吸道疾病中的分级诊断方法(右)与端到端方法(左)的比较。图8A-8C示出了端到端方法。图8A描绘了显示在儿科患者中的上呼吸系统和下呼吸系统之间的诊断效率的混淆表。图8B描绘了显示在前四种上呼吸道疾病中的诊断效率的混淆表。图8C示出了显示在前六种下呼吸道疾病中的诊断效率的混淆表。图8D-8F示出了分级诊断方法。图8D描绘了显示在儿科患者中的上呼吸系统和下呼吸系统的诊断效率的混淆表。图8E描绘了显示在前四种上呼吸道疾病中的诊断效率的混淆表。图8F描绘了显示在前六种下呼吸道疾病中的诊断效率的混淆表。

图9示出了可在切分方法中使用的内分泌和代谢疾病病例的自由文本文件记录的示例。

图10示出了在成人和儿科内部验证中,模型性能随时间变化,以及分类百分比和损失随时期的数量变化。

编号的实施例

下面的实施例叙述了本文公开的特征的组合的非限制性排列。特征的组合的其他排列也被设想。一种用于提供医疗诊断的方法,该方法包括:获得医疗数据;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类,该分类具有至少80%的灵敏度。根据实施例1所述的方法,其中,NLP信息提取模型包括深度学习程序。根据实施例1或2所述的方法,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例1-3中任一项所述的方法,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例4所述的方法,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例1-5中任一项所述的方法,该方法还包括将医疗数据标记化以供NLP信息提取模型处理。根据实施例1-6中任一项所述的方法,其中,医疗数据包括电子健康记录(EHR)。根据实施例1-7中任一项所述的方法,其中,该分类具有至少80%的特异性。根据实施例1-8中任一项所述的方法,其中,该分类具有至少80%的F1分数。根据实施例1-9中任一项所述的方法,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例1-10中任一项所述的方法,其中,疾病预测分类器包括逻辑回归分类器。根据实施例1-11中任一项所述的方法,其中,疾病预测分类器包括决策树。根据实施例1-12中任一项所述的方法,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例1-13中任一项所述的方法,其中,该分类包括至少两个类目级别。根据实施例1-14中任一项所述的方法,其中,该分类包括指示器官系统的第一级类目。根据实施例15所述的方法,其中,该分类包括指示器官系统的子类目的第二级。根据实施例1-16中任一项所述的方法,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例16所述的方法,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例18所述的方法,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例19所述的方法,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例19所述的方法,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例18所述的方法,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例18所述的方法,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例18所述的方法,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例1-24中任一项所述的方法,其中,该方法还包括基于该分类来做出医学治疗建议。根据实施例1-25中的任一项所述的方法,其中,疾病预测分类器使用端到端深度学习来训练。一种包括机器可执行代码的非暂时性计算机可读介质,机器可执行代码在由一个或更多个计算机处理器执行时实现用于提供对疾病或病症的分类的方法,该方法包括:获得医疗数据;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类,该分类具有至少80%的灵敏度。根据实施例27所述的介质,其中,NLP信息提取模型包括深度学习程序。根据实施例27或28所述的介质,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例27-29中任一项所述的介质,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例30所述的介质,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例27-31中任一项所述的介质,其中,该方法还包括将医疗数据标记化以供NLP信息提取模型处理。根据实施例27-32中任一项所述的介质,其中,医疗数据包括电子健康记录(EHR)。根据实施例27-33中任一项所述的介质,其中,该分类具有至少80%的特异性。根据实施例27-34中任一项所述的介质,其中,该分类具有至少80%的F1分数。根据实施例27-35中任一项所述的介质,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例27-36中任一项所述的介质,其中,疾病预测分类器包括逻辑回归分类器。根据实施例27-37中任一项所述的介质,其中,疾病预测分类器包括决策树。根据实施例27-38中任一项所述的介质,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例27-39中任一项所述的介质,其中,该分类包括至少两个类目级别。根据实施例27-40中任一项所述的介质,其中,该分类包括指示器官系统的第一级类目。根据实施例41所述的介质,其中,该分类包括指示器官系统的子类目的第二级。根据实施例27-42中任一项所述的介质,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例43所述的介质,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例44所述的介质,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例45所述的介质,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例45所述的介质,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例44所述的介质,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例44所述的介质,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例44所述的介质,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例27-50中所述的介质,还包括基于该分类来做出医学治疗建议。实施例27-51中的任一项的介质,其中,疾病预测分类器使用端到端深度学习来训练。一种计算机实现的系统,其包括:数字处理设备,该数字处理设备包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于提供医疗诊断的应用的指令的计算机程序,该应用包括:获得医疗数据的软件模块;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征的软件模块;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类的软件模块,该分类具有至少80%的灵敏度。根据实施例53所述的系统,其中,NLP信息提取模型包括深度学习程序。根据实施例53或54所述的系统,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例53-55中任一项所述的系统,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例56所述的系统,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例53-57中任一项所述的系统,其中,该系统还包括将医疗数据标记化以供NLP信息提取模型处理的软件模块。根据实施例53-58中任一项所述的系统,其中,医疗数据包括电子健康记录(EHR)。根据实施例53-59中任一项所述的系统,其中,该分类具有至少80%的特异性。根据实施例53-60中任一项所述的系统,其中,该分类具有至少80%的F1分数。根据实施例53-61中任一项所述的系统,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例53-62中任一项所述的系统,其中,疾病预测分类器包括逻辑回归分类器。根据实施例53-63中任一项所述的系统,其中,疾病预测分类器包括决策树。根据实施例53-64中任一项所述的系统,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例53-65中任一项所述的系统,其中,该分类包括至少两个类目级别。根据实施例53-66中任一项所述的系统,其中,该分类包括指示器官系统的第一级类目。根据实施例67所述的系统,其中,该分类包括指示器官系统的子类目的第二级。根据实施例53-68中任一项所述的系统,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例69所述的系统,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例70所述的系统,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例71所述的系统,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例71所述的系统,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例70所述的系统,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例70所述的系统,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例70所述的系统,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例53-76中任一项所述的系统,其中,该系统还包括基于该分类来做出医学治疗建议。根据实施例53-77中的任一项的系统,其中,疾病预测分类器使用端到端深度学习来训练。一种数字处理设备,其包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于提供医疗诊断的应用的指令的计算机程序,该应用包括:获得医疗数据的软件模块;使用自然语言处理(NLP)信息提取模型来从医疗数据提取和注释临床特征的软件模块;以及用疾病预测分类器分析临床特征中的至少一个以生成疾病或病症的分类的软件模块,该分类具有至少80%的灵敏度。根据实施例79所述的设备,其中,NLP信息提取模型包括深度学习程序。根据实施例79或80所述的设备,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例79-81中任一项所述的设备,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例82所述的设备,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例79-83中任一项所述的设备,其中,该系统还包括将医疗数据标记化以供NLP信息提取模型处理的软件模块。根据实施例79-84中任一项所述的设备,其中,医疗数据包括电子健康记录(EHR)。根据实施例79-85中任一项所述的设备,其中,该分类具有至少80%的特异性。根据实施例79-86中任一项所述的设备,其中,该分类具有至少80%的F1分数。根据实施例79-87中任一项所述的设备,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例79-88中任一项所述的设备,其中,疾病预测分类器包括逻辑回归分类器。根据实施例79-89中任一项所述的设备,其中,疾病预测分类器包括决策树。根据实施例79-90中任一项所述的设备,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例79-91中任一项所述的设备,其中,该分类包括至少两个类目级别。根据实施例79-92中任一项所述的设备,其中,该分类包括指示器官系统的第一级类目。根据实施例93所述的设备,其中,该分类包括指示器官系统的子类目的第二级。根据实施例79-94中任一项所述的设备,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例95所述的设备,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例96所述的设备,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例97所述的设备,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例97所述的设备,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例96所述的设备,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例96所述的设备,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例96所述的设备,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例79-102中任一项所述的设备,其中,还包括基于该分类来做出医学治疗建议。根据实施例79-103中的任一项的系统,其中,疾病预测分类器使用端到端深度学习来训练。一种用于生成用于提供医疗诊断的疾病预测分类器的计算机实现的方法,该方法包括:提供基于医疗文本构建的词典,其中该词典包括与临床信息相关的关键词;获得包括电子健康记录(EHR)的医疗数据;使用NLP信息提取模型从医疗数据提取临床特征;将临床特征映射到假设的临床查询以生成问题-回答对;以及使用问题-回答对来训练NLP分类器,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。根据实施例105所述的方法,其中,NLP信息提取模型包括深度学习程序。根据实施例105或106所述的方法,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例105-107中任一项所述的方法,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例108所述的方法,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例105-109中任一项所述的方法,其中,该系统还包括将医疗数据标记化以供NLP信息提取模型处理的软件模块。根据实施例105-110中任一项所述的方法,其中,医疗数据包括电子健康记录(EHR)。根据实施例105-111中任一项所述的方法,其中,该分类具有至少80%的特异性。根据实施例105-112中任一项所述的方法,其中,该分类具有至少80%的F1分数。根据实施例105-113中任一项所述的方法,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例105-114中任一项所述的方法,其中,疾病预测分类器包括逻辑回归分类器。根据实施例105-115中任一项所述的方法,其中,疾病预测分类器包括决策树。根据实施例105-116中任一项所述的方法,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例105-117中任一项所述的方法,其中,该分类包括至少两个类目级别。根据实施例105-118中任一项所述的方法,其中,该分类包括指示器官系统的第一级类目。根据实施例119所述的方法,其中,该分类包括指示器官系统的子类目的第二级。根据实施例105-120中任一项所述的方法,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例120所述的方法,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例122所述的方法,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例123所述的方法,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例123所述的方法,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例122所述的方法,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例122所述的方法,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例122所述的方法,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例105-128中任一项所述的方法,其中,还包括基于该分类来做出医学治疗建议。根据实施例105-129中的任一项的系统,其中,疾病预测分类器使用端到端深度学习来训练。一种包括机器可执行代码的非暂时性计算机可读介质,机器可执行代码在由一个或更多个计算机处理器执行时实现用于生成用于提供对疾病或病症的分类的自然语言处理(NLP)分类器的方法,该方法包括:提供基于医疗文本构建的词典,其中该词典包括与临床信息相关的关键词;获得包括电子健康记录(EHR)的医疗数据;使用NLP信息提取模型从医疗数据提取临床特征;将临床特征映射到假设的临床查询以生成问题-回答对;以及使用问题-回答对来训练NLP分类器,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。根据实施例131所述的介质,其中,NLP信息提取模型包括深度学习程序。根据实施例131或132所述的介质,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例131-133中任一项所述的介质,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例134所述的介质,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例131-135中任一项所述的介质,其中,该方法还包括将医疗数据标记化以供NLP信息提取模型处理。根据实施例131-136中任一项所述的介质,其中,医疗数据包括电子健康记录(EHR)。根据实施例131-137中任一项所述的介质,其中,该分类具有至少80%的特异性。根据实施例131-138中任一项所述的介质,其中,该分类具有至少80%的F1分数。根据实施例131-139中任一项所述的介质,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例131-140中任一项所述的介质,其中,疾病预测分类器包括逻辑回归分类器。根据实施例131-141中任一项所述的介质,其中,疾病预测分类器包括决策树。根据实施例131-142中任一项所述的介质,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例131-143中任一项所述的介质,其中,该分类包括至少两个类目级别。根据实施例131-144中任一项所述的介质,其中,该分类包括指示器官系统的第一级类目。根据实施例145所述的介质,其中,该分类包括指示器官系统的子类目的第二级。根据实施例131-146中任一项所述的介质,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例147所述的介质,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例148所述的介质,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例149所述的介质,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例149所述的介质,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例148所述的介质,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例148所述的介质,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例148所述的介质,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例131-154中任一项所述的介质,其中,还包括基于该分类来做出医学治疗建议。根据实施例131-155中的任一项的系统,其中,疾病预测分类器使用端到端深度学习来训练。一种计算机实现的系统,其包括:数字处理设备,该数字处理设备包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于生成用于提供医疗诊断的自然语言处理(NLP)分类器的应用的指令的计算机程序,该应用包括:用于提供基于医疗文本构建的词典的软件模块,其中该词典包括与临床信息相关的关键词;用于获得包括电子健康记录(EHR)的医疗数据的软件模块;用于使用NLP信息提取模型从医疗数据提取临床特征的软件模块;用于将临床特征映射到假设的临床查询以生成问题-回答对的软件模块;以及用于使用问题-回答对来训练NLP分类器的软件模块,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。根据实施例157所述的系统,其中,NLP信息提取模型包括深度学习程序。根据实施例157或158所述的系统,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例157-159中任一项所述的系统,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例160所述的系统,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例157-161中任一项所述的系统,该系统还包括将医疗数据标记化以供NLP信息提取模型处理的软件模块。根据实施例157-162中任一项所述的系统,其中,医疗数据包括电子健康记录(EHR)。根据实施例157-163中任一项所述的系统,其中,该分类具有至少80%的特异性。根据实施例157-164中任一项所述的系统,其中,该分类具有至少80%的F1分数。根据实施例157-165中任一项所述的系统,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例157-166中任一项所述的系统,其中,疾病预测分类器包括逻辑回归分类器。根据实施例157-167中任一项所述的系统,其中,疾病预测分类器包括决策树。根据实施例157-168中任一项所述的系统,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例157-169中任一项所述的系统,其中,该分类包括至少两个类目级别。根据实施例157-170中任一项所述的系统,其中,该分类包括指示器官系统的第一级类目。根据实施例171所述的系统,其中,该分类包括指示器官系统的子类目的第二级。根据实施例157-172中任一项所述的系统,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例173所述的系统,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例174所述的系统,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例175所述的系统,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例175所述的系统,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例174所述的系统,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例174所述的系统,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例174所述的系统,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例157-180中任一项所述的系统,其中,还包括基于该分类来做出医学治疗建议。根据实施例157-181中的任一项的系统,其中,疾病预测分类器使用端到端深度学习来训练。一种数字处理设备,该数字处理设备包括:至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括由数字处理设备可执行来创建用于生成用于提供医疗诊断的疾病预测分类器的应用的指令的计算机程序,该应用包括:用于提供基于医疗文本构建的词典的软件模块,其中该词典包括与临床信息相关的关键词;用于获得包括电子健康记录(EHR)的医疗数据的软件模块;用于使用NLP信息提取模型从医疗数据提取临床特征的软件模块;用于将临床特征映射到假设的临床查询以生成问题-回答对的软件模块;以及用于使用问题-回答对来训练NLP分类器的软件模块,其中NLP分类器被配置为当对照至少100个EHR的独立数据集被测试时生成具有至少80%的灵敏度的分类。根据实施例183所述的设备,其中,NLP信息提取模型包括深度学习程序。根据实施例183或183.a)所述的设备,其中,NLP信息提取模型利用包括表示断言类的关键词的标准词典。根据实施例183-185中任一项所述的设备,其中,NLP信息提取模型利用多个模式,每个模式包括特征名称、解剖位置和值。根据实施例186所述的设备,其中,多个模式包括以下中的至少一项:现病史、身体检查、实验室测试、放射学报告和主诉。根据实施例183-187中任一项所述的设备,该系统还包括将医疗数据标记化以供NLP信息提取模型处理的软件模块。根据实施例183-188中任一项所述的设备,其中,医疗数据包括电子健康记录(EHR)。根据实施例183-189中任一项所述的设备,其中,该分类具有至少80%的特异性。根据实施例183-190中任一项所述的设备,其中,该分类具有至少80%的F1分数。根据实施例183-191中任一项所述的设备,其中,以结构化格式提取临床特征,该结构化格式包括采用查询-回答对的数据。根据实施例183-192中任一项所述的设备,其中,疾病预测分类器包括逻辑回归分类器。根据实施例183-193中任一项所述的设备,其中,疾病预测分类器包括决策树。根据实施例183-194中任一项所述的设备,其中,该分类在严重状况和非严重状况之间进行区分。根据实施例183-195中任一项所述的设备,其中,该分类包括至少两个类目级别。根据实施例183-196中任一项所述的设备,其中,该分类包括指示器官系统的第一级类目。根据实施例197所述的设备,其中,该分类包括指示器官系统的子类目的第二级。根据实施例183-198中任一项所述的设备,其中,该分类包括将疾病或病症按类目分成一系列较窄类目的诊断层级。根据实施例199所述的设备,其中,该分类包括选自由以下项组成的组的类目:呼吸道疾病、泌尿生殖疾病、胃肠疾病、神经精神疾病和全身性疾病。根据实施例200所述的设备,其中,该分类还包括将呼吸道疾病细分为上呼吸道疾病和下呼吸道疾病。根据实施例201所述的设备,其中,该分类还包括将上呼吸道疾病细分为急性上呼吸道疾病、鼻窦炎或急性喉炎。根据实施例201所述的设备,其中,该分类还包括将下呼吸道疾病细分为支气管炎、肺炎、哮喘或急性气管炎。根据实施例200所述的设备,其中,该分类还包括将胃肠疾病细分为腹泻、口腔相关疾病或急性咽炎。根据实施例200所述的设备,其中,该分类还包括将神经精神疾病细分为抽动障碍、注意力缺乏多动症、细菌性脑膜炎、脑炎或惊厥。根据实施例200所述的设备,其中,该分类还包括将全身性疾病细分为手足口病、无并发症的水痘、流感、传染性单核细胞增多症、脓毒症或幼儿急疹。根据实施例183-206中任一项所述的设备,其中,还包括基于该分类来做出医学治疗建议。根据实施例183-207中的任一项的系统,其中,疾病预测分类器使用端到端深度学习来训练。

示例

示例1

使用从来自广州妇女儿童医疗中心(中国主要学术医疗转诊中心)的电子健康记录中获得的电子健康记录来执行回顾性研究。

方法

基于从对来自广州妇女儿童医疗中心的567,498个患者的1,362,559次门诊患者就诊获得的电子健康记录来执行回顾性研究。这些记录包括从2016年1月至2017年7月出现在该机构的儿科患者的医生经历。中位数年龄为2.35岁(范围:0至18,95%置信区间:0.2至9.7岁),以及40.11%为女性(表1)。来自增城(Zhengcheng)妇幼医院(中国广东省)的儿科患者的独立群组的11,926个患者就诊记录用于在本AI系统和人类医生之间的比较研究。

该研究由广州妇女儿童医疗中心和增城妇幼医院机构审查委员会和伦理委员会批准,并遵照赫尔辛基宣言。在首次到医院就诊时,获得了所有参与者的同意。患者敏感信息在EHR数据的初始提取期间被移除,并且取消了EHR的识别。数据使用协议经由参与数据收集和分析的所有机构撰写并确认。数据以完全符合HIPAA的方式被存储。

表1中的住院患者疾病患病率从来自广东省政府的官方政府统计报告得来。护理流程表(例如用药记录)未被包括。所有的经历被标注有在国际疾病分类ICD-10编码中的经检查医生确定的主要诊断。

表1.研究群组的一般特征。患者(其经历被记载在电子健康记录(EHR)中并被包括在训练和测试群组中用于分析)的特征。

主要诊断包括55个诊断代码,其包括儿科中的常见疾病并代表宽范围的病状。一些最频繁地经历到的诊断包括急性上呼吸道感染、支气管炎、腹泻、支气管肺炎、急性扁桃体炎、口腔炎和急性窦炎(表1)。记录源于广泛的专业范围,前三个最具代表性的科是普通儿科、儿童专科诊所和小儿呼吸科(表1)。儿童专科诊所由在该机构的私人或VIP患者的特定诊所组成并包括对各种疾病的护理。

(A)NLP模型构建

建立了信息提取模型,其提取在EHR原始数据中的关键概念和相关类目,并将它们转换成在查询-回答对中的重新格式化的临床数据(图4)。重新格式化的图表将相关症状分组到类目中,这通过确切特征来增加透明度,模型依赖于确切特征来做出诊断。模式由三个医生组织和验证,模式包括主诉、现病史、身体检查、和实验室报告。NLP框架有多个组成部分:1)词典构建,2)标记化,3)词嵌入,4)模式构建,以及5)使用长短期记忆(LSTM)架构的句子分类。

出于查询-问答模型构建的目的,通过手动地读取在训练数据中的句子(例如,由超过11,967个句子组成的每个类的约1%)并选择在临床上相关的词来生成词典。关键词由医生组织,并通过使用类似于美国统一医学语言系统(UMLS)的中文医学词典来生成。接下来,基于在委员会认证的内科医生、信息专家和一个健康信息管理专业人员之间的对话,根据医生的临床知识和经验以及专家共识指南来修改词典中的任何错误。重复地进行这个过程,直到没有现病史(HPI)和身体检查(PE)的新概念被发现为止。

模式是医疗知识和医生经验的一种类型的抽象综合,其按照某些规则的形式固定。一旦模式被固定,自然语言处理可以从医疗记录中获得的信息就也是固定的。

模式是一组三个项目。item_name是特征名称。key_location对解剖位置编码。根据查询类型,值由或者自由文本或者二进制数组成。当进行模式匹配时,NLP结果被评估以检查它们是否可以匹配某个模式,并且结果被填写到表格的第四列,而前三列保持不变。

在三位医生的指导下构建了四个信息模式:现病史、身体检查、实验室测试和放射学报告(补充表1)。主诉和现病史共享相同的模式。在模式中包含的信息在补充表1中被示出。

由于缺乏中文的临床领域的公开可得到的社区注释资源,生成了用于词切分的标准数据集。用于标记化的工具是mecab(url:https://github.com/taku910/mecab),本文描述的精选词典作为可选参数。有总共4363个标记。python Tensorflow包中的word2vec用于将100个高维特征嵌入4363个标记。

一个小组数据被组织用于训练文本分类模型。在训练群组(n=3564)和验证群组(n=2619)中的查询-回答对被手动地注释。对于具有二进制回答的问题,0/1被用来指示文本是给出“否”/“是”。例如,给定文本片段“患者发烧”,查询“患者发烧吗?”将被赋予1的值。对于具有分类/数字值的查询,提取预定义的类目自由文本回答,如在模式(补充表1)中所示。

自由文本协调过程由在Luong等人的20151中的基于注意力的LSTM建模。该模型使用tensorflow来实现,并用200,000个步骤来训练。NLP模型应用于被转换成结构化格式(如,机器可读格式)的所有医生笔记,其中每个结构化记录包含查询-回答对中的数据。

超参数没有被调整,且替代地,超参数的默认的或者常用的设置用于LSTM模型。每层总共使用128个隐藏单元和2层LSTM单元连同来自Tensorflow的0.001的默认学习率一起被使用。

(B)分级多标签诊断模型构建

在标签之间的关系由一个美国委员会认证的医生和两个中国委员会认证的医生组织。基于解剖学的分类用于诊断层级,因为这是当人类医生评估患者时制定鉴别诊断的常用方法。首先,诊断被分离到一般器官系统(例如呼吸、神经、胃肠等)内。在每个器官系统中,存在到子系统(例如上呼吸道和下呼吸道)的细分。单独的类目被标记为“全身性的”,以便包括影响多于一个器官系统和/或在性质上更全身性的疾病(例如单核细胞增多症、流感)。

数据被分为由总就诊记录的70%组成的训练群组和由剩余的30%组成的测试群组。然后,通过为测试群组和训练群组构建查询-回答成员资格矩阵,将特征空间编码为一次就诊。

对于每个中间节点,基于直接子项目来训练多类线性逻辑回归分类器。子项目的所有子类被折叠到子级别的水平。使用Sklearn类逻辑回归来训练一个分类器与其余多类分类器。还应用11(Lasso)的正则化惩罚,模拟医生常常依赖于有限数量的症状来诊断的情况。如上所述,输入在查询-回答对中。为了进一步评估模型,还生成接收器操作特性-曲线下面积(ROC-AUC)(补充表5),以评估我们的多类线性逻辑回归分类器的灵敏度和特异性。分类模型的鲁棒性也使用5折交叉验证进行评估(补充表6)。如上所述,输入是在查询-回答对中。

补充表5.在每个分类组中的每个分类类别的ROC-AUC。多分类诊断模型由二进制分类器组成,且因此也可以根据ROC-AUC进行评估。

补充表6.逻辑回归分类器在具有5折交叉验证的诊断层级的多个级别处的诊断性能的说明。在每行上列出每个诊断级别的分类性能。在每列中列出每折的分类性能。

特征成员资格矩阵的平均分布使用皮尔逊相关系数(Pearson correlation)被关联。分级聚类通过具有默认参数的python seaborn包中的clustermap函数完成。

为了评估聚类结果的鲁棒性(图1),首先将数据对半地分成训练集和测试集,并独立地为训练数据和测试数据重新生成两个群集图。在训练群集图和测试群集图两者中的叶子通过在相对应的高度处独立地切割相关树状图被分配到十个类。在训练数据和测试数据之间的类分配一致性通过经调整的Rand指数(ARI)进行评估。更接近1的ARI值指示在训练类分配和测试类分配之间的更高的一致性,而更接近0的ARI指示接近空背景。观察到在训练类分配和测试类分配之间具有0.8986的高ARI,表明群集图是稳健的。

使用来自中国广东省增城妇幼医院的儿科患者的独立群组中的11,926个记录来进行在当前AI系统与人类医生之间的比较研究。在熟练级别和临床实践经验年限递增的五个组中的20个儿科医生(在每个级别中有4个医生)被选择来以人工方式将11,926个记录进行评分。这五组是:有多于三年实践经验的高级住院医生、有八年实践经验的初级医生、有15年实践经验的中级医生、有20年实践经验的主治医生、有多于25年实践经验的高级主治医生。每组中的医生从这个独立的验证数据集随机地读取2981个临床笔记的子集,并被分配诊断。每个患者记录由四个医生(在每个医生组中有一个医生)随机地分配和评分。在前15个诊断类目中的每个诊断类目中每个医生组的诊断性能使用F1分数进行评估(表4)。

结果

首先,诊断系统在缺乏具有人类输入的定义分类系统的情况下分析EHR。在没有预定义标注的情况下,计算机仍然能够检测临床特征的趋势,以生成相对灵敏的分组结构(图1)。在若干实例中,计算机将具有相关的ICD-10代码的诊断聚类在一起,说明该计算机能够检测在与人类定义的分类系统一致的临床特征的趋势。然而,在其他实例中,它将相关诊断聚类在一起,但是不包括该群集中的其他非常类似的诊断。例如,它将“哮喘”和“咳嗽变异型哮喘”聚类到相同群集内,但它不包括“急性加重型哮喘”,而是被分组为“急性鼻窦炎”。若干类似的肺炎相关诊断代码也跨越若干不同的集群散布,而不是被分组在一起。然而,在许多实例中,即使在适当的位置上没有任何定向标注或分类系统,其也成功地建立了相关诊断的广泛分组。

总共6,183个图表使用由具有多于15年临床实践经验的高级主治医生在方法章节中描述的模式手动地进行注释。然后,3,564个手动地注释的图表被用于训练NLP信息提取模型,以及剩余的2,619个图表用于验证该模型。信息提取模型总结了代表临床数据的关键概念类别(图2)。这个NLP模型利用深度学习技术(见方法)来使将自由文本EHR笔记到标准化词典和临床特征的注释自动化,允许对诊断分类的进一步处理。

对于任何给定诊断在训练群组中包括的记录的中位数为1,677,但是根据特定的诊断存在宽的范围(4到321,948)。类似地,对于任何给定诊断在测试群组中的记录的中位数是822,但是记录的数量也根据诊断而改变(范围:3到161,136)。

NLP模型在EHR医生笔记(表2)的注释中实现极好的结果。跨越临床数据的所有类目,例如主诉、现病史、身体检查、实验室测试和PACS(图片归档和通信系统)报告,F1分数超过90%,除了在一个实例中以外,该实例是针对在实验室测试中检测到的类目变量。NLP模型的回想率,对于身体检查达到最高(对于类目变量为95.62%,对于自由文本为99.08%),以及对于实验室测试达到最低(对于类目变量为72.26%,对于自由文本为88.26%)。NLP模型的精度,对于主诉最高(对于类目变量为97.66%,对于自由文本为98.71%),以及对于实验室测试最低(对于类目变量为93.78%,以及对于自由文本为96.67%)。总的来说,NLP标注的精度(或阳性预测值)略大于回想率(灵敏度),但该系统展示了在所有领域上的整体强大性能(表2)。

表2.自然语言处理(NLP)模型的性能。基于深度学习的NLP模型在基于回想率、精度、F1分数和精确匹配的实例来注释医生-患者经历方面的表现在这里针对临床数据的每个类目被详述。

在EHR笔记使用深度NLP信息提取模型被注释之后,逻辑回归分类器被用于建立分级诊断系统。诊断系统主要基于解剖分区,例如器官系统。这意味着模仿在医生推理中使用的传统框架,其中可以针对鉴别诊断的制定来采用基于器官的方法。逻辑回归分类器用于允许相关临床特征的直接识别和易于建立诊断分类的透明度。

诊断系统的第一级将EHR笔记按类目分为广泛的器官系统:呼吸道、胃肠、神经精神、泌尿生殖系统和全身性疾病(图3)。这是诊断层级中的第一级分离。然后,在每个器官系统内,在适用的情况下做出进一步的子分类和分级层。在该群组中的大多数诊断落到呼吸系统内,呼吸系统进一步分为上呼吸道状况和下呼吸道状况。这些又进一步分为更特定的解剖分区(例如喉炎、气管炎、支气管炎、肺炎)(见方法)。分类器的性能在诊断层级的每一级处被评估。简而言之,该系统被设计为评估每个患者记录的所提取的特征,并将该组特征分类为沿着该决策树的级别的诊断特异性的更精细级别,类似于人类医生可以如何评估患者的特征以基于合并到信息模型中的相同临床数据来实现诊断。由医生标记为具有“发烧”或“咳嗽”的主要诊断的经历被消除,因为这些表示症状而不是特定的疾病实体。

跨越诊断层级的所有级别,该诊断系统在基于由NLP信息模型提取的临床特征的所预测的主要诊断和由检查医生指定的主要诊断之间实现了高准确度水平(表3)。对于第一级(其中诊断系统将患者的诊断分类为广泛的器官系统),中位数准确度为0.90,范围从对于胃肠疾病的0.85到对于神经精神障碍的0.98(表3a)。甚至在诊断规范的更深级别处,该系统也保持强大的性能水平。举例而言,在呼吸系统中,在诊断层级中的下一个分区在上呼吸道状况和下呼吸道状况之间。该系统在预测诊断和主要诊断之间实现上呼吸道疾病的0.89和下呼吸道疾病的0.87的准确度(表3b)。当将上呼吸道子系统分为更特定的类目时,中位数准确度为0.92(范围:急性喉炎的0.86到鼻窦炎的0.96,表3c)。急性上呼吸道感染是在群组当中的单个最常见的诊断,且该模型能够准确地预测在95%的经历中的诊断(表3c)。在呼吸系统中,哮喘被单独地归类为它自己的子类目,且准确度范围从咳嗽变异型哮喘的0.83到不明急性加重型哮喘的0.97(表3d)。

表3.逻辑回归分类器在诊断层级的多个级别处的诊断性能的说明。A)在诊断层级的第一级处,该框架准确地分辨在儿科患者的这个大的群组中的器官系统之间的广泛解剖分类。例如,在与如由人类医生确定的主要呼吸诊断的315,661个经历当中,计算机能够正确地预测在它们中的295,403个(92%)的诊断。B)在呼吸系统中,在诊断层级的下一级处,该框架可以分辨上呼吸道状况和下呼吸道状况。C)在上呼吸系统中,可对急性上呼吸道感染、鼻窦炎和喉炎做出进一步的区分。急性上呼吸道感染和鼻窦炎是在整个群组中的最常见的疾病,且诊断准确度在两个实体中超过95%。D)哮喘被归类为在呼吸系统中的单独类目,且诊断系统准确地区分开无并发症哮喘、咳嗽变异型哮喘和急性加重型哮喘。

表3A

表3B

表3C

表3D

除了在呼吸系统中的强大性能之外,诊断模型还在其他器官子系统中可同等地表现(见补充表1-4)。特别地,分类器实现在全身性疾病的预测诊断和主要诊断之间的非常高水平的关联,对于传染性单核细胞增多症有0.90的准确度,对于玫瑰疹(第六病)有0.93的准确度、对于流感有0.94的准确度,对于水痘有0.93的准确度,以及对于手足口病有0.97的准确度(补充表4)。诊断框架对于有高发病率的可能性的疾病(例如细菌性脑膜炎)也实现了高准确度,对此在计算机预测的诊断和医生指定的诊断之间的准确度为0.93(补充表3)。

补充表1.在胃肠系统中的诊断性能。A)分类器跨越在该儿科群组中的胃肠疾病的类目下分组的多个实体表现高准确度。B)在口腔相关疾病类目中,甚至对于非常特定的实体,分类器也展示了与医生指定的诊断的高水平的关联。

补充表1A

补充表1B

补充表2.在呼吸系统子组中的诊断性能。a)分类器可以准确地区分开急性支气管炎和细支气管炎,以及b)不同类型的肺炎,甚至在非常特定的诊断中也展示高性能。

补充表2a

补充表2b

补充表3.在神经精神系统中的诊断性能。分类器跨越神经精神系统中的疾病个体通常表现高准确度。“惊厥”包括癫痫病和热性惊厥两者,且性能可能受样本量较小的影响。

补充表4.在全身性病症当中的诊断性能。包括了对影响多个器官系统或对产生全身性症状的这些诊断。

为了深入了解诊断系统如何生成预测诊断,我们识别出驱动诊断预测的关键临床特征。对于每个特征,我们识别出它来源于什么类目的EHR临床数据(例如现病史、身体检查等)以及它是否被编码为二进制分类或类目。在诊断系统中使用的预测影响的可解释性允许评估预测是否基于临床相关特征。

例如,使用肠胃炎为例,诊断系统将词例如“腹痛”和“呕吐”识别为关键相关临床特征。二进制分类器被编码,使得特征的存在被表示为“1”,以及特征的缺乏被表示为“0”。在这种情况下,“呕吐=1”和“腹痛=1”被识别为主诉和现病史两者的关键特征。在身体检查中,注意到“腹部压痛=1”和“皮疹=1”与这个诊断相关。有趣地,“可触及的胞块=0”也是相关的,意味着被预测患有肠胃炎的患者通常没有可触及的胞块,这与人类临床经验一致。除了二进制分类器以外,在模式中还有标称类别。具有大于39摄氏度的文本条目的“发烧”的特征也作为驱动对肠胃炎的诊断的相关临床特征出现。实验室和影像学特征没有被识别为强有力地驱动对这个诊断的预测,也许反映肠胃炎的大多数病例在没有广泛的辅助测试的情况下被诊断出的事实。

使用来自儿科患者的独立群组的11,926个记录来在AI模型和人类医生之间的诊断的表现进行比较。在熟练级别和临床实践经验年限递增的五个组中的20个儿科医生(对于描述见方法章节)将11,926个记录手动地进行评分。每组中的医生从这个独立的验证数据随机地读取原始临床笔记的随机子集,并被分配诊断。接下来,在前15个诊断类目中的每个诊断类目中的每个医生组的诊断表现使用F1分数进行评估(表4)。我们的模型达到高于两个初级医生组但低于三个高级医生组的平均F1分数。这个结果暗示,这个AI模型可以潜在地在诊断中帮助初级医生。

表4.在我们的AI模型和医生之间的诊断表现的说明。F1分数用于评估跨越在模型与两个初级医生组和三个高级医生组(列,对于描述见方法章节)之间的不同诊断组(行)的诊断表现。观察到该模型表现得比初级医生组更好,但比三个有经验的医生组稍差。

讨论

在这个研究中,产生了基于人工智能(AI)的自然语言处理(NLP)模型,其可以处理来自在电子健康记录(EHR)中的医生笔记的自由文本,以准确地预测在大的儿科群体中的主要诊断。该模型最初是通过一组笔记训练的,这些笔记由医生和信息学研究人员的专家团队手动地注释。一旦被训练后,NLP信息提取模型使用深度学习技术来使来自中国的单个机构的超过140万次经历(儿科患者就诊)的笔记的注释过程自动化。在有由深度NLP模型提取和注释的临床特征的情况下,逻辑回归分类器被用于对每次经历预测主要诊断。该系统实现跨越所有器官系统和子系统的优良性能,当与由检查医生确定的初始诊断相比时展示了关于其预测的诊断的高水平的准确度。

该诊断系统对两个重要类目的疾病展示了特别强的性能:在感兴趣群体中经常经历的常见疾病以及危险或甚至可能危及生命的疾病,例如急性加重型哮喘和脑膜炎。能够预测常见诊断以及危险诊断对于任何诊断系统在临床上是有用的是至关重要的。对于常见的疾病,存在大的数据池来训练模型,因此该诊断系统被预期用更多的训练数据展示更好的性能。因此,本文描述的诊断系统的性能对于急性上呼吸道感染和鼻窦炎的常见状况特别强大,急性上呼吸道感染和鼻窦炎在机器预测的诊断和人类产生的诊断之间有0.95的精确度。相反,危险状况往往不太常见,且将具有较少的训练数据。尽管如此,任何诊断系统的关键目标是对这些危险疾病达到高准确度,以便促进患者安全性。本诊断系统能够在若干疾病类目中实现这一点,如对于急性加重型哮喘(0.97)、细菌性脑膜炎(0.93)和跨越与全身性疾病(例如水痘(0.93)、流行性感冒(0.94)、单核细胞增多症(0.90)和玫瑰疹(0.93))相关的多个诊断的性能所示。这些都是可能有潜在地严重的和有时危及生命的后遗症的疾病,所以准确的诊断具有最大的重要性。

除了它的诊断准确度之外,该系统还以若干其他关键长处为特征。一个长处是它允许用于建立诊断的临床特征的可视化。在医学中的基于AI的方法的关键忧虑是分析的“黑匣子”性质,但在这里,本方法提供关于每个诊断的关键临床特征的识别。这个透明度允许确认由基于深度学习的模型使用的特征在临床上是相关的,并且与人类医生识别为用于诊断的重要区别或甚至病理特征的东西一致。这个研究的另一个长处是海量数据被使用,在分析中包括了超过140万条记录。大量经历有助于诊断系统的鲁棒性。此外,另一个长处是在该模型中的数据输入被协调。这表示对其他技术的非常规改进,例如将属性映射到固定格式(FHIR)。协调的输入以一致的方式描述数据,并使用机器学习功能来提高数据的质量。与以前报告的其他NLP框架相比,透明度、大量数据以及数据输入的协调的这些长处是这个模型的关键优点。

我们的使临床数据概念和特征的提取自动化以便于诊断预测的总体框架可以跨越各种各样的临床应用被应用。当前研究对诊断分类主要使用了基于解剖或器官系统的方法。这种广泛的一般化方法常常在鉴别诊断的制定中被医生使用。然而,本公开可以被修改以执行病理生理或病因方法(例如,“感染性的”与“炎性的”与“创伤的”与“肿瘤的”等比较)。诊断层级决策树的设计可以被调整到最适合于临床情况的程度。

总之,这个研究描述了从自由文本EHR笔记提取临床相关信息以准确地预测患者的诊断的AI框架。NLP信息模型能够跨越多个类目的临床数据以高回想率和高精度执行信息提取,并且当用逻辑回归分类器进行处理时能够实现在预测诊断和由人类医生确定的初始诊断之间的高关联性。这种类型的框架对于简单化患者护理(例如在对患者分诊并区分开可能患有普通感冒的患者与具有更严重的状况需要紧急干预的患者时)是有用的。此外,这个AI框架可以用作医生的诊断辅助器,并在诊断不确定或复杂的情况中提供帮助,因而不仅模仿医生推理,而且实际上也增强医生推理。尽管这个影响可能在与总人口相比而言健康护理提供者相对短缺的地区最明显,但健康护理资源在世界范围内需求高,且这样的系统的好处可能是普遍的。

示例2

示例1的研究是在包括非中国人和非儿科患者的患者群体中进行的。因为示例1的研究聚焦于儿科患者,其中出现了大多数患者为了急性护理就诊,纵向分析随着时间的推移是较不相关的。然而,因为当前研究包括非儿科患者,所以单个患者在单个时间线内的各种经历被整理以产生额外的见解,特别是对于成年患者或随着时间的推移需要长期治疗的患有慢性病的患者。因此,为了使用于训练模型的数据的源多样化的目的,当前研究包括非中国患者。

生成AI框架以从自由文本EHR笔记提取临床相关信息,以准确地预测患者的诊断。NLP信息模型能够跨越多个类目的临床数据以高回想率和高精度执行信息提取,并且当用逻辑回归分类器进行处理时能够实现在预测的诊断和由人类医生确定的初始诊断之间的高关联性。

示例3

各种偏差可能给开发可靠和可信的诊断模型带来问题。可以采取不同的措施来处理在模型(例如示例1的模型)中的潜在偏差。例如,来自中国的不同地区的不同医院可能使用不同的方言,或者使用不同的EHR系统来构造数据,这在模型仅在来自广东的医院中被训练时可能使NLP模型混淆。词嵌入的其他模型可以用来减少偏差。例如,已知word2vec在词嵌入构造期间在词计数中经历离群效应,这可以通过采用sense2vec来被避免。还评估了在诊断模型中使用LSTM-RNN相对于采用条件随机场神经网络(CRF-RNN)的性能。

示例4

合并在示例1-2中描述的机器学习模型或算法的AI辅助诊断系统可以被实现以在几个方面改善临床实践。首先,它可以帮助分诊过程。例如,当患者来到急诊科或紧急护理环境时,他们的生命体征、基本病史和由护士或中级提供者获得的身体检查可被输入到框架中,允许算法生成预测的诊断。这些预测的诊断可以帮助优先考虑哪些患者应该首先被医生出诊。患有相对良性或非紧急状况的一些患者甚至也许能够完全绕过医生评估,和转诊常规门诊患者随访来代替紧急评估。这个诊断预测将有助于确保医生的时间专用于具有最高和/或最紧急的需要的患者。通过对患者更有效地分诊,急诊或紧急护理的等待时间可以减少,允许在有限资源的健康护理系统中提高获得护理的机会。

该框架的另一个潜在应用是帮助医生诊断患者患有复杂或罕见状况。在制定鉴别诊断时,医生常常动用他们自己的经验,且因此鉴别可能偏向于他们最近看到的或他们过去经常经历到的疾病。然而,对于患有复杂或罕见疾病的患者,医生可能对该特定疾病没有丰富经验。在这些情况中,误诊可能具有明显的可能性。利用这个基于AI的诊断框架利用了由来自数百万患者的数据产生的力量,并且不太倾向于单独医生的偏向。以这种方式,医生可以使用AI生成的诊断来帮助扩大他/她的鉴别,并考虑可能没有立即明显的诊断可能性。

实际上,在各种临床环境中在本文描述的模型的实现方式需要在感兴趣的群体中的验证。不间断的数据需要被收集并用于算法的持续训练,以确保最好适合于本地患者群体的需要。基本上,可以建立本地基准以建立参考标准,类似于临床实验室如何建立基于血液的生物标志物的本地参考标准。

示例5

摘要

人工智能(AI)表现为改变医疗护理和患者管理的强大工具。在这里,我们使用自然语言处理(NLP)和深度学习技术来创建端到端AI平台以从成人和儿科电子健康记录(EHR)提取相关临床信息。该平台应用于来自1,805,795个成人和儿科患者的260万个医疗记录以训练和验证该框架,其捕获常见的儿科和成人疾病分类。我们在独立的外部群组中验证我们的结果。在比较AI和人类医生诊断的独立评估中,AI实现了与人类医生同等的高诊断准确度,并可以通过防止不必要的住院并降低成本和再入院率来改善健康护理服务。因此,本研究为AI系统在普通人类疾病的准确诊断和分诊中的可行性提供概念的证明,增加了医院效率,导致改善的临床结果。

引言

在过去的几十年里,计算机科学中的进步,通过引入电子健康记录(EHR),满足了对结构化和有组织的临床数据的长期存在的需要。EHR代表包含各种临床信息的电子数据点的大规模存储库。目前的优点包括临床文件的标准化、在健康护理提供者之间的沟通的改善、对临床记录的访问的便利性以及系统性错误的总体减少。考虑到EHR的安全性、有效性和提供更高护理标准的能力,医学界在过去十年中一直在向EHR过渡,但它们包含的信息的储存库一直未被利用。随着数据挖掘的出现,给定它们找到在许多临床变量和结果之间的关联性的能力,EHR表现为机器学习算法的有价值的资源。EHR不仅包含主要诊断和治疗计划,而且还包含有可能在个体和群体水平两者处指导疾病管理并改善结果的其他信息形态,例如患者人口统计资料、健康风险因素和家族史。

目前的医疗实践常常使用假设演绎推理来确定疾病诊断。在典型的临床经历中,患者向医生提出通常由具有发病史的一些症状组成的主诉。这个信息“输入”然后提示医生适当地问有针对性的问题的子集,这进一步探索了主诉并帮助缩小鉴别诊断。问题的每个子集将取决于从患者的先前回答提供的信息。额外的输入(例如既往病史、家族史、身体检查发现、实验室测试和/或影像学检查)充当独立变量,医生评估独立变量以决定或排除某些诊断。虽然医生可以权横少量变量,但AI算法有可能快速和准确地评估数百个变量的概率效应以达成可能的诊断。这将为医生提供在健康护理的领域中的宝贵帮助。机器学习方法已经展示了在基于影像学的诊断中、特别是在放射学、皮肤病学和眼科学中的功效。我们设计了基于机器学习人工智能(AI)的平台以通过自然语言处理从EHR临床条目提取相关特征,并以“端到端”方式在成人和儿科患者群体两者中达到可能的诊断。该平台实现了跨越各种疾病谱的高诊断效率,同时展示了与富有经验的医生同等的性能。

结果

来自1,085,795个患者(223,907个成人的,861,888个儿科的)的总共2,612,114个EHR记录(380,665个成人的EHR记录;2,231,449个儿科的EHR记录)被收集用于分析。广州医科大学第一附属医院(GMU 1)为了机器学习和内部验证目的而提供来自186,745个成人患者的333,672个EHR。广州妇女儿童医疗中心(GWCMC1)为了机器学习和内部验证目的而提供来自552,789个门诊患者和住院患者儿科就诊的1,516,458个EHR。因而产生的AI平台在外部对涉及来自广州医科大学第二附属医院(GMU 2)的37,162个成人患者的46,993个EHR进行了验证。对来自在不同城市(珠海市)中的第二地点的广州妇女儿童医疗中心(GWCMC2)的339,099个儿科患者的714,991个EHR执行在儿科群体中的外部验证。跨越成人群组的加权平均年龄为54.99岁(SD:+/-17.28;范围:18-104;女性50.30%)(表7A)。跨越儿科群组的加权平均年龄为3.28岁(SD:2.75;范围:0到18;女性41.10%,表7B)。表8A-8B示出了在研究群组中的相应的成人和儿童疾病分类的分项百分比。对于所有经历的情况,医生通过使用国际疾病分类ICD-10代码(世界卫生组织)来将主要诊断分类,ICD-10代码然后根据基于器官的系统被分组(见方法)。12种成人和6种儿科基于器官的诊断分类包含跨越成人和儿童群组的宽范围的病状。癌症、呼吸道和心血管疾病是在成人中的最频繁地经历到的诊断(表8A),而耳鼻喉、呼吸道和胃肠疾病最频繁地出现在儿科群体中(表8B)。

表7A|成人群组的一般特征。跨越所有群组的患者的特征在训练内部/外部验证时被使用。就诊经历被记载在电子健康记录(EHR)中。

表7B|儿科群组的一般特征。跨越所有群组的患者的特征在训练内部/外部验证时被使用。就诊经历被记载在电子健康记录(EHR)中。

表8A|跨越成人群组的主要诊断的概述。按跨越成人群组的百分比细分主要基于器官的诊断分类。为了训练和验证目的从自广州医科大学第一附属医院(GMU 1)和广州医科大学第二附属医院(GMU 2)获得的电子健康记录(EHR)实现自由切分文本。

表8B|跨越儿科群组的主要诊断的概述。按跨越儿科群组的百分比细分主要基于器官的诊断分类。为了训练和验证目的从自单独的广州妇女儿童医疗中心群组(GW CMC 1和GWCMC2)获得的电子健康记录(EHR)实现自由切分文本。

使用端到端深度学习来构建诊断分类器(图5)。该模型审查每次患者就诊的下面的三个参数;主诉、现病史和图片归档与通信系统(PACS)报告。假定所有EHR从中文群组获得,由于分离文本的有意义的单元的间距的缺乏,文本切分在中文NLP中是必不可少的。因此,综合中文医学词典和Jieba(开源通用中文词/短语切分软件)被应用于每个记录,以便提取相关医疗文本(图9)。然后切分词被馈送到词嵌入层,后面是双向长短期记忆(LSTM)神经网络层。通过组合LSTM层的正向和反向输出来选择诊断(图5)。该模型被端到端地训练以获得所有层的最佳模型参数而除了初始词切分之外没有任何特征工程设计。没有临床文本特征的劳动密集型标注对训练该模型是必需的。模型设计和论证的细节在方法中被给出。

内部验证实现了跨越所有一般疾病类别的高准确度。成人的平均诊断效率在GMU1内部验证测试中为96.35%且范围从93.17%(神经精神疾病)到97.84%(泌尿系统疾病)(图6A和表9A)。成人分类的微平均ROC的AUC为0.996(图6B)。儿科的平均诊断效率在GW CMC1内部验证测试中为91.85%,且范围从83.50%(耳鼻喉疾病)到97.80%(神经精神疾病)(图6C和表9B)。儿科分类的微平均ROC的AUC为0.983(图6D)。在图10中可以看到随着时间的过去的正确分类百分比和模型损失。为了进一步探索模型的准度,在成人和儿童群组两者中执行在上呼吸道和下呼吸道疾病之间的二元比较。该模型对成人实现了91.30%的平均准确度(表10A),以及对儿科患者实现了86.71%的平均准确度(表10B)。接下来,我们评估我们的AI模型是否可以区分在四种常见的上呼吸道疾病和四种常见的下呼吸道疾病之间的表型。多类比较示出了高准确度,其中对常见上呼吸道疾病和下呼吸道疾病的平均诊断效率分别为92.25%和84.85%(表11A-11B)。最高上呼吸道疾病和下呼吸道疾病诊断分别是具有96.30%和90.90%的准确度的鼻窦炎和哮喘。其他呼吸道疾病显示高诊断效率,且可在表11A-11B中被看到。我们还看到在来自肿瘤科的成人患者当中的恶性肿瘤和良性肿瘤之间分类时的93.30%的高平均准确度(表12),表明我们的AI模型对在诊断过程中帮助医生是有用的。

表9A|在成人疾病的基于器官系统的诊断分类时的端到端模型性能

表9B|在儿科疾病的基于器官系统的诊断分类时的端到端模型性能

表10A|在将成人中的上呼吸道疾病与下呼吸道疾病分类时的端到端模型性能

表10B|在将儿科中的上呼吸道疾病与下呼吸道疾病分类时的端到端模型性能

表11A|在诊断常见儿科上呼吸道疾病时的端到端模型性能

表11B|在诊断常见儿科下呼吸道疾病时的端到端模型性能

表12|在诊断恶性肿瘤与良性肿瘤时的模型性能

外部验证实现与内部验证同等的精度,因而确认AI模型的诊断能力。在诊断常见疾病类目时,成人的平均诊断效率在GMU2外部验证测试中为94.31%,且范围从81.39%(眼科疾病)到97.17%(神经精神疾病)(图7A和表9A)。成人分类的微平均ROC的AUC为0.993(图7B)。儿科的平均诊断效率在GWCMC2外部验证测试中为86.95%,且范围从79.10%(耳鼻喉疾病)到97.40%(神经精神疾病)(图7C和表9B)。儿科分类的微平均ROC的AUC为0.983(图7D)。

我们设法通过比较导致成人群体的误诊预测的关键区别词和短语的出现来表征由端到端AI模型错误分类的病例。我们分析临床文件文本,以通过在每个常见疾病诊断的文件内和跨越所有疾病针对每个关键词评估术语-频率-逆-术语-频率(TF-IDF)分数(引用??)来提取每个常见疾病的关键词。独立于诊断模型及其诊断来完成评估。总共3,679个关键词被评估。在具有最高TF-IDF分数的那些关键词当中,医生为在每种常见状况中独特地明显不同的12种常见成人疾病中的每一种手动地选择关键词的平均值13.83(表13)。从这些选定的关键词中,我们通过一组纳入标准来分析由我们的端到端AI模型错误分类的临床文件,以检查它们是否包含关于与模型诊断的疾病相比的基础真实疾病的足够信息。如果文件满足纳入标准之一,则文件被标记为包含诊断的不充分或模糊的信息(见方法)。错误分类的文件中的91.78%(335/365)被标记(表13)。分析显示由框架错误分类的EHR主要是由于与基础真实诊断状况相关的信息模糊或者缺失。

表13|作为在疾病分类和诊断中的临床上重要的特征的AI标注文本的示例

我们先前开发了生成在儿科患者中的诊断的AI模型。这个先前的模型遵循由医生组织的基于查询-回答的方法以复制临床设置。从EHR提取自由文本以创建临床特征或“回答”,其然后按照分级方法手动地映射到假设的临床查询。然后,通过基于注意力的LSTM系统使用Tensorflow(Google Brain)来馈送这些对。该模型用200,000个步骤进行训练,并达到高准确度,然而需要基础真实临床特征的广泛标注,以用于充分的训练。当前模型采用端到端方法,其取消了基础真实临床特征的劳动密集型标注的需要。在这里,我们在区分上呼吸道疾病与下呼吸道疾病的公共任务中比较来自先前的AI模型与当前端到端AI模型的结果,并发现结果几乎是相同的(图8A-B,表14A)。当评估每个模型在诊断常见疾病表型方面的精度时,端到端AI模型的准确度略高于使用专家注释的临床特征的传统模型。与当前模型的准确度92.25%相比,在诊断常见儿科上呼吸道疾病时的平均诊断效率为89.43%(图8C-D,表14B)。与当前模型的准确度84.85%相比,在诊断常见儿科下呼吸道疾病时的平均诊断效率为83.40%(图8E-F,表14C)。这表明给定足够的数据,端到端AI模型可以隐含地学习临床特征而不需要大量标注工作。

表14A|在对上呼吸道疾病和下呼吸道疾病分类时的传统模式与当前端到端方法的比较

表14B|在诊断常见上呼吸道疾病时的传统模式与当前端到端方法的比较

表14C|在诊断常见下呼吸道疾病时的传统模式与当前端到端方法的比较

我们进一步比较了在AI模型和具有可变的经验水平的医生之间的诊断效率。对由10,009个记录组成的成人患者的相同内部验证测试(GMU1)在总共十个内科医生和外科医生(三个住院医生、四个初级医生、三个主任医生)之间被划分。医生审查相对应的医疗记录并提出诊断,其然后与原始基础事实诊断比较。将这些结果与在成人疾病中的AI的性能进行比较。医生达到88.13%(范围:86.08%至92.40%)的总F分数平均值。住院医生和初级医生达到86.66%的总F分数平均值;主任外科医生达到91.59%的总F分数平均值;AI模型达到95.98%的总F分数平均值(表15)。跨越十二个主要疾病分类类目,AI模型在除眼科疾病之外的所有疾病类目中胜过医生;与AI模型的准确度97.60%相比,医生以98.17%的准确度对眼科疾病正确地分类。当评估11,926个儿科记录时,模型性能与儿科医生可比较。初级医生达到83.9%的总F分数平均值;主任外科医生达到91.6%的总F分数平均值;AI模型达到87.2%的总分数平均值。因此,跨越十二种疾病分类,AI模型胜过初级医生。

表15A|医生与AI模型的比较。我们使用F1分数来评估在我们的模型与三个住院医生组、四个初级医生组和三个高级医生组(列,对于描述见方法章节)之间跨越不同诊断组(行)的诊断表现。我们观察到,我们的模型表现得比所有医生组更好。

表15B|在我们的AI模型和儿科医生之间的诊断性能的说明。我们使用F1分数来评估在我们的模型以及两个初级医生组和三个高级医生组(列,对于描述见方法章节)之间跨越不同诊断组(行)的诊断表现。我们观察到,我们的模型表现得比初级医生组更好,但比三个有经验的医生组稍差。

我们接下来进行研究以解决医院管理效率。我们对最常见的疾病类目中AI和医生诊断是一致的与AI和医生诊断是不一致的两个组就就诊时间、费用和入院率进行了比较。我们显示了在这两组中有明显的差异。总的来说,在不一致组中的患者有更多的就诊、更高的费用以及更高的入院率(表16),指示AI在帮助医院管理方面的有益效果。

表16|AI可以提高医院管理效率。我们分析了构成最频繁的医院就诊的7种疾病类目。匹配:诊断在AI和儿科医生之间是一致的;错配:诊断在AI和儿科医生之间是不一致的。

为了构建朝着诊断的方向引导患者的系统,确定了导致准确的诊断预测的关键驱动词和编码参数(即二进制或按类目分的分类)。

首先,确定短的主诉陈述足以使该框架准确地识别患者的诊断,表明该框架可以潜在地被构建到可以提供对这些常见疾病的初步评估的基于文本的自动分诊系统。

给定从应用于可用临床文件的词切分方法中识别出的关键词,在每个常见疾病诊断的文件内和跨越所有状况评估每个关键词的术语-频率-逆术语-频率(TF-IDF)分数。独立于诊断模型及其诊断来完成评估。总共3,679个关键词被评估(表13)。在具有最高TF-IDF分数的那些关键词当中,医生为12种常见成人疾病中的每一种手动地选择了平均13.83个关键词,这些关键词在每种常见病中都是独特的(表13)。

从这些选定的关键词中,我们通过一组纳入标准来分析由我们的端到端AI模型错误分类的临床文件,以检查与模型诊断的状况相比它们是否包含有关基础真实状况的足够信息。如果文件满足纳入标准之一,则文件被标记为包含诊断的不充分或模糊的信息(见方法)。错误分类的文件的91.78%(335/365)被标记。分析显示由框架错误分类的EHR主要是由于与基础真实诊断状况相关的信息模糊或者缺失。

讨论

监督机器学习在医疗领域中是高度可应用的且目前未被充分利用。然而以前的学习系统需要以单调、分步顺序训练参数,而端到端学习以同时方式训练参数,该同时方式自动映射在输入和输出之间的关系。如所示,我们的端到端方法在诊断特定呼吸道疾病方面实现与传统模型同等的结果,而不需要基础真实临床特征的劳动密集型注释。作为访问在医生咨询笔记中提供的大量变量的手段,我们使用端到端方法来链接来自EHR的自由文本以经由基于NLP的深度学习混合来准确地预测主要疾病诊断。为了训练目的,来自专家医生和信息学研究人员的注释通过AI模型进行处理,作为提取重要临床特征的手段。然后,该AI模型应用于来自中国的几个主要转诊医院的超过261万次经历的医生笔记,以将有意义的临床特征提取到深度学习分类器中。当与原始评估相比时,我们的模型在所有常见成人和儿科疾病的疾病分类和预测疾病诊断方面达到高水平的准确度,并涵盖宽范围的疾病类别。此外,错误分析显示,由我们的AI系统错误分类的记录主要是由于来自记录的信息缺少或模糊。因此,在AI和最终诊断之间的差异可以表明需要提高在EHR中的记录的报告质量。

在跨越全球的健康护理方面的主要挑战之一是不断增加的患者群体以及有限的医疗资源。在服务于世界人口的50%的前18个国家中,平均咨询时间为5分钟。在孟加拉国,例如平均咨询时间为48秒。研究显示,人的处理能力常常在四个变量左右达到稳定水平,因此从患者获得相关临床信息并在几分钟内基于多个变量推断出诊断结果,其是容易出错的。深度学习可以在相对短的时间范围轻松提取在多个维度上数百个变量之间的关系。当比较在我们的模型和医生之间的平均诊断效率时,我们的模型在除眼科病例之外的所有类目中的疾病分类方面表现好。在对例如内分泌和肾脏病等疾病分类时,与医生相比,模型能够分别以38.75%和41.06%的准确度更好地识别这些疾病,展示了它作为在临床评估中的诊断工具的功效。此外,我们的AI模型在诊断跨越一系列疾病类别的特定常见疾病时显示高效率,可以通过准确地对患者分诊来更好地服务于医院管理。例如,通过实现AI辅助分诊系统,被诊断患有更紧急或危及生命的疾病的患者可以优先于患有相对良性的疾病的患者。在这些情况下,与可以绕过紧急医生评估并转诊进行常规门诊患者评估的那些患者相比,更多的医院时间和/或资源可以被分配给具有更大或更紧急的医疗需要的患者。

错误分析显示,由AI系统错误分类的记录主要是由于来自记录的缺少或模糊的信息。因此,在AI和最终诊断之间的差异可以表明提高在EHR中的记录的报告质量的需要。通过比较在最常见的疾病类目当中的AI和医生诊断一致组与AI和医生诊断不一致组之间的就诊、费用和入院率、住院时间、入院率,显示了AI系统可以在帮助医院管理和减少并发症方面提供AI的有益效果。

然而,AI实现方式不应否定医学对慈悲之手的需要,而是增强提供给我们的患者的服务。疾病没有偏见,因此健康护理也不应该有偏见。然而,过去的经验常常会导致医生不准确地更多地强调某些特征而不是强调其它特征从而导致误诊,特别是与罕见疾病有关的特征。AI利用来自跨越全球的数百万患者的数据,并在许多医生在他们的相关专业知识中可能没有经历的各种各样的结果上进行训练。AI可以在诊断疾病时作为博学的、无偏见的助手帮助医生诊断可能常常被忽视的疾病。此外,AI可以考虑在临床环境中可能被认为无关紧要的特征,例如某些社会经济因素、种族等,其可以使AI在流行病学的应用中变得特别有用。

总之,混合NLP深度学习模型能够跨越一系列器官系统和子系统准确地评估原发疾病的诊断。显示了该模型的应用通过减少成本和住院时间对医院管理效率的潜在益处。在健康护理提供者与总人口相比相对短缺的地区(例如孟加拉国)对患者分诊时以及在医生不是容易接近的农村环境中向患者提供临床帮助时,该系统显示巨大潜力。

例如,我们的NLP深度学习模型能够准确地将当前疾病分类到成人和儿科ICD-10类目中,并有进一步诊断特定的疾病状况的能力。该模型在几乎所有类目中在诊断效率方面胜过医生,因此展示了它作为诊断辅助物的潜在效用,诊断辅助物可用于在医疗保健资源短缺的地区中对患者分诊或在获得护理的机会可能是有限的环境中为患者提供资源。

方法

对来自1,085,795个患者(223,907个成人,861,888个儿科)的2,612,114个EHR(380,665个成人的EHR;2,231,449个儿科的EHR)进行回顾性研究。为了训练和内部验证目的,广州医科大学第一附属医院(GMU 1)(主要学术三级医疗转诊中心)为186,745个成年患者提供333,672个EHR。为了训练和内部验证目的,广州妇女儿童医疗中心(GWCMC1)(主要学术儿科医疗转诊中心)提供552,789次门诊患者和住院患者的儿科就诊,包括1,516,458个EHR。为了在成人中的外部验证目的,广州医科大学第二附属医院(GMU 2)提供了37,162个患者,包括46,993个EHR。来自广州妇女儿童医疗中心(GWCMC2)的儿科数据的单独群组在与在机器学习中使用的时间点不重叠的稍后的时间点上被收集。为了在儿科中的外部验证,该数据提供了339,099个患者的714,991个EHR。这些记录包含从2016年1月至2018年10月出现在这些医疗机构的儿科和成人患者的医生经历。该研究由广州医科大学第一附属医院、广州医科大学第二附属医院和广州市妇女儿童医疗中心批准。该研究符合赫尔辛基宣言和机构审查委员会和道德委员会。对于所有经历,医生通过使用国际疾病分类ICD-10代码来对初级诊断分类。12个ICD 10码包含成人疾病,而6个ICD 10代码包含普通儿科疾病。某些疾病类目(例如妇科/产科和心血管疾病)被认为不适合纳入儿科分析,且因此被排除。所有疾病类目提供了跨越成人和儿科群组的广泛范围的病理学。

诊断模型利用了在从Zesing电子医疗记录生成的EHR中可用的自由文本描述。该模型审查了每次患者就诊的下面的三个参数;主诉、现病史和图像归档与通信系统(PACS)报告。假定所有EHR从中文群组获得,由于分离文本的有意义的单元的间距的缺乏,文本切分在中文NLP中是必不可少的。因此,综合中华医学词典10和Jieba(广泛使用的开源通用中文词/短语切分软件)被定制并应用于每个记录,作为提取包含相关医疗信息的文本的手段(补充图1)。然后这些所提取的词被馈送到词嵌入层内以将文本转换成1X100向量维数。然后使用PyTorch的默认配置将向量馈送到双向长短期记忆(LSTM)循环神经网络,该默认配置包括两层中的每层的256个隐藏单元。该模型学习在词汇中的所有552,700个词和短语的词嵌入向量以及在双向LSTM中的所有权重。在我们的所有模型训练过程中学习率被设置为默认值0.001。每个方向的LSTM的输出向量被连接并馈送到完全连接的SoftMax层,其计算每个诊断类别的分数。具有最高分数的类被认为是模型的诊断(图1)。该模型被端到端地训练以获得所有层的最佳模型参数而除了初始词切分之外没有任何特征工程设计。没有临床特征的劳动密集型标注对训练该模型是必需的。

在12种成人常见疾病之一中,有365个成人临床记录被错误分类为不正确的诊断。具有针对每种状况确定的关键词的记录被比较。如果记录满足下面的纳入标准之一,则记录被考虑为包含的信息缺少或模糊:

无基础事实状况关键词。

预测的疾病的关键词比基础真实状况的关键词多。

关于基础真实状况的关键词少于五个。

来自基础真实状况或预测的状况的关键词少于十个。

多于一个主诉部分。

多于一个现病史部分。

接下来,对1,095个成人临床记录执行类似的错误分析,当模型仅将主诉当作输入时,这些记录被错误分类。因为主诉很短,在这种情况下只有前两个标准被考虑。

我们在我们的AI系统与人类医生之间进行比较研究。来自GMU 1内部验证测试集的10,008个EHR的自由文本、患者ID和评估日期被随机地排序,并在十个家庭医药/全科医师和主治医生之间均等地分配,以手动地标注疾病诊断。两个住院医生和一个具有1-2年实践经验的住院外科医生、三个初级医生和一个具有5-7年实践经验的初级外科医生以及三个具有8-10年实践经验的主任外科医生组成从业者的组合。我们使用F1分数来评估在前12个诊断类目中的每个诊断类目中每个医生组的诊断表现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号