首页> 中国专利> 使用自然语言处理查找不良事件

使用自然语言处理查找不良事件

摘要

提供了一种用于由计算机处理器使用自然语言处理对患者的临床描述进行自动分类的方法。临床描述涉及使用心室辅助装置来治疗患者。该方法包括接收包括文本的至少一个临床描述。然后,该方法还包括确定目标词在文本内的位置。此外,该方法包括确定活动区域内至少一个否定词的存在,该活动区域包括紧接在目标词之前和之后出现的文本内的预定数量的词,包括目标词。然后,该方法包括确定活动区域内至少一个身体部位词的存在。最后,该方法包括确定如果活动区域包含否定词或身体部位词,则将忽略临床描述。

著录项

  • 公开/公告号CN113243032A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 阿比奥梅德公司;

    申请/专利号CN201980084347.X

  • 发明设计人 C·刘;A·E·卡特吉;

    申请日2019-12-20

  • 分类号G16H15/00(20060101);

  • 代理机构11245 北京纪凯知识产权代理有限公司;

  • 代理人李英

  • 地址 美国马萨诸塞州

  • 入库时间 2023-06-19 12:10:19

说明书

相关申请的交叉参考

本申请要求根据35 U.S.C.§119(e)来自2018年12月21日提交的第62/784,192号美国临时申请的优先权的利益,该申请的内容通过引用全部并入本文。

背景技术

心血管状况会降低患者的生活质量。已经开发了各种治疗方案,用于治疗此类状况下的心脏,范围从药物到机械装置和移植。心室辅助装置(VAD),如心脏泵系统和导管系统,通常在治疗心脏中使用,以提供血液动力学支持并促进恢复。一些心脏泵系统经皮插入心脏,并且可以与自体心脏并行运行,以补充心输出量。此类心脏泵系统包括由马萨诸塞州丹弗斯市的阿比奥梅德公司(Abiomed,Inc.)生产的

在使用医疗装置(如VAD)对患者进行治疗后,记录提供给患者的治疗的详细描述以及在此类治疗期间的任何临床适应症。此类记录传统上已经通过临床速写手动书写或输入计算机来完成。替代地,将治疗的细节提供给将语音转换为文本的装置(例如,录音机或在其上运行语音识别软件的膝上型麦克风),并存储为文本文件。此类文件通常记录在患者数据存储库中,并提供给需要访问患者医疗文件的其他临床医生。

通常临床医生必须在决定任何进一步治疗之前确定患者在治疗期间是否经历过不良事件。不良事件包括例如在使用VAD治疗患者期间可能已经发生的出血、溶血和缺血(例如,由于使用

自动化临床描述的分析的尝试涉及使用自然语言预处理和机器学习,如例如装袋和随机森林、逻辑回归和回归树。此类算法是复杂的和递归的,并且占用计算机系统上的处理器资源,尤其是当算法不易收敛时。使用此类算法的机器学习通常在可以依赖机器模型之前,还需要大量的训练数据。因此,对于较小的数据存储库,训练数据不足将导致不稳定的机器学习模型,其输出在分析临床描述时将不可靠。

发明内容

本文描述的方法和系统使用由计算设备的处理器进行的自然语言处理和关键词搜索,以确定临床描述是否涉及包含不良事件的治疗。该方法通过接收包括文本的至少一个临床描述来开始。然后,处理器确定目标词在文本内的位置。然后,处理器继续确定活动区域内至少一个否定词的存在,该活动区域包括紧接在目标词之前和之后出现的文本内的预定数量的词,包括目标词。接下来,该处理器确定活动区域内至少一个身体部位词的存在。然后,该方法包括确定如果活动区域包含否定词或身体部位词,则将忽略临床描述。

通过在临床描述的文本中搜索关键词,不需要机器学习算法的训练(涉及训练数据),从而释放计算设备的系统资源。本公开的方法和系统的关键词搜索性质不独占执行临床描述的分析的计算设备的处理器。

在一些实施方式中,该方法还包括处理文本以生成词标识、确定和分组包括词的变形形式的词标识;以及使用分组的词标识对文本执行关键词搜索。在其他实施方式中,该方法包括如果活动区域不包含:否定词和身体部位词,则标记临床描述。在某些实施方式中,该方法包括将标记写入临床描述中的标题。在一些实施方式中,活动区域的预定数量的词为至少三个词。在其他实施方式中,活动区域的预定数量的词为三个。在某些实施方式中,至少一个否定词包括以下任一项:‘不(no)’、‘不是(not)’、‘也不是(nor)’、‘非(non)’、‘无(without)’、‘从不(never)’和‘假(false)’。在一些实施方式中,临床描述是从急性心肌梗塞心源性休克(AMICS)存储库获得的。

在另一个实施例中,提供了一种用于对患者的临床描述进行自动分类的系统。该系统包括用于治疗患者的至少一个心室辅助装置(VAD)。该系统还包括控制器,其与VAD通信并被配置为生成使用VAD的患者的治疗的至少一个临床描述。此外,该系统包括用于存储治疗的临床描述的数据存储库。该系统还包括与数据存储库通信的处理器,该处理器被配置为执行根据前述实施例中的任一个所述的方法。在一些实施方式中,如果包含不良事件的临床描述的数量超过预定阈值,则该系统禁止使用VAD。

在又一个实施例中,提供了一种用于对患者的临床描述进行自动分类的系统,每个临床描述与在患者身上使用心室辅助装置相关。该系统包括被配置为执行根据前述实施例中的任一个所述的方法的处理器。

在进一步的实施例中,提供了一种包括计算机可执行指令的计算机程序,该计算机可执行指令在由包括处理器的计算设备执行时,使计算设备执行根据前述实施例中的任一个所述的方法。

附图说明

结合附图考虑以下详细描述时,上述和其他目的和优点将变得显而易见,其中相同的附图标记始终指代相同的部分,并且其中:

图1示出了根据本发明的实施例的用于在临床描述中查找不良事件的说明性系统;

图2示出了使用自然语言处理的关键词搜索的方法的说明性流程图;

图3示出了根据本公开的实施例的在临床描述中查找不良事件的方法的说明性流程图;

图4示出了与使用图1的方法出现的假肯定/误报(false positives)的数量相关的围绕目标词的活动区域的长度的优化;

图5A和图5B示出了图1的方法在包含否定词的临床描述上的使用;以及

图6A和图6B示出了图1的方法在包含身体部位词的临床描述上的使用。

具体实施方式

为了提供对本文描述的方法和系统的整体理解,将描述某些说明性实施例。尽管本文描述的实施例和特征被具体地描述为结合使用自然语言处理来自动检测涉及使用心室辅助装置(VAD)的临床描述中的不良事件,但是将理解,下面概述的所有组件和其他特征可以以任何合适的方式彼此组合,并且可以被调整和应用于具有与其相关联的临床描述的其他类型的医学治疗。

本文描述的系统和方法使用自然语言处理(NLP)来自动检测临床描述中不良事件的发生。NLP用于在临床描述中包含的目标词的活动区域中执行对关键词的搜索。一旦查找到关键词,处理器就会认为临床描述与(或不与,视情况而定)其中已经发生不良事件的治疗相关。在本公开的一些实施例中,将标记写入临床描述文本文件中的标题。通过在临床描述文本中搜索关键词,不需要机器学习算法的训练(涉及训练数据),从而释放计算设备的系统资源。本公开的方法和系统的关键词搜索性质不独占执行临床描述的分析的计算设备的处理器。

图1示出了用于自动检测临床描述110中的不良事件的发生的系统100的方框图。系统100包括例如与患者数据存储库130通信的计算设备120,如膝上型计算机。为简洁起见,图1中仅示出了计算设备120的处理器125。然而,将理解,计算设备120还包括通常与计算设备相关联的其他组件,如例如易失性存储器(例如,随机存取存储器RAM)、非易失性存储器(例如,只读存储器ROM)、显示器和使得能够在这些组件之间进行通信的连接总线,所有这些都包括在本公开中。

计算设备120包括处理器125,其能够执行机器可读指令以使用自然语言处理对文本数据执行操作。计算设备120与包括从各种医疗机构获得的患者数据的患者数据存储库130通信。根据本公开的某些实施例,患者数据存储库130可以包括由诸如Salesforce.com,Inc.的CRM编译和维护的急性心肌梗塞心源性休克(AMICS)数据库。AMICS数据库130存储来自高危经皮冠状动脉介入治疗(PCI)患者和心源性休克患者的治疗的数据。AMICS数据库130还可以在VAD数据库135中存储可用于治疗的VAD 140特定的数据。VAD数据库135可以包括用于每个装置的操作参数。

患者数据包括在治疗心源性休克患者之后已存储在AMICS数据库130中的临床描述110。此类治疗包括使用医疗装置来缓解患者的状况,如例如VAD140。VAD为心源性休克患者提供心室支持,并且可以包括但不限于

VAD 140连接到控制器150,当治疗患者170时,该控制器使医师160能够操作VAD140。此类操作可以包括在患者170内导航VAD和调整VAD 140的操作参数,以适应患者170的状况。操作参数包括但不限于,例如清除(purge)容积、流速和泵速。根据本公开的某些实施例,控制器150可以包括由马萨诸塞州丹弗斯市的阿比奥梅德公司(Abiomed,Inc.)生产的自动化

每个VAD 140可以包括至少一个传感器,其在VAD用于治疗患者时从患者170收集数据。患者数据作为信号传输到控制器150。此类数据可以包括但不限于,平均动脉压(MAP)、左心室压(LVP)、左心室舒张末期压(LVEDP)、肺动脉楔压(PAWP)、肺毛细血管楔压(PCWP)和肺动脉闭塞压(PAOP)。控制器150将患者数据传送到AMICS数据库130,该数据库存储用于治疗后分析的数据。AMICS数据库130还可以被提供有可以与患者数据一起存储的来自医师160的附加数据(例如,来自治疗患者的笔记)。

来自患者和医师的数据可以作为临床描述110存储在存储库130中。在本公开的某些实施例中,临床描述110可以以具有*.txt扩展名的至少一个文本文件存储在AMICS数据库130中。临床描述110可以包括任何语言(例如,英语)和/或速记(例如,临床速记)的文本。在表1中示出了说明性临床描述。文本文件还可以包括标题信息,其包含识别数据,比如,例如患者的姓名和医疗机构的名称、患者人口统计、日期、时间(表1中未示出)。将理解,上面是临床描述的示例性实施例,并且术语‘临床描述’涵盖任何组的机器可读字符,其包含与在患者身上执行的医疗过程(如使用VAD的心血管治疗)相关的信息。

表1以*.txt格式的说明性临床描述

临床描述110由计算设备120评估,用于对在相应治疗期间发生的各种事件进行分类。例如,事件可以包括不良事件的发生、治疗装置的故障和治疗的成功。临床描述110可以基于一组指定的标准进行选择,如例如地理区域、时间段、诊断类型、患者年龄和使用的治疗装置的类型(例如,由

自然语言处理算法确定每个选定的临床描述110中是否存在关键词。关键词可以包括作用于临床描述110中的目标词或与其相关的至少一个词。关键词可以用于对临床描述110的选择进行分类。根据本公开的实施例,目标词可以用于描述已经在患者的心脏治疗期间发生的不良事件(例如,出血、溶血或缺血)。目标词的示例可以包括“出血(bleed)”、“凝块(clot)”和“心脏(heart)”,并且关键词的示例可以包括“不是(not)”、“非(non)”和“不(no)”。此类关键词和目标词可以被预先确定并存储在计算设备120的存储器中,用于特定类型的分析。替代地,关键词和目标词可以由操作计算设备120的临床医生经由NLP软件的GUI进行输入。然后,由NLP分析目标词周围的活动区域中的关键词的出现,以确定在相应治疗期间是否发生了特定事件。例如,NPL可以识别不良事件的发生,并将临床描述110标记为包含不良事件122或不包含不良事件124。

图2示出了表示根据本公开的实施例的自然语言处理的方法200的流程图。图2中的方法200由图1中的处理器125执行。该方法开始于步骤210,其中计算设备120的处理器125从AMICS数据库130获得临床描述110的选择。如前所述,临床描述110的选择可以基于一组指定的标准,比如,例如地理区域、时间段、诊断类型、患者年龄和所使用的治疗装置(例如,VAD)的类型。在步骤220中,NPL算法将每个临床描述110的文本分成片段或标识,称为文本的标识化/符号化。根据所使用的NPL算法,可以忽略文本中的某些字符(如标点字符)。每个标识用作用于处理与选定的临床描述相关联的文本的语义单元。

在文本的标识化之后,方法200然后进行到步骤230,也称为词形还原,其中基于标识的变形形式将相似的标识组合在一起,所以它们可以作为单个项进行分析。本质上词形还原(或词干提取)链接具有相同的基本形式(根词)的标识并将它们组合在一起,以便可以以类似的方式处理标识。例如,在英语中,动词“to walk(行走)”可能会显示为“walk”、“walked”、“walks”、“walking”。这里的基本形式是“walk”,这可以在字典中查找。词形还原步骤230的输出是包括标识组的词袋(bag-of-words,BOW),每个组具有相关联的基本形式。

一旦为选定的临床描述110形成BOW,就可以进行关键词搜索(步骤240)。NPL对目标词进行词形还原,并识别目标词的根词。接下来,NPL扫描BOW,以确定目标词的根词是否出现在BOW中。如果此类确定是肯定的,即如果BOW包含与目标词的根词匹配的根词,则认为选定的临床描述110包含目标词。相反,如果确定是否定的,即如果BOW不包含目标词的根词,则认为选定的临床描述110不包含目标词。

图3示出了根据本公开的实施例的用于对临床描述110进行自动分类的方法300的流程图。图3中的方法300由图1中的处理器125执行。与方法200一样,方法300开始于步骤310,其中计算设备120的处理器125从AMICS数据库130获得临床描述110的选择。如前所述,临床描述110的选择可以基于一组指定的标准,比如,例如地理区域、时间段、诊断类型、患者年龄和所使用的治疗装置(例如,VAD)的类型。该标准可以由临床医生经由计算设备120的GUI指定。

在步骤320中,处理器125使用在其上运行的NPL算法来确定每个选定的临床描述110中的目标词的位置。一旦识别了目标词的位置,方法300另外使用NPL过程200来进一步识别与目标词相关的活动区域。活动区域包括在紧接在目标词之前和之后出现的选定的临床描述110的文本内预定数量的词。活动区域还包括目标词。预定数量的词可以存储在计算设备120内,或者可以被提供作为来自临床医生经由GUI的输入。预定数量的词限定了活动区域的大小(即方法300的粒度),并且将在下文中称为粒度大小。

然后,方法300继续分析每个选定的临床描述110中的活动区域。在这里,处理器125使用NPL方法200在每个选定的临床描述110中的活动区域搜索关键词。如上所述,关键词作用在每个临床描述110中的目标词上,或者与其相关。根据本公开的实施例,关键词可以包括否定词或身体部位词。否定词可以包括但不限于,‘不’、‘不是’、‘也不是’、‘非’、‘无’、‘从不’和‘假’。在目标词的活动区域中否定词的存在会颠倒目标词的普通含义,或使目标词的普通含义失效。例如,如果临床描述为“……腹股沟部位干燥,完全无出血迹象……”,则否定词‘无’的存在会使腹股沟部位处出现的目标词“出血”的含义失效。因此,在检测到活动区域中的否定词‘不’时,处理器125将此临床描述标记为与不良事件不相关,不良事件是腹股沟出血。

以类似的方式,身体部位词可以包括任何身体部位,如例如‘腿’、‘手臂’、‘腹部’和‘腹股沟’。目标词的活动区域中身体部位词的存在会使目标词的普通含义失效。与否定词不同,根据本公开的实施例,身体部位词的存在表示心脏中没有发生不良事件(例如,出血)。例如,如果临床描述为“……患者病得很重,并且他们觉得她的腹部正在出血……”,则身体部位词‘腹部(abdomen)’的存在会使目标词‘出血(bleeding)’的含义失效,因为它确实与心脏不相关。根据本公开的实施例,将假设无作用于目标词的身体部位词的临床描述中的任何不良事件发生在患者的心脏中。因此,在检测到活动区域中的身体部位词‘腹部’时,处理器125将此临床描述标记为与心脏出血的不良事件不相关。将理解,可以进一步定制NPL关键词搜索,以将活动区域中的词与特定的身体部位词(例如,‘心脏’)匹配,并根据匹配标记临床描述。

返回参考图3,一旦确定了目标词在临床描述110的文本中的位置,方法300进行到步骤330,其中进一步确定否定词是否存在于活动区域中。如果活动区域中存在否定词(在步骤330中为‘是’),则将临床描述标记为不包含不良事件。在本公开的某些实施例中,可以将标记写入每个临床描述的文本文件的标题中(例如,以ASCII字符),并且可以通过计算设备120将被标记的临床描述110写回到AMICS数据库。

如果活动区域中不存在否定词(步骤330中为‘否’),则方法300进行到步骤340,其中进一步确定身体部位词是否存在于活动区域中。如果存在身体部位词(在步骤340中为‘是’),则如在步骤350中,将临床描述标记为不包含不良事件。如果不存在身体部位词(在步骤340中为‘否’),则如在步骤360中,将临床描述标记为包含不良事件。在本公开的某些实施例中,可以将在步骤340的‘是’和‘否’两种情况下的标记存储在用于每个临床描述的文本文件的标题中,并且可以由计算设备120将被标记的临床描述110写回到AMICS数据库。

本公开的战略性关键词搜索扫描每个临床描述110内的文本,以在目标词的活动区域内定位目标词和任何指定的关键词。一旦识别了关键词,就标记临床描述并且分析移动到下一个文本文件。与使用机器学习的NPL相比,这不会给处理器带来负担,并且因此释放了计算设备的处理能力。

图4示出了根据本公开的实施例的基于用于检测相对于目标词的否定词的活动区域的大小的NPL算法的优化图400。实际上,这优化了方法300的粒度。如前所述,假肯定(false positives)(FP)的数量是指当否定词或身体部位词实际存在时,处理器125没有检测到在活动区域中存在否定词或身体部位词的次数,而真肯定(true positives)TP是指否定词或身体部位词在那里并且也被检测到。实际上,根据临床描述110,由于处理器125通过错误地识别临床描述的活动区域中的否定词或身体部位词而遗漏了对患者心脏中出血事件的检测,所以FP是漏报。类似地,假否定(false negatives)(FN)的数量是指当实际上不存在否定词或身体部位词时,处理器125错误地检测到否定词或身体部位词的存在的次数,而真否定(true negatives)TN是指不存在或未检测到否定词或身体部位词。

在图4中,相对于紧接在目标词之前和之后的词的数量,引用活动区域的大小。相对于假肯定的数量,执行优化。优化图表400中的曲线410示出了假肯定的发生显示具有三个词或更多词的粒度的活动区域的最小变化。此外,表2示出了随着活动区域的粒度改变的TP、FP、FN和TN的示例性值。表2中的值加强了图4中所示的趋势,其中漏报(即FP)的数量随着活动区域大小的增大而减少。在活动区域的临界粒度之后FP的减少率达到稳定。根据本说明书的实施例,活动区域的临界大小被视为三个词。

表2具有活动区域大小的FP的优化

图5A和图5B示出了根据前述系统和方法的使用NPL算法来自动检测临床描述500、550中否定词的存在的示例。在图5A中,目标词510是‘出血(bleeding)’,并且活动区域520的粒度为三。关键词530是否定词‘不(no)’。当否定词530出现在目标词510的活动区域520内时,将临床描述500标记为不包含不良事件。类似地,在图5B中,目标词560是‘出血(bleeding)’,并且活动区域570的粒度为三。关键词580是否定词‘不(no)’。当否定词580出现在目标词560的活动区域570内时,将临床描述550标记为不包含不良事件。在以上两个示例中,根据图2中所示的方法进行的NPL处理用于识别目标词、否定词和活动区域中的词。

图6A和图6B示出了根据前面所述的系统和方法的使用NPL算法来自动检测临床描述600、650中身体部位词的存在的示例。在图6中,目标词610是‘出血(bleeding)’,并且活动区域620的粒度为三。关键词630是身体部位词‘腹部(abdomen)’。当身体部位词630出现在目标词610的活动区域620内时,将临床描述600标记为不包含不良事件。如前所述,假设没有身体部位词作用于目标词的临床描述中的任何不良事件发生在患者的心脏中。因此,在检测到活动区域620中的身体部位词‘腹部’时,处理器125将临床描述600标记为与心脏出血的不良事件不相关。类似地,在图6B中,目标词660是‘出血(bleeding)’,并且活动区域670的粒度为三。关键词680是身体部位词‘腹股沟(groin)’。当身体部位词680出现在目标词660的活动区域670内时,将临床描述650标记为不包含不良事件。在以上两个示例中,根据图2中所示的方法200的NPL处理用于识别目标词、身体部位词和活动区域中的词。

表3示出了混淆矩阵,其提供示例数字,以说明本公开的方法和系统的有效性。表3比较了使用NPL对临床描述中的每个词使用NPL执行完整关键词搜索与根据本公开的实施例使用NPL仅搜索目标词的活动区域中的否定词和/或身体部位关键词的战略性否定词和/或身体部位关键词搜索的结果。与混淆矩阵相关的指标包括精确率、召回率和准确率。使用以下公式确定精确率:TP/(TP+FP);使用以下公式确定召回率:TP/(TP+FN);以及使用以下公式确定准确率:(TP+TN)/(TP+FP+FN+TN)。对于表3的说明性混淆矩阵,针对完整关键词搜索的精确率、召回率和准确率分别为53.4%、97.5%和91.7%,而针对战略性否定和/或身体部位关键词搜索的相同指标分别为74.0%、92.5%和96.2%。这些比较指标表明,战略性否定和/身体部位关键词搜索以更高的精确度和准确度识别关键词。此类数字表明本公开的战略性否定和/或身体部位关键词搜索优于传统的NPL技术,同时最小化系统资源的使用,以执行此类自然语言处理。

如前所述,在标记每个选定的临床描述110之后,可以将该标记存储在每个临床描述文本文件的标题中,并且可以由计算设备120将该文本文件写回到AMICS数据库130。为此,临床医生可以能够根据某些标准(例如,VAD类型、患者年龄、医疗机构名称)从AMICS数据库过滤已标记的临床描述,以获得包含目标词的临床描述的百分比。例如,操作计算设备120的临床医生可以能够从AMICS数据库获得与在马萨诸萨州波士顿50-55岁的男性患者身上使用的

表3混淆矩阵比较

前述仅是对本公开的原理的说明,并且可以通过所描述的实施方式之外的其他实施方式来实践所述设备,呈现这些实施方式用于说明而非限制的目的。应当理解,本文公开的方法虽然示出用于在自动心室辅助系统中使用,但是可以应用于将在其他自动医疗系统中使用的系统。

本领域技术人员在阅读本公开之后将想到变化和修改。所公开的特征可以以任何组合和子组合(包括多个从属组合和子组合)与本文描述的一个或多个其他特征来实现。上面描述或说明的各种特征(包括其任何组件)可以组合或集成在其他系统中。此外,可以省略或不实现某些特征。

改变、替换和变更的示例是本领域技术人员可以确定的,并且可以在不脱离本文公开的信息的范围的情况下做出。本文引用的所有对比文件均通过引用整体地并入,并成为本申请的一部分。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号