首页> 中国专利> 一种电子病历数据的质控方法及装置

一种电子病历数据的质控方法及装置

摘要

本发明公开了一种电子病历数据的质控方法及装置,方法包括:确定已结构化电子病历数据中字段内容对应的文本串集合;根据所述文本串集合、所述文本串集合对应的其他字段名称集合以及和所述字段内容存在包含关系的关系字段名称集合,确定所述字段内容是否生产异常。通过本发明的技术方案,可实现对已结构化电子病历数据的质控,提高对已结构化电子病历数据的质控效率,确保已结构化电子病历数据的数据质量。

著录项

  • 公开/公告号CN113052410A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 医渡云(北京)技术有限公司;

    申请/专利号CN201911364029.7

  • 发明设计人 杨宝山;强晟;

    申请日2019-12-26

  • 分类号G06Q10/06(20120101);G16H10/60(20180101);G06F16/84(20190101);G06F16/36(20190101);G06F16/903(20190101);

  • 代理机构11687 北京嘉科知识产权代理事务所(特殊普通合伙);

  • 代理人刘力

  • 地址 100191 北京市海淀区花园北路35号9号楼8层801

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及数据处理技术领域,尤其涉及一种电子病历数据的质控方法 及装置。

背景技术

病历客观了反映病人病情的发生、发展和转归的全过程,不仅是医疗、 教学、科研及保健等工作的基础资料,更是解决医疗纠纷、判定法律责任的 事实依据。病历质量的优劣,直接或间接地反映医疗质量的高低。随着医疗 技术和计算机技术的发展,电子病历数据(Electronic Medical Record,简称 EMR)的数量呈现爆发式的增长。电子病历数据是医疗过程信息化的重要组成 部分,是以病人为中心的信息集成,是医院所有业务的有机融合,是对医疗 信息及其相关处理过程综合化的体现。为了更好的处理这些电子病历数据,通常需要对电子病历数据进行结构化处理,得到结构化电子病历数据,之后, 即可对结构化电子病历数据进行数据挖掘。但是,电子病历数据大多是自然 语言记录的文档,且大部分都是以可扩展标准语言(Extensible Markup Language,简称XML)或超文本标记语言(Hyper Text Markup Language,简 称HTML)的格式进行存储。考虑到目前的自然语言处理的技术水平较低, 导致结构化电子病历数据的质量较差,因此,对结构化电子病历数据进行质 控成为亟待解决的问题。

目前,结构化电子病历数据的质控的主要方式是人工检查,导致结构化 电子病历数据的质控效率较低。

发明内容

本发明提供了一种电子病历数据的质控方法、装置、计算机可读存储介 质及电子设备,可实现对已结构化电子病历数据的质控,提高对已结构化电 子病历数据的质控效率,确保已结构化电子病历数据的数据质量。

第一方面,本发明提供了一种电子病历数据的质控方法,包括:

确定已结构化电子病历数据中字段内容对应的文本串集合,所述文本串 集合包括至少一个文本串;

根据所述文本串集合、所述字段内容对应的其他字段名称集合以及和所 述字段内容存在包含关系的关联字段名称集合,确定所述字段内容是否生产 异常。

可选地,所述确定已结构化电子病历数据中字段内容对应的文本串集合, 包括:

对待结构化电子病历数据进行结构化,以确定已结构化电子病历数据中 的字段内容;

根据预设标点符号,对所述字段内容进行分句,以确定所述字段内容对 应的文本串集合。

可选地,所述根据字段内容对应的文本串集合、所述字段内容对应的其 他字段名称集合以及和所述字段内容存在包含关系的关联字段名称集合,确 定所述字段内容是否生产异常,包括:

当所述字段内容对应的其他字段名称集合包括所述文本串集合中的文本 串,且包括的所述文本串集合中的文本串不在和所述字段内容存在包含关系 的关联字段名称集合中时,确定所述字段内容为生产异常。

第二方面,本发明提供了一种电子病历数据的质控方法,包括:

确定已结构化电子病历数据中字段内容对应的文本串集合,所述文本串 集合为空;

获取待结构化电子病历数据对应的文本串序列,所述待结构化电子病历 数据为所述已结构化电子病历数据对应的原始数据;

根据所述文本串序列和所述字段内容对应的字段名称集合,确定所述字 段内容是否生产异常。

可选的,所述根据所述文本串序列和所述字段内容对应的字段名称集合, 确定所述字段内容是否生产异常,包括:

当所述文本串序列包括所述字段内容对应的字段名称集合中的字段名称 时,获取文本串序列中与包括的所述字段名称集合中的字段名称相邻的相邻 文本串,其中,所述相邻文本串在包括的所述字段名称集合中的字段名称之 后;

当所述字段内容对应的其他字段名称集合不包括所述相邻文本串时,确 定所述字段内容为生产异常。

可选的,所述根据所述文本串序列和所述字段内容对应的字段名称集合, 确定所述字段内容是否生产异常,包括:

当所述文本串序列不包括所述字段内容对应的字段名称集合中的字段名 称时,获取所述待结构化电子病历数据对应的属性数据;

当所述属性数据包括所述字段名称集合中的字段名称时,确定所述字段 内容为生产异常。

第三方面,本发明提供了一种电子病历数据的质控方法,包括:

确定已结构化电子病历数据中字段内容对应的文本串集合的第一词典;

确定待结构化电子病历数据的第二词典,所述待结构化电子病历数据为 所述已结构化电子病历数据对应的原始数据;

根据所述第一词典和所述第二词典,确定所述字段内容是否生产异常。

可选的,所述根据所述第一词典和所述第二词典,确定所述字段内容是 否生产异常,包括:

当所述第一词典中的词不在所述第二词典中,和/或所述第一词典中的词 对应的出现次数大于所述第二词典中所述词对应的出现次数时,确定所述已 结构化电子病历数据中字段内容为生产异常。

第四方面,本发明提供了一种电子病历数据的质控装置,包括:

第一集合确定模块,用于确定已结构化电子病历数据中字段内容对应的 文本串集合,所述文本串集合包括至少一个文本串;

第一质控模块,用于根据所述文本串集合、所述字段内容对应的其他字 段名称以及和所述字段内容存在包含关系的关联字段名称集合,确定所述字 段内容是否生产异常。

第五方面,本发明提供了一种电子病历数据的质控装置,包括:

第二集合确定模块,用于确定已结构化电子病历数据中字段内容对应的 文本串集合,所述文本串集合为空;

序列确定模块,用于获取待结构化电子病历数据对应的文本串序列,所 述待结构化电子病历数据为所述已结构化电子病历数据对应的原始数据;

第二质控模块,用于根据所述文本串序列和所述字段内容对应的字段名 称集合,确定所述字段内容是否生产异常。

第六方面,本发明提供了一种电子病历数据的质控装置,包括:

第一词典确定模块,用于确定已结构化电子病历数据中字段内容对应的 文本串集合的第一词典;

第二词典确定模块,用于确定待结构化电子病历数据的第二词典,所述 待结构化电子病历数据为所述已结构化电子病历数据对应的原始数据;

第三质控模块,用于根据所述第一词典和所述第二词典,确定所述字段 内容是否生产异常。

第七方面,本发明提供了一种计算机可读存储介质,包括执行指令,当 电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一 所述的方法。

第八方面,本发明提供了一种电子设备,包括处理器以及存储有执行指 令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处 理器执行如第一方面中任一所述的方法。

本发明提供了一种电子病历数据的质控方法、装置、计算机可读存储介 质及电子设备,该方法通过确定已结构化电子病历数据中字段内容对应的文 本串集合,从而方便对字段内容进行数据处理,然后,根据文本串集合、字 段内容对应的其他字段名称集合以及和字段内容存在包含关系的关联字段名 称集合,确定字段内容是否生产异常,从而检测字段内容的数据质量,实现 对已结构化电子病历数据的质控,进而确保已结构化电子病历数据的数据质 量。综上所述,通过本发明的技术方案,可实现对已结构化电子病历数据的 质控,提高对已结构化电子病历数据的质控效率,确保已结构化电子病历数 据的数据质量。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施 方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或 现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中 的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的第一种电子病历数据的质控方法的流程示 意图;

图2为本发明一实施例提供的第一种电子病历数据的质控方法中步骤101 的流程示意图;

图3为本发明一实施例提供的第二种电子病历数据的质控方法的流程示 意图;

图4为本发明一实施例提供的第二种电子病历数据的质控方法中步骤303 的流程示意图一;

图5为本发明一实施例提供的第二种电子病历数据的质控方法中步骤303 的流程示意图二;

图6为本发明一实施例提供的第三种电子病历数据的质控方法的流程示 意图;

图7为本发明一实施例提供的第一种电子病历数据的质控装置的结构示 意图;

图8为本发明一实施例提供的第二种电子病历数据的质控装置的结构示 意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例 及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的 实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实 施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。

前述已知,目前主要通过人工质控的方式对已结构化电子病历数据进行 质控,导致已结构化电子病历数据的质控效率较低。本发明则试图基于对已 结构化电子病历数据中字段内容对应的文本串集合、其他字段名称集合以及 关联字段名称集合进行分析判断,从而实现对字段内容的质控。所以相对于 传统方法,本发明可实现对已结构化电子病历数据的质控,提高对已结构化 电子病历数据的质控效率,确保已结构化电子病历数据的数据质量。

参照图1所示,为本发明所述电子病历数据的质控方法的第一个具体实 施例。本实施例中所述方法包括以下步骤:

步骤101,确定已结构化电子病历数据中字段内容对应的文本串集合,所 述文本串集合包括至少一个文本串。

具体地,确定已结构化电子病历数据中字段内容对应的文本串集合,从 而便于对已结构化电子病历数据中的字段内容进行数据处理分析。其中,已 结构化电子病历数据通常具有明确定义的数据类型,且易于搜索。文本串集 合包括一个或多个具有确定语义的文本串,文本串中有若干个字,因此,文 本串通常是短语、句子等,这里,文本串集合对文本串的顺序没有限定。举 例来说,“反复下腹疼痛1年,加重2周”这一字段内容对应的文本串集合为 [“反复下腹疼痛1年”,“加重2周”],文本串集合包括两个文本串,分别为 “反复下腹疼痛1年”、“加重2周”,同时,这两个文本串之间不存在先后顺 序,所以文本串集合也可以表示为[“加重2周”,“反复下腹疼痛1年”]。

步骤102,根据所述文本串集合、所述字段内容对应的其他字段名称集合 以及和所述字段内容存在包含关系的关联字段名称集合,确定所述字段内容 是否生产异常。

具体地,其他字段名称集合包括若干个其他字段名称,这些其他字段名 称存在语义相同表达不同的词,即考虑到了不同科室和/或不同电子病历数据 系统对同一语义的不同表达,从而使得其他字段名称集合的适用范围较广, 具有较高的参考价值。需要说明的是,若干个其他字段名称分别对应的语义 和文本串集合对应的字段名称的语义不同。这里,若干个其他字段名称可以 预先设置好,当需要增加其他字段名称时,直接更新其他字段名称集合即可。 这里,其他字段名称数量应该尽可能的多,从而使得确定出的字段内容是否 生产异常的结果的准确性。举例来说,假设字段内容是“手术过程记录”这 一字段名称对应的内容,此时,其他字段名称集合不包括和“手术过程记录” 相同语义的其他表达词,可以是“姓名、电话、电话号码、地址、过往史、 既往史……”等,具体需要结合实际场景确定。

具体地,关联字段名称集合包括和字段内容存在包含关系的若干个其他 字段名称,这里,关联字段名称集合为字段内容中可能出现的其他字段名称, 此时,字段内容和其他字段名称之间的存在包含关系,举例来说,“手术过程 描述”这一字段名称对应的字段内容中可能包含“手术记录之术中用药”、 “手术记录之术中出血量”、“手术记录之术中输血量”、“手术记录之切口描 述”。

具体地,对文本串集合、字段内容对应的其他字段名称集合以及和字段 内容存在包含关系的关联字段名称集合进行比较分析,确定出文本串集合中 是否出现了不应该出现的其他字段名称,从而确定出字段内容是否生产异常。

需要说明的是,考虑到在对待结构化电子病历数据进行结构化时可能会 出现错误,导致字段内容出现缺失、增加、减少、错位等情况,不同错误的 方式对应不同的质控方法,因此,在确定了文本串集合包括至少一个文本串 时,即字段内容不为空时,需要对字段内容的准确性进行判断,此时,可判 断文本串集合、其他字段名称集合以及关联字段名称集合之间的关系,从而 判断字段内容的准确性。

可选的,其他字段名称集合包括文本串集合中的若干个文本串,且包括 的文本串集合中的任意一个或多个文本串不在关联字段名称集合内,则文本 串集合对应的字段内容为生产异常。

需要说明的是,当其他字段名称集合包括文本串集合中的若干个文本串, 则说明文本串集合中可能出现了其他字段名称,进一步,针对其他字段名称 集合包括的文本串集合中的每个文本串,当该文本串不在关联字段名称集合 中时,则说明该文本串与关联字段名称集合之间不存在包含关系,此时,即 可确定字段内容中出现了其他字段名称,而其他字段名称不应该出现在该字 段内容中,因此可认为该字段内容生产异常。后续,可重点对生产异常的字 段内容进行更正,确保已结构化电子病历数据的数据质量。

通过以上技术方案可知,本实施例通过确定字段内容的文本串集合,从 而便于对字段内容进行数据处理,然后,对文本串集合、其他字段名称集合 和关联字段名称集合进行比较分析,从而对字段内容进行数据质量检测,确 定字段内容中是否真的存在其他字段名称,当文本串集合中真的存在其他字 段名称时,则说明字段内容生产异常,基于上述相似的过程,对已结构化电 子病历数据中每条字段内容进行质控,从而实现对已结构化电子病历数据的 质控,提高对已结构化电子病历数据的质控效率,之后,根据质控标签对字 段内容进行改正,从而确保已结构化电子病历数据的数据质量。

请参考图2,在上述图1所示实施例的基础上,本发明一个实施例中,步 骤101所示确定已结构化电子病历数据中字段内容对应的文本串集合,所述 文本串集合包括至少一个文本串,具体可以包括如下步骤:

步骤1011,对待结构化电子病历数据进行结构化,以确定已结构化电子 病历数据中的字段内容。

具体地,待结构化电子病历数据的数据结构可以是HL7临床文档结构 (ClinicalDocument Architecture,简称CDA),HL7临床文档结构是一种指定 结构和语义的文档标记标准,以可扩展标准语言(Extensible Markup Language,简称XML)或超文本标记语言(Hyper Text Markup Language,简 称HTML)的格式进行数据存储,因此,待结构化电子病历数据为可扩展标 准语言文档或者超文本标记语言文档。待结构化电子病历数据可以来自医院 的电子病历系统。

该实现方式中,对待结构化电子病历数据进行结构化,即将待结构化电 子病历数据中字段内容提取出来,将该字段内容对应的字段名称标准化,并 存储标准化后的字段名称及其对应的字段内容,从而得到已结构化电子病历 数据。其中,已结构化电子病历数据包括字段名称及其对应的字段内容,通 常为纯文本,在这里,可以以键值对的形式存储已结构化电子病历数据,即 以字段名称为“key”,字段内容为“value”进行数据存储。字段内容指的是字段 名称对应的数据,字段名称是某一类信息的统一名称,已结构电子病历数据中的字段名称是经过统一化处理,可能不是待结构化电子病历数据中的原来 的字段名称,因此,其他字段名称集合以及关联字段名称集合均需要考虑字 段名称的不同表达词。举例来说,已结构化电子病历数据中的内容如表1:

表1

其中,“姓名”、“性别”、“主诉”均为字段名称,“张某某”、“河南”、 “反复下腹疼痛1年,加重2周”均为字段内容。显而易见的,以“姓名”为例, 姓名仅仅是结构化后的字段名称,该字段名称可能不是待结构化电子病历数 据中的表述,待结构化电子病历数据中的表述可能是“名称”。在这里,对表 1中字段内容按照从上到小的顺序逐条进行质控,从而实现对已结构化电子病 历数据的控制。

步骤1012,根据预设标点符号,对所述字段内容进行分句,以确定所述 字段内容对应的文本串集合。

需要说明的是,字段内容通常是多个若干个句子,在自然语言处理过程 中,通常需要对文本内容进行分句以高效准确的处理文本,分句指的是从复 句里划分出来的相当于分句的部分,句子和句子之间通过标点符号进行连接, 标点符号包括但不限于逗号、分号、句号等,分句可降低了句子和句子之间 的相关性,但是不改变句子的语义,从而确保数据的真实准确。

该实现方式中,根据预设标点符号,比如逗号、分号、句号等,对字段 内容进行分句,从而确定出字段内容对应的文本串集合,从而便于对字段内 容进行处理。在这里,文本串集合为字段内容中的短语或句子等。

举例来说,假设“手术过程描述”这一字段名称对应的字段内容为“手 术过程描述:取上腹部正中切口左侧绕脐,逐层进腹。肝脏外观正常,表面 光滑,无结节”,根据标点符号对字段内容进行分句,得到的文本串集合为 [“手术过程描述”,“取上腹部正中切口左侧绕脐”,“逐层进腹”,“肝脏外观 正常”,“表面光滑”,“无结节”],文本串集合中包括6个文本串,6个文本 串分别为手术过程描述、取上腹部正中切口左侧绕脐、逐层进腹、肝脏外观正常、表面光滑、无结节。

该实施例通过对待结构电子病历数据进行结构化,从而确定出已结构化 电子病历数据中的字段内容,通过标点符号对字段内容进行分句,从而得到 字段内容的文本串,得到的文本串能够降低字段内容之间的联系,能够更为 方便的进行数据处理。

请参考图3,图3为本发明所述电子病历数据的质控方法的第二个具体实 施例。本实施例中所述方法包括以下步骤:

步骤301,确定已结构化电子病历数据中字段内容对应的文本串集合,所 述文本串集合为空。

步骤302,获取待结构化电子病历数据对应的文本串序列,所述待结构化 电子病历数据为所述已结构化电子病历数据对应的原始数据。

这里,获取待结构化电子病历数据对应的文本串序列,从而确定字段内 容是否真的为空。具体地,根据预设标点符号,对待结构化电子病历数据中 的文本信息进行分句,从而确定出文本串序列,以便对待结构化电子病历数 据进行数据处理。文本串序列包括待结构化电子病历数据中的所有文本内容。 文本串序列中的文本串的顺序和待结构化电子病历数据中的文本内容的顺序 一一对应,从而确保文本串序列的真实准确。

需要说明的是,待结构化电子病历数据为步骤1011中提到的待结构化电 子病历数据,这里不做过多赘述。

步骤303,根据所述文本串序列和所述字段内容对应的字段名称集合,确 定所述字段内容是否生产异常。

具体地,字段名称集合包括字段内容对应的若干个字段名称,这些字段 名称对应的语义相同,因此,字段名称集合相当于同义词组,举例来说,“手 术过程记录”这一字段名称对应的字段名称集合包括[“手术所见和步骤”,“手 术过程”,“手术经过、主要方式方法和步骤”,“手术经过”,“手术步骤”,“手 术过程记录”,“手术程序”,“手术简要经过”,“操作经过”,“穿刺经过”,“手 术情况”,“操作步骤”,“手术经过、术中发现的情况及处理”]。

具体地,通过对文本串序列和字段内容对应的字段名称集合的比较分析, 从而确定出字段内容是否真的为空,进而确定字段内容是否生产异常。

通过以上技术方案可知,本实施例所述方法具备的有益效果是:通过对 待结构化电子病历数据对应的文本串序列,和已结构化电子病历数据中字段 内容对应的字段名称集合的比较分析,从而确定出字段内容是否真的为空, 进而确定出字段内容是否生产异常。

如图4所示,在图3所示实施例的基础上,步骤303所示根据所述文本 串序列和所述字段内容对应的字段名称集合,确定所述字段内容是否生产异 常,具体可以包括如下步骤:

步骤3031、当所述文本串序列包括所述字段内容对应的字段名称集合中 的字段名称时,获取文本串序列中与包括的所述字段名称集合中的字段名称 相邻的相邻文本串,其中,所述相邻文本串在包括的所述字段名称集合中的 字段名称之后。

具体地,当文本串序列包括字段名称集合中的若干个字段名称时,此时, 可认为待结构化电子病历数据中存在该字段名称,当字段名称对应有字段内 容时,字段名称对应的字段内容应当位于该字段名称之后,因此,针对文本 串序列包括的字段名称集合中的每个字段名称,确定文本串序列中与该字段 名称相邻的相邻文本串,相邻文本串在该字段名称之后。相邻文本串的数量 与文本串序列包括的字段名称集合中的若干个字段名称的数量相同。

步骤3032、当所述字段内容对应的其他字段名称集合不包括所述相邻文 本串时,确定所述字段内容为生产异常。

若相邻文本串的数量为多个时,当字段名称集合不包括任意一个相邻文 本串时,此时,有很大的概率说明相邻文本串为字段内容,可认为字段内容 不应该为空,因此可认为字段内容的生产异常,显而易见的,当字段名称集 合包括所有的相邻文本串时,此时,则说明字段内容应当为空,因此可认为 字段内容的质控标签正常。

举例来说,文本串序列中包括“手术过程描述”这一字段名称,“手术过 程描述”后紧跟的相邻文本串为“主诉”,“主诉”为其他字段名称,其他名 称和字段名称的语义不同,而“手术过程描述”和“主诉”之间不存在其他 内容,则说明“手术过程描述”这一字段名称对应的字段内容为空,此时, 即可确定“手术过程描述”对应的字段内容的生产正常。

通过以上技术方案可知,本实施例在文本串集合为空时,通过获取待结 构化电子病历数据对应的文本串序列,当文本串序列包括字段内容对应的字 段名称集合中的字段名称时,确定文本串序列中在包括的该字段名称之后并 与其相邻的文本串,当该文本串不在其他字段名称集合时,确定该字段内容 为生产异常。

如图5所示,在图3所示实施例的基础上,步骤303所示根据所述文本 串序列和所述字段内容对应的字段名称集合,确定所述字段内容是否生产异 常,具体可以包括如下步骤::

步骤3033,当所述文本串序列不包括所述字段内容对应的字段名称集合 中的字段名称时,获取所述待结构化电子病历数据对应的属性数据。

文本串序列不包括字段内容对应的字段名称集合中的字段名称时,为了 确定字段内容是否为空,需要获取待结构化电子病历数据对应的属性数据, 属性数据指示了待结构化电子病历数据中的隐藏数据,这些隐藏数据不会显 示在已结构化电子病历数据中,用于指示已结构化电子病历数据中字段内容 对应的属性,属性数据通常从待结构化电子病历数据中的源代码中确定。

步骤3034,当所述属性数据包括所述字段名称集合中的字段名称时,确 定所述字段内容为生产异常。

当属性数据包括字段名称集合中任意一个或多个字段名称时,则说明字 段内容有很大的概率对应有内容,则可认为该字段内容的生产异常。

本实施例通过待结构化电子病历数据对应的文本串序列不包括字段名称 集合中的字段名称时,对待结构化电子病历数据的属性数据进行扫描,从而 确定字段名称集合对应的字段内容是否应当为空,当属性数据中包含字段名 称集合中的任意一个或多个字段名称,字段名称有很大的概率对应有字段内 容,字段内容不应当为空,因此,可认为字段内容生产异常。

参照图6所示,为本发明所述电子病历数据的质控方法的第三个具体实 施例。本实施例中所述方法包括以下步骤:

步骤601,确定已结构化电子病历数据中字段内容对应的文本串集合的第 一词典。

这里,第一词典包括词以及词对应的出现次数,具体地,确定文本串集 合中每个文本串的出现次数,即每个词的出现次数,这里,构建以文本串为 “key”,出现次数为“value”的数据结构的第一词典,第一词典包括若干个 键值对,每个键值对包括文本串-出现次数。

举例来说,文本串为“手术治疗记录”,“手术治疗记录”在文本串集合 中的出现次数为1,第一词典包括的一个键值对为手术治疗记录-1。

步骤602,确定待结构化电子病历数据的第二词典,所述待结构化电子病 历数据为所述已结构化电子病历数据对应的原始数据。

具体地,通过如下方法获取第二词典:获取待结构化电子病历数据中文 本数据对应的文本串序列,确定文本串序列中每个文本串的出现次数,构建 以文本串为“key”,出现次数为“value”的数据结构第二词典。其中,第二词典 包括若干个键值对,每个键值对包括文本串-出现次数。

举例来说,文本串为“手术治疗记录”,“手术治疗记录”在文本串集合 中的出现次数为4,则第二词典包括的一个键值对为手术治疗记录-4。

步骤603,根据所述第一词典和所述第二词典,确定所述字段内容是否生 产异常。

具体地,当第一词典中的一个或多个词不在第二词典中时,则说明字段 内容出现了不该出现的内容,可认为已结构化电子病历数据的生产异常。

具体地,对于同一个词,该词为第一词典和第二词典均有的文本串,第 一词典中该词对应的出现次数应当大于等于第二词典中该词对应的出现次数。 因此,当第一词典中的词对应的出现次数大于第二词典中该词对应的出现次 数时,则说明字段内容出现了不该出现的内容,可认为已结构化电子病历数 据的生产异常。

综上,当第一词典中的词不在第二词典中,和/或第一词典中的词对应的 出现次数大于第二词典中该词对应的出现次数时,则说明字段内容出现了不 该出现的内容,可认为已结构化电子病历数据的生产异常。显然,这里的词 指的是文本串。

需要说明的是,能够综合图1、图3以及图6所示实施例确定出的字段内 容是否生产异常的结果,最终确定出字段内容是否生产异常。

本发明实施例对待结构化电子病历数据对应的第二词典和字段内容对应 的第一词典的词和/或词对应的出现次数进行比对,从而判断字段内容是否出 现了其他不应该出现的词,从而判断出字段内容是否生产异常。

基于与本发明方法实施例相同的构思,请参考图7,本发明实施例还提供 了一种电子病历数据的质控装置,包括:

第一集合确定模块701,用于确定已结构化电子病历数据中字段内容对应 的文本串集合,所述文本串集合包括至少一个文本串;

第一质控模块702,用于根据所述文本串集合、所述字段内容对应的其他 字段名称以及和所述字段内容存在包含关系的关联字段名称集合,确定所述 字段内容是否生产异常。

本发明一个实施例中,所述第一集合确定模块701,包括:结构化单元以 及分句单元;其中,

所述结构化单元,用于对待结构化电子病历数据进行结构化,以确定已 结构化电子病历数据中的字段内容;

所述分句单元,用于根据预设标点符号,对所述字段内容进行分句,以 确定所述字段内容对应的文本串集合。

本发明一个实施例中,所述第一质控模块702,用于当所述字段内容对应 的其他字段名称集合包括所述文本串集合中的文本串,且包括的所述文本串 集合中的文本串不在和所述字段内容存在包含关系的关联字段名称集合中时, 确定所述字段内容为生产异常。

请参考图8,本发明实施例还提供了另一种电子病历数据的质控装置,包 括:

第二集合确定模块801,用于确定已结构化电子病历数据中字段内容对应 的文本串集合,所述文本串集合为空;

序列确定模块802,用于获取待结构化电子病历数据对应的文本串序列, 所述待结构化电子病历数据为所述已结构化电子病历数据对应的原始数据;

第二质控模块803,用于根据所述文本串序列和所述字段内容对应的字段 名称集合,确定所述字段内容是否生产异常。

本发明一个实施例中,所述第二质控模块803,包括:文本串确定单元以 及第一质控单元;其中,

所述文本串确定单元,用于当所述文本串序列包括所述字段内容对应的 字段名称集合中的字段名称时,获取文本串序列中与包括的所述字段名称集 合中的字段名称相邻的相邻文本串,其中,所述相邻文本串在包括的所述第 二字段名称集合中的字段名称之后;

所述第一质控单元,用于当所述字段内容对应的其他字段名称集合不包 括所述相邻文本串时,确定所述字段内容为生产异常。

本发明一个实施例中,所述第二质控模块803,包括:属性确定单元以及 第二质控单元;其中,

所述属性确定单元,用于当所述文本串序列不包括所述字段内容对应的 字段名称集合中的字段名称时,获取所述待结构化电子病历数据对应的属性 数据;

所述第二质控单元,用于当所述属性数据包括所述字段名称集合中的字 段名称时,确定所述字段内容为生产异常。

本发明实施例还提供了又一种电子病历数据的质控装置,包括:

第一词典确定模块,用于确定已结构化电子病历数据中字段内容对应的 文本串集合的第一词典;

第二词典确定模块,用于确定待结构化电子病历数据的第二词典,所述 待结构化电子病历数据为所述已结构化电子病历数据对应的原始数据;

第三质控模块,用于根据所述第一词典和所述第二词典,确定所述字段 内容是否生产异常。

本发明一个实施例中,所述第三质控模块,用于当所述第一词典中的词 不在所述第二词典中,和/或所述第一词典中的词对应的出现次数大于所述第 二词典中所述词对应的出现次数时,确定所述字段内容为生产异常。

本发明实施例提供一种电子设备。在硬件层面,该电子设备包括处理器 以及存储有执行指令的存储器,可选地还包括内部总线及网络接口。其中, 存储器可能包括内存,例如高速随机存取存储器(Random-Access Memory, RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个 磁盘存储器等;处理器、网络接口和存储器可以通过内部总线相互连接,该 内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、 PCI(Peripheral Component Interconnect,外设部件互连标准)总线或 EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等; 内部总线可以分为地址总线、数据总线、控制总线等。当然,该电子设备还 可能包括其他业务所需要的硬件。当处理器执行存储器存储的执行指令时, 处理器执行本发明任意一个实施例中的方法,并至少用于执行如图1至图6 任意一个实施例所示的方法。

在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行 指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑 层面上形成一种电子病历数据的质控装置。处理器执行存储器所存放的执行 指令,以通过执行的执行指令实现本发明任一实施例中提供的一种电子病历 数据的质控方法。

处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中, 上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的 指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是 数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、 分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及 逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处 理器等。

本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电 子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中 提供的方法。执行指令是一种电子病历数据的质控装置所对应计算机程序。

本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程 序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和 硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之 处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述 的比较简单,相关之处参见方法实施例的部分说明即可。

还需要说明的是,术语“包括”、“包括”或者其任何其他变体意在涵盖非排 他性的包括,从而使得包括一系列要素的过程、方法、商品或者锅炉不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、商品或者锅炉所固有的要素。在没有更多限制的情况下,由语句 “包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品 或者锅炉中还存在另外的相同要素。

以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域 技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之 内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围 之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号