首页> 中国专利> 文本数据结构化处理方法、装置、设备及存储介质

文本数据结构化处理方法、装置、设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种文本数据结构化处理方法、装置、设备及存储介质。所述方法包括：确定预设结构化规则；根据所述预设结构化规则，对多条文本数据进行结构化处理，生成与所述多条文本数据对应的多条结构化数据；根据所述多条结构化数据以及预设的多条参考结构化数据，确定所述多条结构化数据的准确率及召回率；当所述准确率大于或等于第一预设阈值，且所述召回率大于或等于第二预设阈值时，确定采用所述预设结构化规则对文本数据进行结构化处理。根据本发明提供的文本数据结构化处理方法，能够确定处理准召率高的结构化规则，使其满足自动化执行海量数据的结构化处理流程、保证数据结构化质量和效率等需求。

著录项

公开/公告号CN112948347A

专利类型发明专利
公开/公告日2021-06-11

原文格式PDF
申请/专利权人北京懿医云科技有限公司;
展开▼

申请/专利号CN201911265046.5
发明设计人郝东林;
展开▼

申请日2019-12-11
分类号G06F16/21(20190101);G06F16/2455(20190101);G06F16/28(20190101);
代理机构11438 北京律智知识产权代理有限公司;
代理人孙宝海;袁礼君
地址 100195 北京市海淀区玲珑路9号院西区9号楼4层1单元304
入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明涉及文本处理领域，具体而言，涉及一种文本数据结构化处理方法、装置、电子设备及计算机可读存储介质。

背景技术

在信息化时代，随着数字信息量的高速膨胀，原始数据的庞大体量和复杂程度与日俱增，为数据的直接处理与应用带来了极大的技术困难。因此，日常生活中的各个领域均需要非常多的数据结构化任务。以医疗领域为例，每家医院数据库存储的患者现病史记录、家族史记录等包含海量文本信息，数据结构化任务涉及的处理流程通常也较多。

现阶段而言，数据结构化任务的执行对人工参与度的依赖性极高。每个处理流程均需要大量相应角色的操作人员，且当上一处理流程完成后，操作人员需以口头或者即时消息的方式通知下一处理流程的操作人员，存在交互环节易出错、原始数据更新不及时、无法保存中间数据和操作记录、数据结构化质量和效率低下等严重缺陷。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

鉴于当前的数据结构化作业对人工依赖性高、数据结构化质量差、效率低等问题，本发明提供一种文本数据结构化处理方法、装置、电子设备及计算机可读存储介质。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种文本数据结构化处理方法，包括：确定预设结构化规则；根据所述预设结构化规则，对多条文本数据进行结构化处理，生成与所述多条文本数据对应的多条结构化数据；根据所述多条结构化数据以及预设的多条参考结构化数据，确定所述多条结构化数据的准确率及召回率；当所述准确率大于或等于第一预设阈值，且所述召回率大于或等于第二预设阈值时，确定采用所述预设结构化规则对文本数据进行结构化处理。

根据本发明的一实施方式，当所述准确率小于所述第一预设阈值，或所述召回率小于所述第二预设阈值时，所述方法还包括：调整所述预设结构化规则的规则，以使根据调整后的结构化规则生成的多条结构化数据的准确率大于或等于所述第一预设阈值，且召回率大于或等于所述第二预设阈值。

根据本发明的一实施方式，确定采用所述预设结构化规则对文本数据进行结构化处理包括：获取多条待结构化文本数据；根据所述预设结构化规则，对所述多条待结构化文本数据进行所述结构化处理。

根据本发明的一实施方式，在对所述多条待结构化文本数据进行所述结构化处理之前，所述方法还包括：对所述多条待结构化文本数据进行下述预处理操作中的至少一种：去除所述多条待结构化文本数据中的重复数据、对所述多条待结构化文本数据中的字段进行切分、统计所述多条待结构化文本数据的词频信息。

根据本发明的一实施方式，所述预设结构化规则包括：至少两个指定实体对象及所述指定实体对象间的指定关系。

根据本发明的一实施方式，根据所述预设结构化规则，对多条文本数据进行结构化处理，生成与所述多条文本数据对应的多条结构化数据包括：对每一条文本数据执行如下操作：根据所述预设结构化规则，分别识别所述文本数据中与每一个所述指定实体对象对应的匹配字段；判断所述匹配字段是否满足对应指定实体对象间的指定关系；当所述匹配字段满足对应指定实体对象间的指定关系时，生成包含所述匹配字段的结构化数据；其中，所述匹配字段包括：与所述指定实体对象相同的字段和/或与所述指定实体对象的下位实体对象相同的字段。

根据本发明的一实施方式，确定所述多条结构化数据的准确率及召回率包括：确定所述多条结构化数据中与所述多条参考结构化数据对应相同的数据量；确定所述数据量与所述多条结构化数据的总量之商，作为所述多条结构化数据的准确率；确定所述数据量与所述多条参考结构化数据的总量之商，作为所述多条结构化数据的召回率。

根据本发明的另一方面，提供一种文本数据结构化处理装置，包括：规则确定模块，用于确定预设结构化规则；数据处理模块，用于根据所述预设结构化规则，对多条文本数据进行结构化处理，生成与所述多条文本数据对应的多条结构化数据；结果对比模块，用于根据所述多条结构化数据以及预设的多条参考结构化数据，确定所述多条结构化数据的准确率及召回率；规则判断模块，用于当所述准确率大于或等于第一预设阈值，且所述召回率大于或等于第二预设阈值时，确定采用所述预设结构化规则对文本数据进行结构化处理。

根据本发明的再一方面，提供一种电子设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种文本数据结构化处理方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种文本数据结构化处理方法。

根据本发明提供的文本数据结构化处理方法，将预定义规则处理测试数据得到的结果与人工处理相同测试数据得到的结果进行对比验证，能够确定出处理准召率高的结构化规则，使其满足自动化执行海量文本数据的结构化处理流程、提高数据结构化质量和效率等任务需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施方式示出的一种文本数据结构化处理方法的流程图。

图2是根据一示例性实施例示出的一种根据预设结构化规则处理文本数据的方法的流程图。

图3是根据一示例性实施例示出的一种确定结构化数据准召率的方法的流程图。

图4是根据一示例性实施方式示出的一种文本数据结构化处理装置的框图。

图5是根据一示例性实施方式示出的一种电子设备的结构示意图。

图6是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，在本发明的描述中，“多条”的含义是至少两条，例如两条，三条等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

如上所述，数据结构化任务的执行目前非常依赖人工的参与和维护。因此，本发明提出一种用于文本数据结构化处理的方法，通过将预定义规则处理测试数据得到的结果与人工处理相同测试数据得到的结果进行对比，确定出具备高处理精度的结构化规则，用于实现海量文本数据的自动结构化处理，显著降低人力运维的成本、杜绝交互环节出错的可能，同时保证数据结构化的质量和效率。

图1是根据一示例性实施方式示出的一种文本数据结构化处理方法的流程图。如图1所示的文本数据结构化处理方法例如可以实现于医疗文本结构化任务管理平台中。

参考图1，文本数据结构化处理方法10包括：

在步骤S102中，确定预设结构化规则。

在步骤S104中，根据预设结构化规则，对多条文本数据进行结构化处理，生成与多条文本数据对应的多条结构化数据。承上述，仍以医疗领域为例，获取到的多条文本数据可以来自任意多家医院数据库中存储的患者现病史记录、家族史记录等，例如可以为包含肿瘤、肿块、癌症等诊断信息的文本数据。医学人员可以建立文本纳排任务实现文本数据的获取：医学人员首先指定原始文本数据的位置来源(如多家医院的数据库)，通过编写SQL((Structured Query Language，结构化查询语言)语句制定抽取规则，并将SQL语句发送指定的多家医院数据库中进行数据抽取，例如抽取到原始文本数据“患者王某某于2017-01-01查出患有胃癌，住院接受治疗”。在数据抽取完成后，还可以根据查表、正则匹配等多种方式将原始文本数据中的姓名、身份证号码等敏感信息去除，例如上述原始文本数据在脱敏后变为“患者于2017-01-01查出患有胃癌，住院接受治疗”。

需要说明的是，本发明并不以上述医疗领域、文本数据类型及数据抽取方式为限。

在一些实施例中，预设结构化规则包括：至少两个指定实体对象及指定实体对象间的指定关系。

相对应地，在一些实施例中，如图2所示，步骤S104可进一步包括：对每一条文本数据执行如下操作：

在步骤S1042中，根据预设结构化规则，分别识别文本数据中与每一个指定实体对象对应的匹配字段。

其中，匹配字段包括：与指定实体对象相同的字段和/或与指定实体对象的下位实体对象相同的字段。例如医学上可以指定“肿瘤”为一个实体对象，则“肺癌”、“胃癌”等都属于指定实体对象“肿瘤”的下位实体对象。

在步骤S1044中，判断匹配字段是否满足对应指定实体对象间的指定关系。

在步骤S1046中，当匹配字段满足对应指定实体对象间的指定关系时，生成包含匹配字段的结构化数据。

例如，预设结构化规则为：“指定实体对象A：1/2XXX-YY-ZZ形式的正则化日期；指定实体对象B：肿瘤；指定实体对象C：无、没有、未、不、no等表示否定含义的词汇；指定关系：指定实体对象A与指定实体对象B位于同一句中，且指定实体对象B之前的5个字符内不出现指定实体对象C；输出：{日期：指定实体对象A和/或指定实体对象A的下位实体对象，疾病：指定实体对象B和/或指定实体对象B的下位实体对象}”，则上述脱敏后的文本数据“患者于2017-01-01查出患有胃癌，住院接受治疗”经结构化处理后生成结构化数据：{日期：2017-01-01，疾病：胃癌}。

再例如，预设结构化规则为：“指定实体对象A：亲属；指定实体对象B：疾病；指定关系：指定实体对象A之后的10个字符内出现指定实体对象B；输出：{亲属：指定实体对象A和/或指定实体对象A的下位实体对象，疾病：指定实体对象B和/或指定实体对象B的下位实体对象}”，则文本数据“妹妹患有糖尿病”经结构化处理后生成结构化数据：{亲属：妹妹，疾病：糖尿病}。

在步骤S106中，根据多条结构化数据以及预设的多条参考结构化数据，确定多条结构化数据的准确率及召回率。

其中，多条参考结构化数据可以是对多条文本数据通过人工标注所得到的结构化数据。

在一些实施例中，如图3所示，步骤S106可进一步包括：

在步骤S1062中，确定多条结构化数据中与多条参考结构化数据对应相同的数据量。

在步骤S1064中，确定数据量与多条结构化数据的总量之商，作为多条结构化数据的准确率。

在步骤S1066中，确定数据量与多条参考结构化数据的总量之商，作为多条结构化数据的召回率。

在步骤S108中，当准确率大于或等于第一预设阈值，且召回率大于或等于第二预设阈值时，确定采用预设结构化规则对文本数据进行结构化处理。

在一些实施例中，根据步骤S1062～S1066确定出的准确率和/或召回率小于对应的预设阈值，则需要根据多条结构化数据与多条参考结构化数据的对比结果，对结构化规则进行改进或修正，重复上述步骤S102～S106，直至准确率及召回率均不小于对应的预设阈值。

经过对比验证后的结构化规则除继续应用于医疗文本结构化任务管理平台自身外，还可由医疗文本结构化任务管理平台发布给指定的医院，则各医院的内部系统也可实现结构化数据的批量生产。

如上述，具体而言，在一些实施例中，步骤S104中获取到的多条文本数据可以是从多条待结构化文本数据中抽取的文本数据。相对应地，步骤S108可进一步包括：获取多条待结构化文本数据；以及根据预设结构化规则，对多条待结构化文本数据进行结构化处理。

另外，在一些实施例中，在对多条待结构化文本数据进行结构化处理之前，方法10还可以包括：对多条待结构化文本数据进行下述预处理操作中的至少一种：去除多条待结构化文本数据中的重复数据、对多条待结构化文本数据中的字段进行切分、统计多条待结构化文本数据的词频信息，以生成原始文本数据来源占比等数据概览供医学人员查看。

根据本发明实施方式提供的文本数据结构化处理方法，将预定义规则处理测试数据得到的结果与人工处理相同测试数据得到的结果进行对比验证，能够确定出处理准召率高的结构化规则，使其满足自动化执行海量文本数据的结构化处理流程、提高数据结构化质量和效率等任务需求。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施方式。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图4是根据一示例性实施方式示出的一种文本数据结构化处理装置的框图。

参考图4，文本数据结构化处理装置20包括：规则确定模块202、数据处理模块204、结果对比模块206以及规则判断模块208。

其中，规则确定模块202用于确定预设结构化规则。

数据处理模块204用于根据预设结构化规则，对多条文本数据进行结构化处理，生成与多条文本数据对应的多条结构化数据。其中的多条文本数据可以是从多条待结构化文本数据中抽取的文本数据。

在一些实施例中，预设结构化规则可包括：至少两个指定实体对象及指定实体对象间的指定关系。相对应地，数据处理模块204可进一步包括：实体识别单元、关系判定单元及数据生成单元。

其中，实体识别单元用于根据预设结构化规则，分别识别每一条文本数据中与每一个指定实体对象对应的匹配字段。匹配字段可包括：与指定实体对象相同的字段和/或与指定实体对象的下位实体对象相同的字段。

关系判定单元用于判断匹配字段是否满足对应指定实体对象间的指定关系。

数据生成单元用于当匹配字段满足对应指定实体对象间的指定关系时，生成包含匹配字段的结构化数据。

结果对比模块206用于根据多条结构化数据以及预设的多条参考结构化数据，确定多条结构化数据的准确率及召回率。

其中，多条参考结构化数据可以是对多条文本数据进行人工标注所生成的结构化数据。

在一些实施例中，结果对比模块206可进一步包括：第一确定单元、第二确定单元及第三确定单元。

其中，第一确定单元用于确定多条结构化数据中与多条参考结构化数据对应相同的数据量。

第二确定单元用于确定数据量与多条结构化数据的总量之商，作为多条结构化数据的准确率。

第三确定单元用于确定数据量与多条参考结构化数据的总量之商，作为多条结构化数据的召回率。

规则判断模块208用于当准确率大于或等于第一预设阈值，且召回率大于或等于第二预设阈值时，确定采用预设结构化规则对文本数据进行结构化处理。

根据本发明实施方式提供的文本数据结构化处理装置，将预定义规则处理测试数据得到的结果与人工处理相同测试数据得到的结果进行对比验证，能够确定出处理准召率高的结构化规则，使其满足自动化执行海量文本数据的结构化处理流程、提高数据结构化质量和效率等任务需求。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图5是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是，图5示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备600以通用计算机设备的形式表现。电子设备600的组件包括：至少一个中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序代码或者从至少一个存储单元608加载到随机访问存储器(RAM)603中的程序代码而执行各种适当的动作和处理。

特别地，根据本发明的实施例，所述程序代码可以被中央处理单元601执行，使得中央处理单元601执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的步骤。例如，中央处理单元601可以执行如图1至3中所示的步骤。

在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入单元606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元607；包括硬盘等的存储单元608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元609。通信单元609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储单元608。

图6是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

参考图6所示，描述了根据本发明的实施方式的设置为实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如图1至3中所示的功能。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文本数据结构化处理方法、装置、设备及存储介质 [P] . 中国专利： CN112948347A . 2021-06-11
2. 文本数据处理方法、装置、设备及计算机可读存储介质 [P] . 中国专利： CN108460149B . 2021.05.18
3. Method, apparatus, and storage medium containing computer program to execute the method to integrate a source of structured data and a source of unstructured textual data [P] . BRPI1000442A2 . 2011-03-22

机译：包含执行该方法以集成结构化数据源和非结构化文本数据源的计算机程序的方法，装置和存储介质
4. STRUCTURED DOCUMENT PROCESSING METHOD AND DEVICE, STRUCTURED DOCUMENT PROCESSING PROGRAM, AND STORAGE MEDIUM STORING STRUCTURED DOCUMENT PROCESSING PROGRAM [P] . 日本专利： JP2004348485A . 2004-12-09

机译：结构化文档处理方法和设备，结构化文档处理程序以及存储介质存储结构化文档处理程序
5. APPARATUS, STORAGE MEDIUM AND METHOD FOR FORMING AND PROCESSING TEXT DATA FOR USE IN PROGRAM SPECIFIC INFORMATION FOR BROADCAST [P] . 韩国专利： KR100653847B1 . 2006-12-06

机译：装置，存储介质以及用于广播的程序特定信息中的文本数据的形成和处理方法