首页> 中国专利> 一种基于化工分析报告的文本数据抽取方法

一种基于化工分析报告的文本数据抽取方法

摘要

本发明涉及信息提取分析领域,更具体的说,涉及一种基于化工分析报告的文本数据抽取方法。本发明提出的基于化工分析报告的文本数据抽取方法,包括以下步骤:S1构建停用词典步骤,构建针对化工分析报告的停用词典,过滤无意义信息,所述停用词典,包括常见停用词和专用停用词;S2信息提取步骤,提取化工分析报告中的文本信息,所述文本信息包含关键词信息、本体信息和三元组信息;S3关键词分析步骤,统计和可视化分析报告中的关键词信息;S4形成结构化数据步骤,将提取到的数据转化为结构化数据。本发明,抽取分析结果可信度较高,具有较高的准确率和召回率,有利于辅助行业人员快速准确高效分析化工分析报告,大大减轻化工行业人员的负担。

著录项

  • 公开/公告号CN112364179A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 华东理工大学;

    申请/专利号CN202011286208.6

  • 发明设计人 杜文莉;王冰;钱锋;唐漾;

    申请日2020-11-17

  • 分类号G06F16/36(20190101);G06F16/34(20190101);

  • 代理机构31100 上海专利商标事务所有限公司;

  • 代理人陶玉龙;陆嘉

  • 地址 200237 上海市徐汇区梅陇路130号

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及信息提取分析领域,更具体的说,涉及一种基于化工分析报告 的文本数据抽取方法。

背景技术

近年来,化工安全事故频发,HAZOP(危险与可操作性)化工分析报告 被认为是可极大提高工厂生产安全性、可靠性的一种安全评价方法,在杜绝、 减少事故发生以及事故原因分析等方面发挥积极重要作用。

然而,面对HAZOP化工分析报告的众多表格数据和描述信息,行业人员 短时间内难以得到最有效的信息。

近年来,面对互联网上类型繁多且数量庞大的文本信息,文本自动处理的 知识抽取技术受到越来越多人的关注。随着人工智能技术的迅速发展,越来越 多化工生产行业的人员更倾向于用人工智能技术辅助分析HAZOP化工分析报 告,用以决策。

在现有技术中,大多数的文档抽取都是针对文本信息提取,抽取大量文本 信息中的实体、主题等信息。对于化工领域的HAZOP化工分析报告,目前研 究较少,急需人工智能信息提取技术,抽取行业关键信息,来辅助行业人士更 加全面的分析HAZOP化工分析报告。

中国发明专利CN 201910059221.9公开了一种文本抽取模型训练方法将 问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标 注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少 量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升。 该方法并不是针对化工领域的HAZOP化工分析报告,对于抽取HAZOP化工 分析报告的文本数据的准确率和精确程度比较差。

发明内容

本发明的目的是提供一种基于化工分析报告的文本数据抽取方法,解决现 有技术对于化工分析报告的信息提取困难、准确率差和效率低的问题。

为了实现上述目的,本发明提供了一种基于化工分析报告的文本数据抽取 方法,包括以下步骤:

S1构建停用词典步骤,构建针对化工分析报告的停用词典,过滤无意义 信息,所述停用词典,包括常见停用词和专用停用词;

S2信息提取步骤,提取化工分析报告中的文本信息,所述文本信息包含 关键词信息、本体信息和三元组信息;

S3关键词分析步骤,统计和可视化分析报告中的关键词信息;

S4形成结构化数据步骤,将提取到的数据转化为结构化数据。

在一实施例中,所述步骤S1的常见停用词,包括标点符号、数学符号和 日常用词。

在一实施例中,所述步骤S1的专用停用词,包括与分析无关的化工工艺、 化工生产和物流参数的字词符号。

在一实施例中,所述步骤S2中:

所述关键词信息,包括安全操作建议、原因描述和后果描述中的关键词, 将得到的关键词形成列表形式;

所述本体信息,包括装置、物流、化学品、单元操作和工艺参数信息;

所述三元组信息,包括存在物流关系、因果关系的实体信息。

在一实施例中,所述步骤S2中的关键词信息提取,进一步包括以下步骤:

S21读取化工分析报告的分析单元;

S22提取分析单元表格中的偏离信息;

S23提取分析单元表格中的位号、说明和偏差信息;

S24提取分析单元表格中的可能原因描述、以及可能原因中的关键词;

S25将分析单元表格中的可能原因提取为列表形式,并提取其中的关键 词;

S26提取偏差的可能后果,并对其严重程度进行统计;

S27将分析单元表格中的后果频率及严重度提取为列表形式,统计严重 程度;

S28提取分析单元表格中该偏离信息导致事故防范措施,提取关键词;

S29将分析单元表格中的建议措施提取为列表形式、提取其中关键词;

S210提取分析单元表格中安全操作建议的信息以及关键词;

S211将分析单元表格中安全操作建议提取为列表形式、提取其中关键 词。

在一实施例中,所述步骤S3,进一步包括以下步骤:

S31词频统计分析,统计提取得到的关键词词频,根据词频进行分析。

在一实施例中,所述步骤S3,进一步包括以下步骤:

S32词云直观分析,以词云图形式分析化工分析报告的关键词信息。

在一实施例中,所述步骤S4的结构化数据,进一步包括数据表格、知识 三元组和关键数据表格。

在一实施例中,所述步骤S4,进一步包括以下步骤:

将提取到的关键词词频、本体数据、装置、化学品的数据,转换为数据表 格形式。

在一实施例中,所述步骤S4,进一步包括以下步骤:

将存在关系的本体类的实体信息,转换为三元组形式的数据。

在一实施例中,所述步骤S4,进一步包括以下步骤:

将含有统计类型的数据和词频数据转换成专有信息统计报表。

本发明提出了一种基于HAZOP化工分析报告的文本数据抽取方法,将构 建化工HAZOP专有停用词典与自然语言信息提取技术相结合,能够较好地 抽取装置HAZOP表格中的本体、关键词和三元组等信息,具有较高的准确 率和召回率,抽取分析结果可信度较高,可以作为化工行业人员的一种辅助方 法,大大减轻化工行业人员的负担,有利于辅助行业人员快速准确高效分析 HAZOP化工分析报告,为国家和社会安全提供一定的技术支持。

附图说明

本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例 的描述而变的更加明显,在附图中相同的附图标记始终表示相同的特征,其中:

图1揭示了根据本发明一实施例的基于化工分析报告的文本数据抽取方法 流程图;

图2揭示了根据本发明一实施例的关键词提取方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅用以解释发明,并不用于限定发明。

目前,HAZOP化工分析报告的表格、文字繁多,包含了装置、物流、 化学品、工艺参数、单元操作等众多类,物流链接、因果影响等关系,以 及位号、数值和单位等属性。

针对HAZOP化工分析报告分析耗时耗力、需要大量人力投入的问题, 本发明提供了一种基于HAZOP化工分析报告的文本数据抽取分析方法,通 过构建专有停用词典,抽取装置HAZOP化工分析报告中的本体、关键词和三 元组等文本信息,并对关键词信息进行统计分析,将重要数据形成报表,进行 可视化展示,有利于辅助行业人员快速准确高效分析HAZOP化工分析报告。

图1揭示了根据本发明一实施例的基于化工分析报告的文本数据抽取方法 流程图,如图1所示,本发明涉及一种基于化工HAZOP化工分析报告的知 识抽取分析方法,包括构建停用词典、信息提取、关键词分析、和形成结 构化数据四个步骤。

S1构建停用词典步骤,构建针对化工分析报告的停用词典,分析表格中 的符号、无意义字词、日常用词等,用以在信息提取步骤前过滤无意义信 息,所述停用词典,包括常见停用词和专用停用词。

S2信息提取步骤,以HAZOP化工分析报告为输入,抽取HAZOP化工 分析报告单元表格中的文本信息,文本信息包括本体、关键词和三元组信 息。

S3关键词分析步骤,统计和可视化分析报告中的关键词信息,从数据层 面和图示层面统计、分析文本中的关键词,关键词分析以词频和词云形式 展示。

S4形成结构化数据步骤,将提取到的数据转化为结构化数据,结构化数 据包括数据表格、三元组文件和信息数据报表三部分,用以行业人员从不 同方面分析HAZOP化工分析报告。

下面详细说明本发明的每一步骤。

S1构建停用词典步骤,构建针对化工分析报告的停用词典,分析表格中 的符号、无意义字词、日常用词等,用以在信息提取步骤前过滤无意义信 息。

在信息提取时需要用到分词工具,首要的工作是建立停用词典,去除 文本中的停用词。

停用词是信息抽取前必要的一步,使用现有的停用词典会降低信息抽 取的准确率和召回率,本发明根据行业背景和文档形式,构建自己的停用 词典。

本实施例中,停用词典包括常见停用词典和专有停用词典两部分。

1)常见停用词:根据HAZOP化工分析报告,提取常见停用词,用以 提升信息提取效率。

所述的常见停用词指的是标点符号、数学符号、日常用词等字词。常 用停用词作为日常用语和文档中经常出现的字词,对于整个文档来说意义 不大,需要在信息抽取前予以剔除。

常见停用词的举例如下:

的 是

(

)

2)专有停用词:根据HAZOP化工分析报告,结合化工领域背景知识, 构建具有针对性的停用词典,用以提升信息提取的准确率和召回率。

所述专有停用词指的是化工工艺、化工生产和物流参数等与分析无关 的字词符号等。对于化工装置HAZOP化工分析报告而言,包含一部分在报 告中意义小、数量多且不属于常见停用词的字词符号。

本实施例中,针对性地构建HAZOP报告专有停用词,示例如下:

什么

如果

需要

造成

S2信息提取步骤,以HAZOP化工分析报告为输入,抽取HAZOP化工 分析报告单元表格中的文本信息。

信息提取是指提取HAZOP化工分析报告中节点表格信息里的关键文 本信息。

本发明所提取的关键文本信息包含关键词、本体信息和三元组信息三 部分。

表1

表1为装置HAZOP化工分析报告的单元表格示例,如表1所示, HAZOP单元分析表格由序号、位号、偏差等元素组成,本发明抽取可能原 因描述和安全操作建议中的关键词,抽取单元信息中的本体,抽取单元表 格中的三元组信息。

1)关键词:提取HAZOP装置分析表格中的关键词信息。

所述的关键词包含装置HAZOP化工分析报告节点表格信息中的安全 操作建议、原因描述和后果描述中的关键词,将得到的关键词形成列表形 式。

更进一步的,本发明使用自然语言信息抽取技术,抽取单元表格内容, 图2揭示了根据本发明一实施例的关键词提取方法流程图,如图2所示的关键 词信息提取方法,每一步骤具体示例如下:

S21单元读取:读取HAZOP化工分析报告的分析单元,如表1中的精 馏单元。

S22偏离信息提取:提取单元HAZOP表格中的偏离信息,包含位号、 说明、偏差三部分信息。

S23位号、说明、偏差:提取表格中对应的具体信息,如表1中的位号 (LIC-2101)、说明(原料缓冲罐液位)、偏差(偏高)。

S24可能原因信息提取:提取单元表格中的可能原因描述、以及可能原 因中的关键词。

S25可能原因列表、关键词:将表格中的可能原因提取为列表形式,并 提取其中的关键词。

可能原因列表如下示例:

(1)原料加入量过大

(2)泵P-2101抽出量过小

(3)原料带水或管线串汽。

(4)罐顶与C-2102连通线不通造成憋压。

(5)原料泵P2101或仪表故障。

关键词如下示例:

原料、泵P-2101、憋压等。

S26偏差后果信息提取:提取偏差的可能后果,并对其严重程度进行统 计。

S27可能后果列表、严重程度统计:将表格中的后果频率及严重度提取 为列表形式,统计严重程度。

后果描述如下示例:

(1)原料缓冲罐D-601液位过高溢流,串进分馏塔,操作紊乱。

F、S、RR:

F:3

S:1

RR:NONE

S28建议措施信息提取:提取表格中该偏离信息导致事故防范措施,提 取关键词。

S29建议措施列表、关键词:将表格中的建议措施提取为列表形式、提 取其中关键词。例如:液位高限报警。

S210操作建议信息提取:提取安全操作建议的信息以及关键词。

S211建议列表、关键词:将表格中安全操作建议的建议措施提取为列 表形式、提取其中关键词。

安全操作建议如下示例:

(1)正常情况下,通过冷渣油进装置手阀及四蒸馏热渣来手阀控制进 料量,进料量增大,原料油罐液面上升,反之下降;如果不好用适当开副 线阀。

(2)外操检查原料油泵P-2101的运行情况,适当调整冷渣进装置手 阀。

(3)增加进塔量,原料油罐液面下降,控制合适进塔量。

(4)当带水和串汽严重造成原料罐突沸或原料泵抽空时,在液面允许 情况下可暂时中止进料,联系值班人员和班长采取降量措施。

(5)将连通线堵塞时,应尽快管线处理通。

关键词如下示例:

冷渣油、原料油泵、原料油罐。

2)本体信息:提取HAZOP化工分析报告表格中描述的本体信息。

所述的本体信息,是指装置HAZOP分析表格中包含的知识本体信息, 包括装置、物流、化学品、单元操作、工艺参数等本体信息。

抽取装置HAZOP分析表格中包含的知识本体信息,包括装置、物流、 化学品、单元操作、工艺参数等本体信息。

例如表1中的位号、物流、单元操作等本体信息。

3)三元组信息:提取表格中存在关系的三元组信息。

所述的三元组信息是指装置HAZOP化工分析表格中存在物流关系、因 果关系的实体信息,将此类信息组合成三元组信息。

HAZOP化工分析报告中含有大量存在关系的三元组知识,本发明抽取 所有隐含的三元组知识,形成结构化文档,将形成如下形式的结构化三元 组数据。

以表1为例,三元组示例如下:

实体1,关系,实体2

原料缓冲罐液位偏高,导致,“原料缓冲罐D-601液位过高溢流,串 进分馏塔,操作紊乱。”

原料加入量过大,导致,原料缓冲罐液位偏高。

泵P-2101抽出量过小,导致,原料缓冲罐液位偏高。

...

S3关键词分析步骤,统计和可视化分析报告中的关键词信息,从数据层 面和图示层面统计、分析文本中的关键词,关键词分析以词频和词云形式 展示。

对于得到的关键词,本实施例中,以统计型和图示型提供给行业人员, 以词频和词云的方式进行直观展示,具体地:

S31词频统计分析:统计提取得到的关键词词频,根据词频进行分析。

所述的词频统计分析,指的是对得到的关键词信息进行词频统计,统 计各个关键词出现的次数,并按照升序和降序两种方式排序,筛选居前的 一些关键词。

使用编写字词统计程序,自动地将统计结果保存至指定文档,文档形 式示例如下:

words,counts

原料,98

手阀控制进料量,94

增加进塔量,92

本实例仅展示词频统计文档形式,不为本发明真实统计数据。

S32词云直观分析:以词云图形式直观分析HAZOP化工分析报告的关 键词信息。

所述的词云直观分析,指的是将得到的关键词词频以图的方式进行展 示,编程构建词云图,按照词频对在图里降序展示关键词信息。

词云作为AI领域数据分析的一个要点,使用图的方式展示数据。本实 施例根据词频统计情况,使用程序依赖包自动生成各关键词的词云图。

S4形成结构化数据步骤,将提取到的数据转化为结构化数据,结构化数 据包括数据表格、三元组文件和信息数据报表三部分,用以行业人员从不 同方面分析HAZOP化工分析报告。

对于信息提取得到关键词、三元组、本体等信息,自动地将气转换为 结构化数据,实现半结构化数据到结构化数据的自动转换。

结构化数据,进一步包括数据表格、知识三元组和关键数据表格,具体地:

1)数据表格:将抽取得到得信息,转换为数据表格形式。

所述的数据表格指的是将关键词词频、本体数据、装置、化学品等提 取得到的数据保存为excel表格形式,用以行业人员分析。

2)知识三元组:将存在关系的本体类的实体信息,转换为三元组形式 的数据。

所述的知识三元组,指的是实体,关系,实体的三元组知识,将其转 换为csv数据格式,用以行业人员分析推理使用。

3)关键数据报表:将含有统计类型的数据转换成专有信息统计报表, 用以不同方面分析HAZOP化工分析报告。

所述的关键信息数据报表,指的是对于一些具有数据类型的数据和词 频数据,自动生成图表,用以行业人员直观分析。

本发明提出了一种基于HAZOP化工分析报告的文本数据抽取方法,将构 建化工HAZOP专有停用词典与自然语言信息提取技术相结合,能够较好地 抽取装置HAZOP表格中的本体、关键词和三元组等信息,具有较高的准确 率和召回率,抽取分析结果可信度较高,可以作为化工行业人员的一种辅助方 法,大大减轻化工行业人员的负担,有利于辅助行业人员快速准确高效分析 HAZOP化工分析报告,为国家和社会安全提供一定的技术支持。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理 解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例, 一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示 和描述但本领域技术人员可以理解的其他动作并发地发生。

如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、 “一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般 说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而 这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他 的步骤或元素。

上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟 悉本领域的人员可在不脱离本发明的发明思想的情况下,对上述实施例做 出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应 该是符合权利要求书提到的创新性特征的最大范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号