首页> 中国专利> 一种基于深度学习的地铁设计规范中实体关系联合抽取方法

一种基于深度学习的地铁设计规范中实体关系联合抽取方法

摘要

本发明公开了一种基于深度学习的地铁设计规范中实体关系联合抽取方法,利用词典文件构建名词哈希词典索引;将待处理《地铁设计规范》文本作为输入文本S1;对输入文本S1进行正向与逆向最大匹配算法处理并求二者结果的交集得到C1;将输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;对步骤4中得到的S2基于跨度选择文段进行实体抽取,对已存在于C1中的实体不进行处理;合并实体集合C1与C2,得到实体集合C3,对C3中的实体两两之间进行双向关系分类,得到实体关系集合C4。本发明的方法,识别准确率高,计算精简,便于应用。

著录项

  • 公开/公告号CN112966512A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 西安理工大学;

    申请/专利号CN202110218377.4

  • 申请日2021-02-26

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/211(20200101);G06F40/242(20200101);G06K9/62(20060101);G06N3/02(20060101);G06Q50/26(20120101);

  • 代理机构61214 西安弘理专利事务所;

  • 代理人宁文涛

  • 地址 710048 陕西省西安市碑林区金花南路5号

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明属于计算机自然语言处理技术领域,涉及一种基于深度学习的地铁设计规范中实体关系联合抽取方法。

背景技术

随着大数据的兴起,面对海量数据信息如何正确合理利用是大数据分析的关键所在。而知识图谱可以将结构化、半结构化数据用图的方式表示出来,从而简化知识,方便数据的进一步处理利用。

地铁是新兴的建筑行业,由于地铁设计规范多为文本形式表示,其陈述结构也与知识图谱表示相契合,故可利用知识图谱来对地铁设计规范进行知识表示,从而推动轨道交通行业信息化进程。

实体关系抽取是建立知识图谱的关键任务之一。实体关系抽取是级联任务,分为实体抽取和关系抽取两个子任务,如何更好地处理这种级联任务是自然语言处理的一个热点研究方向。传统的实体关系抽取多使用PIPline方法,即先抽取实体再抽取关系,虽然该类方法易于实现,实体模型和关系模型可以使用独立的数据集,但存在误差积累、实体冗余、交互缺失等缺点。针对地铁规范中实体与关系的联合抽取方法可以解决这些问题。目前,关于实体关系联合抽取方法的专利还存在大量空白。

发明内容

本发明的目的是提供一种基于深度学习的地铁设计规范中实体关系联合抽取方法,解决了现有技术中实体关系抽取方法无法识别嵌套实体、实体与关系分类不准确的问题。

本发明所采用的技术方案是,一种基于深度学习的地铁设计规范中实体关系联合抽取方法,按照以下步骤实施:

步骤1,利用词典文件构建名词哈希词典索引,词典文件采用IFC实体类标准构建,之后将词典文件包含的所有实体类定义为实体类集合E,并定义关系类集合R;

步骤2,将待处理《地铁设计规范》的句子作为输入文本S1;

步骤3,对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2,取C1_1与C1_2的交集得到实体集C1;

步骤4,将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;

步骤5,在步骤4字嵌入集合S2中选择文段,对所有选择的文段构造文段嵌入,通过卷积分类器进行实体分类过滤,得到实体集合C2;

步骤6,将步骤3中的实体集合C1与步骤5中的实体集合C2合并后得到实体集合C3;从C3中任意选择两个实体构成若干实体对,为实体对构造关系嵌入;经过卷积分类器分类得到实体对的双向关系r,并通过分类过滤,得到最终的实体关系集合C4。

步骤5具体为:

对步骤4中得到的字嵌入集合S2在所有长度在1到10之间的跨度上选择文段,集合S2是通过BERT模型得到的文本向量表示(e

步骤5中,文段嵌入部分的具体构造过程如下:

5.1)对于步骤5中选择的文段的字嵌入,进行最大池化得到向量span_max、进行平均池化得到向量span_ave、进行最小池化得到向量span_min。连接三个向量,得到词义嵌入

5.2)对于步骤5中选择的文段获取三个位置,即本文段的第一个字head、本文段的最后一个字end、整个句子的最后一个字last。字的位置为该字距本句子第一个字的距离,例如本句子第一个字的位置为0,第五个字的位置为4。利用三角函数位置编码方式,将head、end、last的位置分别编码为一个长度等同于字嵌入长度的向量P

5.3)获得步骤4中BERT模型输出的向量CLS作为上下文特征向量S1。之后对上一个句字与下一个句字以同样方式得到上下文特征向量S+1、S-1,对S+1与S-1做最大池化得到向量S2。之后,连接S1与S2得到上下文嵌入

5.4)连接步骤5.1)得到的词义嵌入M、步骤5.2)得到的位置嵌入P,步骤5.3)得到的上下文嵌入S,得到文段嵌入

步骤6具体为:

合并步骤3得到的实体集合C1与步骤5得到的实体集合C2,得到实体集合C3;从C3中任选两个实体以构造实体对,对所有可能的实体对,由其位置嵌入、字嵌入的最大池化、最小池化与平均池化组成关系嵌入,经过卷积分类器分类得到实体对的双向关系r;并对C3中的所有实体对按照已定义的关系类集合R进行关系分类,过滤结果中不属于已定义的关系类集合R的关系,得到最终的实体关系集合C4。

步骤6中,构造关系嵌入部分的具体过程如下:

6.1)对于一个实体对(e

6.2)对于步骤6.1)中前文、实体1、关联、实体2、后文,分别对其词嵌入依照5.2)中的方法做最大池化、平均池化、最小池化,并连接得到词义嵌入M’。

6.3)按照5.3)中的方法,分别获得前文、实体1、关联、实体2、后文五个部分的最后一个字的位置嵌入P

6.4)q

本发明的有益效果是,使用一个模型完成了实体抽取与关系抽取两个任务,通过领域适配预训练降低了对训练集的要求,利用基于跨度的实体抽取方法解决了传统模型不能抽取嵌套实体的问题。此外,本发明联合和基于词典的实体抽取方法与基于深度学习的实体抽取方法,先对文本以基于词典的方法进行实体抽取,再对基于未涉及到的实体以基于深度学习的方法进行抽取,从而显著地提升了模型的速度与准确性。

针对每个基于跨度选择的文段,本发明对通过BERT得到的字嵌入进行了最大池化、平均池化和最小池化,并将三种池化得到的结果连接作为文段的词义嵌入,该方法既保证了词义嵌入的长度为一个固定值,又保留了更大的信息量。本发明使用了创新的位置嵌入,即对每次选择的文段的第一个字以及最后一个字的位置进行编码,同时还对句子的最后一个字的位置进行编码,三个位置嵌入连接后,能够表示该文段在整句话中所处的位置。在实体分类中,本发明还对上下文的语义进行了嵌入,利用BERT模型输出的CLS,联合了本句、上句与下句话的语义,使得分类更加准确。

附图说明

图1为本发明识别方法的总流程图;

图2为本发明识别方法的实施例流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于深度学习的地铁设计规范中实体关系联合抽取方法,参照图1,先以词典的方法对实体进行抽取,再以BERT模型获得字嵌入,对词典方法未能识别的实体结合词义嵌入、位置嵌入、上下文嵌入进行分类。之后,对于得到的实体,两两之间通过词义嵌入与位置嵌入构造关系嵌入,通过卷积分类器进行分类,最后输出文本中的所有实体对之间的双向关系,具体按照以下步骤实施:

步骤1,利用词典文件构建名词哈希词典索引,词典文件是从IFC实体类得到,并据此定义实体类集合E与关系类集合R;

步骤2,将待处理《地铁设计规范》文本作为输入文本S1;

步骤3,对输入文本S1进行正向最大匹配算法处理得到实体集C1’,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1”,取C1’与C1”的交集得到实体集C1;

步骤4,将输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;

步骤5,对步骤4中得到的字嵌入集合S2基于跨度选择一个文段span,对于输入第一结果集C1的实体不予选择。利用词义嵌入、位置嵌入与上下文嵌入对span构造文段嵌入span_em,将span_em输入卷积分类器进行实体分类。对所有文段完成分类后,过滤结果中不属于已定义实体类集合E的实体。得到实体集合C2;

在步骤5中,文段嵌入的构造过程如下:

5.1)集合S2是通过BERT模型得到的文本向量表示(e

5.2)对于已经得到的文段span的字嵌入,进行最大池化得到向量span_max、进行平均池化得到向量span_ave、进行最小池化得到向量span_min。连接三个向量,得到词义嵌入

5.3)对于文段span获取三个位置,即本文段的第一个字head、本文段的最后一个字end、整个句子的最后一个字last。字的位置就是该字距本句子第一个字的距离,例如本句子第一个字的位置为0,第五个字的位置为4。利用三角函数位置编码方式,将head、end、last的位置分别编码为一个长度等同于字嵌入长度的向量P

5.4)获得BERT模型输出的向量CLS作为上下文特征向量S1。之后对上一个句字与下一个句字以同样方式得到上下文特征向量S+1、S-1,对S+1与S-1做最大池化得到向量S2。之后,连接S1与S2得到上下文嵌入

5.5)连接词义嵌入M、位置嵌入P,上下文嵌入S,得到文段嵌入

步骤6,合并实体集合C1与C2,得到实体集合C3。对每一个实体对,由其位置嵌入、词嵌入的最大池化、最小池化与平均池化组成双向的关系嵌入,经过卷积分类器分类得到双向关系。对C3中的所有实体对按照已定义的关系类集合R进行关系分类,得到最终的实体关系集合C4;

在步骤6中,构造关系嵌入的具体过程如下:

6.1)对于一个实体对(e

6.2)对于前文、实体1、关联、实体2、后文,分别对其词嵌入依照5.2)中的方式做最大池化、平均池化、最小池化,并连接得到词义嵌入M’。

6.3)按照5.3)中的方法,分别获得前文、实体1、关联、实体2、后文五个部分的最后一个字的位置嵌入P

6.4)q

参照图2,本发明识别方法的实施例是,以“列车制动系统应具有保持制动功能。”为例。首先对其进行步骤3,以词典的方法识别实体,其结果为C1=“列车制动系统/保持制动/功能”,图中以“保持制动”为例。然后再以深度学习方法对C1中未涉及到的实体进行基于跨度抽取,对应本专利中步骤4和步骤5,其结果分别为:C2=“列车/列车制动/制动/制动系统/系统/制动/功能”,图中以“系统”为例。合并C1与C2得到C3,对C3中的所有实体两两之间进行双向关系分类,图中仅示例了对实体对“系统”与“保持制动”两个实体的正向关系分类,其关系为“功能”,实际上还对“系统”与“保持制动”进行反向关系分类,其关系为“隶属”。

本发明的地铁设计规范中实体关系联合抽取方法,创新点在于词典加深度学习、实体关系联合抽取、结合了词义嵌入与位置嵌入以及上下文嵌入的文段嵌入方法、将句子分为5个文段块的关系分类方法、面向地铁设计规范(领域)。先对文本进行基于词典的实体抽取,再利用文段嵌入对未涉及到的实体进行基于跨度的抽取,之后对所有实体两两之间借助文段块结构进行双向关系分类,最后输出地铁设计规范中的实体及其双向关系,整个流程均为全自动实现。本发明利用词典与深度学习相结合的方法提升了处理的速度,利用三种池化相连的词义嵌入方法在规范模型输入的同时尽可能地保留了信息,利用位置嵌入既获得了实体长度的信息还获得了实体在整句话中位置的信息,最后基于文本块的关系分类方法为关系模型提供了良好的结构性,整个流程均为全自动实现,为后期知识图谱的构建减轻负担。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号