首页> 中国专利> 一种公告信息元素抽取方法、系统及装置

一种公告信息元素抽取方法、系统及装置

摘要

本发明公开了一种公告信息元素抽取方法、系统及装置。方法包括:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;使用公告信息元素抽取模型预测字序列的类别;根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。本发明使用避开了由于对中文文本分词可能造成的不好效果的影响,效果更好,效率更高,适用于长文本的信息元素抽取。

著录项

  • 公开/公告号CN113051887A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 深圳市北科瑞声科技股份有限公司;

    申请/专利号CN201911364864.0

  • 申请日2019-12-26

  • 分类号G06F40/211(20200101);G06F40/295(20200101);G06N3/04(20060101);

  • 代理机构44279 深圳市万商天勤知识产权事务所(普通合伙);

  • 代理人罗建平

  • 地址 518000 广东省深圳市南山区高新区南区深港产学研基地大楼西座四楼W406室

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及数据处理技术领域,具体涉及一种公告信息元素抽取方法、系统及装置。

背景技术

随着现代科学技术的高速发展以及互联网的火热,近几年文本信息数据爆发式增长,人们每天能接触到海量的文本信息,而如何从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,借助信息元素抽取摘要技术可以使得文本信息以结构化的形式展现,让人很快地从大量数据中获取重要信息。信息元素抽取方法一般通过对文本中的实体、关系、事件进行抽取,提取出其中有用的的部分内容,根据文档结构信息进行填充,从而得到快速展示信息的结构化文本。目前,主要采用深度学习和序列文本标注等技术进行信息元素抽取。

【1】深度学习技术。深度学习是一种机器学习方法,可以学习样本数据的内在规律和表示层次,在这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。深度学习的形式包括多层感知器、卷积神经网络、循环神经网络、深度置信网络和其它混合构筑。

【2】特征向量化。在对文本信息处理的过程中,将信息转化为数字信息更方便于计算机的处理,在很多的自然语言处理的工程中,会将数据转换成向量形式来表示文本特征,进而通过文本的特征对数据进行各种操作。在传统的向量化处理中,一般先将文本进行分词,对词进行向量化,用向量来表示文本的特征,从而得到一种与原始文本有着某种关系的特征向量表达方式,以这种特征向量化后的数据为起点进行后面的各种数据处理工作,例如:文本分类任务,命名实体识别任务等。

【3】序列标注。序列标注问题是自然语言中最常见的问题,在深度学习火起来之前,常见的序列标注问题的解决方案都是借助于HMM(Hidden Markov Model,隐马尔可夫模型)模型、最大熵模型、CRF(conditional random field algorithm,条件随机场算法)模型。尤其是CRF,是解决序列标注问题的主流方法。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。我们只要在做序列标注时给定特定的标签集合,就可以进行序列标注。其本质上是对线性序列中每个元素根据上下文内容进行分类的问题。

现有技术中,申请号为“CN201811549314.1”的专利申请公开了一种基于文档结构与深度学习的金融类公告信息抽取方法,包括:S1:生成文档结构树;S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;S4:训练词向量:预训练上下文的词向量,并利用CNN训练字符词向量;S5:抽取结构化信息:构建基于Bi-LSTM-CRF的深度学习模型,训练该模型进行字段识别。

该发明能快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息,但是,存在如下问题:对于结构不清晰的公告,生成文档结构树的难度大且效果不佳,节点信息也更难以表示,对于长文本的信息抽取,可能使得结构树层次太多,冗余性大且规则难以定义,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,给信息抽取带来很大的困难。

实践发现,现有技术的信息抽取技术存在如下缺陷:

1.目前传统的信息抽取技术,都要通过对文本进行分词,再对词进行特征向量化后,才继续下一步处理。但是在中文文本中,词与词之间并没有明显的分界线,所以分词的好坏会影响到最后的信息抽取结果。

2.在序列标注中,需要花费大量时间对文本进行标注,特别是对文本块进行标注的时候,因为文本较长,结构不清晰,标注花费人力较大。现在分类算法一般有基于无监督学习、半监督学习和监督学习。其中监督分类方法使用得比较多,是现在分类技术的主流,并且效果较好,但是准确率基于受训练样本的数量和标注质量的,所以需要耗费大量的人力和时间去训练或者标注数据。而无监督分类方法的目的是对样本中潜在的结构或者分布作相似对比,把相似的对象堆叠在一起,并没有明确的类别划分和确切的答案,该方法虽然节省了人力和时间,但是训练效果不明确。

3.传统深度学习是一种批量学习,在每一次学习前需要准备好所有的处理完毕的语料数据,对于每次学习都要重新训练模型,这会耗费大量的时间和空间,从而影响效率。

发明内容

本发明实施例的主要目的在于提供一种效果更好、效率更高的公告信息元素抽取方法。

本发明的目的还在于提供相应的系统及装置。

为实现上述发明目的,本发明采用的技术方案如下:

第一方面,提供一种公告信息元素抽取方法,包括:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;使用公告信息元素抽取模型预测字序列的类别;根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。

结合第一方面,在一种可能的实现方式中,所述预先训练公告特征段分类模型,包括:数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。

结合第一方面,在一种可能的实现方式中,所述预先训练公告信息元素抽取模型,包括:数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。

结合第一方面,在一种可能的实现方式中,所述公告特征段分类模型包括归一化指数函数Softmax;所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。

第二方面,提供一种公告信息元素抽取系统,包括:数据预处理模块,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;公告核心文本块分类模块,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;文本块信息元抽取模块,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;结构化处理模块,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。

结合第二方面,在一种可能的实现方式中,所述公告核心文本块分类模块预先训练公告特征段分类模型,包括:数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。

结合第二方面,在一种可能的实现方式中,所述文本块信息元抽取模块预先训练公告信息元素抽取模型,包括:数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。

结合第二方面,在一种可能的实现方式中,所述公告特征段分类模型包括归一化指数函数Softmax;所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。

第三方面,提供一种计算机设备,包括处理器和存储器,所述存储器中存储有程序,所述程序包括计算机执行指令,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备执行如第一方面所述的公告信息元素抽取方法。

第四方面,提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括计算机执行指令,所述计算机执行指令当被计算机设备执行时,使所述计算机设备执行如第一方面所述的公告信息元素抽取方法。

从以上技术方案可以看出,本发明实施例具有以下优点:

1.本发明会对长文本进行识别,使用句子特征向量化和字特征向量化,避开了由于对中文文本分词可能造成的不好效果的影响,同时可使用对向量进行矩阵增广的数据增强技术,增强训练样本的特征表达。

2.本发明采用了监督学习的学习形式,在训练结果中,可以得到了准确度比较高的分类效果。

3.本发明适用于长文本的信息元素抽取,具有更高的效率。在长文本中,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,需要把信息元素的位置信息考虑在内;有助于提高按照正则表达式来做信息抽取的复杂性和性能不稳定性。

4.本发明可以根据所摘取出的结构信息做分类,从而也可以根据公告结构来对公告进行分类。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种公告信息元素抽取方法的流程示意图;

图2是本发明实施例提供的一种公告信息元素抽取系统的结构示意图;

图3是本发明实施例中一种分类模型结构图;

图4是本发明实施例中一种分类模型训练图;

图5是本发明实施例中一种公告信息元素抽取系统的结构框架原理图;

图6是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面通过具体实施例,进行详细的说明。

请参考图1,本发明的一个实施例,提供一种公告信息元素抽取方法。所述公告是政府、企业等各种不同主体对外公开宣告的信息。该方法通过预先训练公告特征段分类模型(简称分类模型),以及,预先训练公告信息元素抽取模型(简称抽取模型),使用两个模型实现公告信息元素抽取,即,从公告中抽取重要的内容。

如图1所示,该方法可包括以下步骤:

步骤S1:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型。

步骤S2:获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;其中,可以对句序列进行向量化,得到句向量集合;可以对字序列进行向量化,得到字向量集合。

步骤S3:使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子。所述句向量集合可作为所述公告特征段分类模型的输入。

步骤S4:使用公告信息元素抽取模型预测字序列的类别。所述字向量集合可作为所述公告信息元素抽取模型的输入。

步骤S5:根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,按规则构建结构化的公告信息元素。至此,完成公告信息元素的抽取。

如上所述,该方法将公告的句子转换成向量作为分类模型的输入,通过分类模型预测句序列的类别,识别公告核心文本块,找出包含待抽取信息元素的句子;然后,通过抽取模型,对分类好的包含待抽取信息元素的句子,使用命名实体识别技术,抽取出所需要的信息元素。

请参考图2,本发明的一个实施例,还提供一种公告信息元素抽取系统,该系统主要包括:数据预处理模块,基于文本分类的公告核心文本块分类模块(简称分类模块),和基于命名实体识别技术的文本块信息元抽取模块(简称抽取模块),以及结构化处理模块。

数据预处理模块21,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;

公告核心文本块分类模块22,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;

文本块信息元抽取模块23,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;

结构化处理模块24,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,按规则构建结构化的公告信息元素。

该系统中,分类模块和抽取模块是主要组成模块。为了减少分词对处理结果的影响,分类模块中,直接将句子转换成向量作为分类模型的输入,对句子进行分类,找出包含待抽取信息元素的句子;然后,在抽取模块中,对分类好的包含待抽取信息元素的句子,使用命名实体识别技术,抽取出所需要的信息元素。

下面,对本发明的技术方案做进一步详细说明。

【一】训练公告特征段分类模型

本发明中,由基于文本分类的公告特征句分类模块,来训练公告特征段分类模型。分类模型主要包括归一化指数函数(Softmax),还可以包括卷积神经网络(ConvolutionalNeural Networks,CNN)、双向门控循环单元(BiGRU)、或来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)。对于一份公告,可能涵盖多个方面的内容,可经分类模型进行分类,根据需要例如可以分为T个类,T为正整数,而关注的重要信息元素可以只在其中某一个或几个类中,可抽取出该类后交由抽取模块进行命名实体识别,提取出所需要的信息元素。训练分类模型的过程如下。

(1)数据预处理

A)获取用作语料的公告文本,对公告文本D={D_1…D_m}进行分句,其中D_m表示第m个公告文本。形成句序列s={st_1…st_n},其中,st_n表示第n个句子。n和m均为正整数。

B)对公告文本段落进行划分,其中有M%划分为训练集e_set,N%划分为验证集d_set,最后剩下的100%-M%-N%划分为未标注集u_set。其中M,N为工程经验参数。

C)对训练集e_set和验证集d_set进行标注,例如人工标注,标注可分为4种,分别为:s-block(开始边界文本块),c-block(核心文本块),e-block(结束边界文本块),O(其他文本块)。

D)将训练集e_set、未标注集u_set以及验证集d_set经过中文预训练模型例如BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器表征量)模型处理,转成形状为[I,J,K]的特征向量集,其中I表示使用第几层的输出作为句向量,J表示为一个句子的最大长度,若一个句子超过J个字符,句子长度则截断为J,若一个句子少于J个字符,则可以填充“[PAD]”(该词为BERT的空填充词),K为BERT模型的隐藏层数目。I、J、K为工程经验参数。

(2)分类模型训练

用于文本分类的分类模型可采用卷积神经网络(Convolutional NeuralNetworks,CNN),主要分为4个结构,包括输入层、卷积层、池化层和全连接层。其中输入层通过h*k的卷积核的卷积层之后,得到列数为1的特征图(feature map),其中h表示纵向句子的个数,k表示句向量的维度。第三个是池化层,使用最大池化法的时候一般认为池化层中提取的最大,一般是最具有代表意义的或者是最重要的,最终提取出来成为一个一维向量。最后一个是带有归一化指数函数(Softmax)的全连接层作为输出层。分类模型结构图如图3所示,分类模型训练图如图4所示。训练过程如下。

A)将经过BERT中文预训练模型转成形状为[I,J,K]的特征向量训练集e_set作为CNN的输入。

B)CNN的filter(卷积核)的大小都为h*k,即每个filter扫过的区域是从上往下覆盖到一个word的所有embedding长度(其中h为filter的窗口长度)。

C)选取几个不同大小(h不同的)filter去学习句子的特征,每个filter(这里表示为w)所学习到的特征即如下表示:c

D)做卷积计算,每个filter扫一遍句子,可以得到这个filter的feature map,因为filter的窗口长度为h,所以feature map中共得到n-h+1个feature。

E)每个卷积核的feature map做一个最大池化(max-pooling),即max(c),使使长度不同的句子经过这个卷积核后得到的特征都为1维,以及保证卷积核都能取得很高的卷积值。

F)执行全连接,经过一个softmax分类器对文本进行分类。

经以上步骤完成对公告特征段分类模型的训练。

【二】训练公告信息元素抽取模型

基于命名实体识别技术的公告信息元抽取模型,主要由双向门控循环单元(BiGRU)+卷积神经网络(CNN)+条件随机场(CRF)模型构成。对于经分类模型摘取的某些类型的公告文本,可以利用抽取模型进行命名实体识别,提取所需要的信息元素。训练抽取模型的步骤如下。

(1)数据预处理

A)获取公告文本D=(D_1…D_m),其中D_m表示第m个公告文本。然后对公告数据文本D={D_1…D_m}进行分句,形成句序列S=(S_1…S_n),其中S_n表示第n个句子。n和m均为正整数。

B)把句序列S=(S_1…S_n)分割成为字序列w={wd_1…wd_n},其中wd_n表示第n个字。

C)对于得到的字序列w={wd_1…wd_n},我们要用BERT中文预训练模型(已有技术)对其进行字向量化,并且进行人工标注,得到一个标注好了的字向量集v=(v_1…v_n)。

D)把经过预处理的字向量集v进行分割,数据集的R%分为训练集e_set,数据集的100%-R%分为测试集t_set,其中训练集的N%为验证集d_set,其中R为工程经验参数。

(2)神经网络训练

A)将向量训练集e_set用来初始化公告信息元素抽取模型(BiGRU+CNN+CRF),得到一个模型m1。

B)将验证集d_set作为模型m1的输入,检验模型m1的性能,可以及时发现模型或参数的问题,进而进行调整,得到新的模型m1_v。

C)将测试集t_set作为模型m1_v的输入,预测出测试集t_set的标签,并就预测标签和测试集人工标注的标签对比,评估模型m1_v的性能。

D)利用新的输出语意特征来做实体标注,可得到新的实体标签。

经以上步骤完成对公告信息元素抽取模型的训练。

以上,对分类模型和抽取模型的训练过程进行详细说明。

下面,利用具体应用场景的实施例进一步说明本发明方案中公告信息元素抽取过程。

请参考图5,是一个实施例中,公告信息元素抽取系统结构框架原理图,图中信息元素简称为信息元。基于该系统的公告信息元素抽取方法包括以下步骤:

A)获取需要抽取信息元素的公告文本D=(D_1…D_m),其中D_m表示第m个公告文本块。然后对公告文本D={D_1…D_m}进行分句,形成句序列S=(S_1…S_n),其中S_n表示第n个句子。n和m均为正整数。以及可选的,对句序列进行向量化,得到句向量集合。

B)把句序列S=(S_1…S_n)分割成为字序列w={wd_1…wd_n},其中wd_n表示第n个字。对于得到的字序列wd={wd_1…wd_n},可以用BERT中文预训练模型对其进行字向量化,并且可以进行人工标注,得到一个标注好了的字向量集合v=(v_1…v_n)。

C)使用公告特征段分类模型(CNN+Softmax)预测公告句序列S的类别,找出包含待抽取信息元素的句子。

D)使用公告信息元抽取模型(BiGRU+CNN+CRF)预测公告字序列wd的类别。

E)根据找出的包含待抽取信息元素的句子,使用对应的公告句子类别,组装公告字序列的实体词。

F)按规则构建结构化的公告信息元素,完成公告信息元素的抽取。

以上,本发明实施例公开了一种公告信息元素抽取方法和系统。从以上技术方案可以看出,本发明实施例具有以下优点:

1.本发明会对长文本进行识别,使用句子特征向量化和字特征向量化,避开了由于对中文文本分词可能造成的不好效果的影响,同时可使用对向量进行矩阵增广的数据增强技术,增强训练样本的特征表达。

2.本发明采用了监督学习的学习形式,在训练结果中,可以得到了准确度比较高的分类效果。

3.本发明适用于长文本的信息元素抽取,具有更高的效率。在长文本中,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,需要把信息元素的位置信息考虑在内;有助于提高按照正则表达式来做信息抽取的复杂性和性能不稳定性。

4.本发明可以根据所摘取出的结构信息做分类,从而也可以根据公告结构来对公告进行分类。

请参考图6,本发明实施例还提供一种计算机设备60,包括处理器61和存储器62,所述存储器62中存储有程序,所述程序包括计算机执行指令,当所述计算机设备60运行时,所述处理器61执行所述存储器62存储的所述计算机执行指令,以使所述计算机设备60执行如上文所述的公告信息元素抽取方法。

本发明实施例还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括计算机执行指令,所述计算机执行指令当被计算机设备执行时,使所述计算机设备执行如上文所述的公告信息元素抽取方法。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。

上述实施例仅用以说明本发明的技术方案,而非对其限制;本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号