首页> 中国专利> 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法

一种基于Bert+BiLSTM+CRF的知识元自动抽取方法

摘要

本发明公开了一种基于Bert+BiLSTM+CRF的知识元自动抽取方法包括基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert‑PMC;以及基于Bert‑PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知识元自动抽取模型Bert‑BiLSTM‑CRF;所述知识元抽取阶段依次调用训练好的Bert‑PMC和Bert‑BiLSTM‑CRF进行法律知识元抽取。

著录项

  • 公开/公告号CN112836501A

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利号CN202110062146.9

  • 发明设计人 李佳媛;刘晓蒙;罗思明;

    申请日2021-01-18

  • 分类号G06F40/279(20200101);G06F40/30(20200101);G06N5/02(20060101);G06N3/04(20060101);

  • 代理机构11340 北京天奇智新知识产权代理有限公司;

  • 代理人陈新胜

  • 地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室

  • 入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明涉及法律知识元抽取技术领域,尤其涉及一种基于Bert+BiLSTM+CRF的知识元自动抽取方法。

背景技术

知识抽取是对蕴涵于文本文献中的知识进行识别、理解、筛选和格式化,从而把文本文献中的各类知识(包括常识知识、专家知识、行业领域知识等)抽取出来,即基于给定的本体从文本中抽取与既定本体相匹配的知识内容,并以一定形式存储形成知识元库。

知识抽取是信息资源建设中的关键环节,因此知识抽取在行业领域知识库构建过程发挥着举足轻重的作用。

目前知识抽取通常有两种实现方法,一种是基于规则的知识元抽取方法,一种是基于统计算法的知识元抽取方法。其中基于规则的方法替换功能性较差且容易性能问题;基于统计算法的方法,常用的有隐马尔可夫HMM、条件随机场CRF等序列标注方法,通常对语料的依赖很强,需要进行大量的语料标注。

然而标注数据,可以说是AI模型训练里最艰巨的一项工作了。自然语言处理的数据标注更是需要投入大量人力。相对计算机视觉的图像标注,文本的标注通常没有准确的标准答案,对句子理解也是因人而异,让这项工作更是难上加难。

实验发现,BERT在多个自然语言处理任务中,都能在极小的语料数据下带来显著的准确率提升。实验结果对比,BERT在极少的数据集上表现非常出色。

发明内容

为克服现有技术的局限性,有效解决行业领域知识元抽取过程中面临的抽取准确性问题,本发明的目的是提供一种基于Bert+BiLSTM+CRF的知识元自动抽取方法,该方法基于Bert的篇章结构划分和基于Bert+BiLSTM+CRF的知识元自动抽取,该方法综合考虑法律文书篇章段落的结构特征,融合多种自然语言抽取算法优化提升知识元抽取的准确性。

本发明的目的通过以下的技术方案来实现:

一种基于Bert+BiLSTM+CRF的知识元抽取方法,包括:

基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;

所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;

所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert-PMC;

以及

基于Bert-PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知识元自动抽取模型Bert-BiLSTM-CRF;

所述知识元抽取阶段依次调用训练好的Bert-PMC和Bert-BiLSTM-CRF进行法律知识元抽取。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

1)基于Bert+BiLSTM+CRF的知识元抽取方法能够在极小的语料数据下带来很好的知识元抽取准确率。本发明在Bert向量模型的基础上融合了法律文书篇章段落结构特点,更融合了双向递归神经网络BiLSTM的长短记忆优势和条件随机场CRF转移矩阵可规避非法标注优势,获得了较好的知识元抽取准确性。

2)从实验结果中可以看出,Bert-PMC(基于Bert的篇章段落标引方法)获得了较好的标引准确率,能够适应实际项目需求;Bert-BiLSTM-CRF(基于Bert+BiLSTM+CRF的知识元抽取方法)也获得了较好的知识元抽取准确率,能够适应实际项目的需求。

附图说明

图1a和1b是基于Bert+BiLSTM+CRF的知识元抽取方法流程图;

图2是基于Bert+BiLSTM+CRF的知识元抽取模型框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

本实施例特点是利用法律裁判文书或起诉文书的段落篇章结构特点,对整篇文书所有段落进行特征建模,根据行业特点与应用需求,将知识元与篇章结构特征建立关联,再基于篇章段落特征进行法律知识元抽取。由于Bert模型能在极小的语料标注集上获得较好的效果,该方法大大削弱了标注语料集对知识元抽取的制约。

如图1a和1b所示,基于Bert+BiLSTM+CRF的知识元抽取方法,包括

基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;

所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;

所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert-PMC;

以及

基于Bert-PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知识元自动抽取模型Bert-BiLSTM-CRF;

所述知识元抽取阶段依次调用训练好的Bert-PMC和Bert-BiLSTM-CRF进行法律知识元抽取。

所述模型Bert-PMC,是根据法律文书的自然段进行建模,自然段可包含一个或多个自然句。

所述模型Bert-PMC,利用Bert向量模型,对法律文书所有的自然段进行分类标引,主要目的是为法律知识元的抽取段落进行准确定位,提高知识元的抽取准确率。

所述模型Bert-BiLSTM-CRF,是根据法律文书的自然句进行建模,每一个自然句都是一个独立完整的句子。由篇章段落标引得到的自然段,在进行知识元抽取时需先进行分句,再对每一个自然句独立进行知识元抽取。

所述模型Bert-BiLSTM-CRF,利用Bert向量模型,再依次结合BiLSTM模型和CRF模型,集合多个算法优势对所有有效自然段的所有自然句进行知识元抽取,提高知识元抽取准确率。

基于Bert的篇章段落标引模型,主要包括如下步骤:

步骤A1、通过分析法律文书的主要内容和篇章结构特点,将文书的篇章段落结构划分为7种特征类别,以自然段落为单位对整篇文书所有段落进行语料标注;

步骤A2、利用Bert中文向量模型(chinese_L-12_H-768_A-12),训练基于Bert的篇章段落标引模型,主要的调控参数有输入向量的最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate和训练轮次num_train_epochs。

基于Bert+BiLSTM+CRF的知识元抽取模型,主要包括如下步骤:

步骤B1、根据法律行业知识框架,并结合法律文书的篇章结构特征,以句子为单位对整篇文书所有段落进行知识元语料标注:

共定义抽取12种知识元[Time,Local,BehaviorType,Damage,Attitude,Penitence,Laws,YouQi,Name,Tool,Means,CriminalRecord],28个Bert输出特征[O,B-Time,I-Time,B-Local,I-Local,B-BehaviorType,I-BehaviorType,B-Damage,I-Damage,B-Attitude,I-Attitude,B-Penitence,I-Penitence,B-Laws,I-Laws,B-YouQi,I-YouQi,B-Name,I-Name,B-Tool,I-Tool,B-Means,I-Means,B-CriminalRecord,I-CriminalRecord,X,[CLS],[SEP]];

其中B代表知识元首字符,I代表知识元非首字符,[CLS]代表Bert句首标签,[SEP]代表Bert句尾标签、X为异常字符标签。

步骤B2、利用Bert中文向量模型(chinese_L-12_H-768_A-12),训练基于Bert+BiLSTM+CRF的知识元抽取模型,主要的调控参数有输入向量的最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate和训练轮次num_train_epochs、LSTM的隐含单元个数lstm_size、LSTM的层数num_layers、droupout_rate等;

基于Bert-PMC和Bert-BiLSTM-CR的篇章段落标引模型进行法律知识元抽取的步骤包括:

步骤C1、输入一篇法律文书,整篇文书以自然段为单位作为Bert模型输入向量进行篇章段落标引,获取所有自然段的篇章段落特征;

步骤C2、根据知识框架和篇章段落结构特点,得到整篇文书最终有意义的目标抽取段落,其他非目标段落不再继续下一步的知识抽取;

步骤C3、对于所有有意义的目标抽取段落,以句子为单位作为Bert+BiLSTM+CRF模型的输入向量进行知识元序列标注,最终得到目标抽取段落的知识元。

图2中,Paragraph代表法律文书中自然段落,可包含一个或多个语句;篇章段落标引模型的输入向量为一句或多句的自然段,输出类别Class Label共7种,分别是:被告人简介、公诉机关指控、经审理查明、事实证据、法院观点、判决结果、其他;Sentence是自然段Paragraph分句之后完整句子;知识元抽取模型的输入向量为独立的句子,输出标签共28种,分别是:O、B-Time、I-Time、B-Local、I-Local、B-BehaviorType、I-BehaviorType、B-Damage、I-Damage、B-Attitude、I-Attitude、B-Penitence、I-Penitence、B-Laws、I-Laws、B-YouQi、I-YouQi、B-Name、I-Name、B-Tool、I-Tool、B-Means、I-Means、B-CriminalRecord、I-CriminalRecord、X、[CLS]、[SEP]。

表1为基于Bert的篇章段落标引准确率和召回率:

表1

其中,Class Label为类别标签;ExamplesNum为语料数量;Precision为准确率。

表2是基于Bert+BiLSTM+CRF的知识元抽取准确率和召回率:

表2

其中,epochs:模型训练轮次;max_seq_length:句子最大长度值;P:准确率Precision;R:召回率Recall;F:F值F-Measure;F=P*R*2/(P+R)。

上述BiLSTM为双向LSTM层,负责自动提取句子的特征;CRF层,进行句子集的序列标注,在解码过程中使用动态的Viterbi算法来求解最优路径。虽然BiLSTM加上Softmax层后就可以直接用来做知识元序列标注,但考虑到文本语义中上下文转换的合法性,引入CRF层对BiLSTM网络层输出的结果做一定的约束限制,解决知识元标签顺序不合法问题,进而提高知识元抽取的准确性。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号