首页> 中国专利> 一种文书自动生成方法及系统

一种文书自动生成方法及系统

摘要

本发明公开了一种文书自动生成方法及系统。该方法包括:获取历史文书,对历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板;对历史文书的头部和尾部采用正则表达式进行匹配,得到文书首尾模板;将文书正文模板和文书首尾模板合并为文书模板,将待填充的文书要素信息对应填充至所述文书正文模板和所述文书首尾模板中,生成文书。采用本发明的方法及系统,基于深度学习结合规则生成文书模板,让机器学习模板的要素规律,自动生成文书模板,能够有效避免传统模板难穷举、模板静态不灵活的问题,简化了操作过程,减少了文书编纂的耗时,能够有效提升文书生成的效率。

著录项

  • 公开/公告号CN112560419A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利号CN202011442492.1

  • 发明设计人 路红英;杨军;钱宝生;王滨;黄茗;

    申请日2020-12-08

  • 分类号G06F40/186(20200101);G06F40/295(20200101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11569 北京高沃律师事务所;

  • 代理人王爱涛

  • 地址 100083 北京市海淀区北四环中路211号

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及文书生成技术领域,特别是涉及一种文书自动生成方法及系统。

背景技术

现有生成文书的方法是:根据要生成文书的类型,从模板库中匹配出相应的模板,并将要生成文书的各种要素信息填充到已提取的文书模板中,从而生成符合要求的目标文书。

然而,传统基于模板填空的文书生成方法,其缺点是:获取模板的方式需要制作大量不同种类的模板,过程繁琐,费时费力。因此,如何简化操作过程,减少文书编纂的耗时,提升文书生成的效率是亟待解决的问题。

发明内容

本发明的目的是提供一种文书自动生成方法及系统,能够提升文书生成的效率。

为实现上述目的,本发明提供了如下方案:

一种文书自动生成方法,包括:

获取历史文书;

对所述历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板;

对所述历史文书的头部和尾部采用正则表达式进行匹配,得到文书首尾模板;

将所述文书正文模板和所述文书首尾模板合并为文书模板;所述文书模板用于生成文书。

可选的,在所述将所述文书正文模板和所述文书首尾模板合并为文书模板,之后还包括:

将待填充的文书要素信息对应填充至所述文书正文模板和所述文书首尾模板中,生成文书。

可选的,所述对所述历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板,具体包括:

将所述历史文书的正文部分输入BERT模型,得到输出的向量;

将所述输出的向量输入训练好的BLSTM-CRF模型,得到标签;所述标签用于确定命名实体。

可选的,所述训练好的BLSTM-CRF模型,训练过程具体包括:

获取待训练的文书正文;

将所述待训练的文书正文输入BERT模型,得到待训练的向量;

以所述待训练的向量为输入,以与所述待训练的文书正文对应的标签为输出对所述BLSTM-CRF模型进行训练,得到训练好的BLSTM-CRF模型。

可选的,所述将所述待训练的文书正文输入BERT模型,得到待训练的向量,具体包括:

对所述待训练的文书正文进行分字处理,得到分字处理后的文本;

在所述待训练的文书正文的每个句子的开始位置和结束位置添加标记信息,得到多个带有标记信息的句子;

采用Transformer编码对所述分字处理后的文本和所述带有标记信息的句子进行处理,得到待训练的向量。

可选的,所述文书要素信息,具体包括:

文书首尾部要素信息和文书正文要素信息;

所述文书首尾要素信息包括:文书的公文标题、发文字号、发文单位、签发人、等级、类别;

所述文书正文要素信息包括:公文正文的关键人物、公文正文的关键时间、公文正文的关键地点。

本发明还提供一种文书自动生成系统,包括:

历史文书获取模块,用于获取历史文书;

文书正文模板生成模块,用于对所述历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板;

文书首尾模板生成模块,用于对所述历史文书的头部和尾部采用正则表达式进行匹配,得到文书首尾模板;

文书模板生成模块,用于将所述文书正文模板和所述文书首尾模板合并为文书模板;所述文书模板用于生成文书。

可选的,所述文书正文模板生成模块,具体包括:

第一输入子模块,用于将所述历史文书的正文部分输入BERT模型,得到输出的向量;

第二输入子模块,用于将所述输出的向量输入训练好的BLSTM-CRF模型,得到标签;所述标签用于确定命名实体。

可选的,所述第二输入子模块,具体包括:

训练单元,用于获取待训练的文书正文;将所述待训练的文书正文输入BERT模型,得到待训练的向量;以所述待训练的向量为输入,以与所述待训练的文书正文对应的标签为输出对所述BLSTM-CRF模型进行训练,得到训练好的BLSTM-CRF模型。

可选的,所述训练单元,具体包括:

分字处理子单元,用于对所述待训练的文书正文进行分字处理,得到分字处理后的文本;

标记子单元,用于在所述待训练的文书正文的每个句子的开始位置和结束位置添加标记信息,得到多个带有标记信息的句子;

训练子单元,用于采用Transformer编码对所述分字处理后的文本和所述带有标记信息的句子进行处理,得到待训练的向量。

与现有技术相比,本发明的有益效果是:

本发明提出了一种文书自动生成方法及系统,获取历史文书,对历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板;对历史文书的头部和尾部采用正则表达式进行匹配,得到文书首尾模板;将文书正文模板和文书首尾模板合并为文书模板,文书模板用于生成文书。本发明基于深度学习结合规则生成文书模板,让机器学习模板的要素规律,自动生成文书模板,能够有效避免传统模板难穷举、模板静态不灵活的问题,简化了操作过程,减少了文书编纂的耗时,能够有效提升文书生成的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中文书自动生成方法流程图;

图2为本发明实施例中公文文本模板神经网络生成示意图;

图3为本发明实施例中生成特定公文模板流程图;

图4为本发明实施例中生成公文文书流程图;

图5为本发明实施例中文书模板自动提取示意图;

图6为本发明实施例中基于模板和要素的文书生成示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种文书自动生成方法及系统,能够提升文书生成的效率。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

图1为本发明实施例中文书自动生成方法流程图,如图1所示,一种文书自动生成方法,包括:

步骤101:获取历史文书。

步骤102:对历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板。

步骤103:对历史文书的头部和尾部采用正则表达式进行匹配,得到文书首尾模板。

步骤104:将文书正文模板和文书首尾模板合并为文书模板;文书模板用于生成文书。

步骤105:将待填充的文书要素信息对应填充至文书正文模板和文书首尾模板中,生成文书。

文书要素信息,具体包括:文书首尾部要素信息和文书正文要素信息。文书首尾要素信息包括:文书的公文标题、发文字号、发文单位、签发人、等级、类别;文书正文要素信息包括:公文正文的关键人物、公文正文的关键时间、公文正文的关键地点。

步骤102,具体包括:

将历史文书的正文部分输入BERT模型,得到输出的向量;

将输出的向量输入训练好的BLSTM-CRF模型,得到标签;通过标签得到要素即命名实体。

其中,训练好的BLSTM-CRF模型,训练过程具体包括:

获取待训练的文书正文;

将待训练的文书正文输入BERT模型,得到待训练的向量;

以待训练的向量为输入,以与待训练的文书正文对应的标签为输出对BLSTM-CRF模型进行训练,得到训练好的BLSTM-CRF模型。

具体的,将待训练的文书正文输入BERT模型,得到待训练的向量,具体包括:

对待训练的文书正文进行分字处理,得到分字处理后的文本;

在待训练的文书正文的每个句子的开始位置和结束位置添加标记信息,得到多个带有标记信息的句子;

采用Transformer编码对分字处理后的文本和带有标记信息的句子进行处理,得到待训练的向量。

本发明还提供一种文书自动生成系统,包括:

历史文书获取模块,用于获取历史文书。

文书正文模板生成模块,用于对历史文书的正文部分采用深度学习方法进行命名实体识别,得到文书正文模板。

文书首尾模板生成模块,用于对历史文书的头部和尾部采用正则表达式进行匹配,得到文书首尾模板。

文书模板生成模块,用于将文书正文模板和文书首尾模板合并为文书模板;文书模板用于生成文书。

文书生成模块,用于将待填充的文书要素信息对应填充至文书正文模板和文书首尾模板中,生成文书。

文书正文模板生成模块,具体包括:

第一输入子模块,用于将历史文书的正文部分输入BERT模型,得到输出的向量;

第二输入子模块,用于将输出的向量输入训练好的BLSTM-CRF模型,得到标签;通过标签得到要素即命名实体。

其中,第二输入子模块,具体包括:

训练单元,用于获取待训练的文书正文;将待训练的文书正文输入BERT模型,得到待训练的向量;以待训练的向量为输入,以与待训练的文书正文对应的标签为输出对BLSTM-CRF模型进行训练,得到训练好的BLSTM-CRF模型。

具体的,训练单元,具体包括:

分字处理子单元,用于对待训练的文书正文进行分字处理,得到分字处理后的文本;

标记子单元,用于在待训练的文书正文的每个句子的开始位置和结束位置添加标记信息,得到多个带有标记信息的句子;

训练子单元,用于采用Transformer编码对分字处理后的文本和带有标记信息的句子进行处理,得到待训练的向量。

对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

下面对本发明的文书自动生成方法进行进一步说明:

步骤一:

狭义上公文是指正式规定的文种,公文种类主要分为:报告、会议纪要、决定、请示、指令、计划、通知等种类。

针对准备好的一些格式固定、用语规范的报告、会议纪要、决定、请示、指令、计划、通知等种类的公文文书,并对要素标注,信息要素包括文书的公文标题、发文字号、发文单位、签发人、等级、类别、公文正文的关键人物、公文正文的关键时间、公文正文的关键地点等信息。

利用已标注的数据来训练模型,进行命名实体识别从而获取公文文本的实体。

公文文书的正文内容采用基于深度学习模型的方法进行命名实体识别,公文文书的头和尾采用基于规则的方法进行命名实体识别。

步骤二:

上述标注的文本作为命名实体识别训练模型BLSTM-CRF的训练集。

采用基于深度学习的方法对公文正文内容进行命名实体识别,基于深度学习的方法主要是基于序列标注的方法。

公文文书主要包括发文单位、签发人、发文字号、等级、类别、公文正文和承办单位,利用BERT(Bidirectional Encoder Representation from Transformers)模型将公文文本转化成一系列向量的集合。

具体的,

公文文本的训练数据定义为K=(K

BLSTM-CRF模型的输入为中文字序列对应的向量E,输出为每一个中文字对应的标签(BIO,B表示实体开头,I表示实体后面部分,O表示除实体以外的其他部分)。将传统命名实体识别问题转换成序列标注任务是BLSTM-CRF的基本思想。

BiLSTM(Bi-directional Long Short-Term-Memory)-CRF的全称为双向长短期记忆网络,由前向LSTM和后向LSTM组成。为解决句子中长距离依赖关系难以被捕获的问题,传统的LSTM网络被提出,它能够在训练的过程当中学到记忆哪些信息和遗忘哪些信息。然而,LSTM的建模方法往往还存在一些问题,比如无法编码从后到前的关系,为了能够优化这个问题,双向的LSTM被提出,在能够记忆上文信息的前提下,加入反向的LSTM使其同时也能够学习到与下文的语义关系,这种前向与后向结合的编码方式可以更好地对文本进行建模。图2为公文文本模板神经网络生成示意图。

结合基于深度学习生成的公文正文,对已标注好的文本数据加入基于规则的方法进行命名实体识别。

对于公文文书的头部和尾部采用基于规则的命名实体识别方法获得命名实体。公文文书的头部主要包括发文单位、签发人、发文字号、等级、类别;尾部主要包括承办单位。

通过维护一个公文文书的专业词汇词典,发文字号和发文日期利用正则表达式匹配,等级和类别通过匹配所维护的专业词汇词典,发文单位、承办单位和签发人根据文书类别来判定,规定不同文书类别的发文单位和承办单位的固定格式为XX部委,签发人的固定格式为XX干部。

利用上述基于深度学习与基于规则的命名实体识别方法来生成特定的公文模板,如图3所示。

步骤三:生成公文模板后,通过用户手动填充要素,做模板填槽即可生成所需文书。生成文书的过程如图4所示。

为了获得某种文书模板,可以将其历史文书作为输入,使用训练好的神经网络进行命名实体识别,获得文书中的时间、地点、人物等要素信息的字符位。根据神经网络识别的结果,将输入的历史文书进行分割,将要素信息的位置作为待填充空位,分别用于填充对应的信息内容,从而获得文书模板。文书模板如图5所示。

基于领导指示,根据要生成文书的类型,从自动提取的模板库中。匹配出相应的模板,并将用户将文书要素信息填充到已提取的文书模板中,从而生成符合要求的目标文书。基于模板和要素的文书生成示意图如图6所示。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号