首页> 中国专利> 小样本学习的对非结构化招标文本智能审核方法及系统

小样本学习的对非结构化招标文本智能审核方法及系统

摘要

本发明提供了一种小样本学习的对非结构化招标文本智能审核方法及系统,包括:步骤S1:对获取文本数据进行数据分析及标注;步骤S2:对标注后的数据抽取模型进行微调;步骤S3:通过测试数据进行对比试验证明模型的有效性;步骤S4:利用构建好的模型完成对文本的审核。本发明通过使用小样本学习的方法,对训练模型微调,不仅提升了模型的信息的抽取能力,也避免了人力标注数据成本过高的问题。

著录项

  • 公开/公告号CN116187276A

    专利类型发明专利

  • 公开/公告日2023-05-30

    原文格式PDF

  • 申请/专利权人 欧冶工业品股份有限公司;

    申请/专利号CN202310215304.9

  • 发明设计人

    申请日2023-03-06

  • 分类号G06F40/126;G06F40/279;G06F16/35;G06F18/214;G06Q50/18;

  • 代理机构上海段和段律师事务所;

  • 代理人郭国中

  • 地址 201900 上海市宝山区水产路1269号216幢1150室

  • 入库时间 2024-04-18 19:52:40

说明书

技术领域

本发明涉及计算机技术领域,具体地,涉及一种基于小样本学习的对非结构化招标文本智能审核方法及系统。

背景技术

目前合同文本审核主要针对于固定模板的合同,通过利用动态规划、相似度计算等方式来验证合同的合规性,判断所签署合同是否通过审核,提高审核效率。

专利文献CN114842493A(申请号CN202210449692.)公开了一种合同审核方法、合同审核系统和可读存储介质,该发明通过计算合同模板与签署合同的相似度,利用预设的阈值来判断合同是否合规,但无法解决本文所提及的招标文本描述多样、差异大的问题。

专利文献CN115688736A(申请号:CN202211344167.0)公开了一种文档审核方法、装置、设备及存储介质,其中,文档审核方法包括:获取待审核文档,作为目标文档;从文档库中查找目标文档的审核参考文档;若查找到目标文档的审核参考文档,则参考目标文档的审核参考文档对目标文档进行审核;若未查找到目标文档的审核参考文档,则从目标文档中抽取要素,并对抽取的要素进行审核。但该发明没有针对合同,无法动态判断合同是否通过审核。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种小样本学习的对非结构化招标文本智能审核方法及系统。

根据本发明提供的一种小样本学习的对非结构化招标文本智能审核方法,包括:

步骤S1:分析及标注文本数据;

步骤S2:对标注后的文本数据抽取模型进行调整;

步骤S3:通过测试数据进行对比试验证明模型有效性;

步骤S4:利用构建好的模型完成对文本的审核。

优选地,在所述步骤S1中:

步骤S1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;

步骤S1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;

SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。

优选地,在所述步骤S2中:

步骤S2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:

H=Encoder(s

其中,s为结构模式指导器SSI,s

步骤S2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL

Y=[y

其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y

优选地,利用teaching-forcing交叉熵作为损失函数,利用监督数据

其中,

优选地,在所述步骤S3中:

通过测试集数据将未调整的模型与调整过的模型基于预设指标进行比较,当调整后的模型在预设指标提升至预设标准,模型调整具备有效性;

在所述步骤S4中:

将合同内容输入至模型中,自动获取文中描述的注册资金及支付方式,用于核验。

根据本发明提供的一种小样本学习的对非结构化招标文本智能审核系统,包括:

模块M1:分析及标注文本数据;

模块M2:对标注后的文本数据抽取模型进行调整;

模块M3:通过测试数据进行对比试验证明模型有效性;

模块M4:利用构建好的模型完成对文本的审核。

优选地,在所述模块M1中:

模块M1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;

模块M1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;

SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。

优选地,在所述模块M2中:

模块M2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:

H=Encoder(s

其中,s为结构模式指导器SSI,s

模块M2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL

Y=[y

其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y

优选地,利用teaching-forcing交叉熵作为损失函数,利用监督数据

其中,

优选地,在所述模块M3中:

通过测试集数据将未调整的模型与调整过的模型基于预设指标进行比较,当调整后的模型在预设指标提升至预设标准,模型调整具备有效性;

在所述模块M4中:

将合同内容输入至模型中,自动获取文中描述的注册资金及支付方式,用于核验。

与现有技术相比,本发明具有如下的有益效果:

1、本发明通过使用小样本学习的方法,对训练模型微调,不仅提升了模型的信息的抽取能力,也避免了人力标注数据成本过高的问题;

2、本发明通过使用微调后的预训练模型,使得模型在本文应对的非结构化招标文本方面有很好的表现;

3、本发明的模型本身应用于信息抽取领域,在通用领域方面可直接应用,但对于合同审核此垂直领域,所对应的具体实体、关系又有所不同,无法直接使用,需要进行微调,使其更适合于合同领域,并保留了其本身的泛化能力,使得模型在面对新的招标文本上也有很好的表现。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1:

考虑到待审核的招标文本属于B2B电商领域,存在领域特异性强、标注数据量少的问题,开创性的采用小样本学习的方法,对预训练的通用信息抽取模型进行定制化调整,从而提取出招标文本的关键字段的是否符合要求如:注册资金,支付方式等,从而提高审核效率。

根据本发明提供的一种小样本学习的对非结构化招标文本智能审核方法,如图1所示,包括:

步骤S1:分析及标注文本数据;

具体地,在所述步骤S1中:

步骤S1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;

步骤S1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;

SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。

步骤S2:对标注后的文本数据抽取模型进行调整;

具体地,在所述步骤S2中:

步骤S2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:

H=Encoder(s

其中,s为结构模式指导器SSI,s

步骤S2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL

Y=[y

其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y

具体地,

利用teaching-forcing交叉熵作为损失函数,利用监督数据

其中,

步骤S3:通过测试数据进行对比试验证明模型有效性;

具体地,在所述步骤S3中:

通过测试集数据将未调整的模型与调整过的模型基于预设指标进行比较,当调整后的模型在预设指标提升至预设标准,模型调整具备有效性;

步骤S4:利用构建好的模型完成对文本的审核。

在所述步骤S4中:

将合同内容输入至模型中,自动获取文中描述的注册资金及支付方式,用于核验。

实施例2:

实施例2为实施例1的优选例,以更为具体地对本发明进行说明。

本发明还提供一种小样本学习的对非结构化招标文本智能审核系统,所述小样本学习的对非结构化招标文本智能审核系统可以通过执行所述小样本学习的对非结构化招标文本智能审核方法的流程步骤予以实现,即本领域技术人员可以将所述小样本学习的对非结构化招标文本智能审核方法理解为所述小样本学习的对非结构化招标文本智能审核系统的优选实施方式。

根据本发明提供的一种小样本学习的对非结构化招标文本智能审核系统,包括:

模块M1:分析及标注文本数据;

具体地,在所述模块M1中:

模块M1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;

模块M1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;

SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。

模块M2:对标注后的文本数据抽取模型进行调整;

具体地,在所述模块M2中:

模块M2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:

H=Encoder(s

其中,s为结构模式指导器SSI,s

模块M2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL

Y=[y

其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y

具体地,利用teaching-forcing交叉熵作为损失函数,利用监督数据

其中,

模块M3:通过测试数据进行对比试验证明模型有效性;

具体地,在所述模块M3中:

通过测试集数据将未调整的模型与调整过的模型基于预设指标进行比较,当调整后的模型在预设指标提升至预设标准,模型调整具备有效性;

模块M4:利用构建好的模型完成对文本的审核。

在所述模块M4中:

将合同内容输入至模型中,自动获取文中描述的注册资金及支付方式,用于核验。

实施例3:

实施例3为实施例1的优选例,以更为具体地对本发明进行说明。

步骤1:获取招标文本数据。

步骤2:对获取数据进行数据分析及标注,从而得到用于小样本微调的数据。

常见的深度学习模型训练需要支撑数据需要达到几十万级别,而本发明所采用的数据量仅仅达到万级别。

步骤3:对通用信息抽取模型(Universal Information Extraction,UIE)进行微调。

步骤4:通过测试数据进行对比试验证明模型的有效性。

通过测试集数据将未微调的模型与我们微调过的模型基于指定指标进行比较,实验显示,相较未微调模型,微调后的模型在各项指标均有提升,从而证明模型调整的有效性。

步骤5:利用构建好的模型完成对非结构化招标文本的智能审核。

将合同内容输入至模型中,可自动获取文中所描述的注册资金及支付方式,用于合同核验,避免人力完成,提高效率,减少成本。

其中步骤2包括如下步骤:

步骤2.1:对已有的12887条文本数据进行数据分析,得到数据存在数据稀疏、重复样本多的问题,且无标签,存在无关、干扰文本。将读取到的所有数据,进行数据清洗,包括空白符号、非法字符的去除,具体如表1所示:

表1数据分析情况

步骤2.2:为保证模型训练的健壮性以及鲁棒性,标注数据时不仅标注了包含关键信息的文本,此外也保留了可能为干扰但无标签的文本,如包含字段:“要求公司销售额1000万元以上”的文本可能会被识别成包含注册资金1000万元,我们将一部分这类文本保留作为负样本。文本的标注形式为SSI(Structural Schema Instructor)和[text]标记的源文本拼接构成,前者为是一种用于统一编码各类信息抽取子任务的Prompt机制,用于指示模型需要抽取的任务信息,主要由以下两个部分组成:

(1)由[spot]标记发现对象,指示需要进行抽取任务的实体或触发词。例如在赛题3中,需要对招标文本的注册资本和支付方式抽取,因此由[spot]标记的就有标签“注册资金”和“支付方式”。

(2)由[asso]标记的关系种类,例如关系抽取任务中实体间的关系类型,事件抽取任务中的事件论元,情感分类任务中的情感倾向等。由于赛题3的任务形式为实体抽取,因此在我们实现的算法中该字段为空。

拼接形式为:[spot]待发现对象,即抽取任务的实体或触发词[asso]实体间的关系种类[text]任务文本;

最终我们的文本的标注结果如下所示:

“[spot]注册资金[spot]付款方式[text]要求投标公司注册资本金不少于500万元人民币,能接受付款方式(以支付商业承兑汇票为主,银行承兑汇票为辅),所有询价设备要货区域涵盖上海、湛江、南京生产基地”。

其中步骤3包括如下步骤:

步骤3.1:给定SSI和源文本作为输入,利用Encoder编码器获取SSI和输入文本的隐藏层表示:

H=Encoder(s

其中,s为结构模式指导器,即上述的SSI,s

步骤3.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL

Y=[y

其中,SEL(Structured Extraction Language)为模型的输出形式,其构成形式如下图所示:

SEL表达形式定义

SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,在本实施例下文本的SEL可表示为“((注册资金:500万元人民币)(付款方式:以支付商业承兑汇票为主,银行承兑汇票为辅))”。其中Y=[y

步骤3.3:利用teaching-forcing交叉熵作为损失函数,利用监督数据

其中

其中步骤4包括如下步骤:

通过测试集数据将未微调的模型与我们微调过的模型进行对比,对比结果如下表所示。使用准确率(Precision)、召回率(Recall)以及前两者的加权调和平均F1-score进行对比,具体计算方法如公式(1)、(2)、(3)所示。

表2模型小样本微调前后的测试数据对比

/>

表2中展示了UIE微调前后在测试集上的各评价指标对比,可以看到微调后的模型无论在准确率还是召回率上都有显著提升,F1值相比通用语料上预训练的模型提升0.33,说明在本文涉及的特定场景领域上的小样本学习的文本智能审核方法的有效性。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号