首页> 中国专利> 一种政策自动化解析方法、装置、电子设备及存储介质

一种政策自动化解析方法、装置、电子设备及存储介质

摘要

本申请实施例公开了一种政策自动化解析方法、装置、电子设备及存储介质。在本申请实施例中,能够对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取第一标签政策文本短句对应的标签:值数据;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别:文本对数据;根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。本申请提高了政策自动化解析效率,降低了人力解析成本,并且抽取信息精度高。

著录项

  • 公开/公告号CN116681560A

    专利类型发明专利

  • 公开/公告日2023-09-01

    原文格式PDF

  • 申请/专利权人 上海亿通国际股份有限公司;

    申请/专利号CN202310450870.8

  • 申请日2023-04-24

  • 分类号G06Q50/26(2012.01);G06Q50/18(2012.01);G06F40/30(2020.01);G06N3/0442(2023.01);

  • 代理机构上海点威知识产权代理有限公司 31326;

  • 代理人杜焱

  • 地址 201203 上海市浦东新区中国(上海)自由贸易试验区郭守敬路498号浦东软件园14幢22301-864座

  • 入库时间 2024-01-17 01:27:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-19

    实质审查的生效 IPC(主分类):G06Q50/26 专利申请号:2023104508708 申请日:20230424

    实质审查的生效

  • 2023-09-01

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及信息处理技术领域,具体涉及一种政策自动化解析方法、装置、电子设备及存储介质。

背景技术

政策是政府根据社会发展的经济需要,结合实际情况而制定的一系列支持产业和企业发展的措施。为促进整个地区的经济发展,政府机关单位会在平台网站中发布具有奖励性质的政策文件,供企业和个人进行申报。政策文件中通常包含具体的奖励信息以及相对应的条件信息,奖励信息指企业可实际获取到的优惠如金额补贴、税收补贴等;条件信息则是申报时企业或个人所需满足的资质条件如经营地、年营收额等。政策匹配的主要目的和作用是为了让政策快速触达企业,让企业被动了解政策;辅助政府动态预测政策下发前、下发后可能触达的企业量级范围,对于部分政策的预算框定起到有效的数据样本支持。

然而,在实际使用过程中,现有政策自动化解析方法依托于业务人员的经验知识,信息抽取效率低下;基于字符规则的正则抽取方式泛化性不足;对政策的解析度不足,信息抽取不够完善;抽取过程中使用到的模型迭代成本高、扩展性差等问题。

发明内容

本申请实施例提供一种政策自动化解析方法、装置、电子设备及存储介质,以解决传统人工解析或基于正则解析方式导致的解析效率低、人力成本高、抽取信息精度低等问题。

第一方面,本申请实施例提供了一种政策自动化解析方法,包括:对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据;根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。

在一些实施例中,对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句之前,还包括:获取政策文件;对政策文件进行内容抽取,得到政策文件的政策内容文本;将政策文件的政策内容文本拆分成若干个政策文本短句。

在一些实施例中,对政策文件进行内容抽取,得到政策文件的政策内容文本,还包括:获取政策文件的格式;当政策文件的格式为第一格式时,使用三方库获取政策文件对应的政策内容文本;当政策文件的格式为第二格式时,通过OCR接口识别出政策文件对应的政策内容文本。

在一些实施例中,对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句,还包括:使用文本分类TextCNN模型对政策文件中政策文本短句进行分类,得到分类后的政策文本短句,分类后的政策文本短句包括第一类型的政策文本短句。

在一些实施例中,对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句,包括:基于标签预测模型对第一类型的政策文本短句进行标签预测,当第一类型的政策文本短句有标签归属时,第一类型的政策文本短句为第一标签政策文本短句;当第一类型的政策文本短句没有标签归属时,第一类型的政策文本短句为第二标签政策文本短句。

在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测,还包括:将第一类型的政策文本短句输入标签预测模型,标签预测模型输出第一类型的政策文本短句对应的第一文本表示向量;获取若干标签表示向量,每个标签表示向量与一种标签下所有相关文本向量的平均向量相对应;确定出第一文本表示向量与若干标签表示向量之间的最大相似度;当最大相似度不低于相似度阈值时,判定第一类型的政策文本短句有标签归属,第一类型的政策文本短句为第一标签政策文本短句;获取最大相似度对应的标签表示向量的标签;将最大相似度对应的标签表示向量的标签作为第一标签政策文本短句对应的标签。

在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测,还包括:当最大相似度低于相似度阈值时,判定第一类型的政策文本短句没有标签归属,第一类型的政策文本短句为第二标签政策文本短句。

在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测之前,还包括:获取标签预测训练数据集,标签预测训练数据集包括N个第一短句向量和M个第二短句向量,N个第一短句向量的标签均为第一标签,M个第二短句向量的标签均为第二标签,M和N均为正整数;获取由N个第一短句向量中任意N-1个第一短句向量组成的第一平均表示向量;根据第一平均表示向量以及N个第一短句向量中剩下的第一短句向量构建正样本,得到N个正样本;获取由N个第一短句向量中任意H个第一短句向量组成的2

在一些实施例中,通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据,包括:将第一标签政策文本短句输入语言表征模型,语言表征模型输出第一标签政策文本短句中每个词的词嵌入向量;将词嵌入向量传入双向长短期记忆网络模型,双向长短期记忆网络输出每个词的预测类别的初始分数;将每个词的预测类别的初始分数输入条件随机场模型,通过条件随机场模型学习每个词的预测类别之间的约束规则后输出第一标签政策文本短句中每个词的预测类别,得到第一标签政策文本短句对应的标签:值数据。

在一些实施例中,通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据,包括:将第二标签政策文本短句输入语义匹配模型中,语义匹配模型输出第二类型的政策文本短句对应的第二文本表示向量;通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据。

在一些实施例中,通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,还包括:若通过聚类模型不能确定出第二文本表示向量的类型,则根据第二文本表示向量增加新的类别,并同步更新聚类模型。

在一些实施例中,通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据之前,还包括:获取已标注类型的第二标签政策文本短句数据集;基于语义匹配模型,将第二标签政策文本短句数据集中每个已标注类型的第二标签政策文本短句转换为句向量,得到句向量数据集;利用句向量数据集对聚类模型进行无监督训练,得到训练后的聚类模型。

第二方面,本申请实施例提供了一种政策自动化解析装置,包括:分类模块,用于对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;标签预测模块,用于对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;标签值抽取模块,用于通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据;聚类模块,用于通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据;解析完成模块,用于根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。第三方面,本申请实施例提供了一种电子设备,包括存储器存储有多条指令;处理器从存储器中加载指令,以执行本申请实施例所提供的任一种政策自动化解析方法中的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例所提供的任一种政策自动化解析方法中的步骤。

本申请实施例可以先对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;然后对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;再通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据;接着通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据;最后根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。

本发明实现了一种政策自动化解析方法,通过构建各个人工智能算法模型实现自动化政策解析,解决传统人工解析、基于正则解析方式导致的依托业务经验知识、解析效率低、人力成本高、抽取信息精度低等问题。

本发明中政策条件标签预测过程,创新性地将传统多分类问题转变为二分类问题,解决了传统多分类模型预测精度低、模型迭代成本高、训练成本高等问题。同时,引入新的数据集构造方式,在保证模型训练样本要求的前提之下,极大地的扩充了训练集样本量,使得模型得到充分训练以保证预测准确率。

本发明针对政策当中无法标签化的语料项文本,于政策语料自动化归类过程中使用语义匹配模型加聚类模型来实现对政策语料的自动化归类,避免了人工归类带来的业务操作人力成本。

本发明的政策信息分类、政策条件项标签预测、政策条件项标签值抽取、政策语料自动化归类以及政策智能匹配等过程中,所构建的各种自然语言处理模型,可以共享着相同的底层语义模型,并通过三种优化方式来提升效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的政策自动化解析方法的场景示意图;

图2a是本申请实施例提供的政策自动化解析方法的流程示意图;

图2b是本申请实施例提供的标签预测模型的结构示意图;

图2c是本申请实施例提供的命名实体识别模型的结构示意图;

图2d是本申请实施例提供的AI模型的优化迭代框图;

图3是本申请实施例提供的一种政策自动化解析装置的结构示意图;

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种政策自动化解析方法、装置、电子设备及存储介质。

其中,该政策自动化解析装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。

在一些实施例中,该政策自动化解析装置还可以集成在多个电子设备中,比如,政策自动化解析装置可以集成在多个服务器中,由多个服务器来实现本申请的政策自动化解析方法。

在一些实施例中,服务器也可以以终端的形式来实现。

例如,参考图1,该电子设备可以包括服务器10、存储终端11等,存储终端11可以存储政策文件、标签预测训练数据集以及已标注类型的第二标签政策文本短句数据集等,服务器10、存储终端11之间相互通信连接,在此不再赘述。

其中,服务器10可以包括处理器和存储器等。服务器10可以对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;然后对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;再通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据;接着通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据;最后根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析等。

以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中,提供了一种涉及信息处理的政策自动化解析方法,如图2a所示,应用于服务器中,该政策自动化解析方法的具体流程可以如下:

200、服务器对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句。

在一些实施例中,对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句之前,还包括:获取政策文件;对政策文件进行内容抽取,得到政策文件的政策内容文本;将政策文件的政策内容文本拆分成若干个政策文本短句。

在一些实施例中,对政策文件进行内容抽取,得到政策文件的政策内容文本,还包括:获取政策文件的格式;当政策文件的格式为第一格式时,使用三方库获取政策文件对应的政策内容文本;当政策文件的格式为第二格式时,通过OCR接口识别出政策文件对应的政策内容文本。

在本申请实施例里中,政策文件格式可以包括PDF、Word等;第一格式可以为解析版PDF或Word格式等,第二格式可以为扫描版PDF等,

具体地,当政策文件的格式为解析版PDF或Word格式时,使用三方库获取政策文件对应的政策内容文本,三方库为依赖的其他公司或者组织提供的服务或者模块。当政策文件的格式为扫描版PDF时,将扫描版PDF先转换为图片,然后通过OCR接口识别出政策文件对应的政策内容文本。

在一些实施例中,对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句,还包括:使用文本分类TextCNN模型对政策文件中政策文本短句进行分类,得到分类后的政策文本短句,分类后的政策文本短句包括第一类型的政策文本短句。

文本分类TextCNN模型是抓取文本的局部特征,通过不同的卷积核高度来提取文本的N-gram信息,然后通过最大池化操作来突出各个卷积操作提取的最关键信息,再进行拼接后通过全连接层对特征进行组合,最后通过交叉熵损失函数来训练文本分类TextCNN模型。

在本申请实施例中,在完成政策内容文本的抽取之后,根据文本中的句子分割标识将政策文本内容拆分为若干个短句,然后使用文本分类TextCNN模型将政策文本内容预测为若干类型,比如奖励项、条件项和其它项等等。具体地,使用文本分类TextCNN模型对政策文件中政策文本短句进行分类,得到分类后的政策文本短句,分类后的政策文本短句包括第一类型的政策文本短句,第一类型的政策文本短句为条件项政策文本短句;分类后的政策文本短句还包括奖励项政策文本短句和其它项政策文本短句等。

另外,文本分类TextCNN模型的训练集构造方式,可以人工标注出其中的奖励项和条件项,然后使用程序将其它标识为其它项。

210、服务器对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句。

在本申请实施例中,第一标签可以对应标签类别,第一标签政策文本短句可以为标签类政策文本短句;第二标签可以对应语料类别,第二标签政策文本短句可以为语料类政策文本短句。

在一些实施例中,对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句,包括:基于标签预测模型对第一类型的政策文本短句进行标签预测,当第一类型的政策文本短句有标签归属时,第一类型的政策文本短句为第一标签政策文本短句;当第一类型的政策文本短句没有标签归属时,第一类型的政策文本短句为第二标签政策文本短句。

在本申请实施例中,标签预测模型可以包括BERT(Bidirectional EncoderRepresentation from Transformers)语义模型等。BERT语义模型是一个预训练的语言表征模型,采用MLM(masked language model)对双向的Transformers进行预训练,以生成深层的双向语言表征。

本申请实施例对于分类为条件项的信息内容(即条件项政策文本短句),通过标签预测模型判断其标签类别归属,若有标签归属,则判定为标签类;若无标签归属,则判定为语料类。本申请通过设计标签预测模型,创新性地将传统的多分类模型转变为二分类问题,解决传统多分类问题预测准确率低、迭代成本高、维护不便的问题。

在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测,还包括:将第一类型的政策文本短句输入标签预测模型,标签预测模型输出第一类型的政策文本短句对应的第一文本表示向量;获取若干标签表示向量,每个标签表示向量与一种标签下所有相关文本向量的平均向量相对应;确定出第一文本表示向量与若干标签表示向量之间的最大相似度;当最大相似度不低于相似度阈值时,判定第一类型的政策文本短句有标签归属,第一类型的政策文本短句为第一标签政策文本短句;获取最大相似度对应的标签表示向量的标签;将最大相似度对应的标签表示向量的标签作为第一标签政策文本短句对应的标签。

如图2b所示,本申请实施例中的标签预测模型的原理是预测输入句子向量与标签表示向量是否相似,即二分类。其中,标签表示向量为标注数据中所有的在该标签下句子向量的平均向量,以此体现该标签在向量空间分布情况。通过模型预测新输入的句子与各标签向量的相似情况,即在高维向量空间中的分布相似度,预测与之最相似的标签。

在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测,还包括:当最大相似度低于相似度阈值时,判定第一类型的政策文本短句没有标签归属,第一类型的政策文本短句为第二标签政策文本短句。

在本申请实施例中,图2b中标签预测模型的左端输入待预测文本(即第一类型的政策文本短句),经过BERT语义模型处理后转化为文本表示向量;标签预测模型的右端为某个标签下所有相关文本向量的平均向量。标签预测模型接受两端输入之后,传输至Cosine输出单元得到余弦相似度。若待预测文本转化后的转化为文本表示向量与所有标签表示向量的相似度皆低于相似度阈值,则将第一类型的政策文本短句判定为语料类,即第一类型的政策文本短句为第二标签政策文本短句。如果存在待预测文本转化后的转化为文本表示向量与某个标签表示向量的相似度不低于相似度阈值,则将第一类型的政策文本短句判定为标签类,根据各标签的相似度进行排序,取相似度最高的标签作为预测标签(即第一标签政策文本短句对应的标签)。

在本申请实施例中,针对标签类的标签归属可以由事先设计的标签体系作为参考,标签体系中包含各标签的名称、标签类别以及标签值样例,标签类的类别可划分为:布尔型、数值型、日期型和分层型等,其中分层类标签的标签值来源于有限的可枚举集合。

上述标签预测模型结构中,标签表示向量可以通过事先计算的方式暂存,避免相同文本重复调用模型导致的额外开销,推理环节只需执行标签预测模型左侧的BERT语义模型获取文本向量,然后计算余弦相似度便可。

在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测之前,还包括:获取标签预测训练数据集,标签预测训练数据集包括N个第一短句向量和M个第二短句向量,N个第一短句向量的标签均为第一标签,M个第二短句向量的标签均为第二标签,M和N均为正整数;获取由N个第一短句向量中任意N-1个第一短句向量组成的第一平均表示向量;根据第一平均表示向量以及N个第一短句向量中剩下的第一短句向量构建正样本,得到N个正样本;获取由N个第一短句向量中任意H个第一短句向量组成的2

具体地,比如标签预测训练数据集包括3个第一短句向量和2个第二短句向量,3个第一短句向量的标签均为标签类别,2个第二短句向量均为语料类别。3个第一短句向量分别为

在本申请实施例中,2个第二短句向量可以分别为

在本申请实施例中,在采用标签预测模型进行标签预测过程中,除创新性地将多分类问题转变为更健壮兼容的二分类问题外,本申请同步设计了新的模型训练集构造方式,满足在少量数据样本情况下充分扩充模型训练集。传统多分类模型所构造的训练集样本量为所有的短句数量M+N;本申请实施例采用新的二分类模型所构造的训练集样本量为(N-1)*N+M*N+M+N;极大地扩充了模型训练集,有效地提升模型预测精度,在同等标注成本下,能够获取更好的预测效果。

220、服务器通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据。

本申请实施例中,标签数据包括标签:值数据。

在一些实施例中,通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,包括:将第一标签政策文本短句输入语言表征模型,语言表征模型输出第一标签政策文本短句中每个词的词嵌入向量;将词嵌入向量传入双向长短期记忆网络模型,双向长短期记忆网络输出每个词的预测类别的初始分数;将每个词的预测类别的初始分数输入条件随机场模型,通过条件随机场模型学习每个词的预测类别之间的约束规则后输出第一标签政策文本短句中每个词的预测类别,得到第一标签政策文本短句对应的标签:值数据。

在本申请实施例中,命名实体识别模型可以包括语言表征模型、双向长短期记忆网络模型(Bi-Long Short-Term Memory,Bi-LSTM)、条件随机场模型(Conditional randomfield,CRF),语言表征模型可以为BERT语义模型,即命名实体识别模型为BERT+BiLSTM+CRF模型。

双向长短期记忆网络模型包括2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取,然后将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。双向长短期记忆网络模型是使t时刻所获得特征数据同时拥有过去和将来之间的信息,这种神经网络结构模型对文本特征提取效率和性能要优于单个LSTM结构模型。Bi-LSTM中的2个LSTM神经网络参数是相互独立的,只共享word-embedding词向量列表。

在本申请实施例中,对完成标签归类的条件项标签类文本,需从中抽取出标签值,形成标签:值形式的数据并入库供后续使用。一方面可用于问卷生成模块中形成标准化问卷;另一方面还可标准化为企业补充相同形式的数据。

本发明中对于标签值的抽取,可将其视为命名实体识别(Named EntityRecognition,NER)任务,通过构建并训练BERT+BiLSTM+CRF模型完成对标签值的抽取。命名实体识别模型的模型结构如图2c所示,首先,将输入文本(即第一标签政策文本短句)传入BERT语义模型,得到整个句子当中每个词的词嵌入向量;然后,将词嵌入向量传入BiLSTM+CRF模型中,BiLSTM+CRF模型输出句子当中每个词的预测类别。其中BiLSTM层将输出初始每个单词所对应类别的初始分数,然后经由CRF层学习类别之间的约束规则,以确保最终预测的实体类别序列是有效的。

在本申请实施例中,归类为布尔类的条件项政策文本短句无需进行标签值抽取,数值型和日期型类别由于为较常见的抽取类别,抽取难度较低;对于分层类别的条件项政策文本短句,其抽取的标签值全为短文本,并且不同分层类标签下所包含的样例文本存在多重含义,如果仅使用单一文本类别进行NER抽取,其标签值抽取效果并不理想。因此,本申请实施例对于分层类别的条件项政策文本短句,根据条件项含义的不同,可以划分为多个子类别,使用新类别进行NER抽取。

本申请实施例对于命名实体识别模型中关于标签的标注,由于标签体系的存在,在对政策条件项打上相应的标签类别后,命名实体识别模型进行抽取的实体类别也相应地固定了,节省了重复标注的工作量。

230、服务器通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据。

在一些实施例中,通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据,包括:将第二标签政策文本短句输入语义匹配模型中,语义匹配模型输出第二类型的政策文本短句对应的第二文本表示向量;通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据。

在一些实施例中,通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据,还包括:若通过聚类模型不能确定出第二文本表示向量的类型,则根据第二文本表示向量增加新的类别,并同步更新聚类模型。

在本申请实施例中,对标签预测过程中判定为语料项的条件项文本,同样需将其进行归类,并以类型:文本形式的数据存入数据库中,以方便在问卷生成模块标准化生成调查问卷。

本申请实施例的语义匹配模型可以为BERT语义模型。本申请实施例先将语料类政策文本短句(即第二标签政策文本短句)传入BERT语义模型当中,得到第二文本表示向量作为语料类政策文本短句的向量表征。然后,使用聚类模型,自动化将其归类,得到类型:文本形式的内容,并将该内容存入数据库中。若新传入的第二文本表示向量无与之匹配的类别,则新增类别,并且同步更新聚类模型。本申请实施例对于无第一标签的政策文本短句,先通过BERT语义模型获取句向量,然后使用聚类模型(基于政策短句句向量训练集训练得到)获取该政策文本短句的类别,得到类型:文本形式的数据,至此便完成了政策的解析。

在一些实施例中,通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据之前,还包括:获取已标注类型的第二标签政策文本短句数据集;基于语义匹配模型,将第二标签政策文本短句数据集中每个已标注类型的第二标签政策文本短句转换为句向量,得到句向量数据集;利用句向量数据集对聚类模型进行无监督训练,得到训练后的聚类模型。

在本申请实施例中,在完成自动化归类之前,需使用现有数据训练聚类模型,其具体训练方式为:将已标注的所有语料文本都基于BERT语义模型转换为句向量;然后基于所有文本的句向量数据集,训练无监督聚类模型,自动化聚类,获取K个类别,可以使用“条件1”、……、“条件K”作为类别名称,免去了人工制作具有语义的类别名称所需的人力成本;再对已有的聚类结果以类型:文本形式的数据存入数据库中。

在本申请实施例中,对于自动化归类效果的提升,主要依托于底层BERT语义模型的优化,其优化方式包含三种:第一种为收集更多的政策领域文本数据进行微调,学习政策领词汇的向量表示;第二种为政策文件自动化解析过程中构建的各个自然语言处理模型共享着相同底层BERT语义模型,各模型的训练优化可同步带来底层BERT模型的提升;第三种为政策语料文本在企业与政策匹配时会收集匹配label信息,在进行政策匹配时用于训练的文本相似度模型可同步优化底层BERT语义模型。

本申请实施例可通过政策反馈优化来收集匹配label信息,首先优化政策智能匹配过程中训练的文本相似度模型,进一步文本相似度模型使用的底层BERT语义模型为政策文件自动化解析过程中构建的各个自然语言处理模型共用,因此可同步优化本申请语料类政策文本短句在聚类过程中的自动化归类效果。

240、服务器根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。

在完成企业与政策的匹配之前,需先从政策文件中抽取出可用于与企业相匹配的关键信息,传统的解析方式为业务人员基于语义理解手工抽取或使用简单正则基于字符规则的方式从政策文件中抽取出标签:值形式的可匹配信息。另外,或使用自然语言处理技术构建标签分类模型直接预测各条件信息所属的类别。存在以下不足:人工解析方式依托于业务人员的经验知识,且抽取效率低下;基于字符规则的正则抽取方式泛化性不足,对于新文本样式的政策文本难以兼容并进行有效抽取;同时其仅基于字符规则的方式未利用到文本语义信息来辅助抽取;基于自然语言处理技术构建多分类模型直接预测条件文本所属标签类别的方式虽然可行,但随着政策文件数的增多而导致标签数量增加时,若需继续满足新标签预测要求且保证预测准确率,不仅需要额外标注大量的样本作为训练集,还需随着标签库的更新来重新构建分类模型并训练,使得模型迭代成本高、扩展性差;仅从政策文件中抽取标签:值信息的方式,忽略了部分政策条件信息文本无法标签化的情况,导致对政策的解析度不足,信息抽取不够完善;而对于这部分条件信息,应将其视作语料文本进行抽取并匹配;对于无法标签化的政策条件信息文本,依赖人工对其归类的方式十分依赖业务理解且效率低下。

然而,针对现有技术的不足,本申请实现了一种政策文件的自动化解析方法,通过自然语言处理模型将政策文件自动化解析为结构化数据,在政策条件信息标签预测模块创新性地把多分类问题转变为二分类问题以解决传统多分类模型泛化性差和迭代成本高的问题,同时新的数据集构造方式极大地扩充了数据样本以提升模型效果;对于不可标签化的语料文本,基于底层BERT语义模型获取文本句向量,使用聚类算法模型对其自动化归类。以上各种自然语言处理模型共享着同一底层BERT模型,其通过大量政策领域文本训练而来,以提升政策领域词汇的向量含义表示度。

如图2d所示,本申请实施例涉及的数据集包括政策文件、政策信息分类标注数据集、政策条件项标签数据集、政策条件项标签值标注数据集等;其中政策信息分类标注数据集可用于对文本分类TextCNN模型进行训练,政策条件项标签数据集可用于对标签预测模型进行训练,政策条件项标签值标注数据集可用于对命名实体识别模型进行训练。本申请实施例涉及的AI模型包括文本分类TextCNN模型、标签预测模型、命名实体识别模型、语义匹配模型以及聚类模型,各个模型共享底层的BERT语义模型。政策文件解析环节中完成了政策的自动化解析功能,使用AI模型自动化从政策文件中抽取出关键要素信息,并形成结构化数据入库,供后续政策匹配模块进行使用。本申请实施例在政策解析环节中,先从政策文件中抽取政策文本,然后对政策文本进行分类,在进行政策条件项标签预测;对于已归类标签条件信息,先进行条件项标签值抽取,然后将已归类标签条件信息以标签:标签值的形式存入数据库中;对于政策语料项,通过语义匹配模型以及聚类模型进行语料自动化归类,然后将政策语料项以类别:语料的形式存入数据库中。

本申请实施例可从政策文件中获取政策纯文本内容,然后构建文本分类TextCNN模型将政策文本内容划分为若干类:奖励项、条件项和其它项等,再对预测为条件项的政策文本内容,构建标签预测模型判断其所属标签类别,若无标签归属,则视为语料项。对已预测标签类别的条件信息,通过命名实体识别模型抽取其中的标签值。对无标签归属的语料项,基于底层BERT语义模型获取句向量,使用聚类模型自动化归类。本申请实施例所构建的各种自然语言处理模型,共享着相同的底层BERT语义模型,其通过大量政策领域文本训练而来,以提升政策领域词汇的向量含义表示度。

本申请实施例实现了一种政策自动化解析方法,通过构建各个人工智能算法模型实现自动化政策解析,解决传统人工解析、基于正则解析方式导致的依托业务经验知识、解析效率低、人力成本高、抽取信息精度低等问题。

本申请实施例中政策条件标签预测过程,创新性地将传统多分类问题转变为二分类问题,解决了传统多分类模型预测精度低、模型迭代成本高、训练成本高等问题。同时,引入新的数据集构造方式,在保证模型训练样本要求的前提之下,极大地的扩充了训练集样本量,使得模型得到充分训练以保证预测准确率。

本申请实施例针对政策当中无法标签化的语料项文本,于政策语料自动化归类过程中使用语义匹配模型加聚类模型来实现对政策语料的自动化归类,避免了人工归类带来的业务操作人力成本。

本申请实施例的政策信息分类、政策条件项标签预测、政策条件项标签值抽取、政策语料自动化归类以及政策智能匹配等过程中,所构建的各种自然语言处理模型,可以共享着相同的底层语义模型,并通过三种优化方式来提升效果。

为了更好地实施以上方法,本申请实施例还提供一种政策自动化解析装置,该政策自动化解析装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。

比如,在本实施例中,将以政策自动化解析装置具体集成在电子设备中为例,对本申请实施例的方法进行详细说明。

例如,如图3所示,该政策自动化解析装置可以包括:分类模块310、标签预测模块320、标签值抽取模块330、聚类模块340、解析完成模块350。其中,

分类模块310,用于对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;标签预测模块320,用于对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;标签值抽取模块330,用于通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据;聚类模块340,用于通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据;解析完成模块350,用于根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。

在一些实施例中,该政策自动化解析装置还包括文本抽取模块,文本抽取模块配置于:获取政策文件;对政策文件进行内容抽取,得到政策文件的政策内容文本;将政策文件的政策内容文本拆分成若干个政策文本短句。

在一些实施例中,文本抽取模块还包括文本抽取子模块,文本抽取子模块配置于:获取政策文件的格式;当政策文件的格式为第一格式时,使用三方库获取政策文件对应的政策内容文本;当政策文件的格式为第二格式时,通过OCR接口识别出政策文件对应的政策内容文本。

在一些实施例中,分类模块310还包括分类子模块,分类子模块配置于:使用文本分类TextCNN模型对政策文件中政策文本短句进行分类,得到分类后的政策文本短句,分类后的政策文本短句包括第一类型的政策文本短句。

在一些实施例中,标签预测模块320包括标签预测子模块,标签预测子模块配置于:基于标签预测模型对第一类型的政策文本短句进行标签预测,当第一类型的政策文本短句有标签归属时,第一类型的政策文本短句为第一标签政策文本短句;当第一类型的政策文本短句没有标签归属时,第一类型的政策文本短句为第二标签政策文本短句。

在一些实施例中,标签预测子模块还包括第一标签预测模块,第一标签预测模块配置于:将第一类型的政策文本短句输入标签预测模型,标签预测模型输出第一类型的政策文本短句对应的第一文本表示向量;获取若干标签表示向量,每个标签表示向量与一种标签下所有相关文本向量的平均向量相对应;确定出第一文本表示向量与若干标签表示向量之间的最大相似度;当最大相似度不低于相似度阈值时,判定第一类型的政策文本短句有标签归属,第一类型的政策文本短句为第一标签政策文本短句;获取最大相似度对应的标签表示向量的标签;将最大相似度对应的标签表示向量的标签作为第一标签政策文本短句对应的标签。

在一些实施例中,标签预测子模块还包括第二标签预测模块,第二标签预测模块配置于:当最大相似度低于相似度阈值时,判定第一类型的政策文本短句没有标签归属,第一类型的政策文本短句为第二标签政策文本短句。

在一些实施例中,标签预测模块320还包括标签预测训练模块,标签预测训练模块配置于:获取标签预测训练数据集,标签预测训练数据集包括N个第一短句向量和M个第二短句向量,N个第一短句向量的标签均为第一标签,M个第二短句向量的标签均为第二标签,M和N均为正整数;获取由N个第一短句向量中任意N-1个第一短句向量组成的第一平均表示向量;根据第一平均表示向量以及N个第一短句向量中剩下的第一短句向量构建正样本,得到N个正样本;获取由N个第一短句向量中任意H个第一短句向量组成的2

在一些实施例中,标签值抽取模块330包括标签值抽取子模块,标签值抽取子模块配置于:将第一标签政策文本短句输入语言表征模型,语言表征模型输出第一标签政策文本短句中每个词的词嵌入向量;将词嵌入向量传入双向长短期记忆网络模型,双向长短期记忆网络输出每个词的预测类别的初始分数;将每个词的预测类别的初始分数输入条件随机场模型,通过条件随机场模型学习每个词的预测类别之间的约束规则后输出第一标签政策文本短句中每个词的预测类别,得到第一标签政策文本短句对应的标签:值数据。

在一些实施例中,聚类模块340包括聚类子模块,聚类子模块配置于:将第二标签政策文本短句输入语义匹配模型中,语义匹配模型输出第二类型的政策文本短句对应的第二文本表示向量;通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据。

在一些实施例中,聚类模块340还包括模型更新模块,模型更新模块配置于:若通过聚类模型不能确定出第二文本表示向量的类型,则根据第二文本表示向量增加新的类别,并同步更新聚类模型。

在一些实施例中,聚类模块340还包括聚类模型训练模块,聚类模型训练模块配置于:获取已标注类型的第二标签政策文本短句数据集;基于语义匹配模型,将第二标签政策文本短句数据集中每个已标注类型的第二标签政策文本短句转换为句向量,得到句向量数据集;利用句向量数据集对聚类模型进行无监督训练,得到训练后的聚类模型。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

由上可知,本实施例的政策自动化解析装置可从政策文件中获取政策纯文本内容,然后构建文本分类TextCNN模型将政策文本内容划分为若干类:奖励项、条件项和其它项等,再对预测为条件项的政策文本内容,构建标签预测模型判断其所属标签类别,若无标签归属,则视为语料项。对已预测标签类别的条件信息,通过命名实体识别模型抽取其中的标签值。对无标签归属的语料项,基于底层BERT语义模型获取句向量,使用聚类模型自动化归类。本申请实施例所构建的各种自然语言处理模型,共享着相同的底层BERT语义模型,其通过大量政策领域文本训练而来,以提升政策领域词汇的向量含义表示度。

由此,本申请实施例提供的政策自动化解析方法,通过构建各个人工智能算法模型实现自动化政策解析,解决传统人工解析、基于正则解析方式导致的依托业务经验知识、解析效率低、人力成本高、抽取信息精度低等问题。

本申请实施例中政策条件标签预测过程,创新性地将传统多分类问题转变为二分类问题,解决了传统多分类模型预测精度低、模型迭代成本高、训练成本高等问题。同时,引入新的数据集构造方式,在保证模型训练样本要求的前提之下,极大地的扩充了训练集样本量,使得模型得到充分训练以保证预测准确率。

本申请实施例针对政策当中无法标签化的语料项文本,于政策语料自动化归类过程中使用语义匹配模型加聚类模型来实现对政策语料的自动化归类,避免了人工归类带来的业务操作人力成本。

本申请实施例的政策信息分类、政策条件项标签预测、政策条件项标签值抽取、政策语料自动化归类以及政策智能匹配等过程中,所构建的各种自然语言处理模型,可以共享着相同的底层语义模型,并通过三种优化方式来提升效果。

本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。

在一些实施例中,该政策自动化解析装置还可以集成在多个电子设备中,比如,政策自动化解析装置可以集成在多个服务器中,由多个服务器来实现本申请的政策自动化解析方法。

在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,服务器可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现政策自动化解析装置中的各种功能

在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种政策自动化解析方法中的步骤。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

由上可知,由上可知,本申请实施例可以解决传统人工解析、基于正则解析方式导致的依托业务经验知识、解析效率低、人力成本高、抽取信息精度低等问题。本申请实施例中政策条件标签预测过程,创新性地将传统多分类问题转变为二分类问题,解决了传统多分类模型预测精度低、模型迭代成本高、训练成本高等问题。同时,引入新的数据集构造方式,在保证模型训练样本要求的前提之下,极大地的扩充了训练集样本量,使得模型得到充分训练以保证预测准确率。本申请实施例针对政策当中无法标签化的语料项文本,于政策语料自动化归类过程中使用语义匹配模型加聚类模型来实现对政策语料的自动化归类,避免了人工归类带来的业务操作人力成本。本申请实施例的政策信息分类、政策条件项标签预测、政策条件项标签值抽取、政策语料自动化归类以及政策智能匹配等过程中,所构建的各种自然语言处理模型,可以共享着相同的底层语义模型,并通过三种优化方式来提升效果。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种政策自动化解析方法中的步骤。例如,该指令可以执行如下步骤:对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取第一标签政策文本短句对应的标签值;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的归类句向量,完成政策文件自动化解析等。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供的政策匹配方面或者政策匹配方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种政策自动化解析方法中的步骤,因此,可以实现本申请实施例所提供的任一种政策自动化解析方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种政策自动化解析方法、装置、服务器和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号