首页> 中国专利> 基于深度学习的电网项目特征属性识别方法

基于深度学习的电网项目特征属性识别方法

摘要

本发明公开了一种基于深度学习的电网项目特征属性识别方法,包括如下步骤:根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;基于项目标签体系对电网项目文档进行分类;对分类后的电网项目文档进行文本预处理;借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;利用BERT模型、Bi‑GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;利用实体识别模型对新的电网项目文档进行特征识别。本发明有利于提高项目管理与投资效率,完善识别技术规则,提高公司业务管理效率。

著录项

说明书

技术领域

本发明属于命名实体识别与深度学习技术领域,具体涉及一种基于深度学习的电网项目特征属性识别方法。

背景技术

电网公司管理中,历史电网项目文档的归纳和汇总重要程度最高,当然难度也是最大的。借助高效的文档项目特征提炼技术,各公司可围绕精准管控、提质升效,从而提出综合计划管理高质量、精益化的发展要求,明晰投资的“盈利点”和“亏损点”,精准把控电网环节投资,减少非必要投入,提高资本投入有效性。文档特征提取环节,更应实现需求精准定位、方案智能筛选、进程准确把握,从而提升项目质量与管理效率。

发明内容

针对现有技术难以满足电网项目文档的高质量精益化管控要求及特征提取难的问题,本发明提出了一种基于深度学习的电网项目特征属性识别方法。为解决以上技术问题,本发明所采用的技术方案如下:

一种基于深度学习的电网项目特征属性识别方法,包括如下步骤:

S1,根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;

S2,基于项目标签体系对电网项目文档进行分类;

S3,对分类后的电网项目文档进行文本预处理;

S4,借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;

S5,利用BERT模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;

S6,利用实体识别模型对新的电网项目文档进行特征识别。

在步骤S1中,所述项目标签体系包括一级类别标签和二级实体标签,一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资,二级实体标签包括机构、电网信息化和金额。

在步骤S3中,所述文本预处理的方法为:利用格式转换工具将电网项目文档的PDF文件转换为EXCEL格式后,剔除包括空白页、目录及参考文献的辅助信息,再将剔除后的文件转换为TXT文件。

在步骤S4中,所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体,标签具体类别与二级实体标签相对应,采用O代表机构,E代表电网信息化,M代表金额。

所述步骤S5包括如下步骤:

S5.1,将步骤S4得到的BIO格式数据集划分为训练集、验证集和测试集;

S5.2,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型;

S5.3,设置验证准确率阈值和预测准确率阈值;

S5.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;

S5.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S5.6,否则返回步骤S5.4;

S5.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S5.4并对网络学习模型的超参数进行调整,否则执行步骤S6。

在步骤S5.2中,所述网络学习模型包括BERT模型、Bi-GRU神经网络和CRF模型,BERT模型的输入端与开源文本标注工具的输出端连接,BERT模型的输出端与Bi-GRU神经网络的输入端连接,Bi-GRU神经网络的输出端与CRF 模型的输入端连接。

本发明的有益效果:

本发明利用BERT模型代替了原有的词嵌入算法来进行语义编码,利用 Bi-GRU和CRF模型进行解码实现实体识别和结果优化,解决了电网项目系统的无结构化的文档数量庞大且内容繁琐管理难的问题,项目标签体系的构建,有利于公司项目的规范化管理和项目边界的明确,有利于提高项目管理与投资效率;基于自然语言处理的应用,有利于完善识别技术规则,有利于提高公司业务特征识别能力,提高公司业务管理效率及水平,降低相关人员的项目管理成本,节约人力和时间资源,利于历史存量数据的应用与转化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为YEDDA操作界面图。

图2为BIO格式数据集示例图。

图3为BERT模型输入示意图。

图4为GRU模型示意图。

图5为本发明模型结构图。

图6为本发明模型损失值随训练轮数变化示意图。

图7为本发明模型识别准确率随训练轮数变化示意图。

图8为本发明模型识别F1值随训练轮数变化示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

命名实体识别(Named Entity Recognition,NER)是自然语言处理(Naturallanguage processing,NLP)领域的子任务,通常解释为从一段非结构化文本中,将那些人类通过历史实践规律认识、熟知或定义的实体识别出来,同时也代表了具有根据现有实体的构成规律发掘广泛文本中新的命名实体的能力。实体是文本中意义丰富的语义单元,识别实体的过程分作两阶段,首先确定实体的边界范围,再将这个实体分配到所属类型中去。

当前命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、混合方法和神经网络的方法等。随着深度学习的发展,自然语言的向量表示法横空出世,使得自然语言能够使用深度神经网络进行处理。BERT是深度学习在文本处理领域内的佼佼者,它是当前效果最佳的预训练语言模型。特征提取技术中,最常见的就是RNN(RecurrentNeural Network,循环神经网络) 模型的变种,比如GRU(Gate RecurrentUnit,门控循环单元)等,可以提取文本更长距离的上下文特征信息。结合条件随机场(Conditional Random Field,CRF) 对序列模型进行建模的能力,使用双向门控循环单元(Bi-directional Gated RecurrentUnit,Bi-GRU)提供上下文信息,可以达到更佳的识别效果。

一种基于深度学习的电网项目特征属性识别方法,包括以下步骤:

S1,根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;

所述项目标签体系包括一级类别标签和二级实体标签,一级类别标签包括电网基建、产业基建、电网小型基建、生产技改、产业技改、生产辅助技改、零星购置、生产大修、产业大修、生产辅助大修、电力市场营销、电网数字化、研究开发、管理咨询、教育培训和股权投资,二级实体标签包括机构、电网信息化、金额等项目业务特征。所述一级类别标签基于各历史电网项目文档的所属业务分类建立,二级实体标签基于公司项目业务和项目业务运营管理需求确定,具体操作时可以根据实际业务进行相关调整,项目标签体系的建立方便了对各历史电网项目文档的管理。

另外,在对电网项目文档进行实际管理时,可以对项目标签体系进行调整,比如可以基于项目类别、项目内容、项目时间段等,项目类别下设大型基建、技改、信息化、营销等,项目内容下设项目名称、项目主要研究内容、项目合同、项目可研报告等,项目时间段下设三年、二年、一年、季度等。

S2,基于项目标签体系对电网项目文档进行分类;

对电网项目文档进行分类有利于对电网项目文档的批量化管理。

S3,对分类后的电网项目文档进行文本预处理;

所述文本预处理的方法为利用格式转换工具将PDF文件转换为EXCEL格式后,再剔除空白页、目录、参考文献等辅助信息,再将剔除后的文件转换为 TXT文件组成初始语料库作为开源文本标注工具的输入,同时保留表格信息。

S4,如图2所示,借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;

本实施例中,所述开源文本标注工具采用YEDDA,该工具是使用tkinter 开发的桌面标注工具,在Python2.7环境下运行,其代码已在Github公开。YEDDA 支持chunk(块)、entity(实体)、event(事件)三种标注任务,文本输入支持写入和文件导入两种方式。本发明选用的entity模式即实体识别标注任务。如图 1所示,进入操作界面后,首先需要在界面右侧定义所要标注的实体类别;之后依据各个实体类别对应的快捷键,在左侧文本部分借助快捷键进行标注。经过标注的字词会用不同背景颜色和所属标签进行区分。标注完毕后,点击export 即可导出Ann格式文本。Ann格式为该工具指定的导出标准格式,句子由空行分隔,每行包括未标注文本,标注文本及其标签信息。如图2所示,对机构、电网信息化和金额三种二级实体标签进行标注,所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体;分隔符采用“-”;标签具体类别中O代表机构,E代表电网信息化, M代表金额。

S5,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将步骤S4得到的BIO格式数据集输入网络学习模型进行训练得到实体识别模型,包括如下步骤:

S5.1,将预处理后的BIO格式数据集分为训练集、验证集和测试集;

本实施例中,所述训练集、验证集和测试集的数据量比例为7:1:2。

S5.2,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型;

BERT全称为Bidirectional Encoder Representation from Transformers,即将Transformer作为特征提取器的双向预训练模型,该模型通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法、词义等信息。对比普通Transformer模型,BERT借鉴了双向LSTM、GPT等优秀模型的特点,采用双向Transformer提取,从而让模型加深对语句顺序及上下文的理解能力,同时使用了NSP和Mask-LM机制进一步加深了模型的特征抽取能力。

NSP全称为Next Sentence Prediction,即为下一句预测,增加该机制是为了让模型理解两个句子之间的联系。许多重要的下游任务,例如问答即QA和自然语言推理即NLI,都是基于理解两个句子之间的关系,进行语言建模并直接获取。为了训练模型使其理解句子关系,在BERT中本发明预训练了下一句预测任务,具体来说,在为每个预训练示例选择句子A和B时,50%几率B是A实际的下一局,标记为IsNext,剩余50%的几率B是来自其他语料库,标记为 NotNext。

Transformer是当前主流的特征提取模型,它改进了RNN令人诟病的训练慢、长期依赖的问题,利用了Attention机制将序列中任意两个位置之间的距离缩小为一个常量,并且抛弃了顺序结构从而拥有了很好的并行性。Transformer本质是一个Encoder-Decoder结构。在Encoder中,第一层结构即为Attention模块。Transformer中提出的Multi-headSelf-Attention机制可以分为两个部分来阐述,分别是Self-Attention机制和Multi-head机制。

Self-Attention模块中,每个单词有3个不同的向量,分别是Query向量, Key向量和Value向量,他们分别是通过嵌入向量X乘以3个不同的系数矩阵W

其中,Similarity(Q

Self-Attention的整体过程为:

1、输入单词转换为嵌入向量X;

2、据嵌入向量X得到Q,K,V三个向量;

3、每个向量计算score=Q·K;

4、一化操作,即除以

5、将score传入softmax激活函数得到Attention权重系数;

6、Attention权重系数与V向量加权求和,得到输入向量Attention值v;

Multi-head即将h个不同的self-attention集成,Multi-head代表多头,即将模型分为多个头,形成多个子空间,可以让模型去关注不同方面的信息,分别应用Attention机制最后将分别得到的结果进行拼接。多头的注意力有助于模型理解到更丰富的特征/信息。这一步的整体过程为:

1、将嵌入向量X分别输入h个self-attention模块中,得到h个加权后的特征矩阵Z

2、将h个特征矩阵拼接,最后将特征矩阵经过全连接层得到输出Z;

Multi-head Self-Attention机制是Transformer模型提出的一大创新点。从本质上来讲,attention也就是从大量的信息中就只有毫无选择地进行筛选和找出少量重要性的信息并将其聚焦到这些重要性的信息上。注意力计算机制的权重计算即为一个带有加权权重求和的计算过程,权重求和系数与平均值公式相乘后的权重求和就可以得到了诸如attention等的结果,其中每个权重求和系数的值代表了给定信息的质量重要性和对给定任务的结果贡献最大程度,而值对应信息。

严格上讲,双向的语言模型比单向模型效果更佳,它可以更好的利用上下文信息预测目标词,从而使模型具有更好的特征提取效果。为了训练双向的 Transformer,本发明给输入的训练语料做随机的屏蔽标记。具体实现中,数据处理过程中会将15%的词语替换为“[mask]”,利用模型预测被屏蔽的词语从而达到学习的效果。为了解决预训练和训练之间“[mask]”不匹配的问题,即如果每次训练某个单词都被屏蔽,那后续微调时模型便不能识别该词,实现过程中并不总是进行替换,生成训练数据时,在15%词语被选中的基础上,80%的词语会执行替换操作,10%的词语保持不变,剩余10%的词语会被替换为其他词语。

BERT模型采用双向Transformer可以充分利用左右两侧的上下文信息,它的特征表示在所有层中共同依赖于左右两侧的上下文。该模型融合了其他模型的优点,并摒弃了它们的缺点,在诸多自然语言处理的后续特定任务上取得了良好的效果。BERT模型需要海量的参数和强大的计算能力才能完成训练,本发明使用谷歌开源的BERT模型对文档进行词嵌入处理。

将数据集输入到BERT网络模型中。对于每个字,其输入表示可以通过3 部分的embedding求和组成。3个部分的embedding均是通过模型学习得到,三者求和即为模型语义特征融合的过程,Embedding的可视化表示如图3所示。 Token Embeddings表示的是词向量,在处理中文文本信息是词向量既可以表示一个词语也可以表示一个字,在实体标签提取中所用的是更符合中文特征的字向量;第一个单词是CLS标志,可以用于之后的分类任务,做以两个句子为输入的分类任务时,用Segment Embeddings来区别两种句子;PositionEmbeddings 是通过模型学习得到的位置信息。得到字向量后,将BERT模型的输出输入至Bi-GRU神经网络中,学习上下文特征,输出的是每个词的上下文环境的向量表示。

RNN是顺序操作序列化的神经网络模型,其不定长、序列化的特点天然适用于NLP任务。尽管RNN理论上可以学习长依赖,但实践中我们更倾向于使用它的变种GRU模型。GRU模型旨在利用门限机制,通过记忆单元来解决梯度消失和梯度爆炸的问题,该模型不仅更加轻量化,而且已被证明可以捕获长依赖特征。

如图4所示,GRU模型包含两个门限机制,其中重置门机制主要实现选择性忘记,更新门机制则实现信息选择性保留,公式如下:

z

r

其中,σ为sigmoid函数,°代表Hadamard乘积运算,x

对于给定句子(x

在多分类问题中,常采用SoftMax分类器预测,但是SoftMax分类器在序列标注问题中没有考虑到标签之间的依存关系。本发明采用CRF模型,该方法能考虑标签序列的全局信息,更好地对标签进行预测。

Bi-GRU的优点是能够通过双向特征提取学习到输入序列之间的依赖,在训练过程中,GRU能够根据目标,比如识别实体,自动提取观测序列的特征,但是缺点是无法学习到状态序列,如输出的标注,之间的关系。而在命名实体识别任务中,标注之间是有一定的关系的,比如表示实体的开头的B类标注后面不会再接一个B类标注,所以GRU在解决NER这类序列标注任务时,虽然可以省去很繁杂的特征工程,但是也存在无法学习到标注上下文的缺点。相反, CRF的优点就是能对隐含状态建模,学习状态序列的特点,但它的缺点是需要手动提取序列特征。所以在GRU后面再加一层CRF,可以获得两者的优点。

对于输入语句X=(x

其中,A是一个转换得分矩阵,A

SoftMax函数对所有可能的标签序列产生一个序列y的概率:

在训练过程中,最大化正确标签序列的log-probability即对数概率:

其中,Y

如图5所示,为网络学习模型的结构,为BERT-Bi-GRU-CRF串接模型,所述模型包括BERT模型、Bi-GRU神经网络和CRF模型,Bi-GRU神经网络包括两个GRU模块,分别为前向GRU网络和后向GRU网络。BERT模型输入准备好的BIO格式数据集,并输出编码后的文字向量。编码后的文字向量输入 Bi-GRU神经网络,并输出进一步的潜在表示向量,随后潜在表示向量输入CRF 模型的,并输出最后的预测结果。本模型通过使用BERT模型作为特征表示层加入到双向GRU模型中,双向GRU模型对每一个训练序列分别作用一个向前和向后的GRU网络,并且这两个连接着同一个输出层,这样的一种网络结构可以给输出层提供每一个序列点完整的上下文信息,并且经过CRF模型有效地考虑了序列前后的标签信息。

S5.3,设置验证准确率阈值和预测准确率阈值;

S5.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;

S5.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S5.6,否则返回步骤S5.4;

S5.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S5.4并对网络学习模型的超参数进行调整,否则执行步骤S6;

S6,利用实体识别模型对新的电网项目文档进行特征识别。

本发明使用的具体流程为:首先下载谷歌官方的BERT-base(uncased)模型,选取并导入官方全词覆盖的中文预训练参数配置文件,依据构建的训练集进行训练,其中,学习率设置为10

图6至图8为仿真实验的结果,其中,图6展示了模型整体损失值的变化情况,可以看出在第15轮后模型接近收敛。图7展示了模型对电网信息化E、机构O和金额M预测准确率的变化情况,可以看出在第15轮训练后准确率分别在90%、82%和86%左右浮动,接近收敛。图8展示了电网信息化E、机构O 和金额M F1值的变化情况,可以看出在第15轮训练后F1值分别在90、82和 88左右浮动,接近收敛。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号