首页> 中国专利> 一种域适应的化工安全隐患短文本分类方法及系统

一种域适应的化工安全隐患短文本分类方法及系统

摘要

本发明公开了一种域适应的化工安全隐患短文本分类方法及系统,获取化工安全隐患排查领域的若干个待分类短文本;对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量;将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型中,输出短文本分类结果。采用GRU+HAN学习短文本在特定领域内字、词、句不同层级的信息融合表示,弥补通用语料短文本的领域信息偏差问题,在化工安全隐患排查的分类任务中表现出更好的分类效果。

著录项

  • 公开/公告号CN113139057A

    专利类型发明专利

  • 公开/公告日2021-07-20

    原文格式PDF

  • 申请/专利权人 青岛科技大学;

    申请/专利号CN202110511224.9

  • 申请日2021-05-11

  • 分类号G06F16/35(20190101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人黄海丽

  • 地址 266100 山东省青岛市崂山区松岭路99号

  • 入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及短文本分类技术领域,特别是涉及一种域适应的化工安全隐患短文本分类方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。

随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别在CNN(Convolutional Neural Network,卷积神经网络)和RNN(Recurrent NeuralNetwork,循环神经网络)方面,出现了许多新颖且富有成效的分类方法。利用文本分类的方法可以很好的解决互联网新闻分类、情感分析等问题,但在具体相关领域的应用,由于领域的文本特征不一,存在专业术语、缩略语、不规范用语等实际问题,实际应用效果一般。

特别是在化工安全隐患排查过程汇总的安全隐患文本,工作人员提供的排查报告文本往往包含大量专业术语、数字、中英文混合的专业名词、不规范的语言表达,且多为长短变化较大的句子,主流的文本分类模型很难通过缺乏上下文信息的文本中捕获较为准确的分类特征信息,导致安全隐患的分类往往不准确。因此强化短文本中的领域语义信息是有效解决化工领域安全安全隐患文本分类问题的关键,也对化工企业的安全管理预警与隐患排查有着重要意义。

短文本分类问题是自然语言处理任务的重要研究方向,难点主要表现在句子表达简短,每一个字都可能具有丰富的含义并且对句子的语义表达都有着紧密的联系。在很多自然语言处理中的文本分类任务中,传统的分类方法如朴素贝叶斯模型的分类方式,该模型假设属性之间互相独立,没有考虑到文本的上下文关联信息,对于短文本的语义特征支持效果不佳。

KIM Y提出的将CNN应用到文本分类任务中,利用多个不同尺寸的卷积核来捕捉局部相关性的特征信息,但是不同窗口的大小也就决定了CNN可以提取上下文依赖的长度也比较固定。

LAI S等人提出的RNN可以利用句子中上下文单词的信息来与每个单词进行词嵌入向量的拼接,有效地缓解了CNN无法动态变动窗口大小来适应不同文本的上下文长度,但同时也带来了训练过程中的梯度消失和梯度爆炸的问题。

Nguyen等人提出的LSTM(Long Short-term Memory,长短期记忆)网络是在RNN上的进一步延伸,其通过增加多细胞状态解决长期依赖问题,针对长序列文本的训练有着更好的表现。

Cho等人提出的GRU(Gated Recurrent Unit,门控循环单元)对LSTM进做出改进,混合了细胞状态和隐藏状态使得模型的运算性能有了很大的提升。

在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:

短文本存在文本长度差别大、上下文信息缺失、文本特征稀疏、词语义的域依赖特征明显等特点,通用的短文本分类技术由于难以捕获短文本的域相关特征信息,导致分类准确率较低。

发明内容

为了解决现有技术的不足,本发明提供了一种域适应的化工安全隐患短文本分类方法及系统;

第一方面,本发明提供了一种域适应的化工安全隐患短文本分类方法;

一种域适应的化工安全隐患短文本分类方法,包括:

获取化工安全隐患排查领域的若干个待分类短文本;

对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量;

将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型中,输出短文本分类结果。

第二方面,本发明提供了一种域适应的化工安全隐患短文本分类系统;

一种域适应的化工安全隐患短文本分类系统,包括:

获取模块,其被配置为:获取化工安全隐患排查领域的若干个待分类短文本;

提取模块,其被配置为:对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量;

分类模块,其被配置为:将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型中,输出短文本分类结果。

第三方面,本发明还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。

第四方面,本发明还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。

与现有技术相比,本发明的有益效果是:

提出一种融合分层注意力机制网络(HAN,Hierarchical Attention Networks)的GRU(Gated Recurrent Unit,门控循环单元)短文本分类模型,基于BERT(BidirectionalEncoder Representation from Transformers,预训练模型双向编码表示器)生成短文本的通用知识的词向量表示,增强短文本词与序列的通用特征表示;采用GRU+HAN学习短文本在特定领域内字、词、句不同层级的信息融合表示,弥补通用语料短文本的领域信息偏差问题,在化工安全隐患排查的分类任务中表现出更好的分类效果。

本发明中对其句子级别的注意机制进行转换,将句子与句子之间的注意力的分支转移为句子与单词之间的隐含注意力表示,保持分层次的关注句子所蕴含的语义特征的同时,也同时聚合BERT较为发散的文本特征表示。长文本的分类问题相对于短文本可以从句子的上下文语境中抽取语义信息并且有着不错的分类效果,但是化工安全隐患文本具有长文本的同时也具有非常多的短序列文本,如何将两类文本使用一个模型自动从不同文本层级上捕捉不同层级的语义特征是解决化工安全隐患分类的核心问题。

本发明提出一种域适应的短文本分类模型可以有效地解决上述问题。GRU-HAN借助BERT作为文本的Word Embedding方法,有效结合BERT在海量中文文本数据集上的预训练结果,能够获得短文本的常识知识的嵌入式表示,GRU-HAN模型依赖HAN的分层注意力机制增强序列文本内部的词之间依赖关系,短序列文本内部的词与整个文本之间依赖关系,降低模型在领域语义识别上的局限性。选取化工领域的安全隐患文本及其标注分类作为训练和测试的数据集,本方法优于主流的文本分类方法。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图;

图2为第一个实施例的GRU-HAN整体网络模型架构;

图3为第一个实施例的BERT模型的三个层级;

图4为第一个实施例的GRU模型结构图;

图5为第一个实施例的GRU与HAN连接关系示意图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了一种域适应的化工安全隐患短文本分类方法;

如图1所示,一种域适应的化工安全隐患短文本分类方法,包括:

S101:获取化工安全隐患排查领域的若干个待分类短文本;

S102:对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量;

S103:将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型中,输出短文本分类结果。

进一步地,所述S102:对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量;具体包括:

基于BERT模型,对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量。

进一步地,所述将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型中,输出短文本分类结果,具体包括:

S1031:训练后的短文本分类模型对每个初始文本向量进行编码,得到考虑前后时序关联的文本向量;

S1032:训练后的短文本分类模型,对每个考虑前后时序关联的文本向量赋予词与词之间的权重,得到第一次加权后的文本向量;

S1033:训练后的短文本分类模型,将第一次加权后的文本向量进行拼接,得到句子嵌入向量;

S1034:基于句子嵌入向量,利用训练后的短文本分类模型,对每个考虑前后时序关联的文本向量赋予词与句子之间的权重;得到第二次加权后的文本向量;

S1035:训练后的短文本分类模型,对第二次加权后的文本向量进行拼接,得到待分类向量;

S1036:训练后的短文本分类模型,对待分类向量进行分类,得到每个待分类短文本的分类结果。

进一步地,所述短文本分类模型,网络结构包括:

依次连接的词嵌入构造层BERT、词编码器Word Encoder、词与词的注意力机制层、第一拼接单元、词与句子的注意力机制层、第二拼接单元和Softmax分类层。

其中,词嵌入构造层BERT,工作原理为:对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的词向量(Token Embeddings)、段向量(Segment Embeddings)和位置向量(Position Embeddings);

将词向量(Token Embeddings)、段向量(Segment Embeddings)和位置向量(Position Embeddings)融合为初始文本向量。

其中,词向量表示文本特征向量;段向量表示文本的上下文特征向量;位置向量表示文本所在位置的向量。

其中,词编码器Word Encoder,其结构为在HAN模型的Word Encoder的基础上添加了GRU单元。

如图5所示,所述词编码器Word Encoder,其结构为:

先假设原HAN模型的Word Encoder,包括:

从左到右依次连接的编码单元

从右到左依次连接的编码单元

其中,编码单元

编码单元

其中,编码单元

编码单元

其中,词与词的注意力机制层,其工作原理为:对每个考虑前后时序关联的文本向量赋予词与词之间的权重,得到第一次加权后的文本向量。

其中,第一拼接单元,具体为:串联拼接。

其中,词与句子的注意力机制层,其工作原理为:对每个考虑前后时序关联的文本向量赋予词与句子之间的权重;得到第二次加权后的文本向量。

其中,第二拼接单元,具体为:串联拼接。

进一步地,所述训练后的短文本分类模型,其训练步骤包括:

构建训练集,所述训练集为已知分类标签的化工安全隐患排查领域的若干个待分类短文本;

将训练集,输入到短文本分类模型中,对短文本分类模型进行训练,当损失函数达到最小值,或者当训练达到设定迭代次数时,停止训练,得到训练后的短文本分类模型。

进一步地,所述S1031:训练后的短文本分类模型对每个初始文本向量进行编码,得到考虑前后时序关联的文本向量;具体包括:

将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型的词编码器Word Encoder中,训练后的短文本分类模型的词编码器Word Encoder对每个初始文本向量进行编码,得到考虑前后时序关联的文本向量。

进一步地,所述S1032:训练后的短文本分类模型,对每个考虑前后时序关联的文本向量赋予词与词之间的权重,得到第一次加权后的文本向量;具体包括:

训练后的短文本分类模型的词与词的注意力机制层,对每个考虑前后时序关联的文本向量赋予词与词之间的权重,得到第一次加权后的文本向量。

进一步地,所述S1032:训练后的短文本分类模型,对每个考虑前后时序关联的文本向量赋予词与词之间的权重,得到第一次加权后的文本向量;具体工作原理包括:

其中,exp是以自然常数e为底的指数函数,输入的参数

进一步地,所述S1033:训练后的短文本分类模型,将第一次加权后的文本向量进行拼接,得到句子嵌入向量;具体包括:

训练后的短文本分类模型,将第一次加权后的文本向量进行串联拼接,得到句子嵌入向量。

进一步地,所述S1033:训练后的短文本分类模型,将第一次加权后的文本向量进行拼接,得到句子嵌入向量;工作原理包括:

S=Concat(α

其中Concat函数用于向量的拼接,将上一步得到的权重矩阵α

进一步地,所述S1034:基于句子嵌入向量,利用训练后的短文本分类模型,对每个考虑前后时序关联的文本向量赋予词与句子之间的权重;得到第二次加权后的文本向量;具体包括:

基于句子嵌入向量,利用训练后的短文本分类模型的词与句子的注意力机制层,对每个考虑前后时序关联的文本向量赋予词与句子之间的权重;得到第二次加权后的文本向量。

进一步地,所述S1034:基于句子嵌入向量,利用训练后的短文本分类模型,对每个考虑前后时序关联的文本向量赋予词与句子之间的权重;得到第二次加权后的文本向量;工作原理包括:

其中,u

进一步地,所述S1035:训练后的短文本分类模型,对第二次加权后的文本向量进行拼接,得到待分类向量;具体包括:

训练后的短文本分类模型,对第二次加权后的文本向量进行串联拼接,得到待分类向量。

进一步地,所述S1035:训练后的短文本分类模型,对第二次加权后的文本向量进行拼接,得到待分类向量;工作原理包括:

h

将短文本中的所有融合了词与词,词与句子语义关联的上下文特征向量β

进一步地,所述S1036:训练后的短文本分类模型,对待分类向量进行分类,得到每个待分类短文本的分类结果;具体包括:

训练后的短文本分类模型的Softmax分类层,对第二次加权后的文本向量进行分类,得到每个待分类短文本的分类结果。

进一步地,所述S1036:训练后的短文本分类模型,对待分类向量进行分类,得到每个待分类短文本的分类结果;工作原理包括:

p=softmax(W

其中,包含着训练出来的矩阵系数W

进一步地,假设概率分布p为期望输出,概率分布q为实际输出。

进一步地,所述损失函数H(p,q)为:

其中,N表示一个batch的样本数量,M表示类别的数量,p(x

训练后的短文本分类模型包括GRU-HAN网络模型,其中,GRU-HAN网络模型是将改进后的HAN与GRU的网络进行融合,如图1所示,文本的词嵌入使用BERT模型构造方法,生成的每个词向量通过HAN中的词与词的注意力机制层Word-Word Level Attention对输入文本序列中词向量与词向量之间,词与句子的注意力机制层Word-Sentence LevelAttention对词向量与句向量之间信息进行建模,并将HAN所关注的隐含语义向量反馈到分类器网络中,经过Softmax输出特征分类信息。

GRU-HAN网络模型包括一个深度GRU网络,GRU-HAN网络具有变长序列数量的控制单元,使用GRU细胞的输入实现从编码器网络到分层的注意力连接,为了提高并行度并减少训练时间,本发明的注意力机制将解码器的底层连接到编码器的顶层。为了加快模型拟合速度,句子的编码层次在一次句子序列会话过程中保持不变。

在GRU-HAN中,在两个方面都不同程度的增强文本的语义丰富度:

(1)使用BERT对文本进行词嵌入构造,并使用GRU进行双向的语义编码,如图2中Word Encoder所示,经过两层的Encoder编码得到文本向量的潜在语义和前后时序关联记忆信息,在自身语义得到加强的同时,也将上下文的语境同时进行编码融合;

(2)HAN层次中通过Word-Word Level Attention来感知所有单词中地位较为权重较大的单词,对单词向量的拼接得到句子嵌入向量Sentence Embeddings,接着经过Word-Sentence Level Attention来持续关注单词与全局文本的语境感知,结合两层的注意力感知可以有效地缓解BERT在特定领域的语义模糊问题。GRU中具有较强的语序信息捕获能力,通过分层的注意力机制可以淡化GRU捕获的时序信息,让自由表述的文本有着更多的语义解释方式。

传统的自然语言处理任务都是采用静态语义信息的字符编码进行向量表达,例如Word2Vec,One-Hot等Word Embedding的方式。这些向量编码方式不考虑上下文的信息,每个单词会被映射到唯一的稠密向量,无法解决一词多义的问题。在实际的短文本分类任务中,单个词语常具有多重含义,传统的词向量无法将短文本中的词语很好的表征其具有的语义特征,因此,需要通过一个深层模型来学习到一个更好的文本特征。

本发明采用的BERT的预训练模型是通过大量语料的自监督学习训练得到的,其词向量的含义融合了海量的语料文本特征,可以很好的运用在各项文本任务的词嵌入特征表示方法中。

BERT模型的特征表示分为三个层级,分别为字符信息向量(Token Embeddings)、分段信息向量(Segment Embeddings)和位置信息向量(Position Embeddings)。如图3所示,Token Embeddings将切分后的每个词语进行向量表示,Segments Embeddings按照句子中的分段信息进行标注并使用[CLS]和[SEP]进行标记,Position Embeddings则给每一个Input单元添加位置时序信息。最后,将三层向量的表示信息进行叠加得到BERT模型所表示的词向量。

为学习到短文本中每个字的多重特征表达,词嵌入层在使用BERT构造词向量后对其进行线性映射:

输入长度为n的文本序列X=[x

GRU模型的提出是为了解决长期记忆和反向传播中的梯度等问题,如图4所示,GRU模型通过上一个传递过来的隐状态(Hidden State)h

接收输入的信息后,控制更新的门控z

z

控制重置的门控r

r

在得到门控信号之后,将重置后的门控与输入的信息进行拼接,再通过一个tanh激活函数来将数据放缩到-1~1的范围内,即得到

这里的

之前的更新门控z

通过上述BERT与GRU生成的包含序列上下文记忆信息以及丰富词义信息的向量后,由于BERT所生成的词向量拥有海量的语料特征,强大的泛化能力使得BERT在特定领域中无法聚焦某方面的语义特征,本发明进一步地使用改进后的HAN机制增强每个词向量之间以及词向量与句向量之间的更多语义关联特征,使得模型对于特定领域的长短序列文本都有着较好的语义特征捕捉能力。

并非所有单词都对句子含义的表达做出同等的贡献。因此,我们引入了注意力机制来提取对句子含义很重要的单词,通过将h

u

同时,为比较文本中单词的重要性,本发明用u

得到了上式的Word-Word Level Attention权重矩阵,文本序列内部单词与单词之间的语义焦点特征也会被保留在矩阵中,通过对文本中产生的α

S=Concat(α

通过词向量与句子向量建立起单词与句子的注意力关联,使本发明中单词与整体句子建立起注意力反馈的机制,衡量单词对于整体文本的重要性,增强了文本与句子之间的语义关联特征。同样的,单词的隐含表示u

将每一个单词与句子所产生的注意力矩阵进行拼接组合,形成联合词与词,词与句子语义关联的上下文特征向量β,并通过softmax对此特征进行文本分类。

p=softmax(W

交叉熵主要是用来判定实际的输出与期望的输出的接近程度,刻画的是实际输出(概率)与期望输出(概率)的距离,即交叉熵的值越小,实际与期望的两个概率分布就越接近。

假设概率分布p为期望输出,概率分布q为实际输出,则交叉熵损失函数CrossEntropyLoss的计算方法为:

采用交叉熵的损失计算方法可以很好的适应多标签分类任务,公式11中N表示一个batch的样本数量,M表示类别的数量,p(x

实施例二本实施例提供了一种域适应的化工安全隐患短文本分类系统;

一种域适应的化工安全隐患短文本分类系统,包括:

获取模块,其被配置为:获取化工安全隐患排查领域的若干个待分类短文本;

提取模块,其被配置为:对每个待分类短文本均进行向量提取,得到每个待分类短文本对应的初始文本向量;

分类模块,其被配置为:将所有待分类段文本对应的初始文本向量,输入到训练后短文本分类模型中,输出短文本分类结果。

此处需要说明的是,上述获取模块、提取模块和分类模块对应于实施例一中的步骤S101至S103,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。

实施例三

本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。

应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号