首页> 中国专利> 一种基于BERT-base网络的带噪半监督文本分类方法

一种基于BERT-base网络的带噪半监督文本分类方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于BERT‑base网络的带噪半监督文本分类方法。本发明步骤：S1、用模型对无标签样本经回译后产生的新样本做出预测并构造预测标签；S2、将带标签和无标签样本再次输入模型后，在BERT中特定Transformer隐藏层做扰动和插值处理，最终得到插值模型输出；S3、构造损失函数loss＝ls+lsce，第一项为针对带标签样本的交叉熵，第二项为插值标签与插值模型输出的对称交叉熵；S4、训练更新模型参数；S5、用训练好的模型对新样本进行预测分类。本发明将带噪学习领域的对称交叉熵和插值方法融合，使得带标签和无标签样本协同训练的同时，降低了标签预测过程中模型误判的影响，减少了训练过程中带标签数据的过拟合现象。

著录项

公开/公告号CN112597766A

专利类型发明专利
公开/公告日2021-04-02

原文格式PDF
申请/专利权人杭州电子科技大学;
展开▼

申请/专利号CN202011593101.6
发明设计人任子扬;姚英彪;徐欣;李沛;刘兆霆;冯维;
展开▼

申请日2020-12-29
分类号G06F40/284(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构33240 杭州君度专利代理事务所(特殊普通合伙);
代理人朱月芬
地址 310018 浙江省杭州市下沙高教园区2号大街
入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明应用于自然语言处理(NLP)领域，具体涉及一种基于BERT-base网络的带噪半监督文本分类方法。

背景技术

随着通信、互联网技术的发展，数据已经成为了一种工业原材料，如何挖掘并利用隐藏在数据中的信息已经形成多个产业并且创造了巨大的经济效益。文本数据因为由人的直接表达生成，故产生成本最低，数量最大，包含信息也最为丰富。

在文本数据的众多应用中，分类是一个基础性工作。传统文本分类一般基于带标签数据做监督学习，但在实际的特定工业场景中，数据大多为无标签的原始数据，数据的标注可能需要耗费大量的人力资源，且人工标注的标签质量如何也值得怀疑，实际情况下甚至可能出现“训练数据越多，训练效果越差”的情况。故仅利用少量带标签数据和大量无标签数据的半监督学习方法就成为更加实际且低成本的选择。

目前的半监督学习大多应用于图像分类，近几年的主流方法都利用了一致性正则和最小化熵的思想。一方面，若对数据输入添加噪声，一个鲁棒的模型的输出应该是相似的；另一方面，模型在无标签数据上的熵应该尽可能最小化。无标签数据通过一次或数次增强后输入模型，用模型的较低熵输出作为其预测标签。与此同时，将该无标签数据用另一种方式扰动之后输入模型，此时模型的输出应该和刚刚得到的人工标签存在相似性。衡量“较低熵”的方法一般是看模型输出的概率分布中的最大概率是否超过某个阈值。如何衡量“相似性”则取决于选择何种损失函数，一般的选择有KL散度、交叉熵、L2正则等。但在文本半监督分类中有两方面的问题。一方面，如何将图像半监督分类中的一致性正则和最小化熵的思想应用于文本处理之中。对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中，文本数据具有一定离散特性，很难通过简单的转换来生成大量语义不变的扩充样本。尤其是短文本中，对部分词语的改动很可能直接改变整体语义，故直接在词向量上添加扰动并非最佳选择。另一方面，通过设定概率阈值来判断模型的输出的置信度，这种方法较为简单而直接，但在实际操作中的问题在于：由于阈值的存在，无标签数据可能会在模型训练中期甚至后期才会加入，而此时那些早已参与训练的少量带标签数据可能已经过拟合，用过拟合的模型去预测数据的标签，这种预测势必包含错误判断，且这种错误并非均匀分散的随机噪声，而是模型“死读书”之后产出的系统性噪声。故如何处理带标签和无标签数据的协同训练，如何处理模型预测中的噪声也是个问题。

发明内容

本发明提供一种基于BERT-base(BERT是一种基于Transformer架构的双向编码器)的带噪半监督文本分类方法，它对无标签样本通过回译方法产生新样本，然后通过模型预测将置信度较高的预测结果作为该新样本的预测标签；训练过程中，采用插值方法将带标签样本和无标签样本协同训练，并用梯度上升方法对无标签样本在模型中第3隐层的输出向量添加扰动，最后用改进的损失函数提高模型对于其预测标签中噪声的鲁棒性。

为实现上述目的，本发明采用的技术方案步骤如下：

S1、数据初始化阶段。将无标签样本做回译操作并产生新样本，然后将新样本输入模型，最后将其中高置信度的输出向量转化为对应one-hot标签。具体步骤如下：

S11、将无标签样本

S12、将样本

S13、若样本

S2、数据增强阶段。采用FGM(Fast Gradient Method)方法添加扰动并作插值处理，具体步骤如下：

S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成，这里针对无标签样本

S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作。设

S221、利用Beta分布产生一个0～1之间的随机数λ。

S222、取λ

S223、计算

S224、将

S3、损失函数的构造阶段。损失函数loss＝l

S31、l

交叉熵：

反交叉熵：

其中i∈{1,2,…,N

S32、l

S33、计算最终损失函数loss：loss＝l

S4、模型参数更新阶段。

S41更新模型参数θ，即θ←θ-η▽

S42、在下一批次样本中重复步骤S1-步骤S4，每经过一批次样本的训练后验证模型预测正确率，若更新了当前最高正确率则保存该模型参数。若模型经过10批次训练后预测正确率仍未提高，则结束训练过程。

S5、用训练好的模型做文本的分类应用。

与现有方法相比，本发明有以下优点：

本发明基于如今较为流行的BERT-base模型实现了一种针对文本分类的半监督的带噪学习方法。(1)相比传统半监督学习方法，本发明更为细致地考虑到模型预测标签中的噪声问题，并引入图像带噪学习领域的对称交叉熵，降低了模型误判的影响。(2)再将其和插值方法融合，形成了全新的two-hot模式下的对称交叉熵，提升了模型泛化性能的同时将带标签和无标签样本协同训练，尽量减少了训练过程中在部分数据的过拟合现象。(3)在插值操作中，相比传统做法中将所有样本随机打乱后插值的粗犷做法，本发明较为细致地始终保持无标签样本和带标签样本间的交叉，且在权值的选择上尽量保持损失函数梯度下降时对真实标签的偏向性，这进一步减轻了模型误判带来的影响。(4)相比传统做法中直接在词向量上添加扰动，本发明选择BERT-base隐层输出向量作为扰动对象，从而尽量减少扰动操作对样本语义上的过度修改。

附图说明

图1为模型主要结构图；

图2为本发明中基于BERT-base的半监督带噪学习方法的单轮训练流程图；

图3为本发明中扰动和插值操作示意图；

具体实施方式

下面将结合附图对本发明的具体实施细节做进一步阐述。

一种基于BERT-base的半监督带噪文本分类方法，模型结构如图1所示，它由词向量编码器和12层Transformer架构的隐层构成。BERT-base通过多层运算后，取语句开始标志(CLS)的最终隐层输出向量作为整句话的语义表达向量，然后针对该语义向量用一个两层线性分类器做最终分类。

本方法主要分四个阶段：S1数据初始化阶段、S2数据增强阶段、S3损失函数的构造阶段、S4模型参数更新阶段、S5模型应用阶段。结合图2，本发明的步骤如下：

S1、数据初始化阶段。对无标签样本做回译操作并产生新样本。将新样本输入模型，将其中高置信度的输出向量转化为对应one-hot标签。具体包括：

S11、将无标签样本

S12、将样本

S13、若样本

S2、数据增强阶段。结合图3所示，采用FGM(Fast Gradient Method)方法添加扰动并作插值处理。由于文本中语义的表达并不连续，对部分关键词的改变可能导致整体语义的过度反差，而研究表明，BERT一些特定隐层输出在句法语义等信息的提取中效果较好，故在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理。步骤S2具体为：

S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成，这里针对无标签样本

S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作。设

S221、利用Beta分布产生一个一个0-1之间的随机数λ。

S222、取λ

S223、计算

S224、将

S3、损失函数的构造阶段。损失函数loss＝l

S31、l

交叉熵：

反交叉熵：

i∈{1,2,…,N

以下为本发明中构造的two-hot模式反交叉熵的有效性的解释，以单个带标签样本和单个无标签样本为例：

其中，z

因为0＜λ

即l

研究表明，误判情况的偶发性导致模型对于错误标签的预测置信度不会很高，所以若p

S32、l

S33、计算最终损失函数：loss＝l

S4、模型参数更新阶段。

S41、更新模型参数θ，即θ←θ-η▽

S42、在下一批次样本中重复步骤S1-步骤S4，每经过一批次样本的训练后验证模型预测正确率，若更新了当前最高正确率则保存该模型参数。若模型经过10批次数据训练后预测正确率仍未提高，则结束训练过程。

S5、模型应用阶段。使用S42步骤中训练好的模型，将测试文本输入模型，模型输出向量中最大概率处对应的类别即为预测所属的分类。

综上所述，本发明将图像半监督分类的思想方法引入自然语言处理领域，提出了基于BERT-base模型的半监督带噪文本分类方法。

通过更为细致地在BERT-base隐层中做扰动和插值处理，本发明减少了由于对词向量直接改动而导致语义过度变化的情况，并使得模型在提升鲁棒性和泛化性能的同时将带标签和无标签样本协同训练，尽量减少了训练过程中在部分数据的过拟合现象。

考虑到预测标签中的噪声处理问题，本发明引入图像带噪学习领域的对称交叉熵，并将其和插值处理融合，形成了two-hot模式下的对称交叉熵。插值处理时更细致的权重选择使得训练过程总是略微偏向真实标签，这进一步减轻了预测标签中的噪声对训练过程的影响，提升了模型训练过程的鲁棒性。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于BERT-base网络的带噪半监督文本分类方法 [P] . 中国专利： CN112597766A . 2021-04-02
2. 一种基于对抗训练和对抗学习网络的半监督文本分类方法 [P] . 中国专利： CN110532377A . 2019-12-03
3. A method of classifying text units based on scores, computer program product and computer therefor [P] . 德国专利： DE112013002187T5 . 2015-01-08

机译：一种基于分数的文本单元分类方法，计算机程序产品及其计算机
4. TEXT DATA CLASSIFICATION METHOD AND APPARATUS BASED ON NEURAL NETWORK MODEL, AND STORAGE MEDIUM [P] . WO2021051518A1 . 2021-03-25

机译：基于神经网络模型的文本数据分类方法和装置和存储介质
5. CONVOLUTIONAL NEURAL NETWORK-BASED TEXT CLASSIFICATION METHOD, AND RELATED DEVICE [P] . 世界知识产权组织专利： WO2020147393A1 . 2020-07-23

机译：基于卷积神经网络的文本分类方法及相关装置