首页> 中国专利> 基于多权重自训练的环境类投诉举报文本分类方法

基于多权重自训练的环境类投诉举报文本分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于多权重自训练模型得环境类投诉举报文本分类方法，属于人工智能技术领域。具体包括以下步骤：首先使用基于HowNet语料库的相似度计算方法赋予每个无标签数据第一权重；然后使用自训练的方法为每个无标签数据添加第二权重；接着通过权重融合和阈值筛选为每个无标签数据赋予伪标签并利用其参与训练。最后使用训练好的分类器进行投诉举报文本分类。本文所使用的基于多权重自训练模型的环境类投诉举报文本分类方法，在解决投诉举报少样本分类的问题上取得显著效果。

著录项

公开/公告号CN114969321A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN202210249762.X
发明设计人范青武;邱昌盛;
展开▼

申请日2022-03-14
分类号G06F16/35(2019.01);G06F40/216(2020.01);
代理机构北京思海天达知识产权代理有限公司 11203;
代理人刘萍
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-06-19 16:34:57

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

实质审查的生效 IPC(主分类):G06F16/35 专利申请号:202210249762X 申请日:20220314

实质审查的生效

说明书

技术领域

本发明涉及一种环境类投诉举报文本分类方法，尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。

背景技术

涉及环境类的投诉举报类型多种多样，将投诉举报经过分类，快速准确定位投诉原因后，再交由相应主管部门会提升事件处理效率。通过分析，投诉举报文本具有口语化严重、表述不清的特点，并且有标签数据极少，直接构建有监督分类器面临着诸多困难；而通过人工进行标注开销昂贵，费时费力，且容易受到标注者主观的影响。

针对上述投诉举报分类中的问题，使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进，通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类，为环境类投诉举报可信度分析提供新思路。

综上所述，基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题，具有重要的研究意义和应用价值。

发明内容

本发明的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清，并且有标签数据极少，通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题，本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进，通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。

基于多权重自训练模型的环境类投诉举报文本分类方法，该方法步骤如下：

S1原始数据收集；

S2从全部有标签数据集中为每个类随机抽取η个样本，作为目标集；

S3将目标集和无标签数据集中X

S4使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度；

S5计算每个无标签数据相对于每个类的平均相似度，将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重；

S6使用全部的有标签数据训练教师分类器，然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重；

S7然后将每个无标签样本的第一权重和第二权重进行叠加，并再次对叠加后的权重进行归一化得到最终权重；

S8对最大权重超过阈值的无标签文本添加相应的伪标签。将添加伪标签的样本添加到有标签数据集中，并从无标签数据集中剔除；

S9用更新后的有标签数据集训练一个学生模型。

S10重复S6到S9操作，直到全部无标签数据全部添加伪标签或程序运行完指定循环次数。将最后得到的分类器作为自训练模型的输出。

附图说明

图1为基于多权重自训练模型的环境类投诉举报文本分类模型示意图。

图2为基于多权重自训练模型的环境类投诉举报文本分类模型流程图。

具体实施方式

本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法，

结合附图1详细说明本发明的具体实施方式：

步骤1，原始数据收集；

步骤2中，从全部有标签数据集X

步骤3，将目标集和无标签数据集中X

步骤4，使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度，具体计算方式是：

步骤401，在义原树中两个义原节点之间的路径长度：两个义原的相似度大小与它们之间的路径距离的大小相关。义原节点w

其中，Dist(w

步骤402，在两个义原节点之间的路径长度的基础上，加入义原节点的深度：在同一棵义原树中，两个义原的深度越大，表明义原包含的信息量越大，义原之间的相似度就越大。所以义原节点w

其中，inf(w

步骤403，义原之间的相似度计算综合义原路径长度，义原深度因素，因此义原之间的相似度即可由以下公式计算得到：

其中α

从目标集和无标签数据集中各取出一条样本，分词去停用词之后得到

步骤5，计算每个无标签数据相对于每个类的平均相似度，将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重，具体方法如下：

步骤501：

令

将P,Q集合所有元素之和的平均值作为

其中，Sim(a)∈P,a＝1,2,…,T

步骤502：使用上述方法从无标签数据集X

在生成第一权重之前，为了提高模型的准确度，对

y＝sgn(ReLU(x-λ)) (7)

其中λ(λ∈[0,1])为设定的筛选阈值。所以筛选后的相似度为

最后将筛选之后的相似度进行归一化处理作为最后

步骤6，使用全部的有标签数据训练教师分类器，然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重，具体步骤如下：

步骤601，将全部的有标签数据X

向量化后的无标签数据表示为

步骤602，用bert分类器作为自训练模型的教师和学生模型。将V

其中：N为每个batch的大小；

M--表示类别个数；

步骤603，使用训练好的教师模型计算出V

步骤7，将第一权重与第二权重进行叠加并归一化得到数据

同样的，为了提高同化数据的准确率。在为无标签数据

步骤8，对有标签数据集进行更新：将所有

步骤9，使用更新后的有标签数据集

本模型分类精确率(Precision)来表示模型的效果:

其中，为预测为正例且实际也为正例的样本数量；为预测为正例但实际为负例的样本数量。

本方法所用到的投诉举报数据集均来自于中国某环保相关部分所提供的真实数据。来自微信端、网页端、电话的环境类相关的投诉举报数据共计8910 条数据。为了更方便的将本文所提模型的性能与有监督模型进行对比，所选用的8910条数据全部为有标签数据。该数据用于半监督模型时，隐藏部分数据的标签当作无标签数据使用。

表1 MWST与有监督模型实验效果对比

如表1所示，基于多权重自训练的文本分类模型(MWST)在环境类投诉举报文本数据上的分类效果提升的较为明显。特别是在有标签数据较少而无标签数据较多的情况下，MWST模型的表现尤为突出。整体上，MWST与所对比的有监督模型效果高出12％以上；在L/U值小于1区间内，效果更为明显。与目前主流的几种半监督文本分类的模型进行对比，如表2所示，在环境类投诉举报文本数据上，MWST仍然具有一定的优势。在L/U值小于0.75区间内，MWST相比于其余模型优势明显。尤其在L/U值在0.2附近，MWST相比于其余模型高出10％以上。MWST在有标签数据较少，无标签数据较多时，可以利用相似度计算的方法为无标签提供有效的权重支持。相比于其他的半监督方法可以在不借助大量有标签数据学习的情况下获取更多类别信息，从而使其在小样本分类中取得更好的效果。

表2基于不同特征抽取器的MWST实验效果对比

表3基于不同相似度计算的MWST实验效果对比

表2，表3作为本文所提模型的验证实验。如表2所示，通过使用不同的特征抽取器来对比MWST模型的性能。从表中可以看出在所设计的对比实验中， BERT特征抽取器保持绝对优势。尤其在L/U较小阶段，BERT模型相比于卷积神经网络和循环神经网络，展现了其预训练的优势；并且BERT与Transfomer 相比，体量较小，可以在小样本的情况下有效的避免欠拟合的问题，从而体现出更好的特征抽取效果，因此本文所提模型中，采用BERT作为特征抽取器。

表3表示的是通过使用不同的相似度计算的方法来对比MWST模型的性能。从表中可以看出在所设计的比对实验中，基于HowNet的相似度计算方法在整体上有一定的优势。基于HowNet语料库可以轻松的获取词语义原之间的路径长度，层次深度，甚至是情感等信息。相比基于简单的文本编码表示的相似度计算，基于HowNet语料库的方法可以更好的从语义层面获取更多的信息，从而更有效的提高相似权重的准确性，为整体的模型效果提供更有效的帮助。

综上所述，本方法能够很好的利用多权重自训练模型，可以很好的完成投诉举报文本分类任务。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于SVM参数优化的投诉举报文本分类方法 [P] . 中国专利： CN111753083A . 2020-10-09
2. 一种基于投诉举报内容智能挖掘投诉举报对象的方法 [P] . 中国专利： CN113011188A . 2021-06-22
3. DUAL-MICROPHONE BASED VOICE ACTIVITY DETECTION DEVICE USING DISCRIMINATIVE WEIGHT TRAINING AND METHOD THEREOF [P] . 韩国专利： KR101711302B1 . 2017-03-02

机译：基于区分权重训练的基于双麦克风的语音活动检测装置及其方法
4. APPARATUS AND METHOD FOR TRAINING DEEP NEURAL NETWORK WITH DEEP NEURAL NETWORK WEIGHT-BASED RANDOM NUMBER GENERATOR [P] . 韩国专利： KR20220016681A . 2022-02-10

机译：基于深神经网络权重随机发电机训练深神经网络的装置和方法
5. THE METHOD TO IMPROVE THE PERFORMANCE OF SPEECH/MUSIC CLASSIFICATION FOR 3GPP2 CODEC BY EMPLOYING SVM BASED ON DISCRIMINATIVE WEIGHT TRAINING [P] . 韩国专利： KR20110021328A . 2011-03-04

机译：基于区分权重训练的SVM应用SVM提高3GPP2编解码器语音/音乐分类性能的方法