首页> 中国专利> 基于深度迁移网络的投诉举报可信度分析方法

基于深度迁移网络的投诉举报可信度分析方法

摘要

本发明公开了一种基于深度迁移网络的投诉举报可信度分析方法,属人工智能技术领域。具体包括以下步骤:首先,微博文本、投诉举报文本、微博文本混合投诉举报文本分别经过Word2vec文本向量化模型表示为矩阵;然后,将向量化之后的文本输入到三组双向LSTM网络中进行特征提取,分别提取出源域私有特征向量、源域目标域共享特征向量、目标域私有特征向量;接着,将共享特征分别与源域和目标域私有特征通过自注意力机制进行特征融合,得到最终的源域特征和目标域特征;最后,将源域特征和目标域特征输入到多层感知机输出最后的分类结果。该方法解决了投诉举报可信度分析中人工分析难、缺乏有效数据标注的问题,为环境类投诉举报可信度分析提供了思路。

著录项

  • 公开/公告号CN113064967A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110310932.6

  • 发明设计人 范青武;韩华政;

    申请日2021-03-23

  • 分类号G06F16/33(20190101);G06F40/289(20200101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人张慧

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明涉及一种环境类投诉举报可信度分析方法,尤其涉及一种基于深度迁移网络的环境类投诉举报可信度分析方法。

背景技术

环境类投诉举报是指公民对影响自身生产生活或者违反国家相关规定的环境类污染现象或者事件进行投诉。投诉者通常以文本的形式对投诉举报进行描述。在诸多的投诉举报事件中存在对事实进行篡改、夸大或者嫁接的非可信的投诉举报事件。这些投诉举报会直接提高管理部们处理水污染事件的难度,降低行政效率。为提高行政管理效率,避免管理资源浪费,行政管理部门迫切需要对网民投诉举报事件的可信度进行分析。

目前在水环境投诉举报领域少见对投诉举报事件进行可信度分析的相关工作,基于投诉举报文本进行投诉举报可信度分析的相关工作也相对较少。但是在其他领域存在基于文本内容进行可信度分析类似的工作。深度学习出现后,各种基于深度学习技术的方法被提出,在基于文本内容的可信度分析工作中取得的非常好的效果,如虚假新闻检测、谣言检测等。但是机器学习和深度学习方法大多需要基于大量含有可信度标签的数据。环境类投诉举报可信度分析中的投诉举报文本数据往往缺乏可信度标签,而人工对投诉举报进行可信度分析是非常困难的。

为了解决上述问题,使用微博文本辅助投诉举报可信度分析。微博文本和投诉举报文本都是对作者情感和态度的表达,同时微博谣言和虚假投诉举报往往都是对事实的篡改和扭曲,所以微博文本和投诉举报文本具有一定的语义相似性;结合半监督迁移学习方法,利用迁移学习理论使用特征迁移、领域适配等技术将微博文本中的知识迁移到投诉举报文本可信度分析过程中,提升投诉举报可信度分析的性能指标。

综上所述,基于深度迁移网络的环境类投诉举报可信度分析是一项创新的研究问题,具有重要的研究意义和应用价值。

发明内容

本发明的目的是解决环境类投诉举报可信度分析中人工分析困难和缺少有效可信度标签,无法训练有效的可信度分析模型的问题。为解决上述问题提出了一种深度迁移网络。本方法以微博文本为源域,投诉举报文本为目标域,设计有效的特征抽取、特征迁移和领域适配方法,利用微博文本辅助投诉举报可信度分析。

基于深度迁移网络的环境类投诉举报可信度分析方法,该方法步骤如下:

S1数据收集;

S2对微博文本数据(源域)和投诉举报文本数据(目标域)进行预处理;

S3将预处理后的文本输入到Word2vec模型中进行词向量训练,生成词向量;

S4对微博文本词向量和投诉举报文本词向量进行编码,分别设计源域特征编码器、领域共享特征编码器和目标域特征编码器抽取源域私有特征、领域共享特征、目标域私有特征;

S5领域特征融合:使用自注意力方法将源域私有特征和领域共享特征进行特征融合,得到源域特征;使用自注意力方法将目标域私有特征和领域共享特征进行特征融合,得到目标域特征。

S6计算源域特征和目标域特征的MK-MMD距离,对源域特征和目标域特征进行特征变换,完成领域适配。

S7将源域特征和目标域特征通过多层感知机网络得出分类结果。

附图说明

图1为基于深度迁移网络的投诉举报可信度分析方法具体细节示意图。

图2为双向LSTM编码过程示意图。

图3为深度基于深度迁移网络的投诉举报可信度分析方法的流程图。

具体实施方式

本发明提出一种基于深度迁移网络的环境类投诉举报可信度分析方法,方法的主要流程如附图3所示:

结合附图1详细说明本发明的具体实施方式:

步骤S1,获取来自社交媒体抽取微博源文本;从某大型水环境大数据管理平台抽取投诉举报文本数据,并构造数据集:

步骤S2,对微博文本数据(源域)和投诉举报文本数据(目标域)进行预处理:预处理包括数据清洗和分词,不包含去停用词操作,分词后文本

其中o∈{s,t},s表示源域,t表示目标域;

步骤S3,文本向量化:

将预处理分词后的文本输入到Word2vec模型中进行词训练,然后进行向量化,文本

步骤S4,对向量化之后的文本进行编码。所谓编码是指将向量化之后的文本送入神经网络进行特征抽取的过程,设计三个编码器:源域私有特征编码器

步骤S401,对于向量化之后的文本

其中,

其中,W

步骤S402,取最后一个时间步的输出

其中,

步骤S403,三组编码器分别提取出领域共享特征e

步骤S5,领域特征融合:领域共享特征编码器提取出源域和目标领域的共享特征。领域私有特征编码器可以提取出领域私有特征,弥补共享特征提取器无法提取特定领域信息的缺点。为了在获取源域和目标域共享信息的同时,又可以保留较为完整的特定领域信息,需要将特定领域的信息

步骤S501,矩阵W

其中,b∈{c,p},c表示领域共享,p为领域私有;<>为缩放点积;d是为了防止点积之后的数值过大而设置的常数(通常取词向量维度),通常取输入词向量的维度;

步骤S502,对打分进行Softmax归一化操作得到注意力权重

步骤S503,自注意力权重点乘值向量,得到最后的源域特征e

其中,o∈{s,t}s表示源域,t表示目标域,e

步骤S6,领域适配:领域特征融合后的源域特征e

其中,在一个再生希尔伯特空间H中存在一个映射φ(·)把原变量映射到RKHS中,MMD

步骤S7,可信度分类,将源域特征和目标域特征送入MLP网络输出分类结果,同时根据分类损失和领域适配损失更新网络参数。

步骤S701,领域特征融合后的源域特征e

步骤S702,根据分类结果计算损失函数更新网络参数,深度迁移网路一方面学习了源领域和目标领域的数据差异实现领域适配,另一方面学习了标签损失。最终的目标函数(整个网络的损失函数)由代表领域差异的MK-MMD统计量源领域标签损失,因此整个迁移网络的损失函数为(9):

L=L

其中,λ为调节参数;L

其中,y∈{0,1}是可信度标签;θ为需要优化的参数。

本模型的进行可信度分析准确度的指标为标准化AUC:在水环境投诉举报可信度分类任务中,我们应更加注重于避免出现可信投诉举报误判而造成污染时间处理不及时的情况,即在低假阳性率(FPR)的基础上提高真阳性率(TPR)(低可信度文本为正样本,高可信度文本为负样本)。本任务应侧重于考虑当FPR≤ maxfpr时ROC曲线上部分区域的面积(AUC

其中,s

本方法采用来自社交媒体抽取微博源文本(包含133346条文本,其中高可信度文本共66131条,低可信度文本67215条)和从某大型水环境大数据管理平台抽取投诉举报文本数据(共计200K条投诉举报文本数据,其中有可信度标签的有1482条,包括高可信度投诉举报889条,低可信度投诉举报593条)。

如表1所示,实验分别以CNN、Transfomer、GRU-2、RNN、LSTM_Attention 和LSTM为特征抽取器。“Attention”指源域和目标域私有特征均与共享特征融合;“Source_Attention”只融合源域私有特征和领域共享特征;“Target_Attention”指只融合目标域私有特征和领域共享特征;“No_Attention “指不进行特征融合,仅仅使用领域共享特征。基于双向LSTM的深度迁移网络在该任务中具有最好的表现,也证明深度迁移网络架构的优越性和使用微博文本辅助投诉举报可信度分析的可行性。根据是否使用注意力机制进行特征融合进行消融实验。如表1所示的消融结果,在使用深度迁移网络的情况下,每种特征抽取器使用注意力机制进行特征融合之后其性能均优于仅使用领域共享特征的方法,而且源域私有特征和共享特征融合的效果优于目标域私有特征和共享特征融合。

表1投诉举报可信度分类实验结果

综上所述,本方法能够很好的利用微博文本领域的知识辅助投诉举报可信度分析,可以很好的完成投诉举报可信度分析任务。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号