首页> 中国专利> 基于弱监督深度学习的不平衡短评语义识别方法

基于弱监督深度学习的不平衡短评语义识别方法

摘要

本公开提供了一种基于弱监督深度学习的不平衡短评语义识别方法,涉及文本识别技术领域;上述基于弱监督深度学习的不平衡短评语义识别方法,包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。如此,基于评审文本能够得到干净的预测标签,并基于种子单词集能够得到嘈杂的伪标签,之后,基于伪标签进行弱监督学习,以得到目标标签;这样能够调节样本不平衡,从而提高模型的准确性。

著录项

  • 公开/公告号CN116719906A

    专利类型发明专利

  • 公开/公告日2023-09-08

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202310725864.9

  • 发明设计人

    申请日2023-06-19

  • 分类号G06F16/33;G06F40/216;G06F40/284;G06F40/30;G06N3/045;G06N3/0895;G06F16/35;G06F18/23213;G06F18/24;

  • 代理机构重庆三航专利代理事务所(特殊普通合伙);

  • 代理人万文会

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2024-04-18 19:56:50

说明书

技术领域

本公开涉及文本识别技术领域,尤其涉及一种基于弱监督深度学习的不平衡短评语义识别方法。

背景技术

随着研究生教育规模不断发展、教育质量不断提升,学术论文在检验学生学术水平与科研能力等方面的作用愈发重要,其中专家对学术论文的评审内容很大程度影响毕业生能否获得硕博学位的决定,因此利用文本分类技术对教育评审文本挖掘具有重要意义与实际应用价值。

然而,在学术论文的评审内容与评价等级之间的关系挖掘方面,由于内在数据空间和外在因素(例如,时间和存储)的限制,使得在学术论文的评审内容与评价等级之间的关系挖掘方面存在样本不平衡的问题,从而导致目前的深度学习模型在基于专家给出的评审内容对学术论文进行评分时,输出的评分的准确性也较差。

发明内容

为了解决上述技术问题,本申请提供了一种基于弱监督深度学习的不平衡短评语义识别方法,能够基于评审文本得到干净的预测标签,并基于种子单词集得到嘈杂的伪标签,之后基于成本敏感矩阵、预测标签和伪标签,调节样本不平衡,从而提高模型的准确性。

本申请的技术方案如下:

本申请提供一种基于弱监督深度学习的不平衡短评语义识别方法,包括:

获取评审文本;

基于预设语料库和所述评审文本,得到预测标签;

基于所述评审文本和种子单词集,得到伪标签;

基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。

在一些实施例中,所述基于预设语料库和所述评审文本,得到预测标签,包括:

对预设语料库中的多个单次分别进行向量化处理,得到多个向量后的单词;

基于多个向量后的单词进行特征提取处理,得到多个评审数据特征;

基于各所述评审数据特征和评审文本,得到预测标签。

在一些实施例中,所述基于各所述评审数据特征和评审文本,得到预测标签,包括:

根据HAN模型和各所述评审数据特征,确定目标评审数据特征;

基于所述目标评审数据特征和所述评审文本,得到所述预测标签。

在一些实施例中,所述基于所述评审文本和种子单词集,得到伪标签,包括:

根据所述种子单词集中的多个种子单词,确定各所述种子单词在所述评审文本中的出现频率;

根据各所述种子单词在所述评审文本中的出现频率,得到所述伪标签。

在一些实施例中,所述基于成本敏感矩阵和所述预测标签,确定目标标签,包括:

拼接所述伪标签和所述预测标签,得到初始标签;

基于所述成本敏感矩阵以及所述初始标签,确定所述目标标签。

在一些实施例中,所述第一矩阵,包括:

其中,

在一些实施例中,所述第二矩阵,包括:

其中,

在一些实施例中,所述方法还包括:

基于种子单词集排序规则和所述评审文本,得到新的种子单词;

基于所述新的种子单词,迭代更新所述种子单词集。

在一些实施例中,所述种子单词集排序规则,包括:

其中,

本申请还提供一种基于弱监督深度学习的不平衡短评语义识别装置,包括:

获取模块,用于获取评审文本;

处理模块,用于基于预设语料库和评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签。

本申请实施例提供了一种基于弱监督深度学习的不平衡短评语义识别方法,上述基于弱监督深度学习的不平衡短评语义识别方法,包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。如此,基于评审文本能够得到干净的预测标签,并基于种子单词集能够得到嘈杂的伪标签;之后,基于伪标签进行弱监督学习,以得到目标标签;这样能够调节样本不平衡,从而提高模型的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;

图2为本申请实施例提供的又一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;

图3为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;

图4为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;

图5为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;

图6为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;

图7为本申请实施例提供的一种基于弱监督深度学习的不平衡短评语义识别装置的结构示意图。

实施方式

为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

本申请中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中术语“ 和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中字符“ /”,一般表示前后关联对象是一种“ 或”的关系。

学位论文评审过程中产生的评审文档,通常围绕论文选题、创新、学术能力、书写规范等方面,生成全方位评审文本。论文评审文本语义识别隶属于自然语言处理(NLP)中的文本分类问题,基于该技术不仅可以得到学位申请人的科研能力与学术水平得分,而且对提取评审文本与论文评审结果关联关系具有导向作用。现有文本分类工作主要分为:基于传统的方法以及基于深度学习的方法。然而,基于传统文本分类方法的有效性在很大程度上受到特征提取的限制,而深度学习方法中,能够利用深度学习方法与注意力机制模型,挖掘论文评审文本的关键信息,从而挖掘评审文本与论文等级之间的关联关系。

但是生成论文评审内容时,受到专家情感干涉与打分习惯影响,评审数据集中会引入噪声标签数据,导致论文评审语义识别深度模型性能下降。为了解决上述问题,可以通过利用弱监督技术在文本分类中获得接近监督的准确性。但是在利用深度学习方法与注意力机制模型,挖掘论文评审文本的关键信息,从而挖掘评审文本与论文等级之间的关联关系的过程中,还存在由内在数据空间和外在因素(例如时间和存储)引起的样本不平衡问题。

目前,处理样本不平衡的方法有:1、数据级方法,采用欠采样来减少多数类的样本或过采样来为少数类生成更多样本;2、算法级方法,通过加权、集成或设计模型或训练误差来纠正训练偏差的水平方法;3、结合两个水平模型的混合水平方法。但是,这些方法通常会遇到原始样本分布混乱或样本不足的问题,从而导致无法调节样本不平衡。

针对上述问题,本申请实施例提供一种基于弱监督深度学习的不平衡短评语义识别方法,基于弱监督深度学习的不平衡短评语义识别方法包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于第一矩阵、第二矩阵、所述伪标签和所述预测标签,确定目标标签。其中,基于评审文本能够得到干净的预测标签,并基于种子单词集能够得到嘈杂的伪标签,之后,基于伪标签进行弱监督学习,以得到目标标签;这样能够调节样本不平衡,从而提高模型的准确性,且不会受到样本分布情况以及样本数量的影响。

下面对本申请实施例提供的基于弱监督深度学习的不平衡短评语义识别方法进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

参照图1,本申请实施例提供一种基于弱监督深度学习的不平衡短评语义识别方法,包括S101- S104。

S101、获取评审文本。

评审文本识别模型获取评审文本。

在一些实施例中,评审文本识别模型获取评审文本的数量为至少一个。

示例性地,在评审文本识别模型处于训练阶段时,评审文本的数量可以多个;在评审文本识别模型处于应用阶段时,评审文本的数量可以是一个。本申请实施例对此不作限定。以下实施例中,将以评审文本识别模型处于训练阶段,评审文本的数量为多个进行示例性说明。

S102、基于预设语料库和评审文本,得到预测标签。

评审文本识别模型基于预设语料库和评审文本,得到预测标签。

在一些实施例中,参照图2,S102包括S1021- S1023。

S1021、对预设语料库中的多个单次分别进行向量化处理,得到多个向量后的单词。

评审文本识别模型对预设语料库中的多个单次分别进行向量化处理,得到多个向量后的单词。

示例性地,评审文本识别模型通过word2vec方法对预设语料库中的多个单次分别进行向量化处理。

S1022、基于多个向量后的单词进行特征提取处理,得到多个评审数据特征。

评审文本识别模型基于多个向量后的单词进行特征提取处理,得到多个评审数据特征。

在一些实施例中,评审文本识别模型通过自监督学习(Bidirectional EncoderRepresentations from Transformers,BERT)模块,基于每个向量后的单词进行特征提取处理,得到多个评审数据特征。其中,BERT模块能够识别每个向量后的单词的左右两侧的文本,并根据每个向量后的单词的左右两侧的文本,确定每个向量后的单词的语义信息,从而得到评审数据特征。

示例性地,参照图3,评审文本识别模型对于预设语料库中的多个单词分别进行向量化处理,以得到多个向量后的单词

可以理解的是,通过BERT模块能够去除每个向量后的单词的歧义,提高评审数据特征的准确性。

S1023、基于各评审数据特征和评审文本,得到预测标签。

评审文本识别模型基于各评审数据特征和评审文本,得到预测标签。

示例性地,参照图3,通过HAN(Heterogeneous Graph Attention Network,分层注意力网络)模型,根据多个评审数据特征

在一些实施例中,参照图4,S1023包括S10231- S10232。

S10231、根据HAN模型和各评审数据特征,确定目标评审数据特征。

示例性地,HAN模型通过使用注意力确定各评审数据特征的双层语义,基于双层语义,确定目标评审数据特征。如此,能够去除语义不符合要求的评审数据特征,提高目标评审数据特征的准确性。

S10232、基于目标评审数据特征和评审文本,得到预测标签。

评审文本识别模型基于S10231得到的目标评审数据特征和评审文本,得到预测标签(如,优秀、良好、一般、较差、很差)。

示例性地,HAN模型根据目标评审数据特征,对评审文本进行预测,得到预测标签。其中,HAN模型可以由编码器网络和注意力网络组成。

需要说明的是,HAN模型可以用作分类器,基于HAN模型获取预测标签时,HAN模型能够考虑到文本数据(评审文本)的多层次注意力结构,即文档-句子-单词。例如,HAN 模型使用双向门循环单元(Gate Recurrent Unit ,GRU)获得词嵌入的词编码器、通过单层感知机(Multilayer Perceptron,MLP)和 softmax函数在评审文本中寻找信息词的词级注意层、使用双向 GRU 来总结相邻的句子,而后连接一个句子级注意力层,它使用词级注意力中的相似结构来在评审文本中寻找信息性句子。如此,使用 HAN模型,能够实现文本消歧,且能够对评审文本的文本表示进行层次情境化,提高得到的预测标签的准确性。

S103、基于评审文本和种子单词集,得到伪标签。

评审文本识别模型基于评审文本和种子单词集,得到伪标签。

示例性地,参照图3,获取评审文本中出现的每个类(class)的种子词(seedWords)的数量,通过公式(1-1)确定评审文本属于类k的概率,以生成概率向量:

(1-1)

其中,

通过公式(1-1),可以确定伪概率向量

在一些实施例中,S103包括S1031- S1032。

S1031、根据种子单词集中的多个种子单词,确定各种子单词在评审文本中的出现频率。

评审文本识别模型从评审文本中,确定种子单词集中各种子单词在评审文本中的数量,从而确定各种子单词在评审文本中的出现频率。

S1032、根据各种子单词在评审文本中的出现频率,得到伪标签。

评审文本识别模型各种子单词在评审文本中的出现频率以及公式(1-1),确定伪标签。

S104、基于成本敏感矩阵、伪标签和预测标签,确定目标标签。

在一些实施例中,评审文本识别模型基于第一矩阵、第二矩阵、伪标签和预测标签,确定目标标签。

在一些实施例中,参照图5,S104包括S1041- S1042。

S1041、拼接伪标签和预测标签,得到初始标签。

示例性地,参照图3,将S102得到的预设标签

S1042、基于成本敏感矩阵以及初始标签,确定目标标签。其中,成本敏感矩阵基于第一矩阵、第二矩阵确定。

示例性地,参照图3,先基于第一矩阵

在一些实施例中,第一矩阵

(1-2)

其中,

在一些实施例中,第二矩阵,包括公式(1-3):

(1-3)

其中,

示例性地,参照图3,在评审文本识别模型的训练过程中,可以使用交叉熵损失(cross entropy Loss ,CE Loss)

(1-4)

其中,

在一些实施例中,参照图6,本申请提供的评审文本分类方法,还包括:

S105、基于种子单词集排序规则和评审文本,得到新的种子单词。

在一些实施例中,评审文本识别模型基于种子单词集排序规则和评审文本,得到新的种子单词。

在一些实施例中,种子单词集排序规则,包括公式(1-5):

(1-5)

其中,

S106、基于新的种子单词,迭代更新种子单词集。

在一些实施例中,评审文本识别模型基于新的种子单词,迭代更新种子单词集。之后,根据更新后的种子单词集,执行S102。

需要说明的是,以迭代的方式更新种子单词集,能够提高评审文本识别模型执行S103生成的伪标签的可靠性,从而进一步提高评审文本识别的准确性。

在一些实施例中,本申请实施例中评审文本识别模型可以基于以下算法执行S101-S106。以评审文本识别模型

算法1:

Input: Text set

Seed words

Output: Text classification net

Obtaining contextualization corpus

Achieving word vectors

Computing sample-distribution matrix

for

Achieving the pseudo-label vector

Feeding

Concatenating

Calculating distance-based cost matrix

Obtaining cost-sensitive matrix by

Achieving the output

Calculating the CE loss by Eq.(2-5);

Updating network

Updating seed words by Eq.(2-10);

end for

参照图7,本申请实施例提供一种基于弱监督深度学习的不平衡短评语义识别装置,包括:

获取模块71,用于获取评审文本,

处理模块72,用于基于预设语料库和评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签。

在一些实施例中,处理模块72,还用于对预设语料库中的多个单次分别进行向量化处理,得到多个向量后的单词;

还用于基于多个向量后的单词进行特征提取处理,得到多个评审数据特征;

还用于基于各所述评审数据特征和评审文本,得到预测标签;

在一些实施例中,处理模块72,还用于根据HAN模型和各所述评审数据特征,确定目标评审数据特征;

还用于基于所述目标评审数据特征和所述评审文本,得到所述预测标签。

在一些实施例中,处理模块72,还用于根据所述种子单词集中的多个种子单词,确定各所述种子单词在所述评审文本中的出现频率;

还用于根据各所述种子单词在所述评审文本中的出现频率,得到所述伪标签。

在一些实施例中,处理模块72,还用于拼接所述伪标签和所述预测标签,得到初始标签;

还用于基于所述成本敏感矩阵以及所述初始标签,确定所述目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。

在一些实施例中,处理模块72,还用于基于种子单词集排序规则和所述评审文本,得到新的种子单词;

还用于基于所述新的种子单词,迭代更新所述种子单词集。

本申请实施例提供的基于弱监督深度学习的不平衡短评语义识别装置实现的技术效果,与执行上述实施例提供的基于弱监督深度学习的不平衡短评语义识别方法实现的技术效果相同,此处不再赘述。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号