首页> 中国专利> 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法

融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法

摘要

本发明涉及融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,来解决汉泰敏感信息识别中双语敏感词难以对齐的问题。本发明首先,基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典。然后,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征。最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。实验结果表明提出的模型在汉泰跨语言敏感信息识别任务上比通用的跨语言文本分类方法效果更好。

著录项

  • 公开/公告号CN115952794A

    专利类型发明专利

  • 公开/公告日2023-04-11

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202211373435.1

  • 发明设计人 余正涛;朱栩冉;张亚飞;

    申请日2022-11-04

  • 分类号G06F40/284;G06F40/242;G06F40/216;G06N3/0464;G06N3/08;

  • 代理机构昆明隆合知识产权代理事务所(普通合伙);

  • 代理人何娇

  • 地址 650500 云南省昆明市呈贡区景明南路727号

  • 入库时间 2023-06-19 19:27:02

说明书

技术领域

本发明涉及融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,属于自然语言处理领域。

背景技术

跨语言敏感信息识别可以看作是一种特定领域的跨语言文本分类任务。然而,在社交媒体数据中,敏感词表示多样化,敏感词常以生僻词和别称出现,导致通用的跨语言文本分类方法在跨语言敏感信息识别任务上效果较差。

在社交媒体文本数据中,敏感信息识别的核心问题之一是如何识别数据中存在的敏感特征。传统的跨语言分类方法通常基于双语对齐资源方法,例如双语词典(Balamurali等人,2012;Barnes等人,2018)或平行语料库(Zhou等人,2016;Xu等人,2017),但在低资源语言中常常面临着标注数据少,缺乏大规模训练数据集的问题。现在常用的跨语言文本分类方法大多数通过学习不同语言的共享编码表示,包括双语词嵌入(Ziser等人,2018;Chen等人,2018)和多语言预训练语言模型(Dev等人,2018;Conneau等人,2019;Liu等人,2019;Conneau等人,2020)。上述大多研究都是在常用领域的文本分类,例如情感分类等。然而,在跨语言敏感信息识别任务中,汉泰社交媒体敏感数据中敏感词表示多样化,双语敏感词难以识别和对齐。

为了解决社交媒体汉泰敏感数据中敏感词表示多样化,导致双语敏感词难以识别和对齐的问题,提出了一种融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,利用双语敏感词典的敏感词对齐信息构建跨语言异构图,增强跨语言迁移学习能力。首先基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典,然后将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征。最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。

发明内容

本发明提供了融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,以用于解决汉泰跨语言敏感信息识别双语敏感词表示多样化,导致双语敏感词难以识别和对齐的问题,改善了通用方法的不足,提高了汉泰跨语言敏感信息识别的性能。

本发明的技术方案是:融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,所述方法包括基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典;然后,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征;最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。

作为本发明的进一步方案,所述方法的具体步骤如下:

Step1:采用Python语言编写网络爬虫程序收集整理公开网络上多语言文本数据,进行数据清洗,构建汉泰跨语言敏感信息数据集;

Step2:对处理好的数据,统计得到不同敏感类别中的双语敏感词,并将具有相似词义的双语敏感词构成词组,构建汉泰双语敏感词典;

Step3:基于双语敏感词典的敏感词和文档中的关键词作为词节点,文档本身作为文档节点,基于文档的对齐和相似关系、关键词和敏感词的不同词性关系,以及基于汉泰双语敏感词典的双语敏感词对齐关系作为边,构成汉泰跨语言异构图;

Step4:使用多语言预训练模型对所有的节点进行表征,获取文档的全局信息和上下文信息,将所有节点得到的表征传递给图卷积神经网络,最后对不同类型的边构建的不同子图进行图卷积,对不同节点进行特征聚合;将获得的文档节点特征送入敏感信息分类器,最终获得敏感信息预测结果。

作为本发明的进一步方案,所述Step1的具体步骤为:

Step1.1:通过网络爬虫技术,收集整理公开网络上多语言文本数据总计158638条,其中维基百科数据15798条、微博数据46119条、Twitter数据96721条;然后,通过语种识别方法清除非汉泰文本数据,利用emoji数据包和正则表达式去除文本数据中的表情、符号以及超链接等,再通过人工数据筛查和整理,完成数据清洗。最后,对汉泰文本数据依据敏感特征标注敏感类别标签,构建具有类别标签的汉泰跨语言敏感信息识别数据集。

作为本发明的进一步方案,所述Step2的具体步骤为:

Step2.1:基于维基百科和社交媒体敏感数据,借助机器翻译的方法,人工识别数据中所包含的敏感词,统计得到不同敏感类别中的双语敏感词,并将具有相似词义的双语敏感词构成词组,建立汉泰双语敏感词对齐关系,从而构建汉泰双语敏感词典。

作为本发明的进一步方案,所述Step3中包括:

Step3.1:使用汉泰跨语言敏感信息文本数据集的文档和文档共现词以及双语敏感词典的敏感词作为节点构建汉泰跨语言异构图结构,其中文档与文档、文档和词之间、敏感词之间均有不同的关系种类,包含文档与文档之间的翻译和相似关系,文档和词之间的词性关系,敏感词之间的词性关系。

Step3.2:文档和文档的边:为了得到文档中所含的语义信息,并使汉语文档和泰语文档更好的进行跨语言迁移学习,设置了两种类型的文档关系边。首先是基于机器翻译的伪平行语料之间的关系,将汉语文档和泰语文档之间构建了对应的翻译边。其次,将汉泰双语文档,通过多语言预训练模型获得文档的向量表示之后,利用文档向量,计算文档之间的相似度,如文档向量A=(x

对每个文档,取相似度S最高的k个文档,构建文档节点之间的相似边,对k取值为3;

Step3.3:文档和单词的边:文档和单词最明显的是共存关系,单词之间具有不同的词性并存在重要的语法信息,对于敏感信息别任务来说,形容词、名词和动词都可能含有敏感信息。通过使用构建的双语敏感词典协助分词工具,对文档中的单词进行准确的切分,并使用POS-Tagger对单词进行词性标注,添加词性标签,将不同词性的单词通过词性关系与共现文档连接,构建不同类型的边。

Step3.4:单词和单词的边:对于跨语言敏感信息识别来说,敏感词对比其他词对结果的预测影响更深,但社交媒体文本中所含敏感词可以有多种不同的词性,而且通常只有个别敏感词并以生僻词的方式出现。基于构建的双语敏感词表,对文档中切分出来的敏感词,将该敏感词语义相似的双语敏感词作为词节点,并通过词节点之间的边建立图结构,增加文档中的敏感信息权重,以及汉泰跨语言词级对齐和聚合。

作为本发明的进一步方案,所述Step4包括以下步骤:

Step4.1:对汉泰跨语言敏感信息文本数据集F所含的关系构建异构图G

其中σ()是一个激活函数,

其中,j表示图卷积的层数,H

其中,τ表示不同的子图,将不同的子图聚合在一起从而获取整个异构图的表征,并将词节点的信息聚合到文档节点;

Step4.2:随后,将GCN层得到的文档特征h经过激活函数LeakyReLU,进入全连接层得到输出,最终使用归一化指数函数softmax函数对文档节点进行类别预测,得到不同类别对应的预测值,预测值最高的类别就是预测的分类结果,具体如下:

q=Linear(p)

其中,α取值为0.01,W

本发明的有益效果是:

1、构建了汉泰双语敏感词典及汉泰跨语言敏感信息识别数据集,基于汉泰双语敏感词典对输入文本中敏感词进行拓展,在多语言预训练模型做表征时增强输入文本的敏感特征。

2、构建了一种汉泰跨语言异构图,以文档、关键词和敏感词作为节点,以文档的对齐和相似关系、关键词和敏感词的不同词性关系,以及基于汉泰双语敏感词典的双语敏感词对齐关系作为边,增强汉泰输入文本和敏感词的关联性,缓解汉泰语言差异较大,汉泰敏感词难以对齐的问题。

3、提出了一种融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,使用多层图卷积神经网络,基于汉泰跨语言异构图包含的不同关系,进行汉泰跨语言信息聚合,增强汉泰跨语言迁移学习能力,提高了汉泰跨语言敏感信息识别的性能。

附图说明

图1是本发明提出的融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法流程示意图。

具体实施方式

实施例1:如图1所示,融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,以构建的汉泰跨语言敏感信息数据集为例训练模型,所述方法的具体步骤如下:

Step1:采用Python语言编写网络爬虫程序收集整理公开网络上多语言文本数据,进行数据清洗,构建汉泰跨语言敏感信息数据集;

Step2:对处理好的数据,统计得到不同敏感类别中的双语敏感词,并将具有相似词义的双语敏感词构成词组,构建汉泰双语敏感词典;

Step3:基于双语敏感词典的敏感词和文档中的关键词作为词节点,文档本身作为文档节点,基于文档的对齐和相似关系、关键词和敏感词的不同词性关系,以及基于汉泰双语敏感词典的双语敏感词对齐关系作为边,构成汉泰跨语言异构图;

Step4:使用多语言预训练模型对所有的节点进行表征,获取文档的全局信息和上下文信息,将所有节点得到的表征传递给图卷积神经网络,最后对不同类型的边构建的不同子图进行图卷积,对不同节点进行特征聚合;

Step5:将最终获得的文档节点特征送入敏感信息分类器,最终获得敏感信息预测结果。

作为本发明的进一步方案,所述Step1的具体步骤为:

Step1.1:通过网络爬虫技术,收集整理公开网络上多语言文本数据总计158638条,其中维基百科数据15798条、微博数据46119条、Twitter数据96721条。然后,通过语种识别方法清除非汉泰文本数据,利用emoji数据包和正则表达式去除文本数据中的表情、符号以及超链接等,再通过人工数据筛查和整理,完成数据清洗。最后,对汉泰文本数据依据敏感特征标注敏感类别标签,构建具有类别标签的汉泰跨语言敏感信息识别数据集;

作为本发明的进一步方案,所述Step2的具体步骤为:

Step2.1:基于维基百科和社交媒体敏感数据,借助机器翻译的方法,人工识别数据中所包含的敏感词,统计得到不同敏感类别中的双语敏感词,并将具有相似词义的双语敏感词构成词组,建立汉泰双语敏感词对齐关系,从而构建汉泰双语敏感词典。

作为本发明的进一步方案,所述Step3中包括:

Step3.1:使用汉泰跨语言敏感信息文本数据集的文档和文档共现词以及双语敏感词典的敏感词作为节点构建汉泰跨语言异构图结构,其中文档与文档、文档和词之间、敏感词之间均有不同的关系种类,包含文档与文档之间的翻译和相似关系,文档和词之间的词性关系,敏感词之间的词性关系。

Step3.2:文档和文档的边:为了得到文档中所含的语义信息,并使汉语文档和泰语文档更好的进行跨语言迁移学习,设置了两种类型的文档关系边。首先是基于机器翻译的伪平行语料之间的关系,将汉语文档和泰语文档之间构建了对应的翻译边。其次,将汉泰双语文档,通过多语言预训练模型获得文档的向量表示之后,利用文档向量,计算文档之间的相似度,如文档向量A=(x

对每个文档,取相似度S最高的k个文档,构建文档节点之间的相似边,对k取值为3。

Step3.3:文档和单词的边:文档和单词最明显的是共存关系,单词之间具有不同的词性并存在重要的语法信息,对于敏感信息别任务来说,形容词、名词和动词都可能含有敏感信息。通过使用构建的双语敏感词典协助分词工具,对文档中的单词进行准确的切分,并使用POS-Tagger对单词进行词性标注,添加词性标签,将不同词性的单词通过词性关系与共现文档连接,构建不同类型的边。

Step3.4:单词和单词的边:对于跨语言敏感信息识别来说,敏感词对比其他词对结果的预测影响更深,但社交媒体文本中所含敏感词可以有多种不同的词性,而且通常只有个别敏感词并以生僻词的方式出现。基于构建的双语敏感词表,对文档中切分出来的敏感词,将该敏感词语义相似的双语敏感词作为词节点,并通过词节点之间的边建立图结构,增加文档中的敏感信息权重,以及汉泰跨语言词级对齐和聚合。

作为本发明的进一步方案,所述Step4包括以下步骤:

Step4.1:对汉泰跨语言敏感信息文本数据集F所含的关系构建异构图G

其中σ()是一个激活函数,

其中,j表示图卷积的层数,H

其中,τ表示不同的子图,将不同的子图聚合在一起从而获取整个异构图的表征,并将词节点的信息聚合到文档节点;

Step4.2:随后,将GCN层得到的文档特征h经过激活函数LeakyReLU,进入全连接层得到输出,最终使用归一化指数函数softmax函数对文档节点进行类别预测,得到不同类别对应的预测值,预测值最高的类别就是预测的分类结果,具体如下:

q=Linear(p)

其中,α取值为0.01,W

为了说明本发明的效果,设置了3组对比实验,第1组是主实验,使用跨语言敏感信息识别数据集和和baseline模型进行比较;第2组实验,是本发明使用不同多语言预训练模型的效果比较;第3组实验,在不同GCN层数下本发明的效果比较;

(1)主实验结果

首先在通用的跨语言分本分类方法上的几个最先进的跨语言文本分类模型进行比较,所用数据集均为构建的汉泰跨语言敏感信息识别数据集。表1中的结果表明,本发明优于其他最先进的模型,在跨语言敏感信息识别任务下优于baseline——CLHG。实验证明,本发明能够有效识别出社交媒体文本数据中所包含的敏感特征,并进行敏感信息分类。

表1:不同跨语言分本分类方法结果

(2)不同多语言预训练模型实验结果

为了探索不同多语言预训练模型进行表征对模型性能的影响,进行了使用不同多语言预训练模型的对比实验。实验结果如表2所示,在使用不同的多语言预训练模型对节点进行表征时,选择多语言预训练模型XLM-R做表征模型效果最好,而mBert和XLM效果均不理想。

表2:不同多语言预训练对分类结果的影响

表3:卷积层数量对分类结果的影响

(3)GCN卷积层对模型性能的影响

为了探索不同GCN卷积层数对模型性能的影响,进行了GCN层数分别为2、3、4、5的消融实验。实验结果如表3所示,当卷积层数为3时,模型达到最佳效果;当卷积层不足3层时,卷积网络对信息聚合的能力不足,模型性能较低;当卷积层超过3层后,随着层数的增加整体性能有所下降。

总之,为了解决社交媒体汉泰敏感数据中敏感词表示多样化,导致双语敏感词难以识别和对齐的问题,提出了一种融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用双语敏感词典的敏感词对齐信息构建跨语言异构图,增强跨语言迁移学习能力。大量的实验验证了基于双语敏感词典构建的跨语言异构图,可以准确构建双语敏感词之间的对齐关系,使目标语言更有效的学习到源语言的敏感特征,增强跨语言迁移学习能力。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号