首页> 中国专利> 多头自注意力门控空洞卷积神经网络的汉语词义消歧

多头自注意力门控空洞卷积神经网络的汉语词义消歧

摘要

本发明涉及一种多头自注意力门控空洞卷积神经网络的词义消歧方法。本发明对SemEval‑2007:Task#5的训练语料和测试语料进行分词、词性标注、语义类标注、依存句法分析和语义依存分析,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类以及歧义词的句法依存关系和语义依存关系作为消歧特征。利用Word2Vec对从训练语料和测试语料中抽取的消歧特征进行向量化处理,得到训练数据和测试数据。使用训练数据来优化词义消歧模型。利用优化后的词义消歧模型计算测试数据中的歧义词汇在每个语义类别下的权重,具有最大权重的语义类别即为歧义词汇的语义类别。本发明能更准确地判断歧义词汇的真实含义。

著录项

  • 公开/公告号CN114912462A

    专利类型发明专利

  • 公开/公告日2022-08-16

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN202210668506.4

  • 发明设计人 张春祥;张育隆;高雪瑶;

    申请日2022-06-14

  • 分类号G06F40/30(2020.01);G06F40/247(2020.01);G06F40/289(2020.01);G06F40/211(2020.01);G06F16/35(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构

  • 代理人

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号

  • 入库时间 2023-06-19 16:25:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-02

    实质审查的生效 IPC(主分类):G06F40/30 专利申请号:2022106685064 申请日:20220614

    实质审查的生效

说明书

技术领域:

本发明涉及一种多头自注意力门控空洞卷积神经网络的汉语词义消歧方法,该方法在自然语言处理技术领域中有着很好的应用。

背景技术:

在自然语言处理领域中,词汇普遍具有一词多义现象。词义消歧的目的是确定歧义词汇在特定上下文环境中的语义。词义消歧在机器翻译、自动文摘、信息检索和文本分类中有着重要的应用,其性能的好坏与词义消歧紧密相关。

经常使用一些常见的算法对词汇进行消歧,例如:K-means、朴素贝叶斯、基于关联规则的分类方法和人工神经网络等。但是,传统的算法存在着一些缺点和不足。所提取的消歧特征只局限于局部区域,分类器的训练效果不是很好。近年来,深度学习算法已被广泛地应用到自然语言处理领域。卷积神经网络是当前深度学习算法中的主要模型,空洞卷积可以增加感受野,多头自注意力模型是自然语言处理领域中极其高效的模型,能很好地捕捉到全局信息,并形成多个子空间,可以让模型去关注不同方面的全局信息,且能进行并行计算。门控线性单元,不仅有效地降低了梯度弥散,而且还保留了非线性的能力。将处理好的消歧特征输入到初始化的AGDCNN模型之中,以获取更加精确的消歧特征。解决了手动提取消歧特征的问题。在AGDCNN模型中,神经元的权值是共享的。这使得神经元可以共享资源,降低了网络模型的复杂度,捕捉全局信息,防止出现过拟合现象。对于歧义词汇而言,可以很好地应用多头自注意力门控空洞卷积神经网络进行消歧,实现语义的正确分类。

发明内容:

为了解决自然语言处理领域中的词汇歧义问题,本发明公开了一种多头自注意力门控空洞卷积神经网络的汉语词义消歧方法。

为此,本发明提供了如下技术方案:

1.多头自注意力门控空洞卷积神经网络的汉语词义消歧方法,歧义词汇m具有C个语义类别s

步骤1:对SemEval-2007:Task#5的训练语料和测试语料进行分词、词性标注、语义类标注、依存句法分析和语义依存分析,选取歧义词汇m左右四个邻接词汇单元的词形、词性和语义类以及歧义词m的句法依存关系和语义依存关系作为消歧特征。

步骤2:利用Word2Vec工具对从SemEval-2007:Task#5的训练语料中抽取的消歧特征进行向量化处理,得到训练数据,利用Word2Vec工具对从SemEval-2007:Task#5的测试语料中抽取的消歧特征进行向量化处理,得到测试数据。

步骤3:使用训练数据优化AGDCNN模型,得到优化后的AGDCNN模型。

步骤4:测试过程即语义分类过程,在优化后的AGDCNN模型上,输入测试数据,计算歧义词汇m在每个语义类别下的权重,其中,具有最大权重的语义类别即为歧义词汇m的语义类别。

2.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧,其特征在于,所述步骤1中,对SemEval-2007:Task#5的训练语料和测试语料进行分词、词性标注、语义类标注、依存句法分析和语义依存分析,选取歧义词汇m左右四个邻接词汇单元的词形、词性和语义类以及歧义词m的句法依存关系和语义依存关系作为消歧特征,具体步骤为:

步骤1-1利用汉语分词工具对汉语句子进行词汇切分;

步骤1-2利用汉语词性标注工具对词汇进行词性标注;

步骤1-3根据《同义词词林》,利用汉语语义标注工具对词汇进行语义类标注;

步骤1-4使用哈尔滨工业大学语言技术平台LTP对汉语句子进行依存句法分析和语义依存分析;

步骤1-5抽取歧义词汇m左右四个邻接词汇单元的词形、词性和语义类,提取歧义词汇m的句法依存关系和语义依存关系,合并为消歧特征。

3.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧,其特征在于,所述步骤2中,利用Word2Vec工具对从SemEval-2007:Task#5的训练语料中抽取的消歧特征进行向量化处理,得到训练数据,利用Word2Vec工具对从SemEval-2007:Task#5的测试语料中抽取的消歧特征进行向量化处理,得到测试数据,具体步骤为:

步骤2-1利用Word2Vec工具对从SemEval-2007:Task#5的训练语料中抽取的消歧特征进行向量化处理,得到训练数据;

步骤2-2利用Word2Vec工具对从SemEval-2007:Task#5的测试语料中抽取的消歧特征进行向量化处理,得到测试数据。

4.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧,其特征在于,所述步骤3中,使用训练数据优化AGDCNN模型,得到优化后的AGDCNN模型,具体步骤为:

步骤3-1把训练数据的词向量加载到初始化的AGDCNN模型的embedding层作为权重;

步骤3-2经过空洞卷积层,输出特征矩阵a和b;

步骤3-3经过门控线性单元层输出GLU(a,b),所述的门控线性单元层计算过程如下:

其中

步骤3-4经过归一化层,对GLU(a,b)进行归一化得到X;

步骤3-5经过多头自注意力层,形成多个子空间,所述的多头自注意力计算过程如下:

MultiHead(Q,K,V)=Concat(head

Q=X·W

其中W

步骤3-6经过自适应全局平均池化层,输出歧义词汇m在语义类别s

步骤3-7使用交叉熵损失函数计算实际输出与期望输出的误差loss,如下:

loss表示训练数据的平均误差,n是训练数据的个数,y

其中,θ表示参数集,θ'表示更新后的参数集,a为学习率;

步骤3-8不断迭代步骤3-1至步骤3-7,直到达到设定的迭代次数为止,得到优化后的AGDCNN模型。

5.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧,其特征在于,在所述步骤4中,测试过程即语义分类过程,在优化后的AGDCNN模型上,输入测试数据,计算歧义词汇m在每个语义类别下的权重,其中,具有最大权重的语义类别即为歧义词汇的语义类别,具体过程为:

步骤4-1把测试数据的词向量加载到优化后的AGDCNN模型的embedding层作为权重;

步骤4-2经过空洞卷积层,输出特征矩阵a和b;

步骤4-3经过门控线性单元层输出GLU(a,b),所述的门控线性单元层计算过程如下:

其中

步骤4-4经过归一化层,对GLU(a,b)进行归一化得到X;

步骤4-5经过多头自注意力层,形成多个子空间,所述的多头自注意力计算过程如下:

MultiHead(Q,K,V)=Concat(head

Q=X·W

其中W

步骤4-6经过自适应全局平均池化层,输出歧义词汇m在语义类别s

步骤4-7输出最大权重的语义类别,所述的过程如下:

其中s为歧义词汇m的语义类别。

有益效果:

1.本发明是一种多头自注意力门控空洞卷积神经网络的汉语词义消歧方法。对汉语句子进行了词汇切分、词性标注、语义类标注以及依存句法分析和语义依存分析。以哈尔滨工业大学人工语义标注语料和哈尔滨工业大学LTP为基础,使用Word2vec统计消歧特征的出现频度并预训练词向量权重,所提取的消歧特征具有较高的质量。

2.本发明所使用的模型为多头自注意力门控空洞卷积神经网络,最大的特点是扩大感受野,能很好的捕捉到全局信息,并形成多个子空间,可以让模型去关注不同方面的全局信息,且能进行并行计算,有效地降低了梯度弥散,而且还保留了非线性的能力,能够很好地处理高维数据,无需手动选取数据特征。只要训练好AGDCNN模型,就可以获得较好的分类效果。经过卷积,门控线性单元,归一化,多头自注意力计算,自适应平均池化,能够提取更完整的消歧特征,减少数据和参数量,防止出现过拟合。

3.本发明使用的交叉熵损失函数,内部包含了softmax分类器,不仅能解决多分类的数据处理,还内置NLLLoss,一并计算误差loss。

4.在训练模型时,采用adam梯度下降法进行参数更新。通过计算误差,误差通过反向传播沿原路线返回,即从输出层反向经过各中间隐藏层,逐层更新每一层参数,最终回到输出层。不断地进行前向传播和反向传播,以减小误差,更新模型参数,直到AGDCNN训练好为止。随着误差反向传播不断地对参数进行更新,整个AGDCNN模型对输入数据的消歧准确率也有所提高。

附图说明:

图1为本发明实施方式中的汉语句子词义消歧流程图。

图2为本发明实施方式中的基于AGDCNN的词义消歧模型的训练过程。

图3为本发明实施方式中的基于AGDCNN的词义消歧模型的测试过程。

图4为本发明实施方式中的汉语句子的依存句法分析和语义依存分析结果。

具体实施方式:

为了使本发明的实施例中的技术方案能够清楚和完整地描述,以包含歧义词汇“中医”的SemEval-2007:Task#5的训练语料、SemEval-2007:Task#5的测试语料中的汉语句子“走了不远,就遇到“老中医”的孙女,说“爷爷”知道你们的情况,都有灾。”为例,结合实施例中的附图,对本发明进行进一步的详细说明。训练语料共有48个句子,歧义词汇“中医”有两个语义类,0:practitioner_of_Chinese_medicine,1:traditional_Chinese_medical_science。

本发明实施例多头自注意力门控空洞卷积神经网络的汉语词义消歧的流程图,如图1所示,包括以下步骤。本发明实施例基于AGDCNN的词义消歧模型的训练过程如图2所示。本发明实施例基于AGDCNN的词义消歧模型的测试过程如图3所示。

步骤1消歧特征的提取过程如下:

针对汉语句子“走了不远,就遇到“老中医”的孙女,说“爷爷”知道你们的情况,都有灾。”,其特征提取步骤如下所示:

步骤1-1利用汉语分词工具对汉语句子进行词汇切分,分词结果为:

走了不远就遇到老中医的孙女说爷爷知道你们的情况都有灾

步骤1-2利用汉语词性标注工具对词汇进行词性标注,词性标注结果为:

走/v了/u不/d远/a就/d遇到/v老/a中医/n5的/u孙女/n说/v爷爷/n知道/v你们/r的/u情况/n都/d有/v灾/n

步骤1-3根据《同义词词林》,利用汉语语义标注工具对词汇进行语义类标注:

走/v/Hi01了/u/Ig01不/d/Ie01远/a/Ed32就/d/Kb04遇到/v/Id18老/a/Ab02中医/n/Ae15的/u/Bo29孙女/n/Ah17说/v/Hi34爷爷/n/Ah02知道/v/Gb08你们/r/Aa03的/u/Bo29情况/n/Da21都/d/Cb25有/v/Jd07灾/n/Da09

步骤1-4利用哈尔滨工业大学LTP工具对包含“中医”的句子进行依存句法分析和语义依存分析,抽取“中医”的句法依存关系和语义依存关系:

依存句法分析和语义依存分析的结果如图4所示。

步骤1-5抽取“中医”左右四个邻接词汇单元的词形、词性和语义类,提取“中医”的句法依存关系和语义依存关系,合并为消歧特征:

遇到v Id18老a Ab02的u Bo29孙女n Ah17 WP ATT RAD mPUNC FEAT mDEPD

步骤2获取“中医”的训练数据和测试数据:

步骤2-1利用Word2Vec的CBOW模型对从包含歧义词汇“中医”的SemEval-2007:Task#5的训练语料中抽取的消歧特征进行向量化处理,得到训练数据;

步骤2-2利用Word2Vec的CBOW模型对从包含歧义词汇“中医”的SemEval-2007:Task#5的测试句子中抽取的消歧特征进行向量化处理,得到测试数据,如下所示:

遇到v Id18老a Ab02的u Bo29孙女n Ah17 WP ATT RAD mPUNC FEAT mDEPD

步骤3使用训练数据来优化AGDCNN模型:

步骤3-1把训练数据的词向量加载到初始化的AGDCNN模型的embedding层当作权重;

步骤3-2经过空洞卷积层,输出特征矩阵a和b;

步骤3-3经过门控线性单元层输出GLU(a,b),所述的门控线性单元层计算过程如下:

其中

步骤3-4经过归一化层,对GLU(a,b)进行归一化得到X;

步骤3-5经过多头自注意力层,形成多个子空间,所述的多头自注意力计算过程如下:

MultiHead(Q,K,V)=Concat(head

Q=X·W

其中W

步骤3-6经过自适应全局平均池化层,输出歧义词汇“中医”在语义类别s

步骤3-7利用交叉熵损失函数计算实际输出与期望输出之间的误差loss

根据误差loss反向传播,逐层更新参数,参数更新过程如下:

其中,θ

步骤3-8不断迭代步骤3-1至步骤3-7,直到达到设定的迭代次数为止,得到优化后的AGDCNN模型。

步骤4对歧义词汇“中医”进行语义分类:

步骤4-1把测试数据的词向量加载到优化后的AGDCNN模型的embedding层作为权重;

步骤4-2经过空洞卷积层,输出特征矩阵a和b;

步骤4-3经过门控线性单元层输出GLU(a,b),所述的门控线性单元层计算过程如下:

其中

步骤4-4经过归一化层,对GLU(a,b)进行归一化得到X;

步骤4-5经过多头自注意力层,形成多个子空间,所述的多头自注意力计算过程如下:

MultiHead(Q,K,V)=Concat(head

Q=X·W

其中W

步骤4-6经过自适应全局平均池化层,输出歧义词汇“中医”在语义类别0:s

步骤4-7输出最大权重的语义类别,如下:

s=practitioner_of_Chinese_medicine表示歧义词汇“中医”所对应的语义类别。

通过优化后的AGDCNN模型,对包含歧义词汇“中医”的汉语句子“走了不远,就遇到“老中医”的孙女,说“爷爷”知道你们的情况,都有灾。”进行词义消歧,歧义词汇“中医”所对应的语义类别为practitioner_of_Chinese_medicine。

本发明实施方式中的多头自注意力门控空洞卷积神经网络的汉语词义消歧,能够选择精确的消歧特征,并采用多头自注意力门控空洞卷积神经网络来确定歧义词汇的语义类别。

以上所述是结合附图对本发明的实施例进行的详细介绍,本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,故本发明书不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号