首页> 中国专利> 一种半监督的中英文隐式篇章关系识别方法与系统

一种半监督的中英文隐式篇章关系识别方法与系统

摘要

本发明提出一种半监督的中英文隐式篇章关系识别方法与系统,该方法包括如下步骤:步骤一、数据集准备;步骤二、模型构建:在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;步骤三、无监督的模型训练;步骤四、有监督的模型训练;步骤五、预测结果输出。本发明提出的半监督的中英文隐式篇章关系识别方法,基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型,可充分有效地利用两种语言中未标注的和标注的数据集,以同时提高中英文隐式篇章关系识别的性能。

著录项

  • 公开/公告号CN113255371A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 华东交通大学;

    申请/专利号CN202110796271.2

  • 发明设计人 邬昌兴;胡明昆;俞亮;

    申请日2021-07-14

  • 分类号G06F40/30(20200101);G06F40/42(20200101);G06N3/04(20060101);

  • 代理机构11429 北京中济纬天专利代理有限公司;

  • 代理人黄攀

  • 地址 330000 江西省南昌市经济技术开发区双港东大街808号

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明涉及计算机语言处理技术领域,特别涉及一种半监督的中英文隐式篇章关系识别方法与系统。

背景技术

隐式篇章关系识别旨在自动推断缺少篇章连接词的两个论元(句子或子句)之间的语义关系,例如,转折和因果。在不同的语言中,通常都有少量人工标注的篇章关系数据集,例如,中文CDTB数据集和英文PDTB数据集。由于人工标注篇章关系数据集非常困难,导致不管是CDTB数据集还是PDTB数据集的规模都比较小。其中,CDTB数据集中标注的隐式篇章关系实例有5500个左右,而目前规模最大的PDTB数据集中也仅包含16000个左右的实例。这些人工标注的语料虽然数量不多,但质量非常高。因此,如何充分有效地利用不同语言中标注的篇章关系数据集是一个非常值得研究的问题,能有效地缓解训练数据短缺的问题,从而提升隐式篇章关系识别模型的性能。

中文和英文中都具有少量标注的篇章关系数据集,虽然他们各自定义的篇章关系类别有一定的差异,不存在一一对应关系,但两种不同语言的数据集显然是可以相互增强的。如图1所示,对于本发明提出的中文和英文隐式篇章关系实例示意图,其中,中文篇章实例中的“转折关系”和英文篇章实例中的“Contrast”关系是相互对应的。因此,隐式篇章关系识别模型应该具备从这些不同语言中具有相同语义关系的实例中学习知识的能力。

然而,现有技术中,缺少同时利用中英两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集进行隐式篇章关系识别的方法,在一定程度上限制了中英文隐式篇章关系的识别性能的提高。

发明内容

鉴于上述状况,有必要解决现有技术中,缺少同时利用中英两种语言中人工标注的篇章关系数据集进行隐式篇章关系识别的方法,在一定程度上限制了中英文隐式篇章关系的识别性能的提高的问题。

本发明实施例提出一种半监督的中英文隐式篇章关系识别方法,其中,所述方法包括如下步骤:

步骤一、数据集准备:

给定人工标注的中文篇章关系数据集

步骤二、模型构建:

在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;

步骤三、无监督的模型训练:

基于未标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;

步骤四、有监督的模型训练:

基于人工标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练;

步骤五、预测结果输出:

基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。

本发明提出一种半监督的中英文隐式篇章关系识别方法,具有如下优点:(1)基于大量未标注的中英文篇章关系数据集学习跨语言的元篇章关系知识,可解决跨语言数据集共享的问题。该过程还可看作是模型预训练的过程,有利于缓解标注数据集不足的问题;(2)采用的中英两种语言中未标注的和人工标注的数据集都需要翻译成相应的译文数据集(即中文数据集需翻译成英文,英文数据集需翻译成中文),由于译文数据集也参与上述两个训练过程,因此可认为是某种意义上的数据增强;(3)基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型,可充分有效地利用两种语言中标注的数据集,同时提高中英文隐式篇章关系识别的性能。

所述半监督的中英文隐式篇章关系识别方法,其中,所述基于注意力机制的隐式篇章关系识别模型包括编码层、基于注意力机制的特征层以及分类层;

其中,所述编码层用于学习论元中的词在上下文中的表示,具体表示为:

其中,

所述半监督的中英文隐式篇章关系识别方法,其中,所述基于注意力机制的特征层用于建模论元1与论元2之间的交互,具体表示为:

其中,

所述分类层用于输出模型预测的结果,具体表示为:

其中,

所述半监督的中英文隐式篇章关系识别方法,其中,对所述中文隐式篇章关系识别模型进行无监督训练的步骤中,对应的基于知识迁移的代价函数表示为:

其中,

所述半监督的中英文隐式篇章关系识别方法,其中,对所述英文隐式篇章关系识别模型进行无监督训练的步骤中,对应的基于知识迁移的代价函数表示为:

其中,

所述半监督的中英文隐式篇章关系识别方法,其中,对所述中文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的中文模型的步骤中,对应的第一总体代价函数表示为:

其中,

其中,

其中,

所述半监督的中英文隐式篇章关系识别方法,其中,对所述英文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的英文模型的步骤中,对应的第二总体代价函数表示为:

其中,

其中,

其中,

本发明还提出一种半监督的中英文隐式篇章关系识别系统,其中,所述系统包括依次连接的数据集预处理模块、模型构建模块、第一训练模块、第二训练模块以及结果输出模块:

所述数据集预处理模块用于:

给定人工标注的中文篇章关系数据集

所述模型构建模块用于:

在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;

所述第一训练模块用于:

基于未标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;

所述第二训练模块用于:

基于人工标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练;

所述结果输出模块用于:

基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。

附图说明

图1为本发明的中文和英文隐式篇章关系实例示意图;

图2为本发明提出的半监督的中英文隐式篇章关系识别方法的原理图;

图3为本发明提出的半监督的中英文隐式篇章关系识别方法的流程图;

图4为本发明中基于注意力机制隐式篇章关系识别模型的结构示意图;

图5为本发明提出的半监督的中英文隐式篇章关系识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

为了解决这一技术问题,请参阅图1至图4,其中,图1为本发明的中文和英文隐式篇章关系实例示意图,图2为本发明提出的半监督的中英文隐式篇章关系识别方法的原理图,图4为本发明中基于注意力机制隐式篇章关系识别模型的结构示意图,本发明提出一种半监督的中英文隐式篇章关系识别方法,其中,所述方法包括如下步骤:

S101,数据集准备:

给定人工标注的中文篇章关系数据集

S102,模型构建:

在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型。

如图2所示,基于注意力机制的隐式篇章关系识别模型包括编码层(包括编码层1以及编码层2)、基于注意力机制的特征层以及分类层。

其中,编码层用于学习论元中的词在上下文中的表示,采用双向长短时记忆网络(

其中,

基于注意力机制的特征层用于建模论元1与论元2之间的交互,即学习篇章语义关系的特征表示,具体表示为:

其中,

分类层(MLP层)由多个全连接的非线性神经网络层和一个

其中,

在本发明中,构建中文隐式篇章关系识别模型,仅需简单扩展上述隐式篇章关系识别模型。具体地,在基于注意力机制的特征层上叠加两个分类层(

同理,构建英文隐式篇章关系识别模型,同样仅需简单扩展上述隐式篇章关系识别模型。具体地,在基于注意力机制的特征层上叠加两个分类层(

S103,无监督的模型训练:

基于未标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移。

对所述中文隐式篇章关系识别模型进行无监督训练的过程中,对

其中,

类似地,在英文隐式篇章关系识别模型进行无监督训练的过程中,对

其中,

总体而言,无监督训练使两个不同语言的模型学到的知识趋于一致,这些知识可认为是跨语言的篇章关系知识,在本发明中具体体现为中英文中通用的元篇章关系类别。

S104,有监督的模型训练:

基于人工标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练。

在有监督的训练阶段,基于少量人工标注的两种语言的篇章关系训练集,联合训练中文和英文隐式篇章关系识别模型,通过知识的双向迁移,以达到共同提高的目的。

在中文隐式篇章关系识别模型的有监督训练过程中,一方面在人工标注的中文篇章数据集

其中,

另一方面,为了学习英文隐式篇章关系识别模型中的知识,基于中文篇章数据集

其中,

在进行训练时,通过最小化基于知识迁移的代价函数,可以迫使中文和英文模型的元篇章关系预测结果趋于一致,从而达到知识迁移的目的。也即,中文隐式篇章关系识别模型吸收了来自英文隐式篇章关系识别模型中的知识。

最后,有监督训练中文隐式篇章关系识别模型的总体代价函数定义为上述交叉熵分类代价函数和基于知识迁移的代价函数的线性求和,如下所示:

其中,

在英文隐式篇章关系识别模型有监督的训练过程中,一方面在数据集

其中,

另一方面,为了学习中文隐式篇章关系识别模型中的知识,定义基于知识迁移的代价函数,如下所示:

其中,

通过最小化上述基于知识迁移的代价函数,可以迫使英文和中文模型的元篇章关系预测结果趋于相同,从而达到知识迁移的目的。也即,英文隐式篇章关系识别模型吸收了来自中文隐式篇章关系识别模型中的知识。

最后,有监督训练英文隐式篇章关系模型的总体代价函数定义为上述交叉熵分类代价函数和基于知识迁移的代价函数的线性求和,如下所示:

其中,

如下所述,算法1描述了半监督的中英文隐式篇章关系识别方法的训练过程。整个训练过程是一个两阶段的训练过程:第一阶段,基于未标注的中英文隐式篇章关系数据无监督训练两个模型的过程(步骤2~9);第二阶段,基于标注的中英文隐式篇章关系数据有监督训练两个模型的过程(步骤10~17)。为了简洁,算法1中省略了基于验证数据集判断模型是否收敛的过程。最终训练得到的中文模型和英文模型即为需要的隐式篇章关系识别模型。

算法1:训练算法

输入:标注数据集

输出:训练好的中文模型与英文模型

1.构造中文模型和英文模型,并分别随机初始化对应模型参数

2.重复以下步骤:

/* 无监督训练中文隐式篇章关系识别模型 */

3.取一批无标注的中文实例

4.计算元篇章关系预测结果

5.最小化中文模型无监督代价函数

/* 无监督训练英文隐式篇章关系识别模型 */

6.取一批无标注的英文实例

7.计算元篇章关系预测结果

8.最小化英文模型无监督代价函数

9.直到:达到最大训练轮数

10.重复以下步骤:

/* 有监督训练中文隐式篇章关系识别模型 */

11.取一批中文实例

12.计算中文篇章关系预测结果

13.最小化中文模型有监督代价函数

/* 有监督训练英文隐式篇章关系识别模型 */

14.取一批英文实例

15. 计算英文篇章关系预测结果

16. 最小化中文模型有监督代价函数

17.直到:模型收敛或达到最大训练轮数

一方面,在中文隐式篇章关系识别模型的训练过程中,给定中文篇章关系数据集

类似地,对于给定

从中文隐式篇章关系识别的角度看,数据集

另一方面,在英文隐式篇章关系识别模型的训练过程中,给定英文篇章关系数据集

类似地,对于给定

对于给定未标注的英文篇章数据集

从英文隐式篇章关系识别的角度看,数据集

S105,预测结果输出:

基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。

在本步骤中,在模型训练好之后,即用于预测实际中的篇章关系实例的类别。即根据训练好的中文隐式篇章关系识别模型输出中文隐式篇章关系预测结果

需要说明的,上述的中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型虽然均有两个输出,但元篇章关系预测结果输出只用于训练模型。当模型训练好之后,便只输出中文篇章关系类别或英文篇章关系类别了。

本发明提出一种半监督的中英文隐式篇章关系识别方法,具有如下优点:(1)基于大量未标注的中英文篇章关系数据集学习跨语言的元篇章关系知识,可解决跨语言数据集共享的问题。该过程还可看作是模型预训练的过程,有利于缓解标注数据集不足的问题;(2)采用的中英两种语言中未标注的和人工标注的数据集都需要翻译成相应的译文数据集(即中文数据集需翻译成英文,英文数据集需翻译成中文),由于译文数据集也参与上述两个训练过程,因此可认为是某种意义上的数据增强;(3)基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型,可充分有效地利用两种语言中标注的数据集,同时提高中英文隐式篇章关系识别的性能。

请参阅图5,本发明还提出一种半监督的中英文隐式篇章关系识别系统,其中,所述系统包括依次连接的数据集预处理模11、模型构建模块12、第一训练模块13、第二训练模块14以及结果输出模块15:

所述数据集预处理模块11用于:

给定人工标注的中文篇章关系数据集

所述模型构建模块12用于:

在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;

所述第一训练模块13用于:

基于未标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;

所述第二训练模块14用于:

基于人工标注的中文篇章关系数据集

其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练

所述结果输出模块15用于:

基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号