首页> 中国专利> 一种融合引导注意力的中文长文本摘要生成方法

一种融合引导注意力的中文长文本摘要生成方法

摘要

本发明公开了一种融合引导注意力的中文长文本摘要生成方法,融合引导注意力的中文长文本摘要生成方法包括:S1:获取原始BART词表和摘要生成源文本;S2:对原始BART词表进行词汇扩展和预训练,得到长文本词表和长文本词表嵌入矩阵;S3:根据长文本词表和长文本词表嵌入矩阵,得到文本嵌入模块;S4:根据摘要生成源文本中的长文本序列和引导序列,利用文本嵌入模块,得到长文本词嵌入向量和引导信息词嵌入向量;S5:根据长文本词嵌入向量和引导信息词嵌入向量,得到长文本上下文编码隐向量和引导信息上下文编码隐向量;S6:根据长文本上下文编码隐向量、引导信息上下文编码隐向量和t‑1时刻生成摘要,得到t时刻生成摘要。

著录项

  • 公开/公告号CN115659973A

    专利类型发明专利

  • 公开/公告日2023-01-31

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202211405839.4

  • 申请日2022-11-10

  • 分类号G06F40/289;G06F40/216;G06F40/30;G06N3/0464;G06N3/08;

  • 代理机构西安正华恒远知识产权代理事务所(普通合伙);

  • 代理人陈选中

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 18:25:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-31

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及摘要生成技术领域,具体涉及一种融合引导注意力的中文长文本摘要生成方法。

背景技术

目前基于深度学习的中文文本摘要生成方法大多是以Transformer为基础的序列到序列的结构,但Transformer中自注意操作与序列长度的平方成正比,这就导致大多数模型限制输入文本的长度,因而无法处理长文本的摘要生成。同时,现有的中文文本摘要模型的词表常以字为基础,并不包含中文常用词语与标点,经过分词后的文本在长文本跨度下很难有效联系上下文,从而严重限制了中文长文本自动摘要模型性能的发挥。

现有的部分技术虽然能够通过两种不同的解码网络同时加强模型的理解与生成能力;采用共享架构和多任务预训练来灵活微调,以加快文本生成的推理速度。但是,还存在以下问题:首先,由于基于Transformer框架,没有考虑输入文本长度受限的问题,因此导致在中文长文本摘要生成中的表现欠佳。其次,模型所用词表以字为基础,不包含中文常用词语与标点,经过分词后的文本在长文本跨度下很难有效联系上下文,所生成的摘要语义连贯性不高。

发明内容

本发明的目的在于提供一种融合引导注意力的中文长文本摘要生成方法,以解决现有的文本摘要生成方法存在输入文本长度受限无法有效应用于长文本数据以及分词后文本较难有效联系上下文,从而导致中文长文本摘要生成性能较低,影响实际应用的问题。

本发明解决上述技术问题的技术方案如下:

本发明提供一种融合引导注意力的中文长文本摘要生成方法,所述融合引导注意力的中文长文本摘要生成方法包括:

S1:获取原始BART词表和摘要生成源文本;

S2:利用长文本词表拓展模块对所述原始BART词表进行词汇扩展和预训练,得到长文本词表和长文本词表嵌入矩阵;

S3:根据所述长文本词表和所述长文本词表嵌入矩阵,得到文本嵌入模块;

S4:根据所述摘要生成源文本中的长文本序列和引导序列,利用所述文本嵌入模块,得到长文本词嵌入向量和引导信息词嵌入向量;

S5:根据所述长文本词嵌入向量和所述引导信息词嵌入向量,利用带引导注意力的稀疏编码模块,得到长文本上下文编码隐向量和引导信息上下文编码隐向量;

S6:根据所述长文本上下文编码隐向量、所述引导信息上下文编码隐向量和t-1时刻生成摘要,利用带双交叉注意力的稀疏解码模块,得到t时刻生成摘要。

可选择地,所述步骤S2包括:

S21:保留所述原始BART词表的前13317个汉字及其他字符,得到第一词表;

S22:提取jieba分词库前4万个常用词,得到第二词表;

S23:对所述第一词表和所述第二词表进行前后拼接,得到长文本词表;

S24:对所述长文本词表进行预训练,得到长文本词嵌入矩阵。

可选择地,所述步骤S3中,所述文本嵌入模块包括依次设置的词嵌入子模块和层次位置编解码嵌入子模块,所述词嵌入子模块包括长文本词表和长文本词嵌入矩阵,所述长文本词表包括第一长文本词表分词和第二长文本词表分词,所述长文本词嵌入矩阵包括长文本序列词嵌入和引导序列词嵌入,所述层次位置分解编码嵌入子模块包括第一位置向量编码和第二位置向量编码,所述第一长文本词表分词、所述长文本序列词嵌入和所述第一位置向量编码依次设置,以用于依次对所述长文本序列进行处理,得到长文本词嵌入向量;所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码依次设置,以用于依次对所述引导序列进行处理,得到引导信息词嵌入向量。

可选择地,所述步骤S4包括:

所述长文本序列依次经过所述第一长文本词表分词、所述长文本序列词嵌入和所述位置向量编码处理后,得到所述长文本词嵌入向量;

所述引导序列依次经过所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码处理后,得到所述引导信息词嵌入向量。

可选择地,所述步骤S5中,所述带引导注意力的稀疏编码模块包括两组稀疏编码器组,每组所述稀疏编码器组包括多个依次设置的稀疏编码器,各所述稀疏编码器包括依次设置的稀疏自注意力单元、第一残差&归一化层、第一前馈神经网络和第二残差&归一化层,所述稀疏自注意力单元的输出结果及其输入同时作为所述第一残差&归一化层的输入,所述第一残差&归一化层的输出同时作为所述第一前馈神经网络和所述第二残差&归一化层的第一输入,所述第一前馈神经网络的输出结果作为所述第二残差&归一化层的第二输入,所述第二残差&归一化层的输出结果作为当前稀疏自注意力单元的输出结果,其中,每组稀疏编码器组的输入同时作为该组第一个稀疏编码器的输入和该稀疏编码器中稀疏自注意力单元和第一残差&归一化的输入,每组稀疏编码器组的输出结果为该组最后一个稀疏编码器的输出结果。

可选择地,所述步骤S5包括:

将所述长文本词嵌入向量作为第一组稀疏编码器组的输入,以及,将所述引导信息词嵌入向量作为第二组稀疏编码器组的输入;

利用第一组稀疏编码器组对所述长文本词嵌入向量进行处理,得到长文本上下文编码隐向量;

利用第二组稀疏编码器组对所述引导信息词嵌入向量进行处理,得到引导信息上下文编码隐向量。

可选择地,所述步骤S6中,所述带双交叉注意力的稀疏编码模块包括多个依次设置的带双交叉注意力的稀疏编码器,各所述带双交叉注意力的稀疏编码器包括依次设置的稀疏自注意力子模块、第三残差&归一化层、第一交叉自注意力子模块、第四残差&归一化层、第二交叉自注意力子模块、第五残差&归一化层、第二前馈神经网络和第六残差&归一化层;

所述t-1时刻生成摘要同时作为所述稀疏自注意力子模块的输入和所述第三残差&归一化层的第一输入,所述稀疏自注意力子模块的输出作为所述第三残差&归一化层的第二输入,所述第三残差&归一化层的输出同时作为所述第一交叉自注意力子模块的输入和所述第四残差&归一化层的第一输入,所述长文本上下文编码隐向量作为为所述第一交叉自注意力子模块的第二输入,所述第一交叉自注意力子模块的输出作为所述第四残差&归一化层的第二输入,所述第四残差&归一化层的输出同时作为所述第二交叉自注意力子模块的第一输入和所述第五残差&归一化层的第一输入,所述引导信息上下文编码隐向量作为所述第二交叉自注意力子模块的第二输入,所述第二交叉自注意力子模块的输出作为所述第五残差&归一化层的第二输入,所述第五残差&归一化层的输出同时作为所述第二前馈神经网络的输入和所述第六残差&归一化层的第一输入,所述第二前馈神经网络的输出作为所述第六残差&归一化层的第二输入,所述第六残差&归一化层的输出作为下一个带双交叉注意力的稀疏编码器中稀疏自注意力子模块及第三残差&归一化层的第一输入,最后一个带双交叉注意力的稀疏编码器中第六残差&归一化层的输出结果作为t时刻生成摘要输出。

本发明具有以下有益效果:

1、本发明在以字为基础的中文BART词表基础上,保留部分字符,并增加替换中文常用词语和常用标点符号,得到所构建的词表;基于该词表进行分词,将文本长度由字缩短至词组,有效降低了输入文本的长度,有利于提取更加丰富的多粒度特征;

2、本发明所构建的文本嵌入模块,引入层次位置分解编码技术,将BART的位置编码嵌入长度有效扩展;对于字嵌入子模块和词嵌入子模块,直接将BART的字词嵌入矩阵复制,新添词语的字词嵌入矩阵由词语中每个字的嵌入矩阵加权平均进行初始化;

3、本发明所构建的引导注意力机制的稀疏编码模块,通过构建多层堆叠连接的自上而下的稀疏注意力结构,实现在全部长文本尺度上高层次语义特征的映射,并引入引导注意力机制,通过提取长文本中的引导信息来进行二次编码,补充丢失的重要信息;

4、本发明所构建两阶段交叉注意力的解码模块,采用两个交叉注意力模块,通过两次解码来引导信息与源文本的编码信息,加强对长文本上下文的解释,并获取最终的解码输出,得到生成的文本摘要;

5、由于本发明融合引导注意力机制,结合稀疏注意力机制的骨干网络,有效捕捉长文本跨度下的重要信息,同时构建了适用于中文长文本的词表,基于该词表进行分词,引入层次位置分解编码高效扩展长文本的位置编码,加速网络收敛,提高了摘要生成的精度,实现了对中文长文本的有效摘要生成。

附图说明

图1为本发明融合引导注意力的中文长文本摘要生成方法的流程图;

图2为本发明长文本词表拓展模块的结构示意图;

图3为本发明文本嵌入模块的结构示意图;

图4为本发明带引导注意力的稀疏编码模块的结构示意图;

图5为本发明带双交叉注意力的稀疏解码模块的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

本发明提供一种融合引导注意力的中文长文本摘要生成方法,参考图1所示,所述融合引导注意力的中文长文本摘要生成方法包括:

S1:获取原始BART词表和摘要生成源文本;

BART词表(Bidirectional and Auto-Regressive Transformers,双向自回归Transformers),摘要生成源文本即为能够生成摘要的文本,本发明在此不做具体限制。

S2:利用长文本词表拓展模块对所述原始BART词表进行词汇扩展和预训练,得到长文本词表和长文本词表嵌入矩阵;

具体地,所述步骤S2包括:

S21:保留所述原始BART词表的前13317个汉字及其他字符,得到第一词表;

S22:提取jieba分词库前4万个常用词,得到第二词表;

S23:对所述第一词表和所述第二词表进行前后拼接,得到长文本词表;

S24:对所述长文本词表进行预训练,得到长文本词嵌入矩阵。

基于该词表进行分词,可将文本长度由字缩短至词组,有效降低了输入文本的长度,使模型无需过多的层数建模即可获取更高层次的语义理解,有利于提取更加丰富的多粒度特征。

作为一种具体实施例,本发明首先复制中文短文本摘要模型BART的词表,保留词表前13317字符,将13317之后的“##+字符”替换为中文常用词,共40000个,最后加入中文常用标点符号,最终得到的词表大小为53321。最终使得每个词语在上下文中都有明确的释义,有效降低了输入文本的长度,使模型无需过多的层数建模即可获取更高层次的语义理解。

S3:根据所述长文本词表和所述长文本词表嵌入矩阵,得到文本嵌入模块;

文本嵌入包含位置编码嵌入与字词嵌入。对于长文本位置的编码嵌入,在有限资源的情况下,本发明通过引入层次位置分解编码技术,将BART的位置编码嵌入长度从512扩展为8192。对于字词嵌入,直接复制BART的字词嵌入矩阵,新添词语的字词嵌入矩阵由词语中每个字的嵌入矩阵加权平均进行初始化。

具体地,所述文本嵌入模块包括依次设置的词嵌入子模块和层次位置编解码嵌入子模块,所述词嵌入子模块包括长文本词表和长文本词嵌入矩阵,所述长文本词表包括第一长文本词表分词和第二长文本词表分词,所述长文本词嵌入矩阵包括长文本序列词嵌入和引导序列词嵌入,所述层次位置分解编码嵌入子模块包括第一位置向量编码和第二位置向量编码,所述第一长文本词表分词、所述长文本序列词嵌入和所述第一位置向量编码依次设置,以用于依次对所述长文本序列进行处理,得到长文本词嵌入向量;所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码依次设置,以用于依次对所述引导序列进行处理,得到引导信息词嵌入向量。

文本嵌入模块包含位置编码嵌入与字词嵌入。由于当前没有已公开的中文长文本摘要模型,为了解决长文本位置的编码问题,在有限资源的情况下,本发明通过引入层次位置分解编码技术,将BART的位置编码嵌入长度从512扩展为8192。即已有训练好的中文BART位置编码向量为P

其中,i为BART位置编号,j为由i层次分解得到的位置编号i,j≤k,n为扩展后的位置编号,并有:n=(i-1)×k+j,理论上n≤k

对于字嵌入子模块和词嵌入子模块,直接将BART的字词嵌入矩阵复制至该网络,新添词语的字词嵌入矩阵由词语中每个字的嵌入矩阵加权平均进行初始化。接着在微调训练过程中训练至最佳,同时采用权值共享策略,尽可能减小网络框架结构的复杂度。

S4:根据所述摘要生成源文本中的长文本序列和引导序列,利用所述文本嵌入模块,得到长文本词嵌入向量和引导信息词嵌入向量;

所述步骤S4包括:

所述长文本序列依次经过所述第一长文本词表分词、所述长文本序列词嵌入和所述位置向量编码处理后,得到所述长文本词嵌入向量;

所述引导序列依次经过所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码处理后,得到所述引导信息词嵌入向量。

S5:根据所述长文本词嵌入向量和所述引导信息词嵌入向量,利用带引导注意力的稀疏编码模块,得到长文本上下文编码隐向量和引导信息上下文编码隐向量;

在编码模块中构建了多层堆叠连接的自上而下的稀疏注意力结构,用于在全部长文本尺度上构建高层次语义特征映射。由于长文本在稀疏编码器中因上下文距离过长易造成一定程度的语义丢失,为了解决该问题,本发明引入引导注意力机制,通过提取长文本中的引导信息来进行二次编码,补充丢失的重要信息。在融合引导注意力机制后,模型可以有效加强对长文本上下文的关注程度,提高语义的层次理解。

可选择地,所述步骤S5中,所述带引导注意力的稀疏编码模块包括两组稀疏编码器组,每组所述稀疏编码器组包括多个依次设置的稀疏编码器,各所述稀疏编码器包括依次设置的稀疏自注意力单元、第一残差&归一化层、第一前馈神经网络和第二残差&归一化层,所述稀疏自注意力单元的输出结果及其输入同时作为所述第一残差&归一化层的输入,所述第一残差&归一化层的输出同时作为所述第一前馈神经网络和所述第二残差&归一化层的第一输入,所述第一前馈神经网络的输出结果作为所述第二残差&归一化层的第二输入,所述第二残差&归一化层的输出结果作为当前稀疏自注意力单元的输出结果,其中,每组稀疏编码器组的输入同时作为该组第一个稀疏编码器的输入和该稀疏编码器中稀疏自注意力单元和第一残差&归一化的输入,每组稀疏编码器组的输出结果为该组最后一个稀疏编码器的输出结果。

所构建的编码模型包含两个略微不同的稀疏编码器,分别由6层子稀疏编码器构成,两个稀疏编码器分别对源文本和引导文本进行编码。每个子稀疏编码器包含一个自注意力模块和前馈神经网络。编码的具体计算过程为:

X

X

X

X

其中,X代表编码信息,分别为源文本编码X

编码模块通过自注意力机制分别对长文本与引导文本的上下文信息进行建模,自注意力通过多头机制分别捕获不同位置之间的交互关系,从而得到两个可以互相补充的编码信息。

可选择地,所述步骤S5包括:

将所述长文本词嵌入向量作为第一组稀疏编码器组的输入,以及,将所述引导信息词嵌入向量作为第二组稀疏编码器组的输入;

利用第一组稀疏编码器组对所述长文本词嵌入向量进行处理,得到长文本上下文编码隐向量;

利用第二组稀疏编码器组对所述引导信息词嵌入向量进行处理,得到引导信息上下文编码隐向量。

S6:根据所述长文本上下文编码隐向量、所述引导信息上下文编码隐向量和t-1时刻生成摘要,利用带双交叉注意力的稀疏解码模块,得到t时刻生成摘要。

可选择地,所述步骤S6中,所述带双交叉注意力的稀疏解码模块包括多个依次设置的带双交叉注意力的稀疏解码器,各所述带双交叉注意力的稀疏解码器包括依次设置的稀疏自注意力子模块、第三残差&归一化层、第一交叉自注意力子模块、第四残差&归一化层、第二交叉自注意力子模块、第五残差&归一化层、第二前馈神经网络和第六残差&归一化层;

所述t-1时刻生成摘要同时作为所述稀疏自注意力子模块的输入和所述第三残差&归一化层的第一输入,所述稀疏自注意力子模块的输出作为所述第三残差&归一化层的第二输入,所述第三残差&归一化层的输出同时作为所述第一交叉自注意力子模块的输入和所述第四残差&归一化层的第一输入,所述长文本上下文编码隐向量作为为所述第一交叉自注意力子模块的第二输入,所述第一交叉自注意力子模块的输出作为所述第四残差&归一化层的第二输入,所述第四残差&归一化层的输出同时作为所述第二交叉自注意力子模块的第一输入和所述第五残差&归一化层的第一输入,所述引导信息上下文编码隐向量作为所述第二交叉自注意力子模块的第二输入,所述第二交叉自注意力子模块的输出作为所述第五残差&归一化层的第二输入,所述第五残差&归一化层的输出同时作为所述第二前馈神经网络的输入和所述第六残差&归一化层的第一输入,所述第二前馈神经网络的输出作为所述第六残差&归一化层的第二输入,所述第六残差&归一化层的输出作为下一个带双交叉注意力的稀疏编码器中稀疏自注意力子模块及第三残差&归一化层的第一输入,最后一个带双交叉注意力的稀疏编码器中第六残差&归一化层的输出结果作为t时刻生成摘要输出。

在第一次解码过程中,先对引导信息进行解码,每个子稀疏解码器在完成自注意力后与来自编码模块的引导矢量序列X

Y=LN(Y+SelfAttention(Y))

Y=LN(Y+CrossAttention(Y,X

Y=LN(Y+CrossAttention(Y,X

Y=LN(Y+FeedForward(Y))

其中Y代表解码信息。在该架构下,模型能够根据引导信息对源文本的不同序列做不同的自注意力。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号