首页> 中国专利> 一种融合双注意力和生成对抗网络的文本摘要方法

一种融合双注意力和生成对抗网络的文本摘要方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及自然语言处理领域，具体涉及一种融合双注意力和生成对抗网络的文本摘要方法，通过双层双向LSTM编码器，获取单词层编码和句子层编码；对单词层编码和句子层编码进行筛选并输入解码器中获取上下文向量；利用交互注意力机制交互融合两层编码信息，获取交互注意力向量；采用双注意力动态聚合获取文本向量；将改进过后的指针生成网络作为生成器，结合覆盖机制生成器生成摘要；利用判别器判别摘要，结合强化学习的策略梯度不断更新模型参数，达到生成器与判别器的动态平衡；将文档输入到训练好的模型中，获取摘要；本发明深度挖掘本文局部关键信息，去除无用冗余信息的干扰，缓解曝光偏差问题，提高文本摘要模型的性能。

著录项

公开/公告号CN115526149A

专利类型发明专利
公开/公告日2022-12-27

原文格式PDF
申请/专利权人重庆邮电大学;
展开▼

申请/专利号CN202211295438.8
发明设计人唐宏;甘陈敏;刘杰;刘小洁;陈榕;
展开▼

申请日2022-10-21
分类号G06F40/126(2020.01);G06F40/30(2020.01);G06F16/335(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构重庆辉腾律师事务所 50215;
代理人王海军
地址 400065 重庆市南岸区南山街道崇文路2号
入库时间 2023-06-19 18:14:35

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-13

实质审查的生效 IPC(主分类):G06F40/126 专利申请号:2022112954388 申请日:20221021

实质审查的生效
2022-12-27

公开

发明专利申请公布

说明书

技术领域

本发明涉及自然语言处理、深度学习、自动文本摘要领域，具体涉及一种融合双注意力和生成对抗网络的文本摘要方法。

背景技术

21世纪互联网的快速发展，大量的文本数据涌现导致用户很难快速获取文本中的主题信息，如何快速高效地从海量文本中提炼出所需的有用信息，已经成为一个亟待解决的问题。早期的文本摘要是通过人工来完成的，文本数据量的激增使得这项工作日渐繁重且效率低下，不能满足用户的需求，对非结构化文本数据的研究使自动文本摘要任务受到广泛关注和研究。同时，随着深度学习算法及技术的发展逐渐成熟，利用人工智能技术和自然语言处理领域的相关技术来进行自动文本摘要的生成，能为用户提供简洁而不丢失原意的信息，有效降低用户的信息负担、提高用户的信息获取速度，在信息检索、舆情分析、内容审查等领域具有较高的研究价值。

对于自动文本摘要，其挑战之一在于难以生成低频词和OOV(集外词)等且易产生重复冗余信息。文本摘要研究的技术框架为：内容表示、权重计算、内容选择和内容组织。摘要的生成主要依赖于权重计算，对文本单元计算相应的权重评分，直接影响构成文本摘要的内容，低频词和OOV的权重计算就为难点，无法直接判断该词是否为文本的关键信息，同时在内容选择过程中，容易重复选择关键信息，或生成与原文不相符的文本信息，从而影响最后的摘要内容。第二个挑战在于生成的文本摘要对原文主要信息推理不完整，不能准确表达文章主旨。由于机器模型无法深刻理解原文含义，仅从字面意思生成，主要信息无法准确选择，从而内容组织上易出现混乱，并不能完整组织原文的主题内容，导致摘要内容语句不通顺等。目前自动文本摘要任务主要有两类方式：抽取式和生成式。抽取式，即生成的摘要内容都是从原文中抽取而来，直接选取原文中的句子等，其优点在于实现简单，不会脱离文档本身；缺点在于内容选择错误，对第二个挑战内容处理效果不佳。生成式，即生成一段文字作为摘要，可以生成原文中没有的单词，更加接近摘要的本质，它包含了新的词语或短语，灵活性高，更接近人类思维逻辑产生的摘要，但由机器模型对自然语言理解和生成困难，故对第一个挑战内容处理结果有待提升。

发明内容

为解决以上现有技术问题，本发明提出一种融合双注意力和生成对抗网络的文本摘要方法，如图1，具体包括以下步骤：

S1：通过双层双向LSTM编码器，获取单词层编码和句子层编码；

S2：利用门控网络，对单词层编码和句子层编码进行筛选后，输入解码器中获取每个时间歩长的解码隐状态，从而获取上下文向量；

S3：利用交互注意力机制交互融合两层编码信息，获取交互注意力向量；

S4：采用双注意力动态聚合获取文本向量；

S5：将改进过后的指针生成网络作为生成器融入生成对抗网络中，结合覆盖机制，生成器生成摘要；

S6：利用判别器判别摘要，结合强化学习的策略梯度不断更新模型参数，达到生成器与判别器的动态平衡；

S7:对基于双注意力聚合的生成对抗网络模型进行优化训练，将文档输入到训练好的模型中，获取文档的摘要内容。

进一步的，通过双层双向LSTM编码器，获取单词层编码和句子层编码的过程包括：

S11、在进行编码前，使用词向量工具word2vec训练获取词向量并通过嵌入矩阵得到输入序列；

S12、在编码时，利用第一层的BiLSTM按句处理，得到第j个句子在i时刻的前向隐藏状态和后向隐藏状态，将每个句子的前向隐藏状态和后向隐藏状态分别拼接起来获得全文单词层的前向隐状态和后向隐藏状态，即单词层编码；

S13、为获取动态的句子注意力，将每个句子中的单词层前向后向隐状态拼接后平均池化，再利用感知机制得到单词的深层表征，并作为句子编码的输入；

S14、第二层的BiLSTM在句子级别运行，根据句子编码输入，得到句子层的前向隐状态和后向隐状态，拼接起来表示对应的隐藏层状态和隐藏状态序列，即句子层编码。

进一步的，利用门控网络，对单词层编码和句子层编码进行筛选后，输入解码器中获取上下文向量的过程包括以下步骤：

S21、将单词层编码隐状态与句子层编码隐状态通过门控网络，获取新的隐状态表示和隐状态序列；

S22、将新的隐状态序列输入解码器中，结合注意力机制，得到每个时间歩长的解码隐状态和语义信息，动态调整每个词的注意力权重分布，从而获取编码器隐状态的权重之和，即上下文向量。

进一步的，利用交互注意力机制交互融合两层编码信息，获取交互注意力向量，即利用交互注意力机制，将将序列H

[Q,K,V]＝[W

其中，H

进一步的，采用双注意力动态聚合获取文本向量，即利用线性动态加权参数来聚合注意力，得到有关上下文语义信息的向量，用来表征时间步t时文档词汇的权重，文本向量c

其中，W

进一步的，将改进过后的指针生成网络作为生成器融入生成对抗网络中，结合覆盖机制，生成器生成摘要包括以下步骤：

S51、基于指针生成网络中的复制机制，根据文本向量以及每个时间歩长的解码隐状态计算指针生成概率；

S52、将文本向量以及每个时间歩长的解码隐状态连接后，通过两个线性层并加权处理，并归一化求和后得到词汇分布；

S53、指针概率和词汇分布的结合，得到生成摘要词汇w的最终分布概率；

S54、基于覆盖机制，获取覆盖向量，并更新注意力权重。

进一步的，生成器与判别器的动态平衡过程中的目标函数表示为：

其中，z表示原文输入，x表示参考摘要；G表示生成器，G()根据输入生成器生成的摘要；D表示判决器，D()表示根据输入判决器判决该输入为真的概率；V(D,G)表示目标函数，E[*]表示分布函数的均值，x～P

进一步的，生成器与判别器达到动态平衡，即利用损失函数的梯度进行反向传播优化模型，指针网络损失函数表示为：

loss

生成对抗网络中判别器损失函数表示为：

生成对抗网络中生成器损失函数表示为：

其中，P(w

本发明通过双层双向LSTM编码器从单词层面和句子层面进行编码，获取深层语义关系和输入表征；本发明采用双注意力动态聚合的方法改进指针生成网络，一方面利用门控网络对两层编码的输出进行筛选，有效地去除无用冗余信息的干扰；另一方面利用交互注意力机制交互融合两层编码信息，提高关键句中单词的注意力，突出局部关键信息；本发明将改进过后的指针生成网络作为生成器融入生成对抗网络中，缓解Seq2Seq模型的暴露偏差问题，同时采用强化学习的策略梯度算法连接生成器和判别器，更新模型参数，提高文本摘要模型的性能，从而提高文本摘要质量和评分。

附图说明

图1为本发明一种融合双注意力和生成对抗网络的文本摘要方法流程图；

图2为本发明采用的生成对抗网络结构图；

图3为本发明的基于双注意力聚合的生成对抗网络模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种融合双注意力和生成对抗网络的文本摘要方法，如图1，具体包括以下步骤：

S1：通过双层双向LSTM编码器，获取单词层编码和句子层编码；

S2：利用门控网络，对单词层编码和句子层编码进行筛选后，输入解码器中获取每个时间歩长的解码隐状态，从而获取上下文向量；

S3：利用交互注意力机制交互融合两层编码信息，获取交互注意力向量；

S4：采用双注意力动态聚合获取文本向量；

S5：将改进过后的指针生成网络作为生成器融入生成对抗网络中，结合覆盖机制，生成器生成摘要；

S6：利用判别器判别摘要，结合强化学习的策略梯度不断更新模型参数，达到生成器与判别器的动态平衡；

S7:对基于双注意力聚合的生成对抗网络模型进行优化训练，将文档输入到训练好的模型中，获取文档的摘要内容。

在本实施例中，假设文档有L个句子y

S11：在编码前，使用词向量工具word2vec训练获取词向量w＝{w

其中，w

S12：在编码时，利用第一层的BiLSTM按句处理，得到第j个句子在i时刻的前向隐藏状态

其中，

S13：为获取动态的句子注意力，将每个句子中的单词层前向后向隐状态拼接后平均池化，再利用感知机制得到单词的深层表征，并作为句子编码输入y

其中，η表示以tanh为激活函数的感知机制，W

S14：第二层的BiLSTM在句子级别运行，根据句子编码输入，得到句子层的前向隐状态

其中，y

利用门控网络，对两层编码的输出进行筛选后，输入解码器中获取上下文向量的过程包括：

S21：将单词层编码隐状态

其中，其中，σ表示sigmoid函数，W

S22：在解码阶段，H序列输入解码器中，结合注意力机制，得到每个时间歩长t的解码隐状态

其中，h

利用交互注意力机制，将序列H

[Q,K,V]＝[W

其中，H

利用线性动态加权参数来聚合注意力，得到有关上下文语义信息的向量，用来表征时间步t时文档词汇的权重，即文本向量c

其中，W

将改进过后的指针生成网络作为生成器融入生成对抗网络中，结合覆盖机制，生成器生成摘要，包括以下步骤：

S51、基于指针生成网络中的复制机制，根据文本向量c

其中，W

S52、将

其中，V

S53、指针概率和词汇分布的结合，得到生成摘要词汇w的最终分布概率P(w)：

其中，

S54、基于覆盖机制，获取覆盖向量m

其中，W

此时损失函数为loss

其中，P(w

利用判别器判别摘要，结合强化学习的策略梯度不断更新模型参数，达到生成器与判别器的动态平衡：

此时判别器损失函数为

生成器损失函数为

其中，z表示原文输入，G(z)表示生成器生成的摘要，x表示参考摘要，D(x)表示判断为真的概率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于远程相关注意力生成对抗网络的文本生成图像方法 [P] . 中国专利： CN112489152A . 2021-03-12
2. 一种融合注意力机制的启明星一号卫星多源数据生成对抗融合网络方法 [P] . 中国专利： CN115482401A . 2022-12-16
3. Latent Space and Text-Based Generative Adversarial Networks (LATEXT-GANs) for Text Generation [P] . 美国专利： US2020134463A1 . 2020-04-30

机译：用于文本生成的潜在空间和基于文本的生成对抗网络（LATEXT-GAN）
4. (54) Title: A CONTENT BASED APPROACH TO EXTENDING THE FORM AND FUNCTION OF A BUSINESS INTELLI¬GENCE SYSTEM (57) Abstract: A business intelligence (BI) system includes the ability to extend its functionality outside of the project life cycle by means of specific content. Complex multidimensional queries are interpreted as trees of atomic sub-expressions that are com¬bined in a parse-tree-like structure to form the overall query. Each sub tree is valid in isolation when provided with the proper context. Any sub tree can be an expression template, stored as application content, which at generation time uses simple text sub¬stitution with instance specific parameters to produce multidimensional expression syntax. The system includes a sophisticated type system and semantic layer that hides the user from the complexities inherent in working with OLAP databases. A business in¬telligence expert can provide type and semantic cues for each expression template, held as content. [P] . IN2012CN02100A . 2012-11-02

机译：（54）标题：一种扩展商务智能系统的形式和功能的基于内容的方法（57）摘要：商务智能（BI）系统具有通过以下方式将其功能扩展到项目生命周期之外的能力：具体内容。复杂的多维查询被解释为原子子表达式的树，这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板，该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层，使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
5. METHOD AND SYSTEM FOR DETERMINING HYBRID TEXT SUMMARIZATION, CONTROL PROGRAM, METHOD AND SYSTEM FOR DISCOURSE SINTAX ANALYSIS, METHOD FOR THE SYSTEM, METHOD AND SYSTEM FOR DIVIDING TEXT INTO DISCOURSE COMPONENTS, METHOD AND SYSTEM FOR DETERMINING STRUCTURAL REPRESENTATION OF DISCOURSE, AND HYBRID-TEXT SUMMARIZATION SYSTEM [P] . 日本专利： JP2005122743A . 2005-05-12

机译：确定混合文本摘要的方法和系统，控制程序，用于双离数分析的方法和系统，用于将文本划分为双组分的系统，方法和系统，用于确定结构的表示形式和混合文本总结的方法，系统系统