首页> 中国专利> 多语言自动摘要生成方法、装置、设备及存储介质

多语言自动摘要生成方法、装置、设备及存储介质

摘要

本公开提供了多语言自动摘要生成方法,包括:对多语言文档中的各个种类语言文档进行序列化编码,生成第一隐层向量序列及第二隐层向量序列;将第一隐层向量序列、第二隐层向量序列转化为第一上下文语义向量、第二上下文语义向量;基于第一上下文语义向量、第二上下文语义向量获得多语言上下文语义向量;基于第一编码器与解码器间的注意力分布及双语词典获取第一种类语言‑第二种类语言翻译概率分布,基于第二编码器与解码器间的注意力分布获取第二种类语言的复制概率分布;基于多语言上下文语义向量获得神经概率分布及决策概率分布;对翻译概率分布、复制概率分布、神经概率分布加权求和,获得词汇分布概率,生成多语言文档的摘要。

著录项

  • 公开/公告号CN112364157A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 北京中科凡语科技有限公司;

    申请/专利号CN202011305070.X

  • 发明设计人 周玉;

    申请日2020-11-20

  • 分类号G06F16/34(20190101);G06F40/30(20200101);G06F40/44(20200101);G06F40/58(20200101);

  • 代理机构11807 北京庚致知识产权代理事务所(特殊普通合伙);

  • 代理人韩德凯;李晓辉

  • 地址 100190 北京市海淀区知春路63号51号楼10层1006

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本公开涉及一种多语言自动摘要生成方法、装置、设备及存储介质。

背景技术

随着全球信息交流的加速,互联网充斥着大量以多语言形式传播的内容。许多用户对于其母语的信息可以以较快的速度吸收和理解,而当浏览非母语的新闻内容时就稍显困难。另外,同一新闻主题下不同语种的内容可以提供不同角度的观点,从而有助于用户更好地了解某一事件的全貌。

多语言自动摘要可以帮助用户更快速地从多语言的文本信息中去获取核心的内容,在当今全球化的格局下显得尤为必要和迫切。

发明内容

为了解决上述技术问题中的至少一个,本公开提供了一种多语言自动摘要生成方法、装置、设备及存储介质。

本公开的多语言自动摘要生成方法、装置、设备及存储介质通过以下技术方案实现,

根据本公开的一个方面,提供一种多语言自动摘要生成方法,包括:S1、对多语言文档中的各个种类语言文档进行序列化编码,至少生成第一种类语言隐层向量序列以及第二种类语言隐层向量序列,所述多语言文档至少包括第一种类语言文档和第二种类语言文档;S2、至少将第一种类语言隐层向量序列转化为第一种类语言上下文语义向量以及将第二种类语言隐层向量序列转化为第二种类语言上下文语义向量;S3、至少对所述第一种类语言上下文语义向量以及所述第二种类语言上下文语义向量进行融合,获得多语言上下文语义向量;S4、至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布,以及基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布;S5、基于所述多语言上下文语义向量获得神经概率分布以及决策概率分布,所述决策概率分布为所述翻译概率分布、复制概率分布和神经概率分布之间的权重;以及S6、至少对于所述翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率,至少基于所述词汇分布概率,生成所述多语言文档的摘要。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S1包括:S11、基于多语语料库至少获取第一种类语言高频词汇表以及第二种类语言高频词汇表;S12、基于所述第一种类语言高频词汇表以及第一种类语言文档中的每一个词的索引,将所述第一种类语言文档的所有词转换为词向量,基于所述第二种类语言高频词汇表以及第二种类语言文档中的每一个词的索引,将所述第二种类语言文档的所有词转换为词向量;以及S13、使用第一种类语言编码器将所述第一种类语言文档的所有词向量编码为第一种类语言隐层向量序列,使用第二种类语言编码器将所述第二种类语言文档的所有词向量编码为第二种类语言隐层向量序列。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S2包括:在第一种类语言编码器与解码器之间计算“第一种类语言编码器-解码器”注意力分布,将该注意力分布作为第一种类语言隐层向量序列的权重对第一种类语言隐层向量序列进行加权求和,获得第一种类语言上下文语义向量;在第二种类语言编码器与解码器之间计算“第二种类语言编码器-解码器”注意力分布,将该注意力分布作为第二种类语言隐层向量序列的权重对第二种类语言隐层向量序列进行加权求和,获得第二种类语言上下文语义向量。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S3包括:使用第一种类语言上下文语义向量的矩阵型参数以及第二种类语言上下文语义向量的矩阵型参数分别作为第一种类语言上下文语义向量和第二种类语言上下文语义向量的线性权重,计算得到所述多语言上下文语义向量。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S4中,至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布,包括:将第一种类语言编码器与解码器之间的注意力分布与所述第一种类语言-第二种类语言词典中的词汇翻译概率相乘,获得所述翻译概率分布。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,将第一种类语言编码器与解码器之间的注意力分布与所述第一种类语言-第二种类语言词典中的词汇翻译概率相乘,获得所述翻译概率分布,包括:将第一种类语言到第二种类语言的机器翻译双语平行语料进行分词,使用词对齐工具从分词后的双语平行语料提取出概率化双语词典,将概率化双语词典中的词汇翻译概率与第一种类语言编码器与解码器之间的注意力分布相乘,得到所述翻译概率分布。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S4中,基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布,包括:将第二种类语言源端注意力分布转化为词汇的所述复制概率分布。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,将第二种类语言源端注意力分布转化为词汇的所述复制概率分布,包括:根据预设的第二种类语言词汇表对源端所包含的第二种类语言词汇进行索引编号,不在词汇表之中的词作为集外词,集外词使用一个额外的索引序列进行标记;根据集外词的索引建立映射词典,其中索引序号为键值,词汇为值;将第二种类语言编码器与解码器之间的注意力分布作为对第二种类语言源端的复制概率分布。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S5中,基于所述多语言上下文语义向量获得神经概率分布,包括:

在所述多语言上下文语义向量的基础上,添加一层线性层,并由Softmax函数得到所述神经概率分布,计算公式如下:

P

根据本公开的至少一个实施方式的多语言自动摘要生成方法,基于所述多语言上下文语义向量获得决策概率分布,包括:在所述多语言上下文语义向量的基础上,添加两层线性层,并由Softmax函数得到所述决策概率分布,计算公式如下:

[p

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S6中,至少对于所述翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率,包括:将所述集外词与所述预设的第二种类语言词汇表融合,构建一个临时的扩充词汇表;根据决策概率分布对翻译概率分布、复制概率分布和神经概率分布进行加权求和,并将概率分布对应至所述扩充词汇表中,获得所述词汇分布概率。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,步骤S6中,至少基于所述词汇分布概率,生成所述多语言文档的摘要,包括:利用光束搜索算法基于所得到的词汇分布概率进行摘要词汇的预测,从而解码生成摘要。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,所述第一种类语言文档为中文语言文档,所述第二种类语言文档为英文语言文档。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,所述多语言文档的摘要的语言种类为第二种类语言。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,使用分词工具(例如Jieba工具)对需要分词的种类语言文档进行分词。

根据本公开的至少一个实施方式的多语言自动摘要生成方法,所述第一种类语言编码器为自注意力机制编码器,所述第二种类语言编码器为自注意力机制编码器。

根据本公开的另一个方面,提供一种多语言自动摘要生成装置,包括:隐层向量序列生成模块,所述隐层向量序列生成模块对多语言文档中的各个种类语言文档进行序列化编码,至少生成第一种类语言隐层向量序列以及第二种类语言隐层向量序列,所述多语言文档至少包括第一种类语言文档和第二种类语言文档;隐层向量序列-上下文语义向量转化模块,隐层向量序列-上下文语义向量转化模块至少将第一种类语言隐层向量序列转化为第一种类语言上下文语义向量以及将第二种类语言隐层向量序列转化为第二种类语言上下文语义向量;多语言上下文语义向量生成模块,多语言上下文语义向量生成模块至少对所述第一种类语言上下文语义向量以及所述第二种类语言上下文语义向量进行融合,获得多语言上下文语义向量;翻译概率获取模块,所述翻译概率获取模块至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布;复制概率获取模块,所述复制概率获取模块基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布;神经概率分布及决策概率分布获取模块,神经概率分布及决策概率分布获取模块基于所述多语言上下文语义向量获得神经概率分布以及决策概率分布,所述决策概率分布为所述翻译概率分布、复制概率分布和神经概率分布之间的权重;词汇分布概率获取模块,所述词汇分布概率获取模块至少对于所述翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率;以及摘要生成模块,所述摘要生成模块至少基于所述词汇分布概率,生成所述多语言文档的摘要。

根据本公开的又一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。

根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。

图1为本公开的一个实施方式的多语言自动摘要生成方法的流程示意图。

图2为本公开的又一个实施方式的多语言自动摘要生成方法的流程示意图。

图3为本公开的一个实施方式的多语言自动摘要生成装置的结构示意框图。

图4示出了采用处理系统的硬件实现方式的多语言自动摘要生成装置的示例图。

1000 多语言自动摘要生成装置

1001 隐层向量序列生成模块

1002 隐层向量序列-上下文语义向量转化模块

1003 多语言上下文语义向量生成模块

1004 翻译概率获取模块

1005 复制概率获取模块

1006 神经概率分布及决策概率分布获取模块

1007 词汇分布概率获取模块

1008 摘要生成模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。

为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。

这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1为本公开的一个实施方式的多语言自动摘要生成方法的流程示意图。

如图1所示,多语言自动摘要生成方法,包括:

S1、对多语言文档中的各个种类语言文档进行序列化编码,至少生成第一种类语言隐层向量序列以及第二种类语言隐层向量序列,多语言文档至少包括第一种类语言文档和第二种类语言文档;

S2、至少将第一种类语言隐层向量序列转化为第一种类语言上下文语义向量以及将第二种类语言隐层向量序列转化为第二种类语言上下文语义向量;

S3、至少对第一种类语言上下文语义向量以及第二种类语言上下文语义向量进行融合,获得多语言上下文语义向量;

S4、至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布,以及基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布;

S5、基于多语言上下文语义向量获得神经概率分布以及决策概率分布,决策概率分布为翻译概率分布、复制概率分布和神经概率分布之间的权重;以及

S6、至少对于翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率,至少基于词汇分布概率,生成多语言文档的摘要。

多语言文档可以包括两种语言文档或者三种语言文档,或者更多种语言文档。例如多语言文档中同时包括中文文档和英文文档,或者多语言文档包括中文文档、日文文档和英文文档等等。

通过本公开的多语言自动摘要生成方法,最终生成的单语摘要能够融合源端多语言的语义信息。

根据本公开的优选实施方式,如图2所示,多语言自动摘要生成方法,包括:

S11、基于多语语料库至少获取第一种类语言高频词汇表以及第二种类语言高频词汇表;

S12、基于第一种类语言高频词汇表以及第一种类语言文档中的每一个词的索引,将第一种类语言文档的所有词转换为词向量,基于第二种类语言高频词汇表以及第二种类语言文档中的每一个词的索引,将第二种类语言文档的所有词转换为词向量;

S13、使用第一种类语言编码器将第一种类语言文档的所有词向量编码为第一种类语言隐层向量序列,使用第二种类语言编码器将第二种类语言文档的所有词向量编码为第二种类语言隐层向量序列;

S2、至少将第一种类语言隐层向量序列转化为第一种类语言上下文语义向量以及将第二种类语言隐层向量序列转化为第二种类语言上下文语义向量;

S3、至少对第一种类语言上下文语义向量以及第二种类语言上下文语义向量进行融合,获得多语言上下文语义向量;

S4、至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布,以及基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布;

S5、基于多语言上下文语义向量获得神经概率分布以及决策概率分布,决策概率分布为翻译概率分布、复制概率分布和神经概率分布之间的权重;以及

S6、至少对于翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率,至少基于词汇分布概率,生成多语言文档的摘要。

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S2包括:在第一种类语言编码器与解码器之间计算“第一种类语言编码器-解码器”注意力分布,将该注意力分布作为第一种类语言隐层向量序列的权重对第一种类语言隐层向量序列进行加权求和,获得第一种类语言上下文语义向量;在第二种类语言编码器与解码器之间计算“第二种类语言编码器-解码器”注意力分布,将该注意力分布作为第二种类语言隐层向量序列的权重对第二种类语言隐层向量序列进行加权求和,获得第二种类语言上下文语义向量。

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S3包括:使用第一种类语言上下文语义向量的矩阵型参数以及第二种类语言上下文语义向量的矩阵型参数分别作为第一种类语言上下文语义向量和第二种类语言上下文语义向量的线性权重,计算得到多语言上下文语义向量。

上述各个实施方式中,优选地,步骤S4中,至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布,包括:将第一种类语言编码器与解码器之间的注意力分布与第一种类语言-第二种类语言词典中的词汇翻译概率相乘,获得翻译概率分布。

上述实施方式中,优选地,将第一种类语言编码器与解码器之间的注意力分布与第一种类语言-第二种类语言词典中的词汇翻译概率相乘,获得翻译概率分布,包括:

将第一种类语言到第二种类语言的机器翻译双语平行语料进行分词,使用词对齐工具从分词后的双语平行语料提取出概率化双语词典,将概率化双语词典中的词汇翻译概率与第一种类语言编码器与解码器之间的注意力分布相乘,得到翻译概率分布。

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S4中,基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布,包括:将第二种类语言源端注意力分布转化为词汇的复制概率分布。

上述实施方式中,将第二种类语言源端注意力分布转化为词汇的复制概率分布,包括:根据预设的第二种类语言词汇表对源端所包含的第二种类语言词汇进行索引编号,不在词汇表之中的词作为集外词,集外词使用一个额外的索引序列进行标记;根据集外词的索引建立映射词典,其中索引序号为键值,词汇为值;将第二种类语言编码器与解码器之间的注意力分布作为对第二种类语言源端的复制概率分布。

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S5中,基于多语言上下文语义向量获得神经概率分布,包括:

在多语言上下文语义向量的基础上,添加一层线性层,并由Softmax函数得到神经概率分布,计算公式如下:

P

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S5中,基于多语言上下文语义向量获得决策概率分布,包括:

在多语言上下文语义向量的基础上,添加两层线性层,并由Softmax函数得到决策概率分布,计算公式如下:

[p

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S6中,至少对于翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率,包括:将集外词与预设的第二种类语言词汇表融合,构建一个临时的扩充词汇表;根据决策概率分布对翻译概率分布、复制概率分布和神经概率分布进行加权求和,并将概率分布对应至扩充词汇表中,获得词汇分布概率。

上述各个实施方式中,优选地,多语言自动摘要生成方法的步骤S6中,至少基于词汇分布概率,生成多语言文档的摘要,包括:利用光束搜索算法基于所得到的词汇分布概率进行摘要词汇的预测,从而解码生成摘要。

上述各个实施方式中,第一种类语言文档例如为中文语言文档,第二种类语言文档例如为英文语言文档。

上述各个实施方式中,多语言文档的摘要的语言种类为第二种类语言。

上述各个实施方式中,使用分词工具(例如Jieba工具)对需要分词的种类语言文档进行分词。

上述各个实施方式中,第一种类语言编码器为自注意力机制编码器,第二种类语言编码器为自注意力机制编码器。

下面通过一个具体的实例来对本公开的多语言自动摘要生成方法进行说明:

例如给定一篇输入英文文档和一篇输入中文文档:

“It’s just an example for illustration.There are 56nationalities inChina.”

“这个例子只作为展示说明。中国包含56个民族。”

首先,通过两种语言特定的编码器(中文编码器和英文编码器)对中文文档和英文文档进行序列化编码,生成中文隐层向量序列和英文隐层向量序列。具体可以采用以下步骤:

使用Jieba工具对中文文本进行分词,将英文文本中所有内容转换为小写的形式。可以以开源的中文分词工具对中文文本进行分词处理并利用python语言直接对英文文本进行小写化转化。中文分词工具属于现有技术。

经过分词和小写化转化之后后,输入英文文档和中文文档分别可以表示为:

“it’s just an example for illustration.there are 56nationalities inchina.”

“这个例子只作为展示说明。中国包含56个民族。”

根据所有的中、英文文本计算各自语言词频最高的N(例如N=100000)个词,并将这N个词作为中、英文各自的词汇表。

在中英文的词汇表的基础上,根据中英文输入文档中的每一个词的索引,将这些词转化为词向量。

使用两个自注意力机制编码器将中、英文词向量分别编码成中、英文隐层向量序列。

接下来,通过注意力机制将中文、英文隐层向量序列转化为中、英文上下文语义向量。具体地可以采用以下步骤:

在中文编码器和解码器之间计算“中文编码器-解码器”注意力分布,将该注意力分布作为中文隐层向量序列的权重对该向量序列进行加权求和,得到中文上下文语义向量,计算公式如下:

其中Q、K、V分别表示“查询”、“键”和“值”的矩阵,构成了注意力机制的计算方式,d

在英文编码器和解码器之间计算“英文编码器-解码器”注意力分布,将该注意力分布作为英文隐层向量序列的权重对该向量序列进行加权求和,得到英文上下文语义向量,计算公式如下:

其中

使用多语言上下文层对中、英文上下文语义向量进行融合,得到多语言上下文语义向量。具体地可以采用以下步骤:

使用两个矩阵型参数作为中文上下文语义向量和英文上下文语义向量的线性权重,从而计算得到多语言上下文语义向量。计算公式如下:

Z

其中W

解码器依据中文编码器与解码器之间的注意力分布与一个双语字典计算一个翻译概率分布。具体地可以采用以下步骤:

将中到英的机器翻译双语平行语料按照上述步骤中的中、英文的切分粒度进行分词;利用词对齐工具从分词后的中英平行语料提取出概率化的双语词典;将概率化双语词典中的词汇翻译概率与中文编码器与解码器之间的注意力分布相乘,得到翻译概率分布,具体计算公式如下:

其中P

解码器根据英文编码器与解码器之间的注意力分布计算一个复制概率分布。具体地可以采用以下步骤:

将英文源端注意力分布转化为词汇的复制概率分布,计算公式如下:

其中P

解码器根据多语言上下文语义向量计算一个神经概率分布及一个决策概率分布,决策概率分布表示翻译概率分布、复制概率分布和神经概率分布之间的权重。具体地可以采用以下步骤:

在多语言上下文语义向量的基础上,添加一层线性层,并由Softmax函数得到一个神经概率分布,计算公式如下:

P

其中W

在多语言上下文语义向量的基础上,添加两层线性层,并由Softmax函数得到一个决策概率分布,计算公式如下:

[p

其中,W

对于翻译概率分布、复制概率分布和神经概率分布进行加权求和,从而预测每一时刻的摘要词汇并进行解码。具体地可以采用以下步骤:

将上述步骤中的集外词与预设词表融合,构建一个临时的扩充词汇表,其大小为原始词表大小与额外的索引序号表大小之和;根据决策概率分布对翻译概率分布、复制概率分布和神经概率分布进行加权求和,并将概率分布对应至扩充词汇表中;计算公式如下:

P(w)=p

其中P(w)表示词w在最终的词汇生成预测分布中的概率大小,P

利用光束搜索算法基于所得到的词汇分布概率进行摘要词汇的预测,从而解码生成摘要。

图3是本公开的一个实施方式的多语言自动摘要生成装置的结构示意框图。

如图3所示,多语言自动摘要生成装置1000包括:

隐层向量序列生成模块1001,隐层向量序列生成模块101对多语言文档中的各个种类语言文档进行序列化编码,至少生成第一种类语言隐层向量序列以及第二种类语言隐层向量序列,多语言文档至少包括第一种类语言文档和第二种类语言文档;

隐层向量序列-上下文语义向量转化模块1002,隐层向量序列-上下文语义向量转化模块1002至少将第一种类语言隐层向量序列转化为第一种类语言上下文语义向量以及将第二种类语言隐层向量序列转化为第二种类语言上下文语义向量;

多语言上下文语义向量生成模块1003,多语言上下文语义向量生成模块1003至少对第一种类语言上下文语义向量以及第二种类语言上下文语义向量进行融合,获得多语言上下文语义向量;

翻译概率获取模块1004,翻译概率获取模块1004至少基于第一种类语言编码器与解码器之间的注意力分布以及第一种类语言-第二种类语言词典获取第一种类语言-第二种类语言的翻译概率分布;

复制概率获取模块1005,复制概率获取模块1005基于第二种类语言编码器与解码器之间的注意力分布获取第二种类语言的复制概率分布;

神经概率分布及决策概率分布获取模块1006,神经概率分布及决策概率分布获取模块1006基于多语言上下文语义向量获得神经概率分布以及决策概率分布,决策概率分布为翻译概率分布、复制概率分布和神经概率分布之间的权重;

词汇分布概率获取模块1007,词汇分布概率获取模块1007至少对于翻译概率分布、复制概率分布和神经概率分布进行加权求和,获得词汇分布概率;以及

摘要生成模块1008,摘要生成模块1008至少基于词汇分布概率,生成多语言文档的摘要。

图4示出了采用处理系统的硬件实现方式的多语言自动摘要生成装置1000的示例图。

该装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。

应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。

此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。

本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。

本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。

在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号