公开/公告号CN112732862A
专利类型发明专利
公开/公告日2021-04-30
原文格式PDF
申请/专利权人 中国科学院软件研究所;
申请/专利号CN202011562089.2
申请日2020-12-25
分类号G06F16/31(20190101);G06F16/33(20190101);G06F40/289(20200101);G06F40/30(20200101);G06N3/02(20060101);G06N3/08(20060101);
代理机构11200 北京君尚知识产权代理有限公司;
代理人邱晓锋
地址 100190 北京市海淀区中关村南四街4号
入库时间 2023-06-19 10:48:02
技术领域
本发明属于自然语言处理领域,特别涉及一种基于神经网络的双向多段落阅读零样本实体链接方法和装置。
背景技术
实体链接指的是将文本中的实体提及(mention)链接到知识库中该实体提及实际所指的实体(entity)上,是自然语言分析中的重要组成部分。实体链接技术有助于信息检索,信息抽取以及自然语言问答等功能。
目前,现有的实体链接系统主要将实体链接到一个综合的知识库中,依赖大量标注数据并且利用到了除了文本信息之外的其他信息。比如,实体的出现频率。但是,相比于普通的领域,对于一些特定领域的实体链接,比如电影或者小说中的人物,会更有挑战性。这是因为在这些领域中的知识库往往只包含文本数据,并且缺少实体链接的标注数据。现有的实体链接系统不能够充分理解实体提及的上下文和知识库中的实体描述之间的关系,使得现有的实体链接系统表现较差。
发明内容
本发明解决的技术问题:提供一种基于神经网络的双向多段落阅读的零样本实体链接方法,用于解决实体链接过程中,对于提高未曾见过的实体的链接准确性。
为了解决上述问题,本发明提供一种实体链接方法,所述方法包括两阶段,其中第一阶段是预训练阶段,其目的是增强编码器对文本的表示能力,第二阶段为实体链接阶段。其中第一阶段不是必需的阶段,即本发明可以不进行预训练,而直接使用实体链接阶段的步骤。
所述方法的第一阶段包括以下步骤:
(1)使用掩码语言模型作为训练目标在大规模语料中对编码器进行预训练。
(2)基于(1)步训练后的编码器,使用掩码语言模型作为训练目标在实体链接人工标注语料对编码器进行预训练。
(3)基于(2)步训练后的编码器,使用掩码语言模型作为训练目标在目标领域的语料对编码器进行预训练。
进一步地,所述步骤(1),(2),(3)使用相同的训练目标,在不同的语料上进行训练。具体实现如下:
11)编码器采用BERT结构,或者使用其他类型的神经网络包括CNN,LSTM等作为编码器。
12)将大规模语料/实体链接人工标注语料/目标领域语料中的文本处理成固定长度的段落,然后随机选取部分单词替换成[MASK]占位符。
13)为了令编码器对实体的上下文产生更好的表示,提取文本中出现的所有能够准确匹配预设知识库中的实体标题的实体提及的位置,作为候选预训练掩码位置集合。
14)从候选预训练掩码位置集合中,随机选取部分位置替换成[MASK]占位符。
15)将替换后的文本中通过WordPiece算法分词,然后查找词表中对应的词向量表示。
16)将得到的词向量表示输入到编码器中,得到每个位置的表示向量。
17)将得到的表示向量通过全接连层,输出[MASK]占位符的位置预测的最大概率的单词。
18)使用交叉熵损失函数,令输入[MASK]位置输出的单词还原原始文本。
通过所述方法的第一阶段预训练得到编码器的参数应用在下一阶段的编码器中。
所述方法的第二阶段为实体链接阶段,其目的是增强编码器对实体提及和实体描述文本的语义匹配能力,包括以下步骤:
(4)将当前实体提及(即待链接实体提及)包含的词作为关键词,从预设知识库中搜索当前实体提及的候选实体。
(5)为了利用分散在实体描述中各个位置的语义信息,将知识库中的候选实体的描述文本划分成固定长度的多个段落。
(6)提取实体提及所在位置的周围固定长度的文本作为实体提及的上下文,并提取候选实体的描述文本的每个段落。将实体提及的上下文和候选实体的多个段落拼接。在两段文本中间加入[SEP]分隔符,在输入的开头加入[CLS]占位符。将拼接后的文本输入到编码器中进行编码,得到编码器输出的[CLS]位置的编码,作为实体提及的上下文和候选实体每个段落的单向匹配编码向量。
(7)利用权重池化将上一步得到的多个段落的单向匹配编码向量通过段落间注意力机制融合为一个匹配编码向量。
(8)提取比第(6)步中的实体提及的上下文更大范围的上下文,将更大范围的实体提及上下文划分成固定长度的多个段落。将多个段落的文本送到编码器中进行编码,在输入文本的开头加入[CLS]占位符,将编码器输出的[CLS]位置的编码向量作为实体提及多段落编码向量。
(9)利用步骤(7)得到的融合后的单向匹配编码向量和步骤(8)中得到的实体提及多段落编码向量进行注意力计算,得到双向多段落匹配编码向量。
(10)将上一步得到的双向多段落匹配编码向量送入一个前向神经网络中,得到实体提及和候选实体的相关度,根据相关度将实体提及链接到知识库中的候选实体上,从而实现实体链接。
进一步地,所述步骤(4)的具体实现如下:
(41)将所有知识库中的实体描述文本分词,然后建立TF-IDF索引。
(42)将预先提取的实体提及词的上下文分词,使用BM25算法检索知识库中的实体文档,将得分最高的K个实体文档作为实体提及的候选实体。
基于同一发明构思,本发明还提供一种采用本发明方法的基于神经网络的双向多段落阅读零样本实体链接装置,其是一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
本发明首先使用编码器在大规模语料和实体链接标注语料中预训练(如前文所述,也可以不进行预训练),然后利用目标领域语料进行预训练。预训练目标除了预测随机选取的文本之外,还选取了预设知识库中的实体词。在实体连接阶段,使用实体提及的上下文作为查询来匹配候选实体描述文档的多个段落,利用这一步得到的编码,再和多个实体提及所在文档的段落进行反向匹配,最后计算得到的编码的得分,作为每个候选实体和实体提及的相关度。
本发明与现有技术相比的优点在于:
(1)本发明只利用了实体的文本表述信息,对知识库的要求较低,可以在更多领域的知识库中使用。
(2)本发明在预训练阶段,除了预测随机选取的文本之外,还通过预测知识库中的实体名称来提升编码器对于实体相关文本的表示能力。
(3)本发明在实体连接阶段利用到了实体描述文档的多个段落的文本信息,充分利用到了分散在多段落中的长距离依赖的实体链接信息。
附图说明
图1为本发明方法对应的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及实施例对本发明作进一步的详细描述。
如前文所述,实体链接是将文本中的实体提及链接到知识库中其实际所指的实体,从而更好的理解文本的语义。然而在很多领域中的知识库只能够提供文本信息并且缺少标注数据,在这些领域中的实体链接需要深入理解实体提及的上下文文本信息,以及知识库中各个实体的描述文本信息,确定实体提及和知识库中候选实体本身的相关度。本发明通过在大规模语料与实体链接标注文本以及目标领域的文本上进行实体相关文本语义表示预训练,并且捕捉实体提及文本与实体描述文本中的长距离依赖关系来提高实体链接的准确性。
本方法提供了一种在文本中进行实体相关语义文本预训练的方法,该方法包括:
(1)将语料中的文本划分成固定长度的文本,将文本通过WordPiece算法分词,然后随机选择一部分词替换成[MASK]占位符。
(2)步骤(1)能够提高编码器对于一般文本的表示能力,为了提高编码器对实体相关文本的表示能力,根据知识库中的实体字典,查找出当前文本中能够准确匹配知识库中实体标题的文本,从能够完全匹配知识库实体标题的连续文本集合中,选取一部分,将其中每个词替换成[MASK]占位符。
(3)将替换后的文本通过嵌入层(embedding层)映射成向量,另外加上每个位置的位置嵌入,输入到BERT编码器中,BERT编码器中的每一层通过如下transformer网络中的多头注意力机制来对输入进行编码:
MultiHead(Q,K,V)=Concat(head
head
其中,MultiHead表示多头注意力机制,融合了多个头向量的信息;head
(4)将编码器中最后一层的编码输出,和嵌入层的编码向量计算內积,然后输出每个词的输出概率。
(5)使用交叉熵损失训练编码器,令最后输出的概率中,每个位置的原本的词的概率最大。
(6)使用上述(1)-(5)的步骤在大规模语料中进行计算。大规模语料可包含一切使用自然语言书写的文本,比如,Wikipedia中的所有文本,百度百科中的所有文本等。然后将得到的编码器使用上述步骤在实体链接标注语料继续预训练。此处的标注语料是在第二步实体链接训练中使用的语料,此时不使用标注的标签,而是只使用该语料中的文本。之后在目标语料中进行预训练。由于这一步不需要利用目标领域的实体链接语料标注数据,该方法可以更好的迁移到不同的领域中。
在预训练BERT编码器之后,将模型应用到实体链接任务上。将模型应用到实体链接任务上时,首先使用实体链接语料的标注数据对模型进行以实体链接作为目标的训练,然后使用训练完成的模型进行实体链接。该方法包括:
(7)将预设知识库中的每个实体对应的描述文本分词,然后转换成TF-IDF表示,同时建立索引。
(8)使用实体提及中的文本和预设知识库中的实体描述的TF-IDF表示进行BM25相似度计算。根据相似度取前K个知识库中的实体作为候选实体。实体提及链接的实体需要从候选实体中选取。
(9)提取实体提及周围的n个词作为实体提及的上下文,用C表示。将候选实体中的第t个实体的描述文档D
(10)将输入文本送到BERT编码器中进行编码,编码步骤和(3)中表示的一样。得到编码后[CLS]位置的向量作为实体提及和各个段落的匹配编码
(11)将各个段落匹配编码通过段落间多头注意力机制融合,编码实体提及上下文和候选实体的跨段落依赖的信息:
其中,
(12)在得到每个段落的编码之后,通过加权池化操作将多个段落的编码表示融合成一个:
其中W
(13)然后提取实体提及周围更大范围的文本。将实体提及周围的文本分段分成l
(14)将多个段落放到BERT中编码,得到每个段落的[CLS]位置的编码作为该段落的编码Q
(15)使用和步骤(11)相同的注意力机制来编码实体提及所在文档的多个段落之间的依赖关系:
其中
(16)使用步骤(12)得到的编码U
其中
(17)将两部分匹配的编码U
(18)使用交叉熵损失优化实体链接模型。交叉熵损失的具体形式为:
loss=-(y
其中y
(19)使用通过步骤(7)~(18)训练后的模型进行实体链接,步骤同(7)~(17)。
在已有的公开零样本实体链接数据集中进行实验。该数据集从wikia在线百科全书社区wikia.com中选取多个不同领域(CoronationStreet、Muppets等)的百科全书数据,并将其中的超链接的文本和超链接对应实体分别构造为实体提及和对应的实体。
该数据集中包含多个不同领域的实体链接数据,其中训练领域和测试领域互不重叠。本发明的模型以及其他对比模型在不同测试领域上的实体链接准确率如1表1所示。
表1.本发明的模型以及其他对比模型的实体链接准确率
其中Bi-MPR模型为本发明提出的模型,baseline模型为使用BERT编码,但没有使用多段落信息的模型,可以看出相对于baseline模型,本模型的准确率有大幅提升。
除上述实施例以外,本发明也可以采用其它实施方式:
1.不预训练,直接使用实体链接标注语料进行训练,即使用步骤(7)之后的步骤;
2.不使用BERT,使用其他类型的神经网络包括CNN,LSTM等作为编码器;
3.和本方法相同,对不同的段落进行单独编码,但融合时(即步骤(11)-(12))通过其他注意力机制的变种进行融合。
基于同一发明构思,本发明的另一实施例提供一种采用本发明方法的基于神经网络的双向多段落阅读零样本实体链接装置,其是一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
机译: 使用基于段落的关键实体标识在朝鲜语中实现零主题分辨率的方法和系统
机译: 基于日历/时间的连接的实体(实体)网络,其中实体指的是“个人/社会/私人-公共团体/企业/信托等。使用/工作方式:设计和系统过程,使用系统过程来链接和管理日历/时间/方法,例如链接时间,标记/发布日历,公开或私下显示日历,通过唯一的身份ID在网络用户中设置会议/聚会/约会唯一身份ID用于通过互联网与任何电子设备链接日历
机译: 一种基于自适应采样和阈值调整的用于训练神经网络的硬负样本的图像跟踪装置及由图像训练装置执行的方法