首页> 中国专利> 基于产生式别名挖掘的知识图谱实体发现和链接方法

基于产生式别名挖掘的知识图谱实体发现和链接方法

摘要

一种基于产生式别名挖掘的知识图谱实体发现和链接方法,包括以下步骤:步骤A:实体别名挖掘,生成别名‑实体映射词典;步骤B:基于改进的文本编辑距离生成候选实体;以及步骤C:候选实体判别,获得候选实体指称项。

著录项

  • 公开/公告号CN106909655A

    专利类型发明专利

  • 公开/公告日2017-06-30

    原文格式PDF

  • 申请/专利权人 中国科学院电子学研究所;

    申请/专利号CN201710106912.0

  • 申请日2017-02-27

  • 分类号G06F17/30(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人方丁一

  • 地址 100190 北京市海淀区北四环西路19号

  • 入库时间 2023-06-19 02:44:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-18

    专利权质押合同登记的生效 IPC(主分类):G06F16/36 专利号:ZL2017101069120 登记号:Y2023980036938 登记生效日:20230331 出质人:济钢防务技术有限公司 质权人:济南农村商业银行股份有限公司高新支行 发明名称:基于产生式别名挖掘的知识图谱实体发现和链接方法 申请日:20170227 授权公告日:20190326

    专利权质押合同登记的生效、变更及注销

  • 2019-03-26

    授权

    授权

  • 2017-07-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170227

    实质审查的生效

  • 2017-06-30

    公开

    公开

说明书

技术领域

本发明涉及数据处理领域,特别涉及一种基于产生式别名挖掘的知识图谱实体发现和链接方法。

背景技术

互联网中的数据呈指数增长,而网络数据主要以自然语言的形式存在,另一方面,类似于Wikipedia等知识分享社区的兴起,构建了大规模的机器可读的知识库。实体发现与实体链接,旨在识别出文本中提及的实体指称项,并将其链接到给定知识库中的相应实体上。通过实体链接,能够将大规模、高噪声的网络数据与知识库链接起来,对知识图谱的构建大有裨益,此外,实体链接是知识库补全、自动问答、信息集成和信息检索的关键步骤。

目前的实体发现和实体链接方法通常首先利用外部数据源进行离线实体别名挖掘,生成别名词典(别名-实体映射词典);然后,基于字符串匹配方法从输入的文本中生成候选实体指称项;最后,将实体发现和实体链接建模为一个二分类问题,通过分类器判别输出结果。

然而现有的实体发现和实体链接方法存在如下技术缺陷:

●别名挖掘主要利用结构化抽取或人工标注的别名语料,不具备从文本中自动进行别名发现的能力,从而导致不存在于别名词典的词语召回率较低;

●在字符串的编辑距离计算中,给所有字符赋予了相同的权重,未考虑字、词出错的概率对编辑距离的影响;

●在判别模型中,对上下文信息的表征存在问题,不能很好的利用上下文进行判别。

发明内容

鉴于现有方案存在的问题,为了克服上述现有技术方案的不足,本发明提出了一种基于产生式别名挖掘的知识图谱实体发现和链接方法。

根据本发明的一个方面,提供了一种基于产生式别名挖掘的知识图谱实体发现和链接方法,包括以下步骤:步骤A:实体别名挖掘,生成别名-实体映射词典;步骤B:基于改进的文本编辑距离的生成候选实体;以及步骤C:候选实体判别,获得候选实体指称项。

从上述技术方案可以看出,本发明具有以下有益效果:

1)提出基于上下文的实体判别模型,不依赖于人工标注的数据,能够快速的迁移到新的领域,比如商品实体的识别、电影实体的识别等等。能够更好地对候选实体上下文信息进行描述和利用,为从文本中进行别名挖掘提供了很好的方法;

2)提供了从文本中进行别名挖掘的方法,将别名挖掘从搜集、发现式转换为产生式。提高了候选召回率,挖掘的别名具有置信度,为判别提供了特征,有效地提升了判别的结果;

3)能够有效地提高实体发现和链接的准确率与召回率,有利于文本语义的理解以及信息的抽取。

附图说明

图1为本发明实施例中基于产生式别名挖掘的知识图谱实体发现和链接方法的流程示意图;

图2本发明实施例中基于上下文的实体判别模型结构的示意图;

图3为本发明实施例中实体别名发现流程图。

具体实施方式

本发明某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本发明的各种实施例可以许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本发明满足适用的法律要求。

在本说明书中,下述用于描述本发明原理的各种实施例只是说明,不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不悖离本发明的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同附图标记用于相似功能和操作。

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明实施例提供了一种基于产生式别名挖掘的知识图谱实体发现和链接方法,针对某一领域的实体识别任务,利用知识库自动从大规模文本库中生成训练数据集,训练一个基于上下文的命名实体判别模型,该判别模型不仅能够用于从大规模文本中挖掘别名信息,而且也可以作为候选实体指称项的上下文信息表征;根据文本错别字的统计特性对文本编辑距离进行了改进;进行二次候选实体生成,有效解决了候选实体召回率低的问题。

图1示出了本发明实施例中基于产生式别名挖掘的知识图谱实体发现和链接方法的流程示意图,如图1所示,该属性对齐方法包括以下步骤:

步骤A:实体别名挖掘;

实体别名挖掘主要分为实体名识别和别名发现挖掘两个步骤实现。

针对大规模文本库D={d1,d2,…,dN},d表示文本库中的文档,N表示文档数目。实体名识别的目标是识别出每篇文档中某一类或几类实体的名称,生成文档实体集合其中,表示第i篇文档di中识别出的实体指称项列表,M表示实体指称项,ni为文档di中识别出的实体指称项数目;别名发现针对知识库中每一个实体E,根据该实体的已知实体名EM(EM通常是无歧义的),在文档实体集中找出该实体的其他名称集合,生成别名-实体映射词典。

子步骤A1:训练集生成

本发明将实体名的识别问题建模为一个分类问题。对于长度为n的文档d={c1,c2,…,cn},其中,ci表示文档d中的第i个字符。对于文档d中的连续字符子串m=ci…cj(1≤i<j≤n),可以简写为(d,i,j),其中n,i,j为正整数。若(d,i,j)能够表示某类实体,即候选实体指称项为该类实体,则输出1,否则输出0。基于上述问题定义,生成该分类问题的训练集的方法如下:

选取某一类实体中流行度高且不会造成歧义的实体名集合,利用该集合的实体名在语料库的文档集D={d1,d2,…,dN}中进行字符串匹配,将匹配的字符子串判别为实体指称项,从而产生训练集的正样本;同时,从语料库中抽取一定比例的句子,字符子串的位置根据正样本的位置随机选取,生成训练集的负样本。

子步骤A2:生成基于上下文的实体判别模型

该子步骤提出了一个基于上下文的实体判别模型,利用上下文信息判断句子中的实体指称项是否指向某类实体(别名)。模型采用long short-term memory(LSTM)模型进行自动特征提取,Logistic层进行分类判别。基于上下文的实体判别模型结构如下图2所示。

具体的将要判别实体的句子作为判别模型的输入,该输入由句子中词语的两部分特征组成:句子中词本身的词义特征(词特征)和词相对于实体指称项的位置特征。输入特征包含了实体指称项的上下文信息,通过两层LSTM模型处理后,再通过Logistic层,最后获得实体判别结果的输出。

该判别模型有效地利用了上下文特征,可用于实体判别,同时也可作为后续候选实体指称项的上下文信息表征。

利用步骤A1生成的训练集,对提出的基于上下文的实体判别模型进行训练。将训练后的判别模型应用到大规模文本库中,识别各文档中的实体指称项,形成文档-实体集。

子步骤A3:大规模文本库中的别名挖掘方法

同一篇文档中,讨论到某个实体的时候,该实体名通常会多次出现在该文档中,第一次提到该实体的时候,通常会采用一个基本无歧义实体名,后面提到该实体的时候会采用简称、昵称等指代,称该现象为指代现象。由于语言的指代现象表现在大规模语料库上为实体名与实体简称、昵称呈现频繁模式。

基于上述语言现象,本发明提出的别名发现方法,具体思路如下图3所示。

针对知识库中的某一已知实体名EM,在生成的文档-实体集中检索出现该实体名的文档,计算该文档中的候选实体名的相关度值:

式中,表示候选实体名在文档-实体集中的频率,k为正整数,表示实体名EM和共现的频率。Rel值大于阈值θ的候选实体名构成频繁集SF。这时,SF中的候选实体名在文档中的分布与实体名EM强相关。对知识库中的实体名构建Lucene索引,以为查询词在索引中进行检索,若检索结果中实体名EM的相关度最高,则认为是实体名EM的别名,在文档-实体集中找出该实体的其他名称集合,生成别名-实体映射词典。

通过该别名挖掘方法,能够有效的挖掘出实体的别名,提高了候选实体生成的召回率。

步骤B:基于改进的文本编辑距离生成候选实体

利用步骤A的别名-实体映射词典,对输入文本进行基于改进的文本编辑距离的候选实体生成。

在候选实体生成过程中,通常会允许实体名与指称项之间存在一定的编辑距离,以处理拼写错误。但是,实体名中不同的字被写错或故意省略的概率是不相同的。比如distance(“菊次郎的夏”,“菊次郎之夏”)与distance(“菊次郎的夏,菊次郎的秋”),在编辑距离上是一致的,但是实际语义上却存在很大差别。

根据步骤A中挖掘的别名,产生一种新的编辑距离度量。对于某一实体的别名集合中,选择其中等长的实体名,将实体名中不同的部分记为一个相同的文字对,如“菊次郎的夏”“菊次郎之夏”等长,记录为eq(之,的)。如果eq(之,的)出现的次数大于某一个阈值且超过一定比例,记录下该比例值1-count(eq(之,的))/count(的)作为的文字对“的”和“之”的编辑距离。改进的编辑距离具有更高的容错性。

设定文本编辑距离的阈值,从输入文本中选取与别名-实体字典中名称的编辑距离在该阈值范围内的字符子串,生成候选实体指称项。

步骤C:候选实体判别

具体的,这里利用与步骤A2相同的基于上下文的实体判别模型,不同之处在于,训练数据利用人工标注的训练数据,进行模型的训练,从而判别步骤B中生成的候选实体指称项是否是某类实体。若某候选实体指称项为某类实体,则根据该候选实体指称项对应的别名,基于别名-实体字典,能够实现该候选实体指称项与知识库实体的链接。

步骤D:第二次候选实体生成

对于注明电影导演张艺谋,当上文出现“张艺谋”时,后文中在无歧义的情况下有时候会用“张”来指代之。显然“张”并不是张艺谋的别名,如果增大允许的编辑距离,同时降低别名挖掘中的频率阈值和置信度要求,能够使张艺谋出现在候选集中,但是会产生大量的错误的匹配比如张铁林、张靓颖等。

针对语言的指代特性,本发明提出了局部候选实体生成策略。在第一次识别完成之后,适当增大允许的文本编辑距离,并返回步骤B,进行第二次候选实体生成。重复步骤C的判别过程,获取新的实体判别结果。需要注意的是,要求本次新判别的候选实体指称项链接的实体必须出现在第一次链接的实体集合中出现,否则进行舍弃。该策略能够有效地召回且不增大模型的计算压力。

至此,本实施例介绍完毕,本领域的普通技术人员可对其进行简单地熟知地替换。

前面的附图中所描绘的进程或方法可通过包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,被承载在非瞬态计算机可读介质上的软件),或两者的组合的处理逻辑来执行。虽然上文按照某些顺序操作描述了进程或方法,但是,应该理解,所描述的某些操作能以不同顺序来执行。此外,可并行地而非顺序地执行一些操作。

需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换:

例如:步骤B中的文本编辑距离方法可以用Levenshtein距离来替换。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号