法律状态公告日
法律状态信息
法律状态
2019-04-30
授权
授权
2017-08-01
实质审查的生效 IPC(主分类):G06F17/30 申请日:20170310
实质审查的生效
2017-07-07
公开
公开
技术领域
本发明涉及一种通过计算机将文本中提取到的实体指称链接到知识库中对应实体的方法,属于信息处理技术领域。
背景技术
目前尚未发现基于多域实体索引,并结合上下文相似度、实体流行度的实体链接方法,但存在基于同义词典和歧义词典的候选实体发现和链接方法。
实体链接(Entity Linking),是指将文本中提取到的实体指称链接到知识库中对应的实体上。实体链接技术有利于从非结构化本文中挖掘出有价值的信息,对于计算机理解文本的真实含义具有重要影响。具体而言,实体链接可以解决非结构化文本中广泛存在的实体多样性和歧义性问题。实体多样性是指一个实体可以用多个实体指称表示,例如实体美国在不同的语境中可以用“United States”、“United States of America”、“USA”来指代。歧义性是指相同的实体指称在不同的上下文环境中指向不同的实体对象,例如,实体指称“Apple”在不同的语境下可能指代水果“Apple”或科技领域的“Apple”公司或“Apple”产品。
当前的实体链接使用了多种技术方法,包括单实体链接方法和集成实体链接方法。单实体链接方法一次仅对文本中的一个实体进行链接,通过计算从文本中抽取的实体指称与知识库中获得的候选实体之间的上下文相似度,选择相似度最大的候选实体作为链接实体。集成实体链接方法是对文本中出现的所有实体指称同步进行实体链接。然而,上述方法多是基于别名词典进行候选实体的查找,别名词典是指根据实体的维基页面标题,重定向页面,消歧页面和锚文本建立的词典。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多域实体索引的实体链接方法,该方法根据事先建立的多域实体索引,进行候选实体搜索,利用上下文相似度及流行度得分对候选实体排序来实现实体链接,以及便于一系列后续应用(如问答系统)的开展。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多域实体索引的实体链接方法,包括如下步骤:
(1)对知识库中每个实体建立多域索引
对每个实体(一个单词或一个短语)收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引;
(2)产生候选实体
将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数;同时,对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序;
(3)将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei);
在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei);prop.Ti1、prop.Ti2、prop.Ti3和m.T均使用标准向量空间模型表示;
(4)将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:
本发明所述的四个域,通过名字域在大量的知识库实体中进行初次筛选,得到候选实体;通过属性域、出关系域和入关系域计算候选实体与实体指称之间的上下文相似度得分,入关系域还用于计算候选实体的流行度得分。
具体的,所述步骤(3)中,候选实体ei与实体指称m的上下文相似度得分计算过程为:
首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:
然后,对三个余弦相似度进行加和:
将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
具体的,所述步骤(3)中,实体指称m所在句的所有单词m.T包括该所有单词在WordNet中的同义词以及在ConceptNet中的相关词。
具体的,所述步骤(3)中,候选实体ei的流行度PS(ei)计算过程为:
其中,num(ei)为在候选实体ei的入关系域中,在知识库内统计到的其他实体到候选实体ei的入关系次数。
有益效果:本发明提供的基于多域实体索引的实体链接方法,相对于现有技术,具有如下优势:本发明不需基于别名词典进行候选实体的查找,而是针对知识库实体的不同属性(关系)分域建立索引,通过对名字域搜索得到与实体指称匹配的候选实体;对于初步筛选出的候选实体,利用其他域索引的信息计算候选实体的上下文得分和流行度得分,对候选实体重新排序并将实体指称链接到得分最高的候选实体上;因此本发明能够解决实体链接问题,以及便于一系列后续应用(如自然语言问答)的开展。
附图说明
图1为本发明的实施流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种基于多域实体索引的实体链接方法,如图1所示,该方法包含对知识库中实体建立多域索引的过程,基于多域索引筛选候选实体及利用上下文相似度得分及流行度得分对候选实体重新排序并将实体指称链接到得分最高实体上到过程。
由于知识库中收录的实体数量有限,有可能无法为所有的实体指称找到候选实体,因此将满足此条件的实体指称定义为无指代实体指称,以NIL表示。我们以m表示待链接的实体指称,以E表示知识库中的所有实体,实体链接任务是将实体指称m链接到E∪{NIL}集合中的某个元素上。具体实施过程如下:
步骤一:对知识库中每个实体建立多域索引
对每个实体收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引。
步骤二:产生候选实体
将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数。
步骤三:计算文本相似度得分
对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序。
步骤四:计算上下文相似度得分
将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei)。具体计算过程如下:
首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:
然后,对三个余弦相似度进行加和:
将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
需要说明的是,实体指称m所在句的所有单词m.T包括该所有单词在WordNet中的同义词以及在ConceptNet中的相关词。
步骤五:计算流行度得分
在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei):
其中,num(ei)为在候选实体ei的入关系域中,在知识库内统计到的其他实体到候选实体ei的入关系次数。
步骤六:得到链接对象
将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:
本发明在实验过程中,使用Lucene(https://lucene.apache.org/core/)为知识库中实体建立多域索引。使用libsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)对权重向量W进行训练,训练出的权重向量W=<0.50,0.23,0.26>。本发明提出的基于多域实体索引的实体链接方法,在DBpedia 2015-04版本数据集上,最好情况下准确率达到72%。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 基于日历/时间的连接的实体(实体)网络,其中实体指的是“个人/社会/私人-公共团体/企业/信托等。使用/工作方式:设计和系统过程,使用系统过程来链接和管理日历/时间/方法,例如链接时间,标记/发布日历,公开或私下显示日历,通过唯一的身份ID在网络用户中设置会议/聚会/约会唯一身份ID用于通过互联网与任何电子设备链接日历
机译: 实体链接创建方法,例如公司,涉及通过链接实体的标识系统来创建实体之间的链接,这些标识系统用作标识单元,并且是明确且通用的,其中系统存储在通用内存中
机译: 一种操作网络基础设施侧网络实体的方法,一种网络基础设施侧网络实体,一种操作路侧网络实体的方法以及路侧网络实体