法律状态公告日
法律状态信息
法律状态
2017-07-07
授权
授权
2014-12-03
实质审查的生效 IPC(主分类):G06F17/27 申请日:20140610
实质审查的生效
2014-09-10
公开
公开
技术领域
本发明属于文本语义处理、语义网技术领域,具体涉及一种基于语义空间映射的知识图谱管理方法和系统。
背景技术
构建知识图谱是大数据时代的一项重大工程,它能将杂乱的数据进行关联并整理成结构化的知识提供给用户,这一特征决定了它在许多领域都会有重要的应用,例如,目前的搜索引起都是基于关键字匹配进行搜索的,而当知识图谱建立起来后,在输入某个关键字后,就可以返回这个关键字的属性、类别、与其它实体的关系等关联信息,这样可以更准确、完善的为用户提供所需要的信息。知识图谱是实现语义搜索、机器自动问答、互联网广告推荐、个性化电子阅读等一系列应用的基石,而是否能有效地对知识图谱进行管理则将直接决定它在这些领域所发挥作用的大小。
然而,目前的知识图谱构建中最终抽取出的是一种确定性的关系表示,而这种确定性描述在词语变形、同义词变化、语法形式变化等情况下的适应性不强,比如两条语义相似的边由于是以不同的词语进行描述,则会被看作是完全不同的两条边,这种处理方式不仅不合理,还会给知识图谱的管理如边/结点聚类、边/结点去重、边/结点标注等带来巨大困难,从而影响到知识图谱的有效应用。
发明内容
本发明针对当前知识图谱管理技术方法的不足,提出了一种基于语义空间映射的知识图谱管理方法和系统。
对于知识图谱的边/结点(即实体间关系/实体),首先将描述其的文本单元向语义空间投影并进行累积,从而获得该边/结点在语义空间上的向量表示;继而在文本语义向量化的基础上,可以进一步实现知识图谱的多项管理任务:可使用聚类方法并结合向量相似性度量来方便地进行边/结点的语义聚类,从而挖掘出语义相近的实体间关系/实体;可以在语义聚类的基础上,通过计算典型边/典型结点取代类集合来实现语义去重;可依据新加入的边/结点与已标注边/结点模型的语义距离实现关系/实体的自动标注等。
本发明提出的基于语义空间映射的知识图谱管理方法,具体步骤如下:语义向量构建、语义空间映射、知识图谱管理;其中:
(1)语义向量构建的具体步骤如下:
是基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量,其优点是文本单元之间的语义相似度可以根据对应向量在语义空间中的距离远近进行比较,语义接近的词,它们对应的语义向量在空间上的距离也会很近,这样就克服了词语间直接比较时受到的词语变形、同义词变化、语法形式变化的影响。
语义向量可通过多种方法计算获得,如Word2Vec方法、ESA(Explicit semantic analysis)方法、LSA(Latent semantic analysis)方法、共现词频率特征等等,优选地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同时参见文献[1,2,3])。
构建语义向量的训练数据的选择原则是以大规模、百科类型的语料库来保证高覆盖率以及领域无关性,优选地,采用维基百科知识库(http://www.wikipedia.org/)作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。
(2)语义空间映射
是将知识图谱中表示边结点的文本映射为语义空间中的向量,具体步骤如下:
(2.1)对知识图谱中的边/结点(实体间关系/实体)中的词语进行过滤处理,去除其中无语义的停用词;
(2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量。
(3)知识图谱管理分为四个分步骤:语义聚类、语义去重、语义标注;
(3.1)语义聚类,是在知识图谱构建基础上的进一步的语义挖掘,这对管理知识图谱十分重要,具体包括边聚类(关系聚类)和结点聚类(实体聚类)。对于边聚类,既可以对连接不同结点对的边进行聚类,发现有着相似语义关系的实体对,也可以对一个结点的多条边进行聚类,挖掘出该结点的主要相关实体分类,甚至可以对连接同一对结点的多条边进行聚类,挖掘出它们间的主要关系分类;对于结点聚类,则可以发现语义相近的实体。
语义聚类的具体步骤如下:
对待聚类的边/结点集合,首先基于构建好的语义向量库进行语义空间映射,然后进一步地对获得的这些语义向量进行聚类。聚类方法可采用多种方法如层次聚类方法、Kmeans方法等,优选地,采用层次聚类方法。相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
其中,x和y分别为待比较的两个向量,Sim为计算得到的Cosine相似度结果。
(3.2)语义去重
基于大数据构建的知识图谱普遍存在着这种情况:许多不同的边/结点尽管具体的表示形式(描述关系/实体的文本)不一,但其所表示的语义内容却是非常接近甚至是一致的,这将会导致知识图谱在规模增长的同时也伴随着冗余信息量的增加。从数据清洗角度出发,如果对这些边/结点进行统一表示、实现语义去重(边去重、结点去重),将会在减少语义边/结点的数量(即关系/实体的数量)的同时实现知识图谱的精简表示。
语义去重的具体步骤如下:
对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:
这里,Vi是待合并集合中对应第i个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
通过用计算选取典型边/典型结点来进行关系/实体去重,将在有效降低知识图谱的存储空间、实现知识图谱精简表示的同时又不失去代表性。
(3.3)语义标注
通过比较输入边/结点与已知边/结点模型的语义相似度,判断其所对应的模型,然后为其贴上预先定义的已知类型范围内的相应标签,其好处是便于知识图谱中边/结点的统一表示和管理。语义标注具体步骤如下:
(3.3.1)边/结点模型构建:
对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型(也即关系/实体模型),模型的构建可使用多种方法如均值向量模型、高斯模型、人工神经网络、支持向量机等,优选地,使用均值向量模型;同时,手工为每一类关系/实体标定出其对应的类型标签。
其中,mi,j表示第i类中第j个向量,ni为该类中的样本个数,为均值向量。
在模型构建完成后,即将其添加进边/结点模型库。
(3.3.2)边/结点识别
对于待查询的边/结点,在按语义空间映射模块所述步骤获得其语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
以均值向量模型为例,输出的类别Class为:
V为待识别的语义向量,为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
(3.3.3)边/结点语义标注
对于上一步骤中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
本发明还提供对应于上述方法的基于语义空间映射的知识图谱管理系统。系统由三大模块组成:语义向量构建模块、语义空间映射模块、知识图谱管理模块。其中,知识图谱管理模块又包括三个子模块:语义聚类子模块、语义去重子模块、语义标注子模块。
具体内容如下:
(1)语义向量构建模块:
本模块的作用是基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量,其优点是文本单元之间的语义相似度可以根据对应向量在语义空间中的距离远近进行比较,语义接近的词,它们对应的语义向量在空间上的距离也会很近,这样就克服了词语间直接比较时受到的词语变形、同义词变化、语法形式变化的影响。
构建语义向量的训练数据的选择原则是以大规模、百科类型的语料库来保证高覆盖率以及领域无关性,优选地,采用维基百科知识库(http://www.wikipedia.org/)作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。
(2)语义空间映射模块,具体内容如下:
本模块是将知识图谱中表示边结点的文本映射为语义空间中的向量:
(2.1)对知识图谱中的边/结点(实体间关系/实体)中的词语进行过滤处理,去除其中无语义的停用词;
(2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量。
(3)知识图谱管理模块,具体内容如下:
该模块负责完成知识图谱的管理,它又包括三个子模块:语义聚类子模块、语义去重子模块、语义标注子模块。分别对应于知识图谱管理步骤中的3个分步骤;
(3.1)语义聚类子模块
语义聚类是在知识图谱构建基础上的进一步的语义挖掘,这对管理知识图谱十分重要,具体包括边聚类(关系聚类)和结点聚类(实体聚类)。对于边聚类,既可以对连接不同结点对的边进行聚类,发现有着相似语义关系的实体对,也可以对一个结点的多条边进行聚类,挖掘出该结点的主要相关实体分类,甚至可以对连接同一对结点的多条边进行聚类,挖掘出它们间的主要关系分类;对于结点聚类,则可以发现语义相近的实体;
(3.2)语义去重子模块
基于大数据构建的知识图谱普遍存在着这种情况:许多不同的边/结点尽管具体的表示形式(描述关系/实体的文本)不一,但其所表示的语义内容却是非常接近甚至是一致的,这将会导致知识图谱在规模增长的同时也伴随着冗余信息量的增加。从数据清洗角度出发,如果对这些边/结点进行统一表示、实现语义去重(边去重、结点去重),将会在减少语义边/结点的数量(即关系/实体的数量)的同时实现知识图谱的精简表示。
语义去重的具体内容如下:
对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:
这里,Vi是待合并集合中对应第i个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度;
通过用计算选取典型边/典型结点来进行关系/实体去重,将在有效降低知识图谱的存储空间、实现知识图谱精简表示的同时又不失去代表性;
(3.3)语义标注子模块
该模块通过比较输入边/结点与已知边/结点模型的语义相似度,判断其所对应的模型,然后为其贴上预先定义的已知类型范围内的相应标签,其好处是便于知识图谱中边/结点的统一表示和管理。该子模块具体内容如下:
(3.3.1)边/结点模型构建:
对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型(也即关系/实体模型),模型的构建可使用多种方法如均值向量模型、高斯模型、人工神经网络、支持向量机等,优选地,使用均值向量模型;同时,手工为每一类关系/实体标定出其对应的类型标签。
其中,mi,j表示第i类中第j个向量,ni为该类中的样本个数,为均值向量。
在模型构建完成后,即将其添加进边/结点模型库。
(3.3.2)边/结点识别
对于待查询的边/结点,在按语义空间映射模块所述步骤获得其语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
以均值向量模型为例,输出的类别Class为:
V为待识别的语义向量,为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
(3.3.3)边/结点语义标注
对于上一步骤中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
本发明的有益效果
本发明通过将表示知识图谱边/结点的文本映射为语义向量,克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的知识图谱管理任务如语义聚类、语义去重、语义标注,在增强处理灵活性的同时,也提高了语义比较的准确性。
附图说明
图1:系统模块图。
图2:层次聚类结果图(边聚类)。横坐标为实体对的序号,纵坐标为类间距离。
图3:层次聚类结果图(结点聚类)。横坐标为实体的序号,纵坐标为类间距离。
图4:语义去重-典型边选取。横坐标为实体的序号,纵坐标为相似度。
具体实施方式
以下用实例来演示本发明的具体实施方式,系统各模块依次进行处理如下:
(1)语义向量构建
基于整个英文维基库(http://www.wikipedia.org/)的文本语料,使用Word2Vec进行训练,训练输出的向量维度为500维。
(2)语义空间映射
对于边/结点上的词语,在去除停用词后,从训练好的语义向量库中取出对应的语义向量,然后再进行向量累加,从而得到该边/结点的语义向量表征。
(3)语义聚类
(3.1)边语义聚类
输入例子,格式为:
序号:{结点1}, {边}, {结点2}
1:{Shanghai}, {large city}, {China}
2:{ipad}, {product}, {Apple}
3:{Barack Obama}, {president}, {USA}
4:{Kindle}, {manufacture}, {Amazon}
5:{New York}, {metropolis}, {USA}
6:{Dmitry Medvedev}, {Prime Minister}, {Russia}
层次聚类结果图(边聚类)如图2所示。
取阈值为0.8,聚类结果如下:
第一类:2、4
第二类:1、5
第三类:3、6
聚类结果正确;
(3.2)结点语义聚类
输入6个结点:
1:{tuna}
2:{tiger}
3:{leopard}
4:{car}
5:{fish}
6:{train}
层次聚类结果图(结点聚类)见图3所示。
取阈值为0.8,聚类结果如下:
第一类:1、5
第二类:2、3
第三类:4、6
聚类结果正确。
(4)语义去重
例如,知识图谱中的两个结点:{Bill Gates}、{Microsoft},它们间如下的边在语义聚类后被聚在同一类中:
1:{CEO}
2:{executives}
3:{president}
4:{chief executive officer}
5:{current chairman}
6:{chairman}
7:{chair}
语义去重-典型边选取,见图4所示。
将所有这些边的语义向量累加后得到总体语义表征向量,然后依次计算各条边与该总体语义表征向量的相似度,并选取相似度最大的为典型边,序号为6,即{chairman},这样,仅用1条典型边就取代了原先被聚成同一类的7条边,达到了知识图谱精简表示、减少存储空间且不失代表性的目的。
(5)语义标注
例如,对于完成聚类的一类关系的边集合:
1:{large city}
2:{metropolis}
3:{megacity}
4:{major city}
5:{big cities}
6:{megacities}
7:{mega cities}
根据其对应的语义向量集合构建均值向量模型,并标定模型的类型标签为“metropolitan area”。
对于新输入的一条边{big city},计算其对应的语义向量与边模型的相似度,
Sim = 0.8434
取阈值为0.8,则认为输入边与该类边表示的语义相同,因而将模型类型标签“metropolitan area”赋给输入边,从而完成语义标注过程,其好处是通过比较输入边与边模型的相似程度,为输入边贴上预先定义的已知类型范围内的标签,便于知识图谱中边的统一表示和管理。
参考文献
[1] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, et al. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013。
机译: 对象语义数据建模系统;一种用于创建相对于数据库存储数据的数据库模式的方法,一种在D中解释公式的方法,以及一种对象语义类型的数据模型的有效期的数据模型,该对象语义类型的数据模型包括多个对象语义。和系统来创建数据库架构
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质