首页> 中国专利> 一种中国古典园林知识图谱补全与认知推理方法

一种中国古典园林知识图谱补全与认知推理方法

摘要

本发明提供一种中国古典园林知识图谱补全与认知推理方法,包括如下步骤:1、执行认知科学双通道理论中系统1,即知觉系统的功能,实现实体和关系的信息抽取。2、执行认知科学双通道理论中系统2,即分析系统的功能,进行推理,首先判断是否继续进行知识图谱补全,若已完成补全不再继续,则结束算法流程。本发明的技术方案主要有下列技术优点:1.具有第三代人工智能认知推理的能力;2.提高信息的利用率和执行效率;3.可广泛适用于全国古典园林。

著录项

说明书

技术领域

本发明涉及处理自然语言数据和信息检索及其数据库结构技术领域,尤其涉及一种中国古典园林知识图谱补全与认知推理方法。

背景技术

中国古典园林以其精湛的造园技艺和深厚的文化内涵享誉世界,是中国传统文化的重要组成部分。应用现代信息技术构建中国古典园林知识图谱,对于其保护与传承具有重要现实意义。

知识图谱以关系三元组形式表式事实信息集合。每个关系三元组可以表示为(e

然而,由于知识图谱在从文本中自动挖掘得来时,通常不完整,不可能手动编写所有海量的事实,而且在提取过程中经常会出现不准确的情况,会导致各种下游任务的性能下降。因此,需要研究知识图谱补全,其目标是可以在不需要额外知识的情况下自动添加新的事实,解决诸如(e

知识图谱补全的有效方法,是通过知识图谱认知推理得出新的知识。

传统的知识推理方法,包括本体推理方法,可用于面向知识图谱的知识推理。演绎推理在传统的知识推理中,尤其是在本体推理中占据重要的位置,但在面向知识图谱的知识推理中,归纳推理成为主要方法。演绎推理由于只要前提有效,推出的结论必定可靠,在传统的知识推理中得到广泛应用。但在知识图谱中,由于实例数量多,涉及的内容也往往很广,需要大量的逻辑规则,在实例层面的演绎推理时间复杂度很高,而在抽象概念层面的演绎推理又面临大量的实例化问题,将抽象概念替换成具体实体,同样代价很高,并且很难获取覆盖面足够广的概念层面的推理规则。近年来,面向知识图谱的知识推理随着分布式表示、神经网络等技术的流行,已发展出独有的推理方法,根据推理类型划分,分为单步推理和多步推理。每类再根据方法划分,又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理。

早期的知识图谱推理方法都是基于符号化的描述逻辑和规则。描述逻辑的显著优点是具有推理机制,能实现知识之间的自动推理。推理规则是可解释的,可以提供对推理结果的洞察。符号化的推理规则还能和机器学习结合来处理不确定性,被称为统计关系学习。许多利用神经网络来学习一阶逻辑规则的方法也已经被提出。虽然逻辑规则易于理解,但是它们对噪声敏感因此泛化性能差,后来被基于分布式向量表示的方法所代替。基于分布式向量表示的知识图谱推理方法又被称为知识图谱嵌入。在知识图谱嵌入中,实体和关系被表示成隐空间中的连续向量。基于连续向量,多种评分函数被定义来计算一个三元组(e

神经网络作为一种重要的机器学习算法,基本上是模仿人脑进行感知和认知。它在自然语言处理领域得到了广泛的应用,并取得了显著的效果。神经网络具有很强的特征捕获能力,通过非线性变换将输入数据的真实分布从原始空间转换为另一个特征空间,并自动学习特征表示。因此,它适用于知识推理等复杂任务。

单步推理中,基于神经网络的推理利用神经网络直接建模知识图谱事实元组,得到事实元组元素的向量表示,用于进一步的推理。该类方法依然是一种基于得分函数的方法,区别于其他方法,整个网络构成一个得分函数,神经网络的输出即为得分值。

神经张量网络(Neural Tensor Network,NTN)用双线性张量层代替传统的神经网络层,在不同的维度下,将头实体和尾实体联系起来,刻画实体间复杂的语义联系。其中,实体的向量表示通过词向量的平均得到,充分利用词向量构建实体表示。具体地,每个三元组用关系特定的神经网络学习,头尾实体作为输入,与关系张量构成双线性张量积,进行三阶交互,同时建模头尾实体和关系的二阶交互。最后,模型返回三元组的置信度,即:如果头尾实体之间存在该特定关系,返回高的得分;否则,返回低的得分。特别地,关系特定的三阶张量的每个切片对应一种不同的语义类型。一种关系多个切片可以更好地建模该关系下不同实体间的不同语义关系。引入类似的神经张量网络模型预测知识图谱中新的关系,通过用从文本无监督学到的词向量初始化实体表示提升模型,甚至可以预测知识图谱中未出现实体的关系。

共享变量神经网络模型ProjE通过简单的组合操作,组合三元组的已知部分(头实体与关系或尾实体与关系)建立目标向量空间,并映射未知部分(尾实体或头实体)的候选集到相同的空间,用基于候选的排序损失学习模型。相比于普遍采用的转移矩阵,组合操作减少了大量参数。进一步通过候选采样,处理大规模知识图谱。

包含描述的知识表示学习模型(Description-Embodied KnowledgeRepresentation Learning,DKRL)进行知识图谱中实体和关系预测。该模型使用两种编码器,包括连续词袋和深度卷积神经网络,通过学习实体的描述内容,不仅可以获得三元组的结构信息,还可以获得实体描述内容中的关键词和隐藏在语序中的文本信息。

部分研究者在循环神经网络(RNN)的基础上,也提出了适合知识图谱推理的方法。Path-RNN是一种利用循环神经网络,以非原子方式推理多跳连接关系的方法,使用路径排序算法为每个关系类型寻找不同的路径,然后将二元关系的嵌入表示作为输入向量。它在路径的第一个实体和最后一个实体之间关系的语义邻域中输出一个向量。三元组不是自然语言,用一个固定的表达式(h,r,t)来模拟复杂的结构。这样的短序列可能代表性不足,无法提供足够的信息进行推理。同时,从大量的路径中构造有用的长序列是昂贵和困难的。为了解决以上问题,用于知识图谱补全的深度序列模型DSKG使用多层RNN来处理实体和关系。具体来说,DSKG将独立的RNN单元用于实体层和关系层,因为这种为知识图谱特别设计的结构能够在关系多样化和复杂的情况下获得更好的性能。该模型不仅可以预测实体,还可以推断三元组。此外,将符号逻辑推理的丰富多步推理与神经网络的泛化能力相结合,使用RNN模型解决文本和大规模知识库中实体和关系的复杂推理问题。可联合推理关系、实体和实体类型,利用神经网络注意力机制建模融合多种路径,使用单一RNN模型代表所有关系之间的逻辑组成。用神经网络建模路径,充分学习多步路径的向量表示,得分函数关联于路径的表示与直接关系表示的相似度,希望正例对应的相似度大,即乘积大,负例小。

利用神经网络强大的学习能力,模拟计算机或人脑的知识存储和处理方式,用一个存储结构模拟人脑的存储记忆,用一个控制器模拟人脑的控制处理中心,通过对知识图谱中已知三元组的学习记忆,希望神经网络能够具有人脑的推理能力,推理出新的三元组。

可微分神经计算机(Differentiable Neural Computer,DNC)包含一个LSTM(长短期记忆)神经网络控制器和可以读写的外部存储矩阵。训练时,DNC以知识图谱三元组向量作为输入,通过神经网络进行外部存储矩阵的读写,模拟人脑利用已有的经验知识学习推理新知识,并更新已有的知识。测试时,需要推理预测的三元组对应字段留空(例如预测头实体,则头实体字段留空),输入训练好的DNC,控制器不断与外部存储矩阵交互,多步推理,最后输出补全的三元组。

隐性推理网(IRN),通过一个控制器和共享内存,在神经空间隐性地进行多步推理。IRN拼接三元组的已知部分向量输入RNN神经网络控制器,控制器判断当前状态向量是否已经编码了足够的信息。如果没有编码足够信息,则根据当前状态向量和通过注意力机制从共享内存得到的关注向量共同产生下一个状态,实现多步推理;否则,停止推理,产生输出向量,与目标向量进行比较,梯度更新参数和共享内存,进行模型学习。测试时,用产生的输出向量找到与之相似度大的实体向量作为预测结果。

基于认知计算的深度学习推理框架CogKR,模仿认知科学中的双过程理论,能够访问知识图谱来进行多跳的关系推理。具体来说,CogKR由一个扩展模块和一个推理模块组成,通过协调两个模块来构建一张认知图谱,从而能够基于认知图谱上的子图而不是路径来进行推理,从而适应更加复杂的推理场景。通过这些模型间的动态交互和端到端训练,CogKR能够将它们结合成一个统一的结构,并且联合优化它们来进行知识图谱推理。

基于神经网络的推理方法利用神经网络强大的学习能力来表示知识图谱中的三元组,从而获得更好的推理能力。然而,在知识图谱推理任务中,神经网络模型难以解释的问题仍然存在,如何解释神经网络的推理能力值得研究。迄今为止,基于神经网络的推理方法研究日益增多,但投入实际应用的算法较少,其强大的表现能力和在其他领域的突出表现,使其具有广阔的发展前景,将现有的神经网络方法扩展到知识图谱推理领域值得探索。

发明内容

本发明的目的是为了解决现有技术中存在的问题,提供一种中国古典园林知识图谱补全与认知推理方法。

认知科学中的双通道理论认为,在人脑的认知系统中存在两个系统:系统1和系统2。系统1是一个直觉系统,可通过人对相关信息的一个直觉匹配寻找答案,非常快速、简单;系统2是一个分析系统,通过一定的推理、逻辑作出决策找到答案。

人工智能三个发展阶段:从过去机器智能,到现在感知智能,正向认知智能发展。

目前的主流研究工作都处在感知智能阶段,主要集中实现系统1的功能。

在构建古典园林知识图谱的基础上,研究认知推理,并以知识图谱补全为切入点,实现从感知智能阶段进入认知智能阶段。

课题前期工作中设计的信息抽取算法,把输出层从CRF换为状态转换层,把序列标注问题换作通过状态转换进行有向图生成的问题,充分利用处理过程中实体与关系之间的关联信息,既能同时实现实体与关系的信息抽取,又能提高信息的利用率和执行效率。因此考虑继续保持信息利用率,同时进行实体和关系的补全。通过将关系从边空间投影到实体的节点空间,统一对实体节点和关系边进行聚合运算和推理预测,提高知识图谱补全的知识利用率和算法执行效率。并积极实现系统2的推理功能。

为了实现上述目的,本发明采用了如下技术方案:一种中国古典园林知识图谱补全与认知推理方法,包括如下步骤:

1、执行认知科学双通道理论中系统1,即知觉系统的功能,实现实体和关系的信息抽取。

第1步包含4小步:步骤1.1,根据输入计算得出字向量嵌入序列,步骤1.2,对该序列进行Bi-LSTM编码,即双向长短期记忆编码,步骤1.3,执行状态转换,先判断若状态到达终态,则已抽取完实体和关系,结束;否则,根据概率计算,进入下一步,步骤1.4,选择一种实体抽取状态转换动作,或者选择一种关系抽取状态转换动作,执行完毕后均返回步骤1.3,最终完成实体和关系抽取,到达终态,进入算法下一步。

2、执行认知科学双通道理论中系统2,即分析系统的功能,进行推理,首先判断是否继续进行知识图谱补全,若已完成补全不再继续,则结束算法流程。

否则,执行4小步:步骤2.1,进行实体聚合,步骤2.2,完成关系聚合,步骤2.3,执行推理预测,步骤2.4,完成知识图谱补全后,回到2的开头判断,即首先判断是否继续进行知识图谱补全,直到补全不再继续,算法结束。

本专利的第1步中所述的系统1,即知觉系统的功能,实现实体和关系的信息抽取的详细步骤如下:

步骤1.1:字向量嵌入;

对每个输入令牌,用下式计算向量嵌入:

其中,w

计算得出向量嵌入序列:

x=(x

步骤1.2:Bi-LSTM编码:

对步骤1.1得出的序列x进行Bi-LSTM(双向长短期记忆)编码,首先按照从x

对当前输入x

用状态z

z

用状态z

z

将上两步控制结果执行矩阵加法,即得到传输给下一个状态的长期记忆c

c

通过状态z

h

最终通过h

y

向前LSTM编码

步骤1.3:状态转换:

对Bi-LSTM编码结果进行状态转换:

定义六元组(σ,δ,e,β,E,R)表示每个时刻的状态,其中σ是保存已生成实体的栈,δ是保存被从σ中临时弹出之后会被重新压入的实体的栈,e存储正在处理的部分实体块,β是含有未处理词的缓冲区,E保存已经生成的实体集合,R保存已经生成的关系集合;

接下来的信息抽取任务,就可表示为从初态

对于t时刻的状态:

m

通过下式计算概率

可预测在t时刻将选取的状态转换动作,根据预测结果,转入步骤1.4或步骤1.5,执行一种状态转换后,返回步骤1.3,直致到达终态;

给定输入w,任何合理的状态转换动作序列z的概率可以表示为:

因此有:

当状态六元组中的e,β为空栈时,即到达终态,状态转换结束,此时的集合E,R中分别为抽取到的实体和关系,可输出至系统2执行推理;

步骤1.4:实体抽取:

与实体识别有关的状态转换动作有三种,根据步骤1.3选择执行其中一种状态转换后,返回步骤1.3;

先判断若当前处理的字j不在实体集合E中,且正在处理的实体块e为空栈,表示不是要抽取的目标信息,则将j从待处理缓冲区β中删除;

判断若当前处理的字j不在实体集合E中,但被选中要做进一步运算,则将j从待处理缓冲区β转移到正在处理的实体块e中;

判断若当前处理的字j不在实体集合E中,且正在处理的实体块e不为空栈,则将j标记后移回待处理缓冲区β中,并将新实体j*并入实体集合E中;

步骤1.4:关系抽取:

与关系抽取有关的状态转换动作有七种,根据步骤1.3选择执行其中一种状态转换后,返回步骤1.3;

先判断若找到左向关系,则将该关系并入关系集合R,并将关系终点实体i*从已生成实体栈σ中出栈;

判断若找到右向关系,则将该关系并入关系集合R,并将关系终点实体j*转移到已生成实体栈σ中;

判断若未抽取到关系,则将实体j*转移到已生成实体栈σ中;

判断若未抽取到关系,则将实体i*从已生成实体栈σ中出栈;

判断若找到左向关系,则将该关系并入关系集合R,并将关系终点实体i*从已生成实体栈σ中出栈,然后入栈到临时栈δ中;

判断若找到右向关系,则将该关系并入关系集合R,并将关系起点实体i*从已生成实体栈σ中出栈,然后入栈到临时栈δ中;

此状态转换被选中执行后,直接将实体i*从已生成实体栈σ中出栈,然后入栈到临时栈δ中。

本专利的第2步中所述的系统2,即分析系统的功能,实现4小步的详细步骤如下:

步骤2.1:实体聚合:

在上一步得出的实体集合E与关系集合R的基础上,对每一关系r,r∈R,分别通过下式迭代计算,聚合生成该关系下的邻接实体点集;

其中,(u,r)∈N(v)是实体节点v在关系边r下的邻接点集,W

步骤2.2:关系聚合:

为了统一对实体节点和关系边进行聚合运算,需要把边从边空间投影到节点空间,先把所有的边用一组基向量{v

e

其中,W

步骤2.3:推理预测:

先计算评分函数,

f(e

再计算逻辑回归分布,

取概率值大的为预测结果;

步骤2.4:图谱补全:

令e

M(e

然后计算发送给节点的邻居消息聚合,

m

最后用下式更新实体和关系,完成补全,

e

步骤2.1到2.4的算法过程反复迭代,直至全部完成。

本发明的技术方案主要有下列技术优点。

1.具有第三代人工智能认知推理的能力

认知科学中的双通道理论认为,在人脑的认知系统中存在两个系统:系统1和系统2。系统1是一个直觉系统,可通过人对相关信息的一个直觉匹配寻找答案,非常快速、简单;系统2是一个分析系统,通过一定的推理、逻辑作出决策找到答案。

人工智能三个发展阶段:从过去机器智能,到现在感知智能,正向认知智能发展。

目前的主流研究工作都处在感知智能阶段,主要集中实现系统1的功能。

在构建古典园林知识图谱的基础上,研究认知推理,并以知识图谱补全为切入点,算法执行认知科学双通道理论中系统1的信息抽取功能和系统2的推理功能,具有第三代人工智能认知推理能力,实现从感知智能阶段进入认知智能阶段。

2.提高信息的利用率和执行效率

算法系统1实现信息抽取,把输出层从CRF换为状态转换层,把序列标注问题换作通过状态转换进行有向图生成的问题,充分利用处理过程中实体与关系之间的关联信息,既能同时实现实体与关系的信息抽取,又能提高信息的利用率和执行效率。算法系统2实现认知推理,通过将关系从边空间投影到实体的节点空间,统一对实体节点和关系边进行聚合运算和推理预测,同时进行实体和关系的补全,提高知识图谱补全的知识利用率和算法执行效率。

3.可广泛适用于全国古典园林

本发明的中国古典园林信息抽取算法,设计科学、结构严密、格式规范,作为北京市重点研发计划课题《基于多源数据融合的古典园林知识图谱构建和服务技术研究及应用》的研究成果,具有扎实的工作基础。

本发明在上述系列工作过程中,不断发展并得到充分的应用和验证。因此,本发明可广泛适用于全国古典园林。

具体实施方式

一种中国古典园林知识图谱补全与认知推理方法,包括如下步骤:

1、执行认知科学双通道理论中系统1,即知觉系统的功能,实现实体和关系的信息抽取。

第1步包含4小步:步骤1.1,根据输入计算得出字向量嵌入序列,步骤1.2,对该序列进行Bi-LSTM编码,即双向长短期记忆编码,步骤1.3,执行状态转换,先判断若状态到达终态,则已抽取完实体和关系,结束;否则,根据概率计算,进入下一步,步骤1.4,选择一种实体抽取状态转换动作,或者选择一种关系抽取状态转换动作,执行完毕后均返回步骤1.3,最终完成实体和关系抽取,到达终态,进入算法下一步。

2、执行认知科学双通道理论中系统2,即分析系统的功能,进行推理,首先判断是否继续进行知识图谱补全,若已完成补全不再继续,则结束算法流程。

否则,执行4小步:步骤2.1,进行实体聚合,步骤2.2,完成关系聚合,步骤2.3,执行推理预测,步骤2.4,完成知识图谱补全后,回到2的开头判断,即首先判断是否继续进行知识图谱补全,直到补全不再继续,算法结束。

本专利的第1步中所述的系统1,即知觉系统的功能,实现实体和关系的信息抽取的详细步骤如下:

步骤1.1:字向量嵌入;

对每个输入令牌,用下式计算向量嵌入:

其中,w

计算得出向量嵌入序列:

x=(x

步骤1.2:Bi-LSTM编码:

对步骤1.1得出的序列x进行Bi-LSTM(双向长短期记忆)编码,首先按照从x

对当前输入x

用状态z

z

用状态z

z

将上两步控制结果执行矩阵加法,即得到传输给下一个状态的长期记忆c

c

通过状态z

h

最终通过h

y

向前LSTM编码

步骤1.3:状态转换:

对Bi-LSTM编码结果进行状态转换:

定义六元组(σ,δ,e,β,E,R)表示每个时刻的状态,其中σ是保存已生成实体的栈,δ是保存被从σ中临时弹出之后会被重新压入的实体的栈,e存储正在处理的部分实体块,β是含有未处理词的缓冲区,E保存已经生成的实体集合,R保存已经生成的关系集合;

接下来的信息抽取任务,就可表示为从初态

对于t时刻的状态:

m

通过下式计算概率

可预测在t时刻将选取的状态转换动作,根据预测结果,转入步骤1.4或步骤1.5,执行一种状态转换后,返回步骤1.3,直致到达终态;

给定输入w,任何合理的状态转换动作序列z的概率可以表示为:

因此有:

当状态六元组中的e,β为空栈时,即到达终态,状态转换结束,此时的集合E,R中分别为抽取到的实体和关系,可输出至系统2执行推理;

步骤1.4:实体抽取:

与实体识别有关的状态转换动作有三种,根据步骤1.3选择执行其中一种状态转换后,返回步骤1.3;

先判断若当前处理的字j不在实体集合E中,且正在处理的实体块e为空栈,表示不是要抽取的目标信息,则将j从待处理缓冲区β中删除;

判断若当前处理的字j不在实体集合E中,但被选中要做进一步运算,则将j从待处理缓冲区β转移到正在处理的实体块e中;

判断若当前处理的字j不在实体集合E中,且正在处理的实体块e不为空栈,则将j标记后移回待处理缓冲区β中,并将新实体j*并入实体集合E中;

步骤1.4:关系抽取:

与关系抽取有关的状态转换动作有七种,根据步骤1.3选择执行其中一种状态转换后,返回步骤1.3;

先判断若找到左向关系,则将该关系并入关系集合R,并将关系终点实体i*从已生成实体栈σ中出栈;

判断若找到右向关系,则将该关系并入关系集合R,并将关系终点实体j*转移到已生成实体栈σ中;

判断若未抽取到关系,则将实体j*转移到已生成实体栈σ中;

判断若未抽取到关系,则将实体i*从已生成实体栈σ中出栈;

判断若找到左向关系,则将该关系并入关系集合R,并将关系终点实体i*从已生成实体栈σ中出栈,然后入栈到临时栈δ中;

判断若找到右向关系,则将该关系并入关系集合R,并将关系起点实体i*从已生成实体栈σ中出栈,然后入栈到临时栈δ中;

此状态转换被选中执行后,直接将实体i*从已生成实体栈σ中出栈,然后入栈到临时栈δ中。

本专利的第2步中所述的系统2,即分析系统的功能,实现4小步的详细步骤如下:

步骤2.1:实体聚合:

在上一步得出的实体集合E与关系集合R的基础上,对每一关系r,r∈R,分别通过下式迭代计算,聚合生成该关系下的邻接实体点集;

其中,(u,r)∈N(v)是实体节点v在关系边r下的邻接点集,W

步骤2.2:关系聚合:

为了统一对实体节点和关系边进行聚合运算,需要把边从边空间投影到节点空间,先把所有的边用一组基向量{v

e

其中,W

步骤2.3:推理预测:

先计算评分函数,

f(e

再计算逻辑回归分布,

取概率值大的为预测结果;

步骤2.4:图谱补全:

令e

M(e

然后计算发送给节点的邻居消息聚合,

m

最后用下式更新实体和关系,完成补全,

e

步骤2.1到2.4的算法过程反复迭代,直至全部完成。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号