首页> 中国专利> 基于变分推断和张量神经网络的知识库补全方法

基于变分推断和张量神经网络的知识库补全方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于变分推断和张量神经网络的知识库补全方法，在知识库补全方法中引入了张量分解思想和贝叶斯框架，考虑了隐含变量的先验知识，探讨了隐含变量两两之间的相互作用，并用神经网络进行了非线性的表达，增加了对不确定性的考虑，较为明显的提高了知识库补全方法的精度，与现有的技术相比有了较大的提升。

著录项

公开/公告号CN106228245A

专利类型发明专利
公开/公告日2016-12-14

原文格式PDF
申请/专利权人电子科技大学;
展开▼

申请/专利号CN201610578882.9
发明设计人徐增林;贺丽荣;刘斌;李广西;盛泳潘;王雅芳;
展开▼

申请日2016-07-21
分类号G06N5/02(20060101);G06N3/04(20060101);
代理机构成都宏顺专利代理事务所(普通合伙);
代理人周永宏;王伟
地址 611731 四川省成都市高新区(西区)西源大道2006号
入库时间 2023-06-19 01:08:44

法律信息

法律状态公告日

法律状态信息

法律状态
2018-09-04

授权

授权
2017-01-11

实质审查的生效 IPC(主分类):G06N5/02 申请日:20160721

实质审查的生效
2016-12-14

公开

公开

说明书

技术领域

本发明属于知识库补全技术领域，具体涉及一种基于变分推断和张量神经网络的知识库补全方法的设计。

背景技术

知识库补全是知识库中一个重要的研究课题，在问答系统，信息检索等一些应用中扮演着重要的角色。知识库用三元组(subject，relation，object)表示数据信息，是一种揭示实体之间的语义网络，虽然存储着海量的信息，但有相当大的一部分信息是缺失的，隐含在其中，所以当用户进行搜索时，可能发出的请求在知识库中不能找到相对应的答案，为了解决这一问题，相关研究者基于已经存在的三元组，提出了一系列的学习算法，来增强用户的搜索体验。

目前已有的学习算法有Rescal，NTN，transE，transR等等，Rescal算法是较早的一个模型，考虑的是成对实体之间的简单的交互信息，transE模型是一个三角形模型，根据实体差和关系的距离来对知识库进行补全，NTN(Neural Tensor Networks，张量神经网络)算法提出了神经网络的思想，成对考虑的是实体之间在关系的每个维度上的交互信息，包括一阶信息，二阶信息和三阶信息，较之前模型相对复杂，尽管这些算法很成功，但是这些模型都没有探讨实体，关系两两成对的交互，同时忽略了实体和关系的先验知识，即没有引入贝叶斯的框架，而他们的先验知识对模型的准确性有很重要的作用，同时他们不擅长对不确定三元组的预测建模。

发明内容

本发明的目的是为了解决现有的知识库补全技术忽略了实体和关系的先验知识，并且没有考虑隐含变量之间成对的互交信息的问题，提出了一种基于变分推断和张量神经网络的知识库补全方法。

本发明的技术方案为：基于变分推断和张量神经网络的知识库补全方法，包括以下步骤：

S1、根据知识库中的三元组(e_i,e_j,r_k)，构造张量Y；

S2、根据张量Y，在一个隐含张量X的条件下构造一个似然函数p(Y|X)；

S3、将隐含张量X中的每个元素x_ijk用两层神经网络表示；

S4、给三元组(e_i,e_j,r_k)中的隐含实体变量和隐含关系变量一个高斯先验；

S5、根据贝叶斯框架，假设三元组(e_i,e_j,r_k)中的隐含实体变量和隐含关系变量的后验分布为高斯分布；

S6、根据变分推断，最大化ELOB来近似后验高斯分布，采用SGVB方法优化ELOB，并用随机梯度求解。

进一步地，步骤S1具体为：

假设知识库中的实体个数为N，关系个数为M，构造的张量Y∈R^N×N×M，R^N×N×M为维数是N×N×M的三维实数空间；若知识库中三元组(e_i,e_j,r_k)存在，则张量Y的各维度上的下标对应的元素y_ijk为1，否则y_ijk为0。

进一步地，步骤S2具体为：

根据张量Y，在一个隐含张量X的条件下构造一个似然函数p(Y|X)：

$p (Y | X) = Π_{i = 1}^{N} Π_{j = 1}^{N} Π_{k = 1}^{M} {[B e r (y_{i j k} | σ (x_{i j k}; α))]}^{I_{i j k}} - - - (1)$

其中Ber(y_ijk|σ(x_ijk；α))是伯努利分布，它的均值是σ(x_ijk；α)，而σ(x_ijk；α)是sigmoid函数，具体形式为I_ijk是一个指示变量，三元组(e_i,e_j,r_k)在训练数据中存在的话，I_ijk值为1，否则I_ijk值为0。

进一步地，步骤S3具体为：

将隐含张量X中的每个元素x_ijk用两层神经网络表示，具体表示为：

x_ijk＝w^Th_ijk+b₀>

其中w为权重向量，b₀表示一个线性偏差；e_i,e_j,r_k∈R^d×1,b∈R^K×1,w∈R^K×d,W₁,W₂,W₃∈R^K×d，K为关系用向量表示之后的维度，d为实体用向量表示之后的维度；是神经网络表示中的权重和偏差；f(·)是激活函数。

进一步地，步骤S4具体为：

三元组(e_i,e_j,r_k)中每个隐含实体变量和每个隐含关系变量都有先验知识，假设隐含实体变量和隐含关系变量均为高斯分布，具体形式如下：

$p (e_{i} | μ_{i}, λ_{i}) = N (e_{i} | μ_{E}, d i a g (λ_{E}^{- 1})) - - - (3)$

$p (r_{k} | μ_{k}, λ_{k}) = N (r_{k} | μ_{R}, d i a g (λ_{R}^{- 1})) - - - (4)$

其中，p(·)为先验的概率密度函数，N(·)为高斯分布的概率密度函数；μ_i,λ_i分别表示e_i的先验概率密度函数的参数，其值分别为μ_E,μ_k,λ_k分别表示r_k的先验概率密度函数的参数，其值分别为μ_R,分别表示高斯分布的协方差矩阵。

进一步地，步骤S5具体为：

根据贝叶斯框架，三元组(e_i,e_j,r_k)中每个隐含实体变量和每个隐含关系变量的后验分布服从高斯分布，具体形式如下：

$q (e_{i} | {\tilde{μ}}_{i}, {\tilde{λ}}_{i}) = N (e_{i} | {\tilde{μ}}_{i}, d i a g ({\tilde{λ}}_{i}^{- 1})) - - - (5)$

$q (r_{k} | {\tilde{μ}}_{k}, {\tilde{λ}}_{k}) = N (r_{k} | {\tilde{μ}}_{k}, d i a g ({\tilde{λ}}_{k}^{- 1})) - - - (6)$

其中，q(·)为后验的概率密度函数，N(·)为高斯分布的概率密度函数；分别表示e_i的后验概率密度函数的参数，分别表示r_k的后验概率密度函数的参数；分别表示高斯分布的协方差矩阵。

进一步地，步骤S6具体为：

根据变分推断，近似后验高斯分布的时候需要最大化下界ELOB，表示为：

logp(xⁱ|θ)≥L(q(z|xⁱ,φ),θ)>

其中xⁱ代表的是第i个数据，L(·)代表的是最大化下界ELOB函数，θ为ELOB的参数，z表示隐含变量，φ为z后验概率密度函数的参数；

$L (q (z | x^{i}, φ), θ) = - K L (q (z | x^{i}, φ) | | p (z | θ)) + E_{q (z | x^{i}, φ)} [\log >q(z | x^{i}, φ)]---(8)$

采用SGVB方法将ELOB第二项期望项进行简化，引入一个可微的转换和噪声ε，形式如下：z＝g_φ(ε),ε～p(ε)，则公式(8)可重新表示为：

$L (q (z | x^{i}, φ), θ) = \frac{1}{L} Σ_{l = 1}^{L} \log >p(x^{i} | z^{(i, l)}, θ)-KL(q (z | x^{i}, φ) | | p (z | θ))---(9)$

其中z^(i,l)＝g_φ(ε),ε～p(ε)；假设z＝g_φ(ε)＝μ+diag(λ^-1/2)ε，下界ELOB形式变为：

$\begin{matrix} L (Θ, Φ | Y) = Σ_{l = 1}^{L} Σ_{i = 1}^{N} Σ_{j = 1}^{N} Σ_{k = 1}^{M} \frac{I_{i j k}}{L} \log >Ber(y_{i j k} | σ^{(l)} (x_{i j k}; α)) \\ - Σ_{i = 1}^{N} K L [q (e_{i} | {\tilde{μ}}_{i}, {\tilde{λ}}_{i}) | | p (e_{i} | μ_{E}, λ_{E})] \\ - Σ_{j = 1}^{N} K L [q (e_{j} | {\tilde{μ}}_{j}, {\tilde{λ}}_{j}) | | p (e_{j} | μ_{E}, λ_{E})] \\ - Σ_{k = 1}^{M} K L [q (r_{k} | {\tilde{μ}}_{k}, {\tilde{λ}}_{k}) | | p (e_{k} | μ_{R}, λ_{R})] \end{matrix} - - - (10)$

其中分别表示e_j的后验概率密度函数的参数，μ_E,μ_R值为0，λ_E,λ_R设定为I；

采用随机梯度上升算法求解，不断更新参数Θ,Φ，直到收敛停止。

本发明的有益效果是：本发明通过在基于变分推断和张量神经网络的知识库补全方法中增加了贝叶斯框架，考虑了隐含变量的先验知识，引入了张量思想，探讨了隐含变量两两之间的相互作用，并加入神经网络非线性表达，可以较为准确的表达现有知识库的真实情况，同时在精度方面本发明相较于现有的知识库学习算法有了较大的提升。

附图说明

图1为本发明提供的基于变分推断和张量神经网络的知识库补全方法流程图。

图2为本发明实施例的隐含变量实体、关系以及用数据构建的三维张量模型图。

图3为Wordnet数据集上本发明和NTN的精度测试结果统计图。

图4为Freebase数据集上本发明和NTN的精度测试结果统计图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

本发明提供了一种基于变分推断和张量神经网络的知识库补全方法，如图1所示，包括以下步骤：

S1、根据知识库中的三元组(e_i,e_j,r_k)，构造张量Y。

其中，e_i代表三元组中的subject，指的是第i个实体；e_j代表三元组中的object，指的是第j个实体，r_k代表三元组中的ralation，指的是第k个关系。

S2、根据张量Y，在一个隐含张量X的条件下构造一个似然函数p(Y|X)：

$p (Y | X) = Π_{i = 1}^{N} Π_{j = 1}^{N} Π_{k = 1}^{M} {[B e r (y_{i j k} | σ (x_{i j k}; α))]}^{I_{i j k}} - - - (1)$

其中Ber(y_ijk|σ(x_ijk；α))是伯努利分布，它的均值是σ(x_ijk；α)，而σ(x_ijk；α)是sigmoid函数，具体形式为I_ijk是一个指示变量，三元组(e_i,e_j,r_k)在训练数据中存在的话，I_ijk值为1，否则I_ijk值为0。这一步的意义在于把连续隐含变量x_ijk通过伯努利分布变成离散变量y_ijk，如图2所示。

S3、将隐含张量X中的每个元素x_ijk用两层神经网络表示，具体表示为：

x_ijk＝w^Th_ijk+b₀>

其中w为权重向量，b₀表示一个线性偏差；e_i,e_j,r_k∈R^d×1,b∈R^K×1,w∈R^K×d,W₁,W₂,W₃∈R^K×d，K为关系用向量表示之后的维度，d为实体用向量表示之后的维度；是神经网络表示中的权重和偏差；f(·)是激活函数。本发明实施例中，f(·)采用双曲正切函数tanh(·)。

本发明中，x_ijk表示的时候考虑了三元组(e_i,e_j,r_k)中三个隐含变量两两成对交互的信息，同时用神经网络进行非线性的表示，更贴近真实世界，更准确的计算了三元组存在的可能性。

S4、给三元组(e_i,e_j,r_k)中的隐含实体变量和隐含关系变量一个高斯先验。

三元组(e_i,e_j,r_k)中每个隐含实体变量和每个隐含关系变量都有先验知识，假设隐含实体变量和隐含关系变量均为高斯分布，具体形式如下：

$p (e_{i} | μ_{i}, λ_{i}) = N (e_{i} | μ_{E}, d i a g (λ_{E}^{- 1})) - - - (3)$

$p (r_{k} | μ_{k}, λ_{k}) = N (r_{k} | μ_{R}, d i a g (λ_{R}^{- 1})) - - - (4)$

在实际中求解过程中，隐含实体变量和隐含关系变量是均值为0，协方差矩阵为I的高斯先验(I代表单位矩阵，即对角元素为1其他元素为0的矩阵)。

S5、根据贝叶斯框架，假设三元组(e_i,e_j,r_k)中的隐含实体变量和隐含关系变量的后验分布为高斯分布。

根据贝叶斯框架，三元组(e_i,e_j,r_k)中每个隐含实体变量和每个隐含关系变量的后验分布服从高斯分布，具体形式如下：

$q (e_{i} | {\tilde{μ}}_{i}, {\tilde{λ}}_{i}) = N (e_{i} | {\tilde{μ}}_{i}, d i a g ({\tilde{λ}}_{i}^{- 1})) - - - (5)$

$q (r_{k} | {\tilde{μ}}_{k}, {\tilde{λ}}_{k}) = N (r_{k} | {\tilde{μ}}_{k}, d i a g ({\tilde{λ}}_{k}^{- 1})) - - - (6)$

S6、根据变分推断，最大化ELOB来近似后验高斯分布，采用SGVB方法优化ELOB，并用随机梯度求解。

根据变分推断，近似后验高斯分布的时候需要最大化下界ELOB，表示为：

logp(xⁱ|θ)≥L(q(z|xⁱ,φ),θ)>

其中xⁱ代表的是第i个数据，L(·)代表的是最大化下界ELOB函数，θ为ELOB的参数，z表示隐含变量，φ为z后验概率密度函数的参数。

$L (q (z | x^{i}, φ), θ) = - K L (q (z | x^{i}, φ) | | p (z | θ)) + E_{q (z | x^{i}, φ)} [\log >q(z | x^{i}, φ)]---(8)$

在一般情况下，ELOB第二项期望项是很难求的，所以我们引入了Stochastic Gradient Variational Bayes(SGVB)Estimator方法，这个方法可以把第二项的期望项简化，使求解过程变得很容易：

引入一个可微的转换和噪声ε，形式如下：z＝g_φ(ε),ε～p(ε)，则公式(8)可重新表示为：

$L (q (z | x^{i}, φ), θ) = \frac{1}{L} Σ_{l = 1}^{L} \log >p(x^{i} | z^{(i, l)}, θ)-KL(q (z | x^{i}, φ) | | p (z | θ))---(9)$

其中z^(i,l)＝g_φ(ε),ε～p(ε)；假设z＝g_φ(ε)＝μ+diag(λ^-1/2)ε，下界ELOB形式变为：

其中分别表示e_j的后验概率密度函数的参数，μ_E,μ_R值为0，λ_E,λ_R设定为I。

采用随机梯度上升算法求解，不断更新参数Θ,Φ，直到收敛停止。

本发明在精度方面相较于现有的知识库学习算法有了较大的提升，具体表现如下：

如图3所示，在知识库Wordnet上进行实验，可见本发明与现有的NTN(Neural Tensor Networks，张量神经网络)算法相比，在实例、成员、地域、同义词、主题域五个关系上的精度测试结果均有提升。

如图4所示，在知识库Freebase上进行实验，可见本发明与现有的NTN(Neural Tensor Networks，张量神经网络)算法相比，在职业、死亡原因、宗教信仰三个关系上的精度测试结果大致相同，在性别和制度两个关系上的精度测试结果有比较明显的提升。

如下表所示，分别在知识库Wordnet以及Freebase上进行实验，可见本发明与现有的三种知识库学习算法TransE、TransR以及NTN相比，其精度测试结果均有比较明显的提升。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于变分推断和张量神经网络的知识库补全方法 [P] . 中国专利： CN106228245B . 2018.09.04
2. 基于变分推断和张量神经网络的知识库补全方法 [P] . 中国专利： CN106228245A . 2016-12-14
3. GPU-BASED THIRD-ORDER LOW-RANK TENSOR COMPLETION METHOD AND THE APPARATUS [P] . 美国专利： US2020294184A1 . 2020-09-17

机译：基于GPU的三阶低秩张量补全方法及装置
4. STORAGE DEVICE INFERRING READ LEVELS BASED ON ARTIFICIAL NEURAL NETWORK MODEL AND LEARNING METHOD OF ARTIFICIAL NEURAL NETWORK MODEL [P] . 韩国专利： KR20200057827A . 2020-05-27

机译：基于人工神经网络模型的存储设备推断阅读水平及人工神经网络模型的学习方法
5. STORAGE DEVICE INFERRING READ LEVELS BASED ON ARTIFICIAL NEURAL NETWORK MODEL AND LEARNING METHOD OF ARTIFICIAL NEURAL NETWORK MODEL [P] . 美国专利： US2020151539A1 . 2020-05-14

机译：基于人工神经网络模型的存储设备推断阅读水平及人工神经网络模型的学习方法