法律状态公告日
法律状态信息
法律状态
2022-07-19
实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022104061812 申请日:20220418
实质审查的生效
2022-07-01
公开
发明专利申请公布
技术领域
本申请涉及时序知识图谱技术领域,特别是涉及一种基于QR分解的时序知识图谱补全方法、装置及电子设备。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。当前知识图谱研究大多关注静态知识图谱,不会随时间变化,而时变的知识图谱探索较少。但是时序信息非常重要,因为很多结构化的知识只在特定的之间内有效,事实的变化遵循一个时间序列。近来的研究开始将时序信息融入到知识图谱学习和知识图谱补全中,称为时序知识图谱。
知识图谱补全算法能让知识图谱变得更加完整,特别是知识图谱一般由手工构建或者直接通过表示学习来学习。而虽然人工干预构建出的特征通常具有较好的可解释性,但显然耗费资源太多,而通过表示学习即通过机器学习算法自动地从数据中学得新的表示,它虽然在较少的人工干预下能自动地根据任务构建特征,但构建出的特征的可解释性通常比较差,最近有把这两种构建方式结合的方法,将先验知识(如规则、实体类型、多跳路径等等)融合到表示学习上。所以对于这样的由人工或者半自动得到的不完整知识图谱,特别是稀疏,或者很多关系并没有被挖掘的隐含关系,如果有方法能在一定程度上进行补全,能够让知识图谱更加的完整。
知识图谱补全(Knowledge Graph Completion,KGC)目前主要被抽象成一个预测问题,即预测出三元组中缺失的部分。所以可分成3个子任务:头实体预测;关系预测;尾实体预测。同时一般按照能否处理新实体或者新关系,可以将知识图谱补全算法分成两类:静态知识图谱补全(Static KGC),该场景的作用是补全已知实体之间的隐含关系。仅能处理实体以及关系都是固定的场景,所以扩展性较差;动态知识图谱补全(Dynamic KGC),它涉及不止知识图谱G中的实体或关系,即一些没有出现的词,或者后期想对知识图谱进行补全的场景下。
构造动态的知识图谱难度比较大,现有的时序知识图谱补全方法的速度和准确度都不高。
发明内容
基于此,有必要针对上述技术问题,提供一种基于QR分解的时序知识图谱补全方法、装置及电子设备。
一种基于QR分解的时序知识图谱补全方法,所述方法包括:
获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,所述初始嵌入表示是用复数表示的,包括实部和虚部。
对时间戳的初始嵌入表示的实部和虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的实部和虚部对应的实部正交矩阵和虚部正交矩阵。
将所述实部正交矩阵和所述虚部正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示进行融合,得到头实体、关系以及尾实体的融合时间嵌入表示。
根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
在其中一个实施例中,所述初始嵌入表示是用复数表示的,包括实部和虚部。
获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,包括:
对时序知识图谱中的头实体、关系、尾实体、时间戳使用随机初始化,得到头实体、关系、尾实体、时间戳带的初始嵌入表示。
将头实体和尾实体归为实体,生成一个实体的初始嵌入矩阵,记为E
在其中一个实施例中,所述时间戳的初始嵌入表示为:
e
其中,e
对时间戳的初始嵌入表示的实部和虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的实部和虚部对应的实部正交矩阵和虚部正交矩阵,包括:
将时间戳的初始嵌入表示的实部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的实部正交矩阵;实部QR分解的表达式为:
e
其中,Q
将时间戳的初始嵌入表示的虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的虚部正交矩阵;虚部QR分解的表达式为:
e
其中,Q
在其中一个实施例中,将所述实部正交矩阵和所述虚部正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示进行融合,得到头实体、关系以及尾实体的融合时间嵌入表示,包括:
将所述实部正交矩阵和所述虚部正交矩阵分别作为实部和虚部,构成关于时间戳的正交矩阵;关于时间戳的正交矩阵的表达式为:
Q
其中,Q
将关于时间戳的正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示相乘,得到头实体、关系以及尾实体的融合时间嵌入表示。
在其中一个实施例中,根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全,包括:
获取包括多个有效三元组的测试集,所述三元组包括:头实体、关系、尾实体;
将所有三元组的头实体、和尾实体构成实体集。
将每一个三元组的头实体或尾实体替换为实体集中除本三元组自身包含的头实体或尾实体以外的实体,得到损坏三元组,并将所有损坏三元组与知识图谱现有的三元组进行比较,并删除已经存在于知识图谱中的损坏三元组,将剩余的损坏三元组组成负例的集合。
根据预设的打分函数计算有效三元组和损坏三元组的分数,并将分数按从小到大的顺序排列。
根据分数、预设损失函数以及预定的评估指标,预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
在其中一个实施例中,根据预设的打分函数计算有效三元组和损坏三元组的分数,并将分数按从小到大的顺序排列,步骤中预设的打分函数为:
其中,f(h,r,t)为分数、h
在其中一个实施例中,预定的评估指标为知识图谱的损失达到预定阈值,预设损失函数表达式为:
其中,T
一种基于QR分解的时序知识图谱补全装置,所述装置包括:
初始嵌入表示获取模块,用于获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,所述初始嵌入表示是用复数表示的,包括实部和虚部。
对时间戳的初始嵌入表示的QR分解模块,用于对时间戳的初始嵌入表示的实部和虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的实部和虚部对应的实部正交矩阵和虚部正交矩阵。
融合时间嵌入表示确定模块,用于将所述实部正交矩阵和所述虚部正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示进行融合,得到头实体、关系以及尾实体的融合时间嵌入表示。
知识图谱补全模块,用于根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
上述基于QR分解的时序知识图谱补全方法、装置及电子设备,所述方法获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,该初始嵌入表示用复数形式表示;将时间戳的初始嵌入表示的实部和虚部分别用Gram– Schmidt正交化进行QR分解,得到时间戳的实部正交矩阵和虚部正交矩阵,并将时间戳的实部正交矩阵和虚部正交矩阵,头实体、关系和尾实体的初始嵌入表示进行融合,得到头实体、关系和尾实体的融合时间嵌入表示,根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。该方法能够准确、快速的构造动态的知识图谱,具有更好的实用意义。
附图说明
图1为一个实施例中基于QR分解的时序知识图谱补全方法的流程示意图;
图2为一个实施例中时序知识图谱补全步骤的流程示意图;
图3为一个实施例中基于QR分解的时序知识图谱补全装置的结构框图;
图4为一个实施例中电子设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明中的基于QR分解的时序知识图谱补全方法应用于情报挖掘方面,利用网络人物关系图谱进行情报分析。
在一个实施例中,如图1所示,提供了一种基于QR分解的时序知识图谱补全方法,该方法包括以下步骤:
步骤100:获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,初始嵌入表示是用复数表示的,包括实部和虚部。
具体的,时序知识图谱包括多个由头实体、关系、尾实体以及时间戳组成的四元组。时序知识图谱中的四元组是从某电信案件人物关系图谱描述的多条事实中提取的,例如,某电信案件人物关系图谱的描述中有以下三条事实,张某在2020 年10月11日向某机构购买贷款客户的资料,其中包括王某的贷款资料;张某从 2019年1月-2021年12月雇佣李某为其工作;李某于2020年10月30日通过电话诱导王某缴纳“中介服务费”。上述三条事实,用四元组描述为(张某,购买,王某的资料,2020/10/11);(张某,雇用,李某,2019/1—2021/12);(李某,诱骗,王某,2020/10/30)。将这些四元组用节点和边连接起来形成时序知识图谱,其中节点表示四元组中的头实体或者尾实体,边表示四元组中的关系和时间对。
关系是头实体和尾实体之间的关系。
对时序知识图谱中的头实体、关系、尾实体、时间戳使用随机初始化,获得相应的初始嵌入表示e
e
e
e
e
其中,e
步骤102:对时间戳的初始嵌入表示的实部和虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的实部和虚部对应的实部正交矩阵和虚部正交矩阵。
步骤104:将实部正交矩阵和虚部正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示进行融合,得到头实体、关系以及尾实体的融合时间嵌入表示。
步骤106:根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
上述基于QR分解的时序知识图谱补全方法中,所述方法获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,该初始嵌入表示用复数形式表示;将时间戳的初始嵌入表示的实部和虚部分别用Gram–Schmidt正交化进行QR分解,得到时间戳的实部正交矩阵和虚部正交矩阵,并将时间戳的实部正交矩阵和虚部正交矩阵,头实体、关系和尾实体的初始嵌入表示进行融合,得到头实体、关系和尾实体的融合时间嵌入表示,根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。该方法能够准确、快速的构造动态的知识图谱,具有更好的实用意义。
在其中一个实施例中,步骤100包括:对时序知识图谱中的头实体、关系、尾实体、时间戳使用随机初始化,得到头实体、关系、尾实体、时间戳带的初始嵌入表示;将头实体和尾实体归为实体,生成一个实体的初始嵌入矩阵,记为 E
在其中一个实施例中,时间戳的初始嵌入表示为:
e
其中,e
e
其中,Q
将时间戳的初始嵌入表示的虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的虚部正交矩阵;虚部QR分解的表达式为:
e
其中,Q
在其中一个实施例中,步骤104包括:将实部正交矩阵和虚部正交矩阵分别作为实部和虚部,构成关于时间戳的正交矩阵;关于时间戳的正交矩阵的表达式为:
Q
其中,Q
将关于时间戳的正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示相乘,得到头实体、关系以及尾实体的融合时间嵌入表示。
具体的,利用复数相乘法公式:
z
将关于时间戳的正交矩阵分别与头实体、关系、尾实体的初始嵌入表示的初始嵌入表示e
h
r
t
在其中一个实施例中,步骤106具体包括:
步骤200:获取包括多个有效三元组的测试集,三元组包括:头实体、关系、尾实体。
步骤202:将所有三元组的头实体、和尾实体构成实体集。
步骤204:将每一个三元组的头实体或尾实体替换为实体集中除本三元组自身包含的头实体或尾实体以外的实体,得到损坏三元组,并将所有损坏三元组与知识图谱现有的三元组进行比较,并删除已经存在于知识图谱中的损坏三元组,将剩余的损坏三元组组成负例的集合。
步骤206:根据预设的打分函数计算有效三元组和损坏三元组的分数,并将分数按从小到大的顺序排列;根据分数、预设损失函数以及预定的评估指标,预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
在其中一个实施例中,步骤206中的预设的打分函数为:
其中,f(h,r,t)为分数、h
在其中一个实施例中,预定的评估指标为知识图谱的损失达到预定阈值,预设损失函数表达式为:
其中,T
γ+f(h,r,t)-f(h′,r,t′)应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于QR分解的时序知识图谱补全装置,包括:初始嵌入表示获取模块、时间戳的初始嵌入表示的QR分解模块、融合时间嵌入表示确定模块和知识图谱补全模块,其中:
初始嵌入表示获取模块,用于获取时序知识图谱中的头实体、关系、尾实体、时间戳的初始嵌入表示,初始嵌入表示是用复数表示的,包括实部和虚部;
时间戳的初始嵌入表示的QR分解模块,用于对时间戳的初始嵌入表示的实部和虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的实部和虚部对应的实部正交矩阵和虚部正交矩阵;
融合时间嵌入表示确定模块,用于将实部正交矩阵和虚部正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示进行融合,得到头实体、关系以及尾实体的融合时间嵌入表示;
知识图谱补全模块,用于根据头实体、关系和尾实体的融合时间嵌入表示以及预定的打分函数,计算待补全时序知识图谱中知识的分数,并根据分数和预设损失函数预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
在其中一个实施例中,初始嵌入表示获取模块,还用于对时序知识图谱中的头实体、关系、尾实体、时间戳使用随机初始化,得到头实体、关系、尾实体、时间戳带的初始嵌入表示;将头实体和尾实体归为实体,生成一个实体的初始嵌入矩阵,记为E
在其中一个实施例中,时间戳的初始嵌入表示为:
e
其中,e
e
其中,Q
将时间戳的初始嵌入表示的虚部采用Gram-Schmidt正交化进行QR分解,得到时间戳的初始嵌入表示的虚部正交矩阵;虚部QR分解的表达式为:
e
其中,Q
在其中一个实施例中,融合时间嵌入表示确定模块,还用于将实部正交矩阵和虚部正交矩阵分别作为实部和虚部,构成关于时间戳的正交矩阵;关于时间戳的正交矩阵的表达式为:
Q
其中,Q
将关于时间戳的正交矩阵分别与头实体、关系以及尾实体的初始嵌入表示相乘,得到头实体、关系以及尾实体的融合时间嵌入表示。
在其中一个实施例中,知识图谱补全模块,还用于获取包括多个有效三元组的测试集,所述三元组包括:头实体、关系、尾实体;将所有三元组的头实体、和尾实体构成实体集;并将每一个三元组的头实体或尾实体替换为实体集中除本三元组自身包含的头实体或尾实体以外的实体,得到损坏三元组,并将所有损坏三元组与知识图谱现有的三元组进行比较,并删除已经存在于知识图谱中的损坏三元组,将剩余的损坏三元组组成负例的集合;根据预设的打分函数计算有效三元组和损坏三元组的分数,并将分数按从小到大的顺序排列;根据分数、预设损失函数以及预定的评估指标,预测待补全时序知识图谱中的缺失内容,完成时序知识图谱补全。
在其中一个实施例中,知识图谱补全模块中的预设的打分函数为:
其中,f(h,r,t)为分数、h
在其中一个实施例中,知识图谱补全模块中预定的评估指标为知识图谱的损失达到预定阈值,预设损失函数表达式为:
其中,T
关于基于QR分解的时序知识图谱补全装置的具体限定可以参见上文中对于基于QR分解的时序知识图谱补全方法的限定,在此不再赘述。上述基于QR分解的时序知识图谱补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于QR分解的时序知识图谱补全方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
机译: 用于待处理物体的热分解处理装置和用于待处理物体的热分解处理方法