首页> 中国专利> 一种基于知识图谱的数据资产库访问方法和装置

一种基于知识图谱的数据资产库访问方法和装置

摘要

本申请提供了一种基于知识图谱的数据资产库访问方法和装置,所述访问方法包括:根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG‑CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。本公开提供的基于知识图谱的数据资产库访问方法和装置,通过构建统一访问本体,使得数据资产库的管理不再需要将所有数据库合并在一起,就能实现数据访问的统一管理。

著录项

说明书

技术领域

本公开涉及数据处理领域,尤其涉及一种基于知识图谱的数据资产库访问方法和装置。

背景技术

随着电力海量数据的不断增长和电力业务系统的不断扩展,建立国网企业数据资产库,形成电力数据资产库尤为重要,数据资产库能够汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。但是,电网企业数据资产库数据目前存在的突出问题是数据量大,电网各业务应用系统大多具有各自的数据管理系统,缺乏统一的数据整合和集中管理,统一访问困难。

发明内容

本公开的目的之一是通过提供一种基于知识图谱的数据资产库访问方法和装置,以解决背景技术中提到的统一访问数据资产库困难的问题。

为实现上述目的,根据本公开的一个实施例,提供一种基于知识图谱的数据资产库访问方法,包括:根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。

可选地,所述基于SG-CIM统一信息模型和已有业务系统的数据,构建数据资产库的数据关联模型的步骤包括:获取第一现存系统的数据,根据第一现存系统和已有业务系统的数据以及两者的关联关系,形成第一现存系统数据的非结构化业务元数据;基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。

可选地,所述对数据资产库中的数据进行访问的步骤包括:向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。

可选地,所述通过构建统一的访问本体,对数据资产库中的数据进行访问的步骤包括:通过对多个业务系统数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务系统的数据资产库中的数据进行统一访问。

可选地,所述访问本体的知识库基于知识图谱进行完善的步骤包括:基于知识图谱技术将从多个业务系统数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。

根据本公开的另一个实施例,提供一种基于知识图谱的数据资产库访问装置,包括:数据管理模型构建单元,用于根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;数据访问单元,用于通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。

本公开的实施例可以实现以下有益效果:针对现有技术中企业级数据资产库中的数据量具有海量和分散的特点,即使将部分重要的数据整合在一起,也不可能实现完全的额数据库合并,本公开提出了一种基于知识图谱的数据资产库访问方法,通过构建统一访问本体,使得数据资产库的管理不再需要将所有数据库合并在一起,就能实现数据访问的统一管理。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本申请一个实施例提供的基于知识图谱的数据资产库访问方法的流程示意图;

图2为根据本申请的一个实施例的申请访问数据资产库中的数据过程的示意图;

图3为根据本申请的一个实施例提供的基于知识图谱的数据资产库访问装置的示意性框图;

附图中相同或相似的附图标记代表相同或相似的结构。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包括一个或多个相关联的列出项目的任何或所有可能组合。

根据本申请的一个方面的一个实施例,提供了一种基于知识图谱的数据资产库访问方法。请参考图1,所述数据资产库访问方法包括:

步骤S101,根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型。

步骤S102,通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。

具体地,对于步骤S101而言,其中的数据资产库可以包括但不限于电力数据资产库和其他行业及企业的数据资产库。数据资产库的构建通常包括数据采集、脏数据识别、数据清洗和数据自动关联等过程,这些过程可以适用于本申请的实施例。以构建电网企业的数据资产库为例,本申请构建数据资产库的技术路线包括:

首先,在SG-CIM(国家电网公司公共数据模型)企业信息模型基础上开展关键业务元数据研究,梳理业务系统提炼形成现存系统数据与结构化业务元数据的关联元素,形成现存系统数据的非结构化业务元数据信息。其中,所述业务元数据可以包括业务名称、定义、描述等用于标识数据仓库和业务系统中各种属性的数据。其中所述业务系统数据仓库可以是基于业务数据的实体、实体之间的关系、实体属性等信息为基础而构建得到。其中,实体可以指业务系统中具有可区别性且独立存在的具体的事物。

其次,基于SG-CIM统一信息模型,结合非结构化关键业务元数据,形成结构化数据与非结构化数据的关联模型。

具体地,对于形成现存系统数据的非结构化业务元数据信息而言,可以包括以下两个子步骤:

第一,业务系统数据梳理。对电网企业现存系统中的数据与业务系统中的结构化数据关联关系进行梳理,采用自动化关联规则形成和手动关联关系录入结合的方式,确定来源业务系统、关联业务数据源表、关联字段信息、关联业务数据的取数逻辑、关联数据所属主题域(SG-CIM模型的主题域)等信息,并遵循CWM规范和SG-CIM规范,制定关联关系描述规范。

第二,现存系统数据平台梳理。对系统数据平台已接入的非结构化数据进行梳理,确定数据资产统一管理范围,初步形成电网企业数据资产库的非结构化数据的元数据关键元素。

对于形成结构化数据与非结构化数据的关联模型而言,可以包括以下两个子步骤:

第一,形成关联模型。根据梳理得到的非结构化业务元数据关键元素,结合非结构化数据的基本元数据和关联性元数据的数据结构,参考或遵循CWM数据仓库元数据模型,遵循SG-CIM模型规范,形成非结构化和结构化关联模型,实现规范元数据的接入和存储。

第二,形成非结构化元数据的管理存储模型。基于预设的现有信息存储模型,形成非结构化元数据的变更、管理等信息存储模型,用于支持非结构化业务元数据的运维管理。

在描述了本申请构建数据资产库的技术路线之后,下文仍以构建电网企业的数据资产库为例,对步骤S101构建数据资产库的过程进行详述。

在一个实施例中,采用双向建模的方式来构建数据资产库的数据管理模型。具体地,所述基于SG-CIM统一信息模型和已有业务系统的数据,构建数据资产库的数据关联模型的步骤S101可以包括:

-获取第一现存系统的数据,根据第一现存系统和已有业务系统的数据以及两者的关联关系,形成第一现存系统数据的非结构化业务元数据;基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。其中,第一现存系统例如为电网企业现存信息系统,所述已有业务系统例如包括各种与电网系统相关的业务系统,例如营销业务系统。

更具体地,一方面,从第一现存系统的数据出发,梳理第一现存系统所接入的数据实体,以及数据实体之间的关系,对其进行抽象、提炼,分析数据实体所属的数据主题域并进行归并,分析主题域之间关系,形成非结构化数据关联模型。

另一方面,从业务需求出发,基于SG-CIM统一信息模型和已有业务系统,分析提炼和梳理各业务线条的非结构化数据的业务需求,根据业务流程,提炼关键实体,分析实体所属主题域及实体间的关系,以及非结构化数据实体与结构化数据实体之间的关联关系,形成数据关联模型。其中,非结构化数据实体与结构化数据实体之间的关联关系可以通过在结构化数据中心的存储结构中添加非结构化数据实体的编码进行关联来实现。

在一个实施例中,所述步骤S102中对数据资产库中的数据进行访问的步骤包括:向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。

具体地,可以参考图2,如图2所示,申请访问数据资产库中的数据可以通过以下步骤来实现:

(1)业务应用调用数据资产库管理平台对外提供的服务,向结构化数据中心发送请求,查询相关设备的基础信息与非结构化数据实体编码。

(2)结构化数据中心根据业务应用提交的请求,将设备等基础信息和非结构化数据实体编码返回给业务应用。

(3)业务应用根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送请求,查询相关文档等信息。

(4)非结构化数据管理平台根据业务应用的请求,通过数据实体编码来获取目标文档,返回给业务应用。

可选地,对于步骤S102而言,可以通过对多个业务系统数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务系统的数据资产库中的数据进行统一访问。其中所述访问本体描述了业务网系统中数据资产的实体、属性或标识、以及关联关系等。

具体地,通过构建统一访问本体,使得数据资产库的管理不需要将所有数据库都存放在一起,而是利用统一访问本体实现数据访问的统一管理,将各业务系统数据仓库中的数据资产的实体、属性和关系抽取、融合并实现统一访问。利用知识图谱技术将从数据仓库发现潜在的和遗漏的关联数据,通过结构化三元组(例如指包括两个实体以及两者之间关联关系的实体三元组,例如表征为实体x-XX关系-实体y)的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善,抽取和发现得到的关联数据将作为实例扩充工程本体,同时将更新的本体参与到本体融合中,不断完善分析域中不同的数据库统一访问工程领域本体。更具体地,如果相似度低于阈值,则将实体三元组中实体所对应的实体标识、实体之间的关联关系等添加到知识图谱对应的知识库,对知识库进行补充。当然,上述进行相似度比较的描述仅是示例,在其他实施例中,也可以采用现有技术来实现数据集的相似度比较。

其中,所述知识图谱技术可以包括现有技术中的知识图谱构建技术,例如通过预置的模型(例如包括卷积神经网络语言模型)分析数据资产库中的关键数据,对关键数据进行预处理(例如去噪处理)得到统一格式的知识数据,并根据访问本体中数据资产的实体、属性以及关联关系等,构建数据资产库对应的知识图谱,所述关键数据例如包括采集和监控到的用电数据。

具体而言,构建统一访问本体的过程中,首先是资源选取,选定基础本体后,确定用于抽取领域相关实体的文本;其次是概念学习,从选择的文本中获取领域相关的概念,并建立概念之间的分类关系,所述分类关系的建立例如是通过softmax分类器或其他分类方法对概念数据进行处理来实现;然后是领域集中处理,除去领域无关的概念,只留下和领域相关且建立起了目标本体的概念结构;再通过关系学习得到除了从基础本体中继承的一些关系,其它的关系需要通过学习的方法从文本中抽取。完善统一访问工程领域本体的构建,得到企业数据资产库,实现通过企业数据资产库,完成统一访问数据的目标。

另外,对于基于知识图谱完善或补全访问本体的知识库而言,通过完善本体的知识库,使得数据资产库中引入新的数据实体时,知识库补全能够通过已有的结构化三元组和实体集与关系集,推理与此数据实体存在关系的已有实体。

举例而言,对于知识图谱G,假设G中含有实体集E={e1,e2,…,eM}(M为实体的数量)、关系集R={r1,r2,…,rN}(N为关系的数量)以及三元组集T={(ei,rk,ej)|ei、ej属于E,rk属于R}。由于知识图谱G中实体和关系的数量通常是有限的,因此,可能存在一些实体和关系不在G中。记不在知识图谱G中的实体集为E*={e1*,e2*,…,es*}(S为实体的数量),关系集为R*={r1*,r2*,…,rT*}(T为关系的数量)。根据三元组中具体的预测对象,知识图谱补全可以分成3个子任务:头实体预测、尾实体预测以及关系预测。对于头(尾)实体预测,需给定三元组的尾(头)实体以及关系,然后预测可以组成正确三元组的实体。

对于知识库补全的技术手段而言,可以基于嵌入表示的知识库补全技术手段,也可以基于量变可信度的知识库补全技术手段,还可以基于其他技术手段来实现,以为知识图谱寻找到缺失的三元组。在知识库补全的过程中,对于缺失的尾实体,将语义空间中头实体的向量表示与关系的向量表示相加,得到预测的尾实体向量表示,从实体列表中选择与预测尾实体最接近的实体作为预测结果;对于两个实体之间缺失的关系,以尾实体的嵌入向量减头实体的嵌入向量,然后将结果与备选关系的嵌入向量做差,选择与预测关系向量最相似的关系作为预测结果。

具体而言,对于基于嵌入表示的知识库补全技术手段,就是将知识库中的结构化三元组和实体与关系量化为低维的向量。最经典的分布式嵌入表示模型是TransE,一个三元组(h,r,t)中的h、r、t分别表示头实体、关系和尾实体。TransE将关系向量看作从头实体到尾实体的翻译向量,对于两个实体向量eh,et∈Rn,用eh+er与et的差值为翻译效果打分。经过训练后,知识库中所有的实体都被表示为一个向量,向量之间的相似性表示实体之间的相似性,实体与关系向量的和表示实体作为该关系的主语时,预测得到的宾语实体的向量。因此,当构建数据资产库并引入新实体e时,可以将其嵌入到知识库的语义空间中,并利用低维的分布式嵌入表示对其与其他实体可能产生的关系做链接预测,从而实现新知识的挖掘,补全知识库。

对于基于量变可信度的知识库补全技术手段,具体可以包括现有技术中的有效性计算、构建训练集(训练集可以包括头实体、关系、尾实体、时间片和有效可信度的五元组以及头实体、关系、尾实体和有效时间段的四元组)、初始化训练参数(包括对实体集、关系集、时间片分别以实体向量集、关系向量集、时间片向量集的形式进行训练)、计算评价函数(包括基于将实体向量集、关系向量集、时间片向量集映射到超平面,使用预设计算规则计算评价函数和损失函数)以及调整训练参数(基于损失函数调整训练参数)的步骤,其中训练参数的过程可以包括:

1)量变可信度建模,对包含各类关系的元事实数据进行持续时间建模,获得该类元事实量变可信度的模型;

2)将四元组中的有效时间段拆分成时间片,并按照时间点计算量变可信度,插入四元组,生成五元组(头实体,关系,尾实体,时间片,量变可信度);

3)初始化训练参数,按照预设维度随机地初始化实体、关系和时间片的向量集;

4)从五元组集合中随机抽取一个小型训练集(batch),并由五元组生成负样本;

5)获取正样本,将正、负样本映射到各自的时间片后计算评价函数,根据损失函数调整模型训练参数;

6)输出训练得到的模型,重复第4)、5)步继续训练,训练次数等于预设的次数时停止对训练参数的调整。

应当注意,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

根据本申请的一个总的发明构思,本申请实施例还提供一种基于知识图谱的数据资产库访问装置。所述基于知识图谱的数据资产库访问装置中的各个单元和模块可以全部或部分通过软件、硬件及其组合来实现。各单元和模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

请参考图3,所述访问装置可以包括:

数据管理模型构建单元101,用于根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;

数据访问单元102,用于通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。

可选地,所述数据管理模型构建单元101具体包括:

-非结构化业务元数据形成模块,用于获取第一现存系统的数据,根据第一现存系统和已有业务系统的数据以及两者的关联关系,形成第一现存系统数据的非结构化业务元数据;

-关联模型构建模块,用于基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。

可选地,所述数据访问单元102具体包括:

-第一请求发送模块,用于向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;

-第二请求发送模块,根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。

可选地,所述数据访问单元102具体用于:通过对多个业务系统数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务系统的数据资产库的数据进行统一访问。

可选地,所述数据访问单元102具体用于:基于知识图谱技术将从多个业务系统数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。

本发明实施例的方法与本发明实施例的装置相对应,在上述方法的实施例阐述的技术特征及其有益效果均适用于装置的实施例中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号