首页> 中国专利> 应用于知识图谱的属性数据的处理方法及电子设备

应用于知识图谱的属性数据的处理方法及电子设备

摘要

本发明涉及一种应用于知识图谱的属性数据的处理方法及电子设备,在数据导入阶段:接收用户针对于具有多种格式的数据,进行的多种格式的数据导入配置,并在数据导入完成后,记录属性、数据格式、数据类型之间的映射关系;所述数据导入配置由用户通过前端页面配置的数据兼容模块进行;图谱操作阶段:接收用户对图谱中的属性数据进行的操作,并根据数据导入阶段记录的所述映射关系,将所述操作中填入的数据,自动以所述操作中用户选择的属性所对应的格式进行存储。通过在前端页面配置数据兼容模块,提供多种存储格式,用户无需调取映射配置表即可完成属性数据的存储,方便操作,而且不需要将多种格式的数据转换为同一种格式再存储,因此不会额外占用资源,降低资源消耗。

著录项

说明书

技术领域

本发明涉及知识图谱技术领域,特别涉及一种应用于知识图谱的属性数据的处理方法及电子设备。

背景技术

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱中包括节点和边,边就是指节点之间的关系,知识图谱中存储着节点和关系的属性,且不同属性具有不同的数据类型,每种数据类型具有一种或多种数据格式。

由于目前的图谱构建系统都只保存一种数据格式,因此,对于具有多种格式的属性的存储,例如时间属性,目前有两种处理方式,第一种是只有输入正确格式的时间属性值才能被接受,否则不能被接受,因此用户在录入、修改或新增时间属性值时,需要先调出并查看系统限定的格式(查看配置表 ),然后根据该格式输入对应格式的属性值;第二种是用户输入的各种格式虽然都接受,但是需要在底层将各种格式的属性值转换为系统限定的格式后再存储。第一种方式存在的缺点是用户体验差,效率低,第二种方式存在的缺点是需要数据底层进行格式转换,修改了原来的数据格式,构建图谱的数据与原始数据已经不一致,且数据格式转换需要占用较大资源,造成资源浪费,且效率也低。

发明内容

本发明的目的在于改善现有技术中处理效率低、资源浪费严重的不足,提供一种应用于知识图谱的属性数据的处理方法及系统、电子设备,以提高数据存储的效率,以及降低资源浪费。

为了实现上述发明目的,本发明实施例提供了以下技术方案:

一方面,本发明实施例提供了一种应用于知识图谱的属性数据的处理方法,数据导入阶段:接收用户针对于具有多种格式的数据,进行的多种格式的数据导入配置,并在数据导入完成后,记录属性、数据格式、数据类型之间的映射关系;所述数据导入配置由用户通过前端页面配置的数据兼容模块进行;

图谱操作阶段:接收用户对图谱中的属性数据进行的操作,并根据数据导入阶段记录的所述映射关系,将所述操作中填入的数据,自动以所述操作中用户选择的属性所对应的格式进行存储。

上述方案中,通过在前端页面配置数据兼容模块,针对于具有多种格式的数据,可以实现多种格式存储,保留了数据原本的格式,节约数据转化和处理的时间。在图谱操作阶段,通过读取数据导入阶段生成的配置表进行格式的识别和自动保存,首先保障了用户操作后的数据格式完全和原有数据格式的对应,避免错误数据和格式混乱写入数据库,保障了图谱操作阶段的数据存储格式与原图谱数据格式的一致性,保证了图谱数据的规范准确,保证后续图计算的正常实现。

所述具有多种格式的数据为时间数据。图谱的常见属性数据中,时间日期的格式是最多的,而基于时间日期的图谱应用也是非常多的,因此目前对于时间日期的数据处理是最费时且耗用资源的。上述方案中,通过配置在前端的数据兼容模块提供多种存储格式,数据导入阶段一般情况下用户输入的时间格式属性数据都能被原样保存;在图谱操作阶段通过系统自动读取配置表因此用户无需查看系统限制的映射配置表,图计算时在前端页面即可自动实现对用户输入数据进行数据格式转换,资源占用少。

在图谱操作阶段,所述数据兼容模块接收用户通过数据值选择方式填入的时间数据。

上述方案中,在前端操作界面通过用户选择的方式操作属性数据,自动将用户操作的属性数据转化成原来对应的格式,这样用户进行数据操作时不需要查看配置表(系统自动识别并进行格式转化),进行一种形式的操作就可以保证所输入的数据格式与原格式一致,极大方便了用户的操作。另外,还可以避免输入不存在的日期的情况发生。

所述多种格式包括:年-月-日,月/日/年,年/月/日,年-月-日 时:分:秒,月/日/年 时:分:秒,以及年/月/日 时:分:秒。

在数据导入阶段,针对于只有一种格式的数据,接收用户通过前端页面配置的数据兼容模块进行的数据导入配置,并在数据导入完成后,记录属性、数据格式、数据类型之间的映射关系。

在图谱操作阶段,若填入的数据的数据类型为整型,则判断用户输入的数据的组成结构,如果是整数则全部保存,如果是字母或字符,则在文本框中失去光标时清除掉用户输入的数据,如果是带有小数点的数字,则在文本框中失去光标时仅在文本框中保留小数点前面的整数。

在图谱操作阶段,若填入的数据的数据类型为浮点型,则判断用户输入的数据的组成结构,如果是数字则保存,如果是非数字则在文本框中失去光标时清除掉用户输入的数据。

在图谱操作阶段,若填入的数据的数据类型为布尔型,则通过el-checkbox插件表示,选中则为true,未选中则为false。

在图谱操作阶段,若填入的数据的数据类型为地理坐标类型,则判断数据的组成,若由逗号隔开的前后两部分数字组成,且前部分数字的取值范围为-180到+180,后部分数字的取值范围为-90到+90,则保存用户输入的数据,否则在文本框中失去光标时清除掉用户输入的数据。

上述几个方案中,仅是对几种常见的数据类型进行了举例说明。每种数据类型对数据内容是有要求的,针对于不同数据类型,通过前端页面约束条件,可以限制用户输入数据的正确性,以保障在图计算时不因数据错误而影响计算结果,甚至影响计算的实施。

所述操作包括修改、增加和搜索处理的条件设置中的任一项。

当所述操作为修改或增加时,所述存储包括前端页面的临时存储和最终写入图数据库的存储。

当所述操作为搜索处理的条件设置时,所述存储为前端页面的临时存储。

另一方面,本发明实施例提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中任一实施方式所述的应用于知识图谱的属性数据的处理方法。

与现有技术相比,本发明方法通过配置在前端的数据兼容模块提供多种存储格式,相比于传统的时间格式要求统一的格式,在不修改原始数据格式的前提下提供用户根据数据本身的情况选择多种对应的时间格式进行数据导入和保存;这样用户输入的属性数据都能被原格式保存,提高了数据的兼容性。

具体地,具有以下技术优势:

(1)各数据类型表现形式不同,使得用户可以直观在不查看映射配置表而从页面直接知道数据类型。

(2)规范了用户的行为,在用户输入错误的数据时,自动校正,避免录入无效的错误的数据,对后续数据的使用有所影响。

(3)应用范围广,除了可以应用在节点或关系的修改和新增上,还可应用于图谱探寻、高级扩展、高级搜索、图计算里面添加带有属性条件的筛选等,使得用户输入的条件值的数据类型和格式,与选择属性的数据类型和格式保持一致。

(4)保留的数据的多样性,兼容了不同的时间格式,使得用户在接入数据中可接入各种各样的时间日期,不再单一的只支持一种格式数据在数据库的落地。

(5)本发明将图谱生成时数据接入、图谱使用时数据的新增/修改/筛选/比较、图谱储存时数据的落地,三者融合为一个整体,保持在整个过程中数据类型与格式的一致。规范了用户的行为,同时又兼容不同格式使得数据保留了多样性。

本发明所具有的其他优势将会在具体实施例中进行相应说明。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为实施例中举例的一个本体模型的示意图。

图2为实施例中举例的一个节点数据格式映射配置示意图。

图3为实施例中举例的一个关系数据格式映射配置示意图。

图4为实施例中列举的一个节点属性的页面展示图。

图5为实施例中列举的一个关系属性的页面展示图。

图6a、图6b分别为属性数据的录入界面示意图,映射关系展示界面示意图。

图7a、图7b、图7c、图7d、图7e、图7f分别为实施例中列举的时间日期的不同示意图。

图8a、图8b分别为实施例中基于传统方法生成的图谱示意图和基于本发明方法生成的图谱示意图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例中提供了一种应用于知识图谱的属性数据的处理方法,该方法的主要思想是在前端页面配置数据兼容模块,针对具有多种格式的数据,数据兼容模块提供多种格式的数据导入配置及存储功能,使得在后期进行图谱操作时,可以保存多种格式的数据,且针对同一种属性,保存格式一致。

具体地,在数据导入阶段:接收用户针对于具有多种格式的数据,进行的多种格式的数据导入配置,并在数据导入完成后,记录属性、数据格式、数据类型之间的映射关系(即配置表)。其中,所述数据导入配置由用户通过前端页面配置的数据兼容模块进行。例如,图6a为数据导入阶段属性配置的页面示意图,图6b为数据导入后得到的映射关系的展示截面图,数据导入后可以得到属性、数据格式、数据类型之间相应的映射关系。

在图谱操作阶段:接收用户对图谱中的属性数据进行的操作,并根据数据导入阶段记录的所述映射关系,将所述操作中填入的数据,自动以所述操作中用户选择的属性所对应的格式进行存储。即,通过调取在数据导入阶段用户选择保存的属性格式,读取出属性与数据格式之间的对应关系,用户在前端操作选择属性后,即可将相应的数据以该属性对应的数据格式进行存储。

例如,针对于某种类型的数据,有A、B、C这3种格式,分别对应于属性sa、sb、sc,也就是说,在数据导入阶段,针对于该数据,属性sa与格式A具有映射关系,属性sb与格式B具有映射关系,属性sc与格式C具有映射关系。在图谱操作阶段,例如要修改属性sb的数据值,则不管用户输入的是格式A 、格式B还是C,都将会以格式B进行存储。

一方面,针对于具有多种格式的数据,通过数据兼容模块提供的多种格式的数据导入配置,既允许存储多种格式,用户又无需通过查看映射配置表来限度在固定的存储格式,为用户操作提供了极大的便利,同时也提高了数据输入的效率。另一方面,本方案可以保存不同格式的数据,但是针对于同一种属性只能存储为一种格式,继而保障数据的规范性,也无需执行多种数据格式转换为一种数据格式的数据转换过程,因此不会额外占用资源,降低资源消耗。

因为知识图谱时序分析的需求范围很广,是最基础的功能,几乎所有图谱分析都离不开时间数据,如果时间数据格式不统一,将无法进行以时间为基础的图计算和图分析;但是时间格式不像其他数据格式那么相对单一,时间数据本身就有很多种被大家认可的格式,正是有这样的本身被大家都认可的多种表达格式,造成了从不同渠道或者不同数据持有者处获取的数据格式的多样性,甚至同一批数据中同一个节点不同属性之间的时间格式不同;时间格式数据的格式统一性处理成了创建知识图谱的必要环节,极大限制了知识图谱的创建效率。基于此,具有多种格式的数据中,本实施例中重点对时间数据进行了举例说明。

如图7a-7f所示,本实施例中,数据导入阶段数据兼容模块提供了以下6种格式的数据导入配置,在图谱操作阶段可以实现以下6种格式的数据保存,但是针对于同一种属性,在图谱操作阶段存储的数据格式与数据导入阶段配置的格式保持一致。

(1).针对于属性data,在数据导入阶段记录的时间格式为年-月-日,通过el-date-picker,在图谱操作阶段,接收时间格式yyyy-mm-dd,弹出如图7a中属性data所示时间选择窗口,用户点击选择相应的数据值后,就只会以例如:2018-11-26格式录入到文本框,即只会以2018-11-26格式进行保存。

(2).针对于属性data2,在数据导入阶段记录的时间格式为月/日/年,通过el-date-picker,在图谱操作阶段,接收时间格式mm/dd/yyyy,弹出如图7b中属性data2所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:11/26/2018格式录入到文本框。

(3).针对于属性data3,在数据导入阶段记录的时间格式为年/月/日 时:分:秒,通过el-date-picker,在图谱操作阶段,接收时间格式yyyy/mm/dd,弹出如图7c中属性data3所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:2018/11/26格式录入到文本框。

(4).针对于属性update_time,在数据导入阶段时间格式为年-月-日 时:分:秒,通过el-date-picker,在图谱操作阶段,接收时间格式yyyy-mm-dd hh:mm:ss,弹出如图7d中属性update_time所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:2018-11-07 12:24:04录入到文本框。

(5).针对于属性update_time2,在数据导入阶段时间格式为年/月/日 时:分:秒,通过el-date-picker,在图谱操作阶段,接收时间格式yyyy/mm/dd hh:mm:ss,弹出如图7e中属性update_time2所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:2018/11/07 12:24:04录入到文本框。

(6).针对于属性update_time3,在数据导入阶段时间格式为月/日/年 时:分:秒,通过el-date-picker,在图谱操作阶段,接收时间格式mm/dd/yyyy hh:mm:ss,弹出如图7f中属性update_time3所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:11/07/2018 12:24:04录入到文本框。

图7a-图7f所示的实现方式中,数据兼容模块接收用户通过数据值选择的方式输入的时间数据,并存储为当前文本框展示的格式,也就是用户不是直接录入时间数据,而是通过选择的方式,这样的好处是可以避免用户录入错误数据(例如2月30日),也方便于用户操作。当然地,选择的方式作为优选实施方案,本发明也不排除直接录入的可实施方式。针对于直接录入的方式,针对于某个属性,如果用户输入的数据格式不是记录的映射关系中该属性对应的格式,那么在存储时也会将用户录入的数据的格式转换为该属性对应的格式进行存储。

在知识图谱中,时间数据非常重要,基于时间的应用也非常多。本发明通过配置数据兼容模块,且针对于时间数据提供多种存储格式,可以为图谱前端分析人员提供极大的便利,也大大提高业务处理效率。

例如,针对于图谱构建的应用,例如企业招聘信息关联图谱中,各企业的招聘信息数据从各个渠道爬取数据所得,同一个岗位在各个网站发布有招聘信息,爬虫汇总整合如下表1所示。按传统方式处理,因时间格式的不兼容,需要对其他时间格式如2018/11/27进行清洗,解析为同一种时间格式,如下表2所示,然后生成图谱如图8a所示。然而采用本发明上述方法,无需进行格式转换,生成图谱如图8b所示。本发明方法既保留了原始数据,又少了一个时间格式清洗解析转换的步骤,在生成大数据集图谱时大大的节约了时间和资源的占用。

表1

表2

又例如,针对于图谱中属性的修改或新增的应用,例如图8a所示,传统方法对于需要修改或新增的属性数值,只能是图8a所示的格式,而基于本发明方法,可以修改或新增图8b所示的任一格式的属性。

又例如,针对于图计算的应用,例如将时间作为搜索条件,例如搜索2000年1月1日以后成立的企业节点,传统方法只能将固定格式的时间作为搜索条件,而本采用发明方法,可以实现以各种格式的时间作为搜索条件。

基于时间日期属性的图谱应用非常多,上述仅是几个常见应用举例,针对于每个应用,传统方法不仅只能是固定格式,而且在输入该固定格式时必须预先查看配置表才能知晓具体是何种格式,但是基于本发明方法则可以任意输入各种格式的数据,既节省时间,又使得分析人员的体验好。

针对于只有一种存储格式的数据类型的属性,数据兼容模块通过前端页面约束条件限制用户输入的数据格式为设定的存储格式,也就是通过前端页面约束条件,在前端页面就保障用户输入的数据格式正确,避免对后期的图计算产生影响。

作为举例,此处列举几种常见的数据类型。

(1)若节点或关系属性数据类型为int(整型),检查输入值的数据类型,仅允许为整数的数据才能保存成功,若输入中文、大小字母等非整数数据,在文本框失去光标时会清除掉该值,即不保存;若输入的为带有小数点的数字,在文本框失去光标时会清除小数点及小数点后面的数字,仅保留前面的整数,即只保存小数点前面的整数,如:图6a中属性id显示。

(2)若节点或关系属性数据类型为float(浮点型),检查输入值的数据类型,仅允许为数字的数据才能保存成功,若输入中文、字母等非数字的数据,则在文本框失去光标时会自动清除掉该值。如:图6a中属性amount显示。

(3)若节点或关系属性数据类型为boolean(布尔型),通过el-checkbox插件表示,选中则为true,未选中则为false。如:图6a中属性enable显示。

(4)若节点或关系属性数据类型为geopoint(地理坐标)类型,描述位置的经纬度数据,如:成都116.3220560,39.8949100,经度在前维度在后英文的逗号隔开,经度的取值范围为-180到+180,纬度范围为-90到+90,如果不满足此规则,则在文本框中失去光标自动清空错误的输入值。如:图6a中属性locationid显示。

(5)若节点或关系的属性的数据类型为字符串,则不设限制,可输入任意字符。

本发明上述属性数据的处理方法可以适用于多种基于属性数据的处理,例如图谱生成时的属性数据接入,又例如图谱使用时属性数据的新增/修改/筛选/比较,又例如图谱储存时的属性数据保存。本发明方法可以将图谱生成时数据接入、图谱使用时数据的新增/修改/筛选/比较、图谱储存时数据的落地,三者融合为一个整体,保持在整个过程中数据类型与格式的一致,规范了用户的行为,同时又兼容不同格式使得数据保留了多样性。

例如,针对于一个可以查看的知识图谱,包含有本体模型、映射配置、数据源。一个简要的本体模型如图1所示,包括两个节点,节点名称分别为Transfer 和Account,节点Transfer的uid为K14541SB23BQM8A,节点Account的uid为B51E24HJ769N47C,映射配置中数据类型及格式配置如图2和图3所示,图2为transfer节点的数据类型与格式配置,图3为关系in(收入)的数据类型与格式配置。

欲修改属性时,先进入图谱,查看Transfer节点属性,如图4所示,查看in(收入)关系数据,如图5所示,点击“修改属性”按钮时,即可对属性的数据值进行修改,前端页面约束条件使得数据类型保持修改前后一致。

要新增节点\关系的属性时,在录入新的属性的数据时,前端页面约束条件使得新增属性数据类型和映射配置中保持一致。

当按属性条件进行搜索时,对属性的筛选,前端页面约束条件使得输入的搜索条件值的数据类型和格式,与选择属性的数据类型和格式保持一致,因此可以进行比较,即可以进行基于属性条件的搜索和筛选。

需要注意的是,在图谱操作阶段,对用户在操作中填入的数据,自动以所述操作中用户选择的属性所对应的格式进行存储的步骤中,针对不同的操作有不同的存储处理方式。例如,当所述操作为属性的修改或增加时,所述存储包括前端页面的临时存储和最终写入图数据库的存储两个过程;当所述操作为搜索处理的条件设置时,所述存储为前端页面的临时存储。所述临时存储是指在前端页面比如浏览器中有专门存储临时用户操作信息的存储模块(比如缓存,用户操作结束或者系统断电后,临时存储的信息可被系统自动清除);写入图数据库的存储将是长期的,如果用户没有删除或者更改已存在于图数据库中的数据,该数据就将持续存储在图数据库中。需要理解的是,此处的临时存储与长期存储是相对概念,本实施例中对临时存储的存储时长,或者对长期存储的存储时长,都没有具体限定。

由于图谱构建系统的开发需要非常大的成本投入,因此一般用户都是基于现有开放的图谱构建系统进行直接应用,即使对于图谱构建系统中存在的一些使用不便利的地方,也都是基于适应的思想去满足系统的要求。例如对于属性数据的接入与存储,目前都是基于背景技术中所提及的两种方式进行处理,在属性数据较少的情况下,这样的不便利或者资源占用对用户的影响较小,但是当有大量属性数据需要录入时,就会严重影响处理效率,且用户的体验感很差。本发明方案可以完美地解决该技术问题,对前端技术人员的图谱构建、信息挖掘等操作带来了极大的便利,且通过在前端网页增加数据兼容模块的方式并不会对既有的图谱构建系统造成不良影响,因此可实施性强,具有很好的应用前景。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号