首页> 中国专利> 一种基于数据交换日志的数据确权和管理方法

一种基于数据交换日志的数据确权和管理方法

摘要

本发明提供了一种基于数据交换日志的数据确权和管理方法。该方法包括:获取数据交换日志,并对数据交换日志中蕴含数据交换规则的日志信息进行抽取;对日志信息进行数据分析,根据数据分析结果获取参与数据交换的数据表和数据项;根据预先定义的规则,对各数据表及数据项中的安全、时间、空间、业务、技术五个子维度的信息进行标记,对各数据表及数据项进行角色、用户确权,确定各数据表及数据项的数据权属关系,根据各数据表及数据项的数据权属关系,按照铁路系统数据图谱的结构构建铁路数据权属矩阵,利用铁路数据权属矩阵对铁路数据对象进行分级分类管理。本发明方法能提高数据权属关系获取的效率、准确度以及自动化程度。

著录项

说明书

技术领域

本发明涉及铁路数据资源管理技术领域,尤其涉及一种基于数据交换日志的数据确权和管理方法。

背景技术

在铁路数据资源的整合利用实践中,仍然存在主数据中心加载数据不全、特别是数据中心数据无法广泛满足各个信息系统、各路局集团数据应用的共享需求的问题,还没有形成铁路数据广泛深入安全应用、促进铁路运营安全提升、降本增效的生态环境。为充分挖掘数据价值,建构良好的数据服务体系,需要明晰数据权属,并在确定数据权属的基础上,构建铁路权属管理信息系统,以此推进铁路数据资源的开放共享,为建立铁路健康数字经济服务生态提供前提和基础。

随着铁路改革的深化以及智能铁路建设的发展,铁路数据共享的需求不断增加。在目前的铁路信息系统集中部署架构下,产生于站段的大量数据直接汇集到国铁集团公司总部,分布在垂直信息系统中的数据资源难于相互打通利用,对于跨路局集团、跨部门的数据,各路局集团虽然具有强烈的数据共享需求,但数据共享困难,难以为路局集团自身、地方政府、客户企业运营发展的大数据服务提供支撑。

铁路数据中心对接的系统众多,系统间数据交换接口更是不计其数,原有的对数据权属管理的人工授权方式已经不足以满足当前的需求,所以基于系统间数据交换日志来构建铁路数据权属矩阵具有以下优势及意义:

(1)不清晰的数据权属关系是数据管理和数据流通的主要障碍。通过数据确权,明晰不同来源数据的产权归属,是建立数据流通规则、实现数据共享开放和形成大数据产业的前提和基础;

(2)对于极其复杂多样的数据共享服务场景,数据交换是典型的知识密集型活动,数据交换流程非常灵活,基于规则约束的流程挖掘技术可为特定场景中数据交换的规则知识分析提供方法支持,从数据服务流程事件日志中挖掘发现其中的数据交换规则,进一步推导得出数据确权规则;

(3)由于数据权属关系随着信息系统和组织的动态演变而发生变化,需要支持动态的数据权属关系管理和柔性的数据确权机制。基于流程真实事件日志的流程挖掘技术可为揭示数据共享服务流程中动态复杂的数据权属关系视图提供可行的方法基础;

(4)基于真实事件日志的流程挖掘技术可为揭示数据共享服务流程中动态复杂的数据权属关系视图提供可行的方法基础,可揭示数据服务中数据交换和数据确权流程的客观模式,刻画和定量分析数据权属在组织间的动态分配关系,并挖掘得到数据交换规则和数据确权规则。

目前,现有技术中还没有一种有效的基于数据交换日志的铁路数据权属管理的方案。

发明内容

本发明的实施例提供了一种基于数据交换日志的数据确权和管理方法,以实现有效地对铁路数据进行数据确权和管理。

为了实现上述目的,本发明采取了如下技术方案。

一种基于数据交换日志的数据确权和管理方法,包括:

获取数据交换日志,并对数据交换日志中蕴含数据交换规则的日志信息进行抽取;

对抽取的日志信息进行数据分析,根据数据分析结果获取参与数据交换的数据表和数据项;

根据预先定义的规则,对各数据表及数据项中的安全、时间、空间、业务、技术五个子维度的信息进行标记,对各数据表及数据项在铁路数据权属系统中进行角色、用户确权,确定各数据表及数据项的数据权属关系,

根据各数据表及数据项的数据权属关系,按照铁路系统数据图谱的结构构建铁路数据权属矩阵,利用所述铁路数据权属矩阵对铁路数据对象进行分级分类管理。

优选地,所述的对抽取的日志信息进行数据分析,根据数据分析结果获取参与数据交换的数据表和数据项,包括:

将日志信息的SQL语句转换成树形结构,根据FROM找到表及其别名,根据JOIN找到对应连接表及别名,到树形结构中的查询列表获取相应表的查询字段,对查询字段中的GROUP BY、HAVING子句进行相应处理,得到去重后的参与数据交换的数据表和数据项对应关系。

优选地,所述的根据预先定义的规则,对各数据表及数据项中的安全、时间、空间、业务、技术五个子维度的信息进行标记,包括:

设置铁路数据包括安全、时间、空间、业务和技术五个子维度,根据预先定义的规则,对各数据表及数据项中的安全、时间、空间、业务、技术五个子维度的信息进行标记,并对各数据表及数据项中的上述五个子维度设置初始值;

所述安全子维度用于根据数据的安全敏感程度对数据进行相应的脱敏、脱密处理,所述时间子维度用于以数据的产生时间为起点进行划分,设置共享数据的汇总时段,所述空间子维度用于以数据产生的空间范围进行划分,所述业务子维度用于按照数据记录中包含的主数据维度进行不同层次的汇总整理。

优选地,所述安全子维度的取值包括公开、内部、机密和国家秘密;所述技术子维度的取值包括可查询和可下载;所述时间子维度的取值包括实时、*分钟、*小时、*天、*月、*季度和*年,用于描述距离数据产生多久的数据可被授权给各个用户;所述空间子维度的取值包括全路、路局内、站、段、线路和区间,用于描述哪些空间范围的数据可被授权给各个用户;所述业务子维度的取值包括不汇总、一级大类汇总和二级大类汇总,所述不汇总表示用户可以看到表格完整的字段,然后根据其他子维度确定最终看到的数据,所述一级大类汇总表示用户可看到部分字段,所述二级大类汇总表示用户可看到部分字段。

优选地,所述的根据各数据表及数据项的数据权属关系,按照铁路系统数据图谱的结构构建铁路数据权属矩阵,包括:

按照五个子维度对各数据表及数据项的进行汇总、缩减、重新加工和/或抽样处理,根据数据交换日志的数据集来源的定位结果和各数据表及数据项的数据权属关系,按照铁路系统数据图谱的结构构建铁路数据权属矩阵,该铁路数据权属矩阵中行的上层表示拥有相应数据的系统用户,下层表示该用户权属数据的数据表和数据项,列表示数据表与数据项的五个子维度的相关信息;

获取新的数据交换日志,获取新的数据表及数据项的数据权属关系,根据新的数据表及数据项的数据权属关系对铁路数据权属矩阵进行更新。

优选地,所述的利用所述铁路数据权属矩阵对铁路数据对象进行分级分类管理,包括:

设置进行分级分类管理的铁路数据对象包括数据实体、数据表和数据项,其中数据实体是数据表的集合,数据表是数据项的集合,数据实体仅有安全子维度,数据表有安全、技术子维度,数据项有时间、空间、安全和业务子维度;

依次对数据实体的安全子维度,数据表的安全、技术子维度,数据项的时间、空间、业务和技术子维度进行确定,当数据实体的安全子维度为公开时,该数据实体无需进行脱敏脱密处理,而当安全子维度为内部、机密或国家秘密时,需要对数据实体进行脱敏脱密处理;

数据表的安全子维度值直接继承自数据实体或者重新设置,数据表的安全子维度大于等于数据实体的安全子维度,当数据表的技术子维度为可查询时,该数据表及其下的所有数据项仅可被在线浏览,当数据表的技术子维度为可下载时,该数据表及其下的所有数据项可被下载使用;数据项的安全子维度值直接继承自数据表或者重新设置,数据项的安全子维度必须大于等于数据表的安全子维度;带有时间、空间、业务属性的数据项能够分别设置时间、空间、业务子维度。

优选地,所述的利用所述铁路数据权属矩阵对铁路数据对象进行分级分类管理,还包括:

根据铁路数据权属矩阵对铁路数据对象进行统一授权、权限申请和权限审核,依据生成的铁路数据权属矩阵在铁路数据权属管理系统中自动生成数据授权申请;

所述统一授权用于具有数据管理权的用户为其他用户授予数据表的使用权,所述权限申请用于对所选数据实体的数据项进行使用权申请,所述权限审核用于审核部门登录系统查看近期是否有新的数据申请,确认申请方和申请内容后决定是否通过审核;

通过相应的共享数据模型,从平台原始数据表、业务数据表中提取相关数据生成基础共享数据集,根据各类用户的权属关系及其数据共享维度进行处理,生成面向各类用户的铁路数据共享数据集,并在平台上将铁路数据共享数据集授权给该类用户共享。

由上述本发明的实施例提供的技术方案可以看出,本发明实施例的方法能提高数据权属关系获取的效率、准确度以及自动化程度。本发明存在动态更新机制,保证了数据正确性、一致性。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于数据交换日志的数据确权和管理方法的实现原理示意图;

图2为本发明实施例提供的一种基于数据交换日志的数据确权和管理方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供的一种基于数据交换日志的数据确权和管理方法的实现原理示意图如图1所示,具体处理流程如图2所示,包括如下的处理步骤:

步骤S210、获取数据交换日志,并对数据交换日志中蕴含数据交换规则的日志信息进行抽取,上述日志信息可以用SQL((Structured Query Language,结构化查询语言)语言来描述。

步骤S220、根据日志信息特征和现有的对象关系映射框架日志输出结果的总结确定数据挖掘规则。

根据上述数据挖掘规则使用文本挖掘的方法对抽取的日志信息进行数据分析,将日志信息的SQL语句转换成树形结构,根据FROM找到表及其别名,根据JOIN找到对应连接表及别名,然后到树形结构中的查询列表获取相应表的查询字段,GROUP BY、HAVING等子句均进行相应处理。数据分析结果即为去重后的参与数据交换的数据表和数据项对应关系,以JSON格式表示。

步骤S230、根据预先定义的规则,对各数据表及数据项中的安全、时间、空间、业务、技术五个子维度的信息进行标记,并对各数据表及数据项中的上述五个子维度设置初始值。

本发明实施例设置铁路数据包括安全、时间、空间、业务和技术五个子维度,该五个子维度也是铁路数据的数据共享维度。所述安全子维度用于根据数据的安全敏感程度(可分为高敏感、敏感、内部、公开)对数据进行相应的脱敏、脱密处理。所述时间子维度用于以数据的产生时间为起点进行划分,设置共享数据的汇总时段。所述空间子维度用于以数据产生的空间范围进行划分,可分为全路、路局(直属单位、控股合资公司)内、站、段、线路、区间等维度,以及特定空间(如高海拔、高寒、湿热、区域)维度。所述业务子维度用于按照数据记录中包含的主数据(基础代码分类字段)维度进行不同层次的汇总整理,可分为不汇总、一级大类汇总、二级大类汇总以及特定类别数据等。所述技术子维度指平台上数据的查询、可下载(面向开发者,元数据支持)。

安全子维度的取值包括公开、内部、机密和国家秘密;技术子维度的取值包括可查询和可下载;时间子维度的取值包括实时、*分钟、*小时、*天、*月、*季度和*年,用于描述距离数据产生多久的数据可被授权给各个用户;空间子维度的取值包括全路、路局(直属单位、控股合资公司)内、站、段、线路和区间,用于描述哪些空间范围的数据可被授权给各个用户;业务子维度的取值包括不汇总、一级大类汇总和二级大类汇总。上述不汇总表示用户可以看到表格完整的字段,然后根据其他子维度确定最终看到的数据、一级大类汇总表示用户可看到部分字段,二级大类汇总表示用户可看到部分字段。

步骤S240、基于已有铁路数据图谱,对各数据表及数据项在铁路数据权属系统中进行角色、用户确权,确定各数据表及数据项的数据权属关系,按照铁路系统数据图谱的结构构建铁路数据权属矩阵。

例如,根据运输调度管理系统接口交互日志挖掘到的表PB22_CARINFO及AIMYARDCODE,CARCATEGORY,CARMODELSID等字段匹配到铁路数据图谱中拥有该数据表及字段数据权限的系统管理员角色及调度部门管理员等用户账号。铁路数据图谱中包含铁路各系统的相关信息,最上层为各铁路单位及部门,往下一层为所使用的系统名称,再往下一层为系统用户组,最下层为系统用户名。

按照五个子维度对各数据表及数据项的进行汇总、缩减、重新加工和/或抽样处理,根据数据交换日志的数据集来源的定位结果和各数据表及数据项的数据权属关系,按照铁路系统数据图谱的结构构建铁路数据权属矩阵。

最终形成的铁路数据权属矩阵中,行的上层表示拥有相应数据的系统用户,下层表示该用户权属数据的数据表和数据项,列表示数据表与数据项的五个子维度的相关信息,例如从日志中挖掘出的数据权属信息可在数据权属矩阵中表示为运输调度管理系统的运输部的管理员用户拥有PB22_CARINFO数据表的AIMYARDCODE,CARCATEGORY,CARMODELSID等数据项的权限,其中CARCATEGORY数据项业务子维度为true、AIMYARDCODE数据项空间子维度为true、CARMODELSID数据项的安全子维度为true。

不断获取新的数据交换日志,获取新的数据表及数据项的数据权属关系,根据新的数据表及数据项的数据权属关系对铁路数据权属矩阵进行更新。保证铁路数据权属矩阵中数据的正确性、一致性。

步骤S250、根据上述铁路数据权属矩阵对铁路数据对象进行分级分类管理,对铁路数据对象进行统一授权、权限申请和权限审核,依据生成的铁路数据权属矩阵在铁路数据权属管理系统中自动生成数据授权申请。

可进行分级分类管理的铁路数据对象包括数据实体、数据表和数据项,其中数据实体是数据表的集合,数据表是数据项的集合。本发明提出用于数据确权的五个子维度分别为:安全子维度、技术子维度、时间子维度、空间子维度和业务子维度。数据实体仅有安全子维度,数据表有安全、技术子维度,数据项有时间、空间、安全和业务子维度。

依次对数据实体的安全子维度,数据表的安全、技术子维度,数据项的时间、空间、业务和技术子维度进行确定。当数据实体的安全子维度为公开时,该数据实体无需进行脱敏脱密处理,而当安全子维度为内部、机密或国家秘密时,需要对数据实体进行脱敏脱密处理。

数据表的安全子维度值可直接继承自数据实体,也可重新设置,数据表的安全子维度必须大于等于数据实体的安全子维度。当数据表的技术子维度为可查询时,该数据表及其下的所有数据项仅可被在线浏览,当数据表的技术子维度为可下载时,该数据表及其下的所有数据项可被下载使用。

依据特定用户确定数据项的时间、空间、业务和安全子维度,以达到授权的效果。数据项的安全子维度值可直接继承自数据表,也可重新设置,数据项的安全子维度必须大于等于数据表的安全子维度。带有时间、空间、业务属性的数据项可分别设置时间、空间、业务子维度,授权完成,用户可使用的是经过汇总后得到的数据。通过业务子维度,数据项得以缩减甚至重新加工;通过时间、空间子维度,数据记录得以缩减,用户可使用的仅为特定时间段内特定空间范围的数据。

在铁路数据结构中,数据实体所有的原始数据记为集合A,数据实体经过脱敏脱密处理后包含的所有原始数据记为集合B,数据表经过脱敏脱密处理后包含的所有原始数据记为集合C,带有时间属性的数据项按照时间子维度处理后的汇总数据记为集合D,带有空间属性的数据项按照空间子维度处理后的汇总数据记为集合E,带有业务属性的数据项按照业务子维度处理后的汇总数据记为集合F,同时经过时间、空间子维度处理后的汇总数据记为G;同时经过时间、业务子维度处理后的汇总数据记为H;同时经过空间、业务子维度处理后的汇总数据记为工;同时经过时间、空间、业务子维度处理后的汇总数据记为J;未经过时间、空间、业务子维度处理的集合记为K。根据集合论方法,集合之间的关系为定义为:

C=D∪E∪F∪K

G=D∩E={x|x∈D∧x∈E}

H=D∩F={x|x∈D∧x∈F}

I=E∩F={x|x∈E∧x∈F}

J=D∩E∩F={x|x∈D∧x∈E∧x∈F}

实际中基于事件日志流程挖掘的数据确权方法自动获取的确权信息和维度信息往往是不完整的且是会发生改变的,需要和手工获取的信息相互补充。本实施案例的铁路数据共享维度设置,针对不同共享需求的用户分类,对获取的数据项对获取的维度信息进行修正或分别重新设置五个维度的相应参数,构成面向该类用户的该数据共享维度。另外,本实施案例的接口发生变化时,通过上述方法同步动态修改铁路数据权属矩阵。

针对某用户的共享数据集生成过程包括:根据数据集的数据来源定位到原始数据表、业务数据表,判断用户与数据项的权属关系,选取符合条件的数据项,按照安全、时间、空间、业务、技术子维度的顺序进行数据共享维度处理。其中安全子维度剔除不符合条件的数据项,并进行数据脱敏脱密;时间、空间、业务子维度取各项数据的最高级别设置值进行筛选或者汇总;根据技术子维度判断共享数据集是否可以进行下载等操作。

根据上述铁路数据权属矩阵可以对铁路数据对象进行统一授权、权限申请和权限审核,依据生成的铁路数据权属矩阵在铁路数据权属管理系统中自动生成数据授权申请。

自动生成的数据权属矩阵可以看作是对铁路数据权属矩阵中拥有相关数据的系统用户进行数据的授权,从铁路数据权属矩阵中可直接获取哪些系统的哪些用户可以拥有哪些数据表及数据项的权限,数据表和数据项包含根据预定义规则挖掘到的五个子维度的信息。所以,根据上述数据权属矩阵可自动生成数据授权申请,自动化生成的过程替代了人工生成数据授权申请。

所述统一授权用于具有数据管理权的用户为其他用户授予数据表的使用权。所述权限申请用于对所选数据实体的数据项进行使用权申请。所述权限审核用于审核部门登录系统查看近期是否有新的数据申请,确认申请方和申请内容后决定是否通过审核。

通过相应的共享数据模型,从平台原始数据表、业务数据表中提取相关数据生成基础共享数据集,在此基础上,根据各类用户的权属关系及其数据共享维度进行处理,生成面向各类用户的铁路数据共享数据集,并在平台上将铁路数据共享数据集授权给该类用户共享。

综上所述,本发明的方法能提高数据权属关系获取的效率、准确度以及自动化程度,实现有效地对铁路数据进行数据确权和管理。本发明存在动态更新机制,保证了数据正确性、一致性。

使用根据系统接口日志挖掘出的铁路数据权属矩阵能够自动生成数据授权申请,替代人工授权方式。针对数据交换产生的系统日志设计了通用的挖掘流程方法。本发明提高了数据权属关系获取的效率和准确度。动态更新机制保证数据权属信息的即时性、正确性、一致性。通过五大数据权属子维度对数据进行分类分级,一方面可有针对性的共享铁路数据,另一方面可在保证数据隐私安全的情况下进行数据共享。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号