首页> 中国专利> 大数据平台的数据流通与交易的敏感数据保护系统及方法

大数据平台的数据流通与交易的敏感数据保护系统及方法

摘要

一种大数据平台的数据流通与交易的敏感数据保护系统,其特征在于,所述大数据平台的数据流通与交易的敏感数据保护系统包括在数据采集中发现敏感内容并对敏感内容进行保护处理的数据采集模块、对数据共享过程中的敏感数据进行保护处理的数据共享模块、对数据交换过程中的相对敏感数据配置脱敏策略进行脱敏处理的数据交换模块、在数据获取过程中对数据文件下载链接及存储地址进行保护的数据获取模块、对敏感数据的脱敏及保护处理进行管理和监控以及审计的脱敏管理模块。本发明还公开了一种大数据平台的数据流通与交易的敏感数据保护方法。

著录项

  • 公开/公告号CN105653981A

    专利类型发明专利

  • 公开/公告日2016-06-08

    原文格式PDF

  • 申请/专利号CN201511026582.1

  • 发明设计人 陈天莹;李全兵;李霄;

    申请日2015-12-31

  • 分类号G06F21/62(20130101);

  • 代理机构

  • 代理人

  • 地址 610041 四川省成都市双流县西南航空港经济开发区工业集中区内

  • 入库时间 2023-12-18 15:42:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-30

    授权

    授权

  • 2016-07-06

    实质审查的生效 IPC(主分类):G06F21/62 申请日:20151231

    实质审查的生效

  • 2016-06-08

    公开

    公开

说明书

技术领域

本发明涉及大数据领域,具体地说,涉及大数据平台的数据流通与交易 的敏感数据保护系统及方法。

背景技术

在大数据环境下,数据的汇集、流通、交换共享、交易、分析挖掘等需 求越来越强,大量的敏感数据汇集到大数据中心平台,如何在流通、交换共 享、交易、分析挖掘等数据使用中保护这些敏感数据,防止用户隐私泄露已 成为大数据安全关注的重点。目前,已有的敏感数据保护采用以下四种保护 方式:

(1)访问控制的方法:通过对用户身份及其所属的安全等级来限制用 户对数据的访问,防止敏感数据的未授权访问,实现敏感数据的保护。该方 法在一定程度上降低了数据共享的可用性。

(2)基于数据失真的敏感数据保护技术:采用扰动、置换、遮挡等方 法对敏感数据进行处理,在处理的同时保证数据保留某些统计的特征,以便 进行数据分析与挖掘。该方法效率比较高,但是会使数据中的信息丢失。

(3)基于数据加密的技术:采用安全多方计算等加密技术对数据进行 加密处理,保障数据流通过程中的敏感数据安全。该方法能有效地保障数据 流通中数据的准确性和安全性,但是计算的效率相对较低,开销比较大。

(4)基于限制发布的技术:依据实际需求,借助差分隐私、k-匿名等 算法对发布的数据进行处理,比如不发布数据中的某些属性或者对某些数据 型进行泛化,实现敏感数据的保护。该方法能保证共享数据的真实性,但是 会存在数据中信息的丢失。

综上所述,存在的问题:

(1)已有的敏感数据保护方法大都集中在对数据流通的共享与发布环 节,缺乏对数据流通整个环节的敏感数据的保护。

(2)过度关注用户隐私也会阻碍数据流通,如何结合不同敏感数据保 护方法的优缺点为数据流通的不同环节选择恰当的技术,实现敏感数据保护 与数据可用性之间的平衡,是亟待解决的问题。

(3)关于敏感数据保护技术的大都是直接对敏感数据处理,但是并未考 虑到如何发现敏感数据、如何验证脱敏结果的正确性、真实性。

因此提供一种大数据平台上数据流通过程中的敏感数据保护机制,保障 数据流通过程中的敏感数据安全,平衡隐私保护与数据流通之间的关系,是 迫切需要的。

发明内容

为了达到上述目的,本发明提供一种保障数据流通过程中的数据采集、 数据共享、数据交换以及数据获取整个过程敏感数据安全的大数据平台的数 据流通与交易的敏感数据保护系统及方法。

本发明的一种大数据平台的数据流通与交易的敏感数据保护系统,其特 征在于,所述大数据平台的数据流通与交易的敏感数据保护系统包括在数据 采集中发现敏感内容并对敏感内容进行保护处理的数据采集模块、对数据共 享过程中的敏感数据进行保护处理的数据共享模块、对数据交换过程中的相 对敏感数据配置脱敏策略进行脱敏处理的数据交换模块、在数据获取过程中 对数据文件下载链接及存储地址进行保护的数据获取模块、对敏感数据的脱 敏及保护处理进行管理和监控以及审计的脱敏管理模块。

其中,所述数据采集模块包括对上传大数据平台的数据进行数据信息提 取为敏感数据保护提供数据准备的元数据提取模块、在所述元数据提取模块 提取的数据信息基础上自动发现涉密信息及敏感数据的第一敏感数据发现 模块、为所述第一敏感数据发现模块发现的敏感内容配置相应的脱敏算法形 成脱敏策略的第一脱敏策略配置模块、通过系统调用所述第一脱敏策略配置 模块预定义的脱敏策略对敏感数据实现批量离线脱敏的离线脱敏模块。

所述数据共享模块包括对存储于大数据平台中的数据根据数据属性选 择采用人工定义和自动发现方式中的一种进行敏感数据发现的第二敏感数 据发现模块、在所述第二敏感数据发现模块发现的敏感数据基础上为每一类 敏感数据配置脱敏算法形成脱敏策略的第二脱敏策略配置模块、对大数据平 台中允许共享的数据进行噪声干扰处理保护敏感数据的敏感数据查询保护 模块、对大数据平台中的数据检索结果进行数据脱敏保护的检索结果保护模 块。

所述数据获取模块包括对文件存储的真实地址进行变换形成新的存储 地址达到存储地址保护的文件存储地址变换模块、在所述文件存储地址编号 模块对文件真实存储地址进行变换的基础上为有下载需求的数据需求方展 示变换后的文件存储地址防止文件存储地址泄露保护下载链接安全的下载 链接保护模块。

所述脱敏管理模块包括对数据脱敏算法进行添加、删除和修改的脱敏算 法管理模块、对数据流通过过程中的数据脱敏策略进行增加、删除和修改的 脱敏策略管理模块、对敏感内容和敏感数据特征分析的基础上训练得到机器 学习模型并在有敏感数据自动发现需求时对敏感数据进行自动发现的自学 习引擎、对数据流通过程中的各个环节的数据脱敏进行实时监控以便及时发 现异常的脱敏监控模块、对数据流通和交易过程中的数据脱敏任务进行分析 审计的脱敏审计模块、对数据流通和交易过程中敏感数据保护处理进行评价 的脱敏效能评估模块。

本发明的一种大数据平台的数据流通和交易的敏感数据保护方法,采用 大数据平台的数据流通和交易的敏感数据保护系统来实现,包括如下步骤:

步骤一、资源发布人在数据采集前发现数据中的敏感内容,对数据采集 中的敏感数据进行保护处理再将数据上传到大数据平台;

步骤二、数据上传到大数据平台后,资源发布人对数据进行共享时,对 数据共享中的敏感数据进行保护之后再共享发布;

步骤三、数据需求方对资源发布人共享的数据请求交换,资源发布人对 数据需求方请求交换的数据中的敏感内容进行定义,对数据交换中的敏感数 据进行保护处理后再交换给数据需求方;

步骤四、数据需求方请求下载资源发布人共享的数据,对数据下载中的 敏感数据存储地址进行保护。

其中,所述对数据采集中的敏感数据进行保护包括如下步骤:

s11、资源发布人在向大数据平台上传数据前,制定元数据提取标准; 进入步骤s12;

s12、解析上传的数据,进入步骤s13;

s13、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 元数据提取模块根据所述步骤s11中制定的元数据提取标准提取经步骤s12 解析后的上传数据的元数据信息,进入步骤s14;

s14、根据所述步骤s13中提取的元数据信息进行敏感内容配置,进入 步骤s15;

s15通过所述大数据平台的数据流通与交易的敏感数据保护系统中的第 一敏感数据发现模块根据所述步骤s14中配置的敏感内容,对数据中的敏感 内容进行自动识别,进入步骤s16;

s16、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 第一脱敏策略配置模块根据所述步骤s15中识别确定的敏感内容的特点,自 动配置脱敏算法,形成脱敏策略,进入步骤s17;

s17、根据所述步骤s16中配置的脱敏算法,对数据进行脱敏处理,进 入步骤s18;

s18、将脱敏后的数据上传到大数据平台。

所述对数据共享中的敏感数据进行保护包括如下步骤:

s21、资源发布人上传数据到大数据平台,进入步骤s22;

s22、在大数据平台环境下,通过所述大数据平台的数据流通与交易的 敏感数据保护系统中的第二敏感数据发现模块根据数据属性定义敏感数据, 进入步骤s23;

s23、根据所述步骤s22中定义的敏感数据确定数据中的敏感数据,进 入步骤s24;

s24、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 第二脱敏策略配置模块为所述步骤s23中确定的敏感数据配置脱敏算法,进 入步骤s25;

s25、判断为敏感数据配置的脱敏算法是否合适,若否,进入步骤s26, 若是,进入步骤s27;

s26、为敏感数据重新配置脱敏算法,进入步骤s27;

s27、根据配置的脱敏算法形成脱敏策略,进入步骤s28;

s28、保存脱敏策略,并对不同脱敏策略的使用情况进行统计分析,进 入步骤s29;

s29、根据步骤s28中对脱敏策略使用情况的统计分析结果对脱敏策略 使用率进行排序,进入步骤s210;

s210、根据脱敏策略使用率建立脱敏策略自动推荐机制。

所述对数据交换中的敏感数据进行保护包括如下步骤:

s31、数据需求方输入查询条件对数据进行查询,进入步骤s32;

s32、对与查询条件匹配的数据进行差分隐私保护处理,进步步骤s33;

s33、将经过差分隐私保护处理的数据反馈给数据需求方,进步步骤s34;

s34、将反馈给数据需求方的数据以脱敏方式将数据显示给数据需求方 供其查看,进入步骤s35;

s35、数据需求方请求共享数据,进入步骤s36;

s36、资源发布人审核数据需求方的身份和数据使用权限,以此为基础 通过所述大数据平台的数据流通与交易的敏感数据保护系统中的敏感数据 定义模块预定义相对于数据需求方的敏感数据,进入步骤s37;

s37、判断预定义的敏感数据与数据需求方身份与权限是否相符,若否, 进入步骤s38,若是,进入步骤s39;

s38、重新定义敏感数据,进入步骤s39;

s39、根据定义确定相对于数据需求方的敏感数据,进入步骤s310;

s310、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 第三脱敏策略配置模块判断确定的敏感数据的脱敏策略是否合适,若否,进 入步骤s311,若是,进入步骤s312;

s311、修改脱敏策略,进入步骤s312;

s312、确认敏感数据脱敏策略,进入步骤s313;

s313、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 数据脱敏引擎根据确认的脱敏策略对数据需求方请求共享的数据进行脱敏 处理,进入步骤s314;

s314、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 脱敏验证模块校验脱敏数据的正确性,进入步骤s315;

s315、向数据需求方展示校验后的可供共享的脱敏数据。

所述对数据下载中的敏感数据存储地址进行保护包括如下步骤:

S41、数据需求方从展示的结果中选择需要下载的数据文件,进入步骤 s42;

S42、对数据需求方选择下载的文件进行下载链接保护处理,生成新的 可映射到文件原存储地址的安全链接,进入步骤s43;

s43、向数据需求方展示新生成的安全链接供其下载文件。

本发明的有益效果在于:(1)从数据流通的整个环节实现了敏感数据的 保护;(2)在数据流通的不同环节使用不同的敏感数据保护方法,实现敏感 数据保护与数据可用性之间的平衡;(3)提出了基于专家系统和自然语言处 理的敏感数据自动发现方法,能够自动发现敏感数据;(4)提出了验证脱敏 结果正确性与真实性的方法,能够有效地度量数据脱敏环节。

附图说明

图1是本发明的大数据平台的数据流通与交易的敏感数据保护系统的框 架结构示意图;

图2是本发明的大数据平台的数据流通与交易的敏感数据保护方法的主 体流程示意图;

图3是本发明的大数据平台的数据流通与交易的敏感数据保护方法的数 据采集的敏感数据保护流程示意图;

图4是本发明的大数据平台的数据流通与交易的敏感数据保护方法的数 据共享的敏感数据确定流程示意图;

图5是本发明的大数据平台的数据流通与交易的敏感数据保护方法的数 据交换的敏感数据查询保护流程示意图;

图6是本发明的大数据平台的数据流通与交易的敏感数据保护方法的数 据交换的敏感数据查询结果交换保护流程示意图;

图7是本发明的大数据平台的数据流通与交易的敏感数据保护方法的数 据交换的敏感数据保护流程示意图。

具体实施方式

为了更好的理解本发明,下面结合附图详细说明本发明。

如图1所示,本发明的一种大数据平台的数据流通与交易的敏感数据保 护系统,包括在数据采集中发现敏感内容并对敏感内容进行保护处理的数据 采集模块、对数据共享过程中的敏感数据进行保护处理的数据共享模块、对 数据交换过程中的相对敏感数据配置脱敏策略进行脱敏处理的数据交换模 块、在数据获取过程中对数据文件下载链接及存储地址进行保护的数据获取 模块、对敏感数据的脱敏及保护处理进行管理和监控以及审计的脱敏管理模 块。

其中,所述数据采集模块包括对上传大数据平台的数据进行数据信息提 取为敏感数据保护提供数据准备的元数据提取模块、在所述元数据提取模块 提取的数据信息基础上自动发现涉密信息及敏感数据的第一敏感数据发现 模块、为所述第一敏感数据发现模块发现的敏感内容配置相应的脱敏算法形 成脱敏策略的第一脱敏策略配置模块、通过系统调用所述第一脱敏策略配置 模块预定义的脱敏策略对敏感数据实现批量离线脱敏的离线脱敏模块。

优选地,所述元数据提取模块提取上传大数据平台的数据的数据背景、 数据内容、数据结构、存储位置信息;所述第一敏感数据发现模块通过设定 敏感内容的检查范围、敏感内容的背景信息,采用基于规则和数据挖掘的方 法自动发现数据中的敏感内容;所述第一敏感内容脱敏策略配置模块根据所 述第一敏感数据发现模块发现的敏感内容的属性不同配置相应的脱敏算法 形成相应的脱敏策略并同时按照敏感内容属性预定义脱敏策略。

具体地说,资源发布人在数据采集前发现数据中的敏感内容,对敏感内 容进行处理是防止敏感、涉密信息泄露的基础环节。元数据提取模块对待上 传的文档、传统数据库与分布式数据库等数据的背景、内容、数据结构、存 储位置等信息提取出来,为敏感数据保护提供数据准备。第一敏感数据发现 模块在元数据提取的基础上,自动发现数据中的涉密及敏感信息。用户可通 过对敏感内容、敏感内容的检查范围、敏感内容背景信息的设定,采用基于 规则和数据挖掘的方法自动发现数据中的敏感内容。第一脱敏策略配置模块 在敏感内容发现模块的基础上,为敏感内容配置相应的数据脱敏算法,形成 脱敏策略。离线脱敏模块在本地对数据进行脱敏。系统调用敏感内容脱敏策 略配置模块预定义的脱敏策略及敏感数据,实现敏感数据的批量脱敏。

所述数据共享模块包括对存储于大数据平台中的数据根据数据属性选 择采用人工定义和自动发现方式中的一种进行敏感数据发现的第二敏感数 据发现模块、在所述第二敏感数据发现模块发现的敏感数据基础上为每一类 敏感数据配置脱敏算法形成脱敏策略的第二脱敏策略配置模块、对大数据平 台中允许共享的数据进行噪声干扰处理保护敏感数据的敏感数据查询保护 模块、对大数据平台中的数据检索结果进行数据脱敏保护的检索结果保护模 块。

优选地,所述第二敏感数据发现模块采用的人工定义方式发现敏感数据 是由资源发布人依据个人经验定义敏感数据,所述自动发现方式是基于专家 系统和自然语言处理方式对敏感数据进行自动发现并为资源发布人推荐敏 感数据;所述第二脱敏策略配置模块根据敏感数据的特点推荐脱敏算法形成 脱敏策略或者自行定制脱敏算法形成新的脱敏策略,并对已形成的脱敏策略 进行存储和使用率统计分析以实现后续脱敏策略自动推荐预定义;所述敏感 数据查询保护模块对数据需求方在大数据平台中的数据查询结果通过对原 始数据、原始数据的转换、统计结果使用拉普拉斯机制和指数机制实现差分 隐私添加噪音来达到保护敏感数据的目的;所述检索结果保护模块对大数据 平台资源发布人允许共享的数据的检索结果中的敏感信息采用遮挡、置换的 方式进行脱敏处理。

简单地说,数据共享是指数据需求方通过大数据平台对平台数据进行查 询分析,知悉所需要的数据信息。数据共享模块是对平台数据共享过程中的 敏感数据进行保护。第二敏感数据发现模块采用人工定义和自动发现两种方 式进行敏感数据发现。当数据属性比较少时,采用人工定义敏感数据的方式, 主要过程是资源发布人依据个人经验定义敏感数据;当数据属性较多时,采 用自动发现的方式,主要是基于专家系统和自然语言处理两种方式对敏感数 据进行自动发现,为资源发布人推荐敏感数据。第二脱敏策略配置模块是在 敏感数据发现的基础上,为每一类敏感数据配置数据脱敏算法,形成脱敏策 略。系统可依据数据的特点,为敏感数据推荐合适的算法,也可自行制定脱 敏算法。当系统中策略达到一定的数量后,对策略的使用情况进行统计分析, 实现策略的自动推荐。敏感数据查询分析保护模块是对平台数据的查询结果 中添加适当噪音来达到敏感数据保护的结果。系统通过对原始数据、原始数 据的准换、或者是对统计结果使用拉普拉斯机制和指数机制的方法实现差分 隐私,添加噪音来达到敏感数据保护的结果。检索结果保护模块是对平台加 密数据检索结果的数据脱敏保护。系统对检索的结果中数据来源、数据摘要、 数据所有者等敏感信息,采用遮挡、置换等方式进行脱敏。

所述数据交换模块包括针对数据需求方进行敏感数据定义的敏感数据 定义模块、为所述敏感数据定义模块定义的敏感数据配置相应的脱敏策略的 第三脱敏策略配置模块、根据所述第三脱敏策略配置模块配置的脱敏策略对 数据执行脱敏处理的数据脱敏引擎、对脱敏结果的正确性和真实性进行验证 的脱敏验证模块。

优选地,敏感数据定义模块由资源发布人根据已经定义的极敏感数据信 息和数据需求方的身份、数据使用权限,修改原先预定义的敏感数据,定义 针对于数据需求方的敏感数据;所述第三脱敏策略配置模块确认由所述第二 脱敏策略配置模块为所述敏感数据定义模块定义的针对于数据需求方的敏 感数据配置的脱敏策略并在脱敏策略不合适时进行形成最终脱敏策略;所述 数据脱敏引擎根据所述第三脱敏策略模块确定的最终脱敏策略对所述敏感 数据定义模块定义的敏感数据进行脱敏处理;所述脱敏验证模块将脱敏前数 据与脱敏后数据进行数据格式、长度和完整性的检查,并使用相应脱敏规则 对数据进行脱敏得到脱敏结果与所述脱敏引擎脱敏后的数据进行比对验证 脱敏的准确性,同时对原有数据的逻辑关系和统计分布进行比对,验证数据 脱敏的真实性。

数据交换是指数据需求方向资源发布人申请获取数据的过程。数据交换 模块是资源发布人为数据需求方进行脱敏配置与脱敏处理。敏感数据定义模 块是结合数据需求方的信息进行敏感数据的定义。资源发布人结合已定义的 敏感数据信息和数据需求方的身份、数据使用权限,修改敏感数据发现模块 预定义的敏感数据。第三脱敏策略配置模块是在敏感数据定义的基础上,为 敏感数据配置脱敏算法。系统在敏感数据定义模块的基础上,结合敏感数据 的特征,对数据共享过程中预定义的脱敏策略进行确认与修改,如果敏感策 略不合适进行修改,如果合适进行确认,形成最终的脱敏策略。数据脱敏引 擎是对数据执行脱敏处理。当数据需求方发出数据交换请求时,平台调用预 定义的敏感数据及脱敏策略,使用数据脱敏引擎对数据进行脱敏处理。脱敏 验证模块是对数据脱敏的结果的正确性和真实性进行验证。系统将脱敏前数 据与脱敏后数据进行数据格式、长度、完整性的检查,并使用相应脱敏规则 对数据进行脱敏,将结果与脱敏后的数据进行比对,验证数据脱敏的正确性; 对原有数据的逻辑关系与统计分布进行比对,验证数据脱敏的真实性。

所述数据获取模块包括对文件存储的真实地址进行变换形成新的存储 地址达到存储地址保护的文件存储地址变换模块、在所述文件存储地址编号 模块对文件真实存储地址进行变换的基础上为有下载需求的数据需求方展 示变换后的文件存储地址防止文件存储地址泄露保护下载链接安全的下载 链接保护模块。优选地,所述文件存储地址变换模块采用散列函数对文件的 原始地址进行计算生成新的存储地址。

数据获取是数据需求方申请成功后下载数据的过程。数据获取模块是对 数据需求方的数据下载过程进行保护。文件存储地址变换模块是对文件存储 的真实地址进行变换,主要方法是采用散列函数对文件的原始地址进行计算, 生成新的存储地址。下载链接保护模块是在文件存储地址变换模块的基础上, 实现下载链接保护。当有数据下载需求时,展示变换后的文件存储地址,防 止文件存储地址泄露,保护下载链接的安全。

所述脱敏管理模块包括对数据脱敏算法进行添加、删除和修改的脱敏算 法管理模块、对数据流通过程中的数据脱敏策略进行增加、删除和修改的脱 敏策略管理模块、对敏感内容和敏感数据特征分析的基础上训练得到机器学 习模型并在有敏感数据自动发现需求时对敏感数据进行自动发现的自学习 引擎、对数据流通过程中的各个环节的数据脱敏进行实时监控以便及时发现 异常的脱敏监控模块、对数据流通和交易过程中的数据脱敏任务进行分析审 计的脱敏审计模块、对数据流通和交易过程中敏感数据保护处理进行评价的 脱敏效能评估模块。

优选地,所述脱敏算法管理模块向系统添加新的脱敏算法及相应的算法 描述并可删除不适用的脱敏算法;所述脱敏策略管理模块对系统中的脱敏策 略的使用情况进行挖掘分析添加用户常用的脱敏策略,修改不合适的脱敏策 略并删除无用脱敏策略;所述脱敏监控模块对数据流通和交易中敏感数据的 脱敏状态、脱敏策略、脱敏结果、数据需求方进行关联分析和挖掘,及时发 现数据脱敏过程中的异常,以便在发生数据泄露是能实现数据追溯;所述脱 敏效能评估模块对数据流通和交易中敏感数据脱敏保护的功能、敏感数据脱 敏保护的应用场景、敏感数据脱敏保护的正确性和真实性以及有效性进行综 合评价。

具体地说,脱敏管理模块对数据脱敏算法与脱敏策略进行管理。包括脱 敏算法管理与脱敏策略管理。数据脱敏算法管理模块具有对数据脱敏算法进 行添加、删除、修改的功能。系统管理员可向系统中添加新的算法,对算法 进行描述,并上传算法的jar包,可删除不常用的脱敏算法,还可以修改已 有的数据脱敏算法的相关信息及jar包。脱敏策略管理模块具有对数据流通 过程中的数据脱敏策略进行增加、删除、修改的功能。系统管理员可以通过 对系统中策略的使用情况进行挖掘分析,添加用户常用的策略,修改不合适 的策略,删除无用的策略。自学习引擎是在对敏感内容、敏感数据特征分析 的基础上,训练得到的机器学习模型,当有敏感数据自动发现需求时,调用 自学习引擎进行敏感数据的自动发现。脱敏监控模块主要实现数据流通过程 中各个环节的数据脱敏监控。系统管理员通过对脱敏任务的时间、进度、执 行状态等信息进行实时监控,及时发现异常情况。脱敏审计模块是对数据流 通过程中数据脱敏任务的分析,实现脱敏的审计。系统通过对数据脱敏日志 中的数据、数据需求方、脱敏状态、脱敏策略、脱敏结果等信息进行关联分 析与挖掘,及时发现数据脱敏过程中的异常,发生数据泄露事故时,能实现 数据追溯,使责任到人。效能评估是对敏感数据保护方法的评价。该体系主 要从敏感数据保护方法的功能、敏感数据保护的应用场景、敏感数据保护效 果的正确性、真实性、有效性等多个方面对敏感数据保护方法进行综合评价, 以支持敏感数据保护体系。

如图2所示,一种大数据平台的数据流通和交易的敏感数据保护方法, 采用大数据平台的数据流通和交易的敏感数据保护系统来实现,包括如下步 骤:

步骤一、资源发布人在数据采集前发现数据中的敏感内容,对数据采集 中的敏感数据进行保护处理再将数据上传到大数据平台;

步骤二、数据上传到大数据平台后,资源发布人对数据进行共享时,对 数据共享中的敏感数据进行保护之后再共享发布;

步骤三、数据需求方对资源发布人共享的数据请求交换,资源发布人对 数据需求方请求交换的数据中的敏感内容进行定义,对数据交换中的敏感数 据进行保护处理后再交换给数据需求方;

步骤四、数据需求方请求下载资源发布人共享的数据,对数据下载中的 敏感数据存储地址进行保护。

如图3所示,所述对数据采集中的敏感数据进行保护包括如下步骤:

s11、资源发布人在向大数据平台上传数据前,制定元数据提取标准; 进入步骤s12;

s12、解析上传的数据,进入步骤s13;

s13、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 元数据提取模块根据所述步骤s11中制定的元数据提取标准提取经步骤s12 解析后的上传数据的元数据信息,进入步骤s14;

s14、根据所述步骤s13中提取的元数据信息进行敏感内容配置,进入 步骤s15;

s15通过所述大数据平台的数据流通与交易的敏感数据保护系统中的第 一敏感数据发现模块根据所述步骤s14中配置的敏感内容,对数据中的敏感 内容进行自动识别,进入步骤s16;

s16、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 第一脱敏策略配置模块根据所述步骤s15中识别确定的敏感内容的特点,自 动配置脱敏算法,形成脱敏策略,进入步骤s17;

s17、根据所述步骤s16中配置的脱敏算法,对数据进行脱敏处理,进 入步骤s18;

s18、将脱敏后的数据上传到大数据平台。

具体地说,数据采集首先要制定元数据提取的标准,即需要提取数据元 素特征包括哪些方面;然后,解析待上传数据的类型(文档、传统数据库、 实时数据库或者其他);接着提取出数据名称、数据摘要、资源拥有者、关 键词、数据分类、数据标识、内容、背景、数据结构、存储位置等信息,为 敏感数据的保护提供数据准备;依据提取的元数据信息,用户设定敏感内容、 敏感内容所在的存储位置、敏感内容的摘要信息以及敏感数据的标识;依据 敏感内容配置,采用基于规则的方式对数据中的敏感内容进行自动识别;用 户也可跳过敏感内容设定,直接选择数据挖掘的方式进行敏感内容的发现, 主要过程是提取数据的敏感内容特征,采用机器学习模型自动识别出敏感内 容;在确定敏感内容的基础上,系统依据敏感内容的特点,自动推荐脱敏算 法;如果推荐的脱敏算法不恰当,可以依据脱敏内容的脱敏类型,选择合适 的脱敏算法;为敏感内容配置算法后,形成脱敏策略集;系统调用脱敏引擎, 将预定义的敏感数据和脱敏策略集作为输入,执行脱敏;最后将生成的脱敏 结果返回给用户。

如图4所示,所述对数据共享中的敏感数据进行保护包括如下步骤:

s21、资源发布人上传数据到大数据平台,进入步骤s22;

s22、在大数据平台环境下,通过所述大数据平台的数据流通与交易的 敏感数据保护系统中的第二敏感数据发现模块根据数据属性定义敏感数据, 进入步骤s23;

s23、根据所述步骤s22中定义的敏感数据确定数据中的敏感数据,进 入步骤s24;

s24、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 第二脱敏策略配置模块为所述步骤s23中确定的敏感数据配置脱敏算法,进 入步骤s25;

s25、判断为敏感数据配置的脱敏算法是否合适,若否,进入步骤s26, 若是,进入步骤s27;

s26、为敏感数据重新配置脱敏算法,进入步骤s27;

s27、根据配置的脱敏算法形成脱敏策略,进入步骤s28;

s28、保存脱敏策略,并对不同脱敏策略的使用情况进行统计分析,进 入步骤s29;

s29、根据步骤s28中对脱敏策略使用情况的统计分析结果对脱敏策略 使用率进行排序,进入步骤s210;

s210、根据脱敏策略使用率建立脱敏策略自动推荐机制。

如图5-6所示,所述对数据交换中的敏感数据进行保护包括如下步骤:

s31、数据需求方输入查询条件对数据进行查询,进入步骤s32;

s32、对与查询条件匹配的数据进行差分隐私保护处理,进步步骤s33;

s33、将经过差分隐私保护处理的数据反馈给数据需求方,进步步骤s34;

s34、将反馈给数据需求方的数据以脱敏方式将数据显示给数据需求方 供其查看,进入步骤s35;

s35、数据需求方请求共享数据,进入步骤s36;

s36、资源发布人审核数据需求方的身份和数据使用权限,以此为基础 通过所述大数据平台的数据流通与交易的敏感数据保护系统中的敏感数据 定义模块预定义相对于数据需求方的敏感数据,进入步骤s37;

s37、判断预定义的敏感数据与数据需求方身份与权限是否相符,若否, 进入步骤s38,若是,进入步骤s39;

s38、重新定义敏感数据,进入步骤s39;

s39、根据定义确定相对于数据需求方的敏感数据,进入步骤s310;

s310、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 第三脱敏策略配置模块判断确定的敏感数据的脱敏策略是否合适,若否,进 入步骤s311,若是,进入步骤s312;

s311、修改脱敏策略,进入步骤s312;

s312、确认敏感数据脱敏策略,进入步骤s313;

s313、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 数据脱敏引擎根据确认的脱敏策略对数据需求方请求共享的数据进行脱敏 处理,进入步骤s314;

s314、通过所述大数据平台的数据流通与交易的敏感数据保护系统中的 脱敏验证模块校验脱敏数据的正确性,进入步骤s315;

s315、向数据需求方展示校验后的可供共享的脱敏数据。

如图7所示,所述对数据下载中的敏感数据存储地址进行保护包括如下 步骤:

S41、数据需求方从展示的结果中选择需要下载的数据文件,进入步骤 s42;

S42、对数据需求方选择下载的文件进行下载链接保护处理,生成新的 可映射到文件原存储地址的安全链接,进入步骤s43;

s43、向数据需求方展示新生成的安全链接供其下载文件。

优选的,通过所述大数据平台的数据流通与交易的敏感数据保护系统的 脱敏管理模块对每一环节的脱敏算法、脱敏策略进行管理;

通过所述脱敏管理模块中的脱敏算法管理模块以实现为敏感数据配置 合适脱敏算法的目的对每一环节的脱敏算法配置进行添加、删除和修改处理;

通过所述脱敏管理模块中的脱敏策略管理模块以实现为敏感数据配置 合适脱敏策略的目的对数据流通和交易中的脱敏策略进行增加、删除和修改 管理;

通过所述脱敏管理模块中的自学习引擎对数据流通和交易中的敏感内 容和敏感数据特征进行分析训练以得到机器学习模型满足敏感数据的自动 发现需求;

通过所述脱敏管理模块中的脱敏监控模块对数据流通中的各个环节的 数据脱敏进行实时监控以便及时发现异常情况;

通过所述脱敏管理模块中的脱敏审计模块对数据流通和交易中的数据 脱敏任务进行分析审计;

通过所述脱敏管理模块中的脱敏效能评估模块对数据流通和交易中的 敏感数据的保护处理进行评价。

当资源发布人将数据发布到大数据平台后,在进入资源共享前,需要进 行敏感数据发现与脱敏策略配置,具体地说,数据上传到系统后,资源发布 人对数据进行共享时,首先判断数据的属性的大小,如果数据的属性比较少, 依据个人的经验和相关规定定义敏感数据;当数据的属性较多,采用基于专 家系统或者自然语言处理的方式。基于专家系统的方式是依据敏感数据与文 本处理领域专家的知识与经验,分析并总结敏感数据的规律,形成敏感数据 发现的规则,并利用这些规则对数据是否敏感进行推理与判断,自动发现敏 感数据。基于自然语言处理的敏感数据自动发现是对平台的不同领域敏感数 据进行深度分析,采用特征提取算法提取敏感数据的特征,在敏感数据特征 提取的基础上,采用自然语言处理模型,实现对身份证号、银行卡号、地址、 出生日期、公司名称、金额、口令、姓名等敏感数据的自动发现。定义好敏 感数据后要确定数据中的敏感数据。系统为已确定的敏感数据进行脱敏算法 的自动推荐;如果推荐的脱敏算法不合适,可以进行修改,修改后形成新的 脱敏策略;当系统中策略达到一定数量后,对策略的使用情况进行统计分析, 得到用户使用较多的策略,形成策略排序;系统依据策略排序,为用户自动 推荐策略。

资源发布人将数据发布后,数据需求方输入查询条件对数据进行查询检 索;系统依据查询条件和数据本身的特点,对原数据原始数据、原始数据的 转换、或者是对统计结果使用拉普拉斯机制和指数机制的方法实现差分隐私, 如果为数值型数据通过拉普拉斯机制对结果添加噪声实现差分隐私保护,如 果为非数值型数据通过指数机制对结果添加噪声实现差分隐私保护;查询后, 系统将结果反馈给数据需求方;当数据需求方查看数据的相关信息时,对数 据信息中的数据来源、数据摘要、数据所有者等敏感信息,采用遮挡、置换 等方式进行脱敏。

数据需求方在查询结果中申请需要共享的数据,资源发布人依据数据需 求方的身份和数据使用权限,定义敏感数据;如果预定义的敏感数据与数 据需求方身份与权限不符,修改敏感数据;然后确定数据需求方请求共享的 数据中的敏感数据;系统在敏感数据定义模块的基础上,结合敏感数据的特 征,对数据共享过程中预定义的脱敏策略进行确认;如果敏感策略不合适进 行修改,如果合适进行确认,形成最终的脱敏策略;当数据需求方发出数据 交换请求时,平台调用预定义的敏感数据及脱敏策略,使用数据脱敏引擎对 数据进行脱敏处理;系统将脱敏前数据与脱敏后数据进行数据格式、长度、 完整性的检查,并使用相应脱敏规则对数据进行脱敏,将结果与脱敏后的数 据进行比对,验证数据脱敏的正确性;通过数据视图展示原数据之间的逻辑 关系;依原数据之间的逻辑关系查询脱敏后数据的数据项是否仍存在逻辑性; 依据实际数据脱敏需求,为脱敏前后的数据分布统计设置阈值;对比脱敏前 后数据分布的统计的平均数、标准差、中位数、统计分布图,如果平均数、 标准差、中位数超过设定阈值,统计形状差异过大,需重新调整脱敏策略。

本发明的有益效果在于:(1)从数据流通的整个环节实现了敏感数据的 保护;(2)在数据流通的不同环节使用不同的敏感数据保护方法,实现敏感 数据保护与数据可用性之间的平衡;(3)提出了基于专家系统和自然语言处 理的敏感数据自动发现方法,能够自动发现敏感数据;(4)提出了验证脱敏 结果正确性与真实性的方法,能够有效地度量数据脱敏环节。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根 据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明 的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号