首页> 中国专利> 一种人体临床数据脱敏方法

一种人体临床数据脱敏方法

摘要

本发明公开了一种人体临床数据脱敏方法,包括静态大数据脱敏和动态大数据脱敏,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。本发明实现了基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏,然后结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制,且对数据的访问要保证可回溯,可审计。

著录项

  • 公开/公告号CN113268771A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 深圳泰莱生物科技有限公司;

    申请/专利号CN202110578450.9

  • 发明设计人 郑杰;刘佳派;钟晟;

    申请日2021-05-26

  • 分类号G06F21/62(20130101);

  • 代理机构44454 深圳市优赛朝闻专利代理事务所(普通合伙);

  • 代理人谭育华

  • 地址 518000 广东省深圳市罗湖区南湖街道南湖路3009号国贸商住大厦19D

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明涉及数据处理技术领域,具体为一种人体临床数据脱敏方法。

背景技术

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

用户隐私数据保护与挖掘用户数据价值是两个互相冲突的盾体,彻底的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此我们对此做出改进,提出一种人体临床数据脱敏方法。

发明内容

为了解决上述技术问题,本发明提供了如下的技术方案:

本发明一种人体临床数据脱敏方法,包括:

静态大数据脱敏,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限;

动态大数据脱敏,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。

作为本发明的一种优选技术方案,所述大数据脱敏是基于K-Anonymity隐私数据泄露风险模型设计脱敏系统,所述隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。

作为本发明的一种优选技术方案,所述隐私数据脱敏的第二步是数据泛化,将准标识列的数据替换为语义一致但更通用的数据,经过泛化后,产生的多条纪录的准标识列属性值相同,使准标识列属性值相同的行的集合组成相等集。

作为本发明的一种优选技术方案,所述K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不于k,即至少有k-1条纪录半标识列属性值与该条纪录相同。

作为本发明的一种优选技术方案,所述k-Anonymity就是每个等价组(相等集)中的记录个数为k个,即针对大数据的攻击者在进行链接攻击时,对于任意一条记录的攻击同时会关联到等价组中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录,从而保护了用户的隐私。

作为本发明的一种优选技术方案,建立T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。

本发明的有益效果是:该种人体临床数据脱敏方法,包括如下优势:

1、数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。

2、可管理。结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险的前提下,最大化保留数据分析挖掘的价值;

3、可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

在附图中:

图1是本发明的数据结构化流程图;

图2是本发明的数据泛化流程图一;

图3是本发明的数据泛化流程图二。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例:如图1-3所示,本发明一种人体临床数据脱敏方法,包括:

静态大数据脱敏,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限;

动态大数据脱敏,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。

其中,大数据脱敏是基于K-Anonymity隐私数据泄露风险模型设计脱敏系统,隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。

其中,隐私数据脱敏的第二步是数据泛化,将准标识列的数据替换为语义一致但更通用的数据,经过泛化后,产生的多条纪录的准标识列属性值相同,使准标识列属性值相同的行的集合组成相等集。

其中,K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不于k,即至少有k-1条纪录半标识列属性值与该条纪录相同。

其中,k-Anonymity就是每个等价组(相等集)中的记录个数为k个,即针对大数据的攻击者在进行链接攻击时,对于任意一条记录的攻击同时会关联到等价组中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录,从而保护了用户的隐私。

其中,建立T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号