公开/公告号CN113268771A
专利类型发明专利
公开/公告日2021-08-17
原文格式PDF
申请/专利权人 深圳泰莱生物科技有限公司;
申请/专利号CN202110578450.9
申请日2021-05-26
分类号G06F21/62(20130101);
代理机构44454 深圳市优赛朝闻专利代理事务所(普通合伙);
代理人谭育华
地址 518000 广东省深圳市罗湖区南湖街道南湖路3009号国贸商住大厦19D
入库时间 2023-06-19 12:14:58
技术领域
本发明涉及数据处理技术领域,具体为一种人体临床数据脱敏方法。
背景技术
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
用户隐私数据保护与挖掘用户数据价值是两个互相冲突的盾体,彻底的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此我们对此做出改进,提出一种人体临床数据脱敏方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种人体临床数据脱敏方法,包括:
静态大数据脱敏,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限;
动态大数据脱敏,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。
作为本发明的一种优选技术方案,所述大数据脱敏是基于K-Anonymity隐私数据泄露风险模型设计脱敏系统,所述隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。
作为本发明的一种优选技术方案,所述隐私数据脱敏的第二步是数据泛化,将准标识列的数据替换为语义一致但更通用的数据,经过泛化后,产生的多条纪录的准标识列属性值相同,使准标识列属性值相同的行的集合组成相等集。
作为本发明的一种优选技术方案,所述K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不于k,即至少有k-1条纪录半标识列属性值与该条纪录相同。
作为本发明的一种优选技术方案,所述k-Anonymity就是每个等价组(相等集)中的记录个数为k个,即针对大数据的攻击者在进行链接攻击时,对于任意一条记录的攻击同时会关联到等价组中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录,从而保护了用户的隐私。
作为本发明的一种优选技术方案,建立T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。
本发明的有益效果是:该种人体临床数据脱敏方法,包括如下优势:
1、数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。
2、可管理。结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险的前提下,最大化保留数据分析挖掘的价值;
3、可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的数据结构化流程图;
图2是本发明的数据泛化流程图一;
图3是本发明的数据泛化流程图二。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-3所示,本发明一种人体临床数据脱敏方法,包括:
静态大数据脱敏,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限;
动态大数据脱敏,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。
其中,大数据脱敏是基于K-Anonymity隐私数据泄露风险模型设计脱敏系统,隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。
其中,隐私数据脱敏的第二步是数据泛化,将准标识列的数据替换为语义一致但更通用的数据,经过泛化后,产生的多条纪录的准标识列属性值相同,使准标识列属性值相同的行的集合组成相等集。
其中,K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不于k,即至少有k-1条纪录半标识列属性值与该条纪录相同。
其中,k-Anonymity就是每个等价组(相等集)中的记录个数为k个,即针对大数据的攻击者在进行链接攻击时,对于任意一条记录的攻击同时会关联到等价组中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录,从而保护了用户的隐私。
其中,建立T(Q1,Q2,...,Qd,S1,S2,...,Sm)来表达一张待发布的数据表,简称为T(d),其中d是准标识符的个数,而m是敏感属性的个数。k-匿名机制要求表中的每一条记录都至少和表中的k-1条记录的准标识符QI一致。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种用于临床检测的稳定的辅酶水溶液,一种在临床检测水溶液中稳定的一种辅酶的方法以及一种用于所述临床检测的试剂盒
机译: 电子临床移交综合医学教育(eCHIME)。一种将个案信息从电子临床移交软件链接到相关测验问题的新颖方法,从而为工作场所的学习,教育和员工发展提供了补充。 eCHIME是一种双重搜索工具,它基于卫生行业中许多部门的现有数据。各个站点和临床学科可以通过向个人设备交付上下文量身定做的问题来定制适合自己领域的问题。
机译: 一种由临床构造治疗的四个模块组成的临床治疗装置,该装置基本上是相同的,并且具有保护功能,同时具有防止故障同时发生在多个临床和临床治疗模块中的单个位上的保护。防止单个模块在临床上的失败