首页> 中国专利> 一种基于信息损失惩罚实现l-diversity匿名的方法

一种基于信息损失惩罚实现l-diversity匿名的方法

摘要

本发明涉及数据发布时的匿名保护技术领域,具体为一种基于信息损失惩罚实现l‑diversity匿名的方法,包括以下步骤:根据现有数据集计算出效用矩阵;根据效用矩阵对敏感属性值进行聚类;将数据集中的每条记录初始化为一个等价类,根据敏感属性值的聚类结果对等价类聚类;有益效果为:本发明提出的基于信息损失惩罚实现l‑diversity匿名的方法,使用ILP最小化的原则合并等价类,并使用数据失真的方式对输出结果进行进一步处理,以最低的信息损失、较小的运行代价实现了l‑diversity匿名。此外,本发明也提供了一种衡量数据匿名化过程中数据损失的方式,为今后改进该领域的相关算法提供了一种新的可行路径。

著录项

  • 公开/公告号CN116628745A

    专利类型发明专利

  • 公开/公告日2023-08-22

    原文格式PDF

  • 申请/专利权人 浪潮云信息技术股份公司;

    申请/专利号CN202310593918.0

  • 发明设计人 侯令晨;周永进;李国涛;

    申请日2023-05-25

  • 分类号G06F21/62(2013.01);G06F18/232(2023.01);G06F18/21(2023.01);

  • 代理机构济南信达专利事务所有限公司 37100;

  • 代理人姜鹏

  • 地址 250100 山东省济南市高新区浪潮路1036号浪潮科技园S01号楼

  • 入库时间 2024-01-17 01:23:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-08

    实质审查的生效 IPC(主分类):G06F21/62 专利申请号:2023105939180 申请日:20230525

    实质审查的生效

  • 2023-08-22

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及数据发布时的匿名保护技术领域,具体为一种基于信息损失惩罚实现l-diversity匿名的方法。

背景技术

随着Internet技术、大容量存储技术的迅猛发展以及数据共享范围的逐步扩大,数据的自动收集和发布越来越方便,然而在数据发布过程中隐私泄露问题也日益突出:网络数据查询服务中,搜索引擎为信息检索提供了方便,尤其是个性化信息服务为提升搜索引擎查询结果的高质量服务(QoS)提供了保障,但是个性化服务需要收集和集成大量的用户个人信息,以精确地描述用户的个性特征和个性模型,因此将信息发布在开放的网络环境会带来大数据隐私保护的巨大挑战;此外,传统的数据挖掘技术旨在从大量的数据中抽取出潜在的、有价值的知识模型或规则,数据挖掘技术在发现知识、信息获取的同时也对大数据隐私保护构成了威胁。因此数据发布过程中的隐私保护问题就显得尤为重要。

现有技术中,实现数据发布过程中的隐私保护,较以往其它安全问题(如云计算中的数据安全等)更为棘手。这是因为在云计算中,虽然服务提供商控制了数据的存储与运行环境,但是用户仍然有些办法保护自己的数据,例如通过密码学的技术手段实现数据安全存储与安全计算,或者通过可信计算方式实现运行环境安全等。事实上,数据发布过程中人们面临的威胁并不仅限于个人隐私泄漏,存储、处理、传输等各个过程中都面临诸多安全风险,都有数据安全与隐私保护的需求。

但是,基于限制发布的隐私保护技术是一类通过有选择地发布原始数据、不发布敏感数据或者发布精度较低的敏感数据以实现隐私保护的技术。数据发布中隐私保护对象主要是用户敏感数据与个体身份之间的对应关系。通常使用删除标识符的方式发布数据是无法真正阻止隐私泄露的,攻击者可以通过链接攻击获取个体的隐私数据。

发明内容

本发明的目的在于提供一种基于信息损失惩罚实现l-diversity匿名的方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于信息损失惩罚实现l-diversity匿名的方法,所述方法包括以下步骤:

根据现有数据集计算出效用矩阵;

根据效用矩阵对敏感属性值进行聚类;

将数据集中的每条记录初始化为一个等价类,根据敏感属性值的聚类结果对等价类聚类;

依据ILP最小化的原则合并等价类,直到所有等价类的大小均不小于k;

对敏感属性值小于l的等价类进行数据失真操作。

优选的,根据现有数据集计算出效用矩阵时,计算公式如下:

其中m是敏感属性可以取值的个数,n是准标识符中的属性个数,矩阵元素u

优选的,将数据集中的每条记录初始化为一个等价类,之后根据敏感属性值的聚类结果对等价类聚类时,采用贪心算法在等价类的聚类结果的每一个类中合并等价类:对每一趟处理,算法依据ILP最小化的原则合并等价类,直到所有等价类的大小均不小于k。

优选的,对于数值型准标识符A

其中,|A

对于分类型准标识符A,一条记录t的ILP计算公式如下:

其中,|A|是所有记录在准标识符A上取不重复值的个数,m为敏感属性值个数,size(u)为记录t在属性A上的值被泛化的集合大小。

优选的,对敏感属性值小于l的等价类进行数据失真操作的具体操作如下:

随机选择等价类中的一条记录,将其敏感属性值随机地改变为同一个敏感属性值聚类结果中的其它敏感属性值。

与现有技术相比,本发明的有益效果是:

本发明提出的基于信息损失惩罚实现l-diversity匿名的方法,使用ILP最小化的原则合并等价类,并使用数据失真的方式对输出结果进行进一步处理,以最低的信息损失、较小的运行代价实现了l-diversity匿名。此外,本发明也提供了一种衡量数据匿名化过程中数据损失的方式,为今后改进该领域的相关算法提供了一种新的可行路径;使用测试k-匿名的基准数据集Adult作为实验数据集,对本发明方案算法与传统的k-匿名算法测试数据进行比较后,测试结果表明,本发明方案算法在运行时间、信息损失、一致性敏感攻击防御上明显优于传统k-匿名算法。

附图说明

图1为本发明方法流程图。

具体实施方式

为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种基于信息损失惩罚实现l-diversity匿名的方法,所述方法包括以下步骤:

首先根据现有数据集计算出效用矩阵,计算公式如下:

其中m是敏感属性可以取值的个数,n是准标识符中的属性个数。矩阵元素u

根据以上效用矩阵聚类敏感属性值,并将原始数据集中的每条记录初始化为一个等价类,之后根据敏感属性值的聚类结果对等价类聚类。考虑到准标识符对同一敏感属性,尤其是不同敏感属性的效用不同,使得此时的聚类结果中具有一个敏感值的等价类的比例偏高,容易受到一致性攻击的影响。

为提高本技术方案输出的匿名化数据对一致性攻击的抵抗能力,采用贪心算法在等价类的聚类结果的每一个类中合并等价类:对每一趟处理,算法依据ILP最小化的原则合并等价类,直到所有等价类的大小均不小于k。

对于数值型准标识符A

其中,|A

对于分类型准标识符A,一条记录t的ILP计算公式如下:

其中,|A|是所有记录在准标识符A上取不重复值的个数,m为敏感属性值个数,size(u)为记录t在属性A上的值被泛化的集合大小。

最后本技术方案对敏感属性多样性小于l的等价类进行数据失真:随机选择等价类中的一条记录,将其敏感属性值随机地改变为同一个敏感属性值聚类结果中的其它敏感属性值。这样人为地改变了记录和等价类的敏感属性值,降低了数据真实性,但是由于只是将敏感属性值改变为同一个敏感属性值聚类结果中其它的敏感属性值,所以数据失真程度相对较低,以较小的代价实现了l-diversity匿名。

算法执行过程如下:

输人:表T,参数k,参数z

输出:表T'

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号