首页> 中文学位 >数据表匿名化的微聚集算法的研究
【6h】

数据表匿名化的微聚集算法的研究

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景及意义

1.2国内外研究现状

1.3本文主要的工作

1.4本文的基本框架

1.5本章小结

2数据表k-匿名化的微聚集技术

2.1微聚集算法相关技术

2.1.1微聚集算法的基本概念

2.1.2k-匿名化微聚集算法的基本步骤

2.1.3连续型数据的距离度量方法

2.1.4分类型数据的距离度量方法

2.1.5混合型数据的距离度量方法

2.2微聚集算法的分类

2.2.1从k-划分所依据的属性个数的角度分类

2.2.2从等价类大小的角度分类

2.2.3从聚类方法角度分类

2.2.4从数据类型的角度分类

2.3本章小结

3基于免疫克隆选择的微聚集算法

3.1引言

3.2微聚集技术距离度量及类质心的定义

3.3人工免疫克隆选择理论

3.4基于免疫克隆选择的微聚集算法

3.5实验结果与分析

3.6本章小结

4面向混合型数据的微聚集算法

4.1引言

4.2基于泛化层次的距离度量

4.3混合数据的距离度量和类质心的定义

4.4匿名数据质量度量

4.4.1匿名数据的信息损失量度量

4.4.2匿名数据的泄密风险度量

4.5面向混合数据的MDAV算法

4.6实验结果及分析

4.6.1实验环境和数据

4.6.2运行时间分析

4.6.3数据可用性分析

4.6.4泄密风险分析

4.7本章小结

5面向微聚集技术的匿名数据的质量评估

5.1引言

5.2综合评估模型

5.3可用性评估模型

5.3.1连续型数据的信息损失量度量方法

5.3.2分类型数据的信息损失量度量方法

5.4安全性评估模型

5.4.1基于距离的记录链接方法

5.4.2基于分级的区间泄密方法

5.5安全性和可用性权衡评估

5.6实验结果及分析

5.6.1连续型属性的实验分析

5.6.2分类型属性的实验分析

5.7本章小结

6总结与展望

6.1总结

6.2展望

参考文献

攻读学位期间取得的研究成果

致谢

展开▼

摘要

k-匿名作为一种简单有效的私有数据的保护技术得到了广泛的关注。它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。目前存在的k-匿名算法大都基于泛化/隐匿技术,然而,泛化/隐匿技术在效率、连续性数据的语义保持等上存在一定的缺陷。近年来,微聚集(Microaggregation)技术被应用到数据表的k-匿名化上,弥补了泛化/隐匿技术的不足,其基本思想是:将大量的数据按相似程度划分为若干类,要求每个类内元组数至少为k个,然后用类质心取代类内元组的值,实现数据表的k-匿名化。 本文研究了全局搜索的微聚集算法,实现了面向混合型数据的微聚集算法,并且提出了面向微聚集算法的评估模型,主要研究工作如下: (1)提出了基于免疫克隆选择的微聚集算法(ICSMA,Immune Colonal SelectionMicroaggregation Algorithm),提高了微聚集算法产生的匿名数据的质量。该算法在传统的克隆选择算法的基础上,引入调整算子,在抗体成熟的过程中,删除不合理抗体,加快了收敛速度。实验结果表明,ICSM算法较MDAV算法能生成质量更好的匿名表。 (2)针对目前微聚集算法在匿名化分类型数据上的不足,本文提出了一种面向混合型数据的微聚集算法。该算法中,分类型数据采用层次距离,数值型数据采用欧氏距离,将这两种距离的结合作为混合型数据的距离,并将数值型数据的均值向量与分类型数据的众值向量并在一起作为类质心,用该类质心代替类中元组在准标识符上的值,以实现k-匿名化。实验结果表明该方法在保证匿名表安全的情况下,可以降低匿名表的信息损失量,提高可用性。 (3)提出了微聚集算法的评估模型EM4ADOM(Evaluation Model for k-AnonymizedData Oriented to Microaggregation),该模型从数据的可用性、安全性、可用性和安全性的权衡三个方面综合评估微聚集算法产生的匿名数据的质量。实验结果表明,EM4ADOM能够较全面地评估微聚集算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号