首页> 中文学位 >微数据发布中提高匿名数据可用性的匿名化方法研究
【6h】

微数据发布中提高匿名数据可用性的匿名化方法研究

代理获取

目录

摘要

1 绪论

1.1 研究背景与意义

1.2 研究现状

1.3 本文工作及架构组织

1.3.1 本文工作

1.3.2 本文的架构组织

2 相关匿名化知识

2.1 攻击类型和相应匿名模型

2.1.1 记录链接

2.1.2 属性链接

2.1.3 表链接

2.1.4 概率攻击

2.2 匿名操作

2.2.1 泛化和隐匿

2.2.2 分解与排列

2.2.3 扰动

2.3 匿名数据质量的评估

2.4 本章小结

3 GN:一种结合泛化和噪音技术的隐私保护方法

3.1 引言

3.2 GN匿名方法

3.2.1 GN框架

3.2.2 参数TND值的设置原则

3.2.3 噪音元组添加模型

3.3 GN-Bottom-up算法

3.3.1 信息损失与距离定义

3.3.2 GN-Bottom-up算法框架

3.4 验证分析

3.4.1 数据可用性方面比较

3.4.2 算法效率方面比较

3.5 本章小结

4 FSRS:一种基于模糊粗糙集的加权隐私保护方法

4.1 引言

4.2 相关技术

4.2.1 模糊集理论

4.2.2 粗糙集理论

4.3 FSRS匿名方法

4.3.1 FSRS的主要框架

4.3.2 WEAM方法

4.4 算法和度量

4.4.1 FsBs-Bottom-up算法

4.4.2 匿名数据度量方法

4.5 实例分析

4.6 本章小结

5 PBRS:一种基于粗糙集理论的聚类加权隐私保护方法

5.1 问题阐述

5.2 粗糙集的相关知识

5.3 PBRS匿名方法

5.3.1 PBRS的主要思想

5.3.2 实例说明

5.4 实现算法

5.5 实验结果与分析

5.5.1 信息损失量分析

5.5.2 聚类效果分析

5.5.3 实验小结

5.6 本章小结

6 总结与展望

6.1 工作总结

6.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

声明

展开▼

摘要

微数据在数据分析和科学研究等领域发挥着越来越重要的作用。因此,越来越多的组织机构收集并共享微数据,然而微数据的发布和共享会泄漏包含在数据中的隐私信息。因此,微数据发布中隐私保护问题近几年来成为数据挖掘领域的研究热点。
  目前在微数据发布的隐私保护领域中,匿名化技术是该领域中的主流方法,其主要思想是通过对原始待发布数据的处理,减少个体身份被攻击者唯一标识的概率,从而实现个体的隐私保护。本文通过结合噪音技术、模糊粗糙集等领域知识,对微数据发布中隐私保护在匿名数据可用性上进行了研究,主要工作如下:
  (1)提出了将泛化和噪音技术相结合的隐私保护匿名化方法的研究。在现有的实现k-匿名模型的隐私保护方法中,泛化技术的应用相当广泛。尤其是在数据分布均匀的状况下,其数据匿名效果较好。但当数据规模不是很大,分布不均匀的情况下,会出现数据泛化程度过大,匿名数据可用性过低的问题。针对这个缺陷,本文提出了噪音和泛化技术相结合的GN匿名方法,该方法通过在泛化过程中添加噪音降低泛化程度;并提出噪音添加模型,保证添加噪音后的匿名数据中敏感属性分布与原始数据基本不变;还提出了实现算法GN-Bottom-up算法,且实验证明GN方法比原始一般匿名方法能有效降低泛化的程度,提高数据的可用性。
  (2)提出了基于模糊粗糙集的加权聚类隐私保护方法的研究。在现有隐私保护方法产生的匿名数据中,普遍存在针对聚类应用的可用性差问题。针对该问题,本文提出一种考虑属性权重的隐私保护方法(FSRS)。其中通过基于模糊粗糙集的客观权重分配方法,得到属性权重以更好进行聚类泛化,达到提高数据聚类应用的目的。本文还通过Weka中聚类效果分析验证该方法的有效性。
  (3)提出了基于粗糙集理论的匿名化方法的研究。在工作点二的研究基础上,本文提出了一种改进后考虑属性权重的隐私保护方法(PBRS)。其中各个属性的权重由粗糙集中系统属性重要度定义的方法获得。本文也通过Weka中聚类效果分析验证该方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号