首页> 中文学位 >面向大数据发布的差分隐私保护技术研究
【6h】

面向大数据发布的差分隐私保护技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 隐私保护发布研究现状

1.3 问题的提出

1.4 本文主要研究工作

1.5 本文组织结构

第2章 基础背景理论知识

2.1 带有隐私保护的数据发布

2.2 隐私攻击和隐私保护模型

2.3 差分隐私保护

2.4 决策树生成算法

2.5 泛化匿名

2.6 本章小结

第3章 一种改进的差分隐私发布方法

3.1 引言

3.2 方法简介

3.3 方法描述

3.4 数据预处理

3.5 构造属性分类树

3.6 数据匿名处理

3.7 可用性函数分析

3.8 隐私保护分析

3.9 优缺点分析

3.10 本章小结

第4章 改进方法的实现与实验分析

4.1 难点问题的实现

4.2 改进方法的实现

4.3 实验与结果分析

4.4 本章小结

第5章 研究总结与展望

5.1 研究总结

5.2 研究展望

参考文献

附录I 指数机制实现函数

附录II 拉普拉斯机制实现函数

致谢

攻读硕士学位期间的研究成果

展开▼

摘要

在大数据及网络无所不在的时代,海量个人信息被收集用于数据挖掘,以获得具有经济或社会意义的潜在价值。由于数据公开要求或受利益驱使,相关机构需要发布或交换收集到的数据。直接发布原始数据会泄露个人隐私,但恰恰这些数据中包含的敏感信息对于数据挖掘最有价值。如何在确保隐私安全的同时保持数据使用价值已经成为数据发布领域的研究热点。
  隐私保护模型主要分为分组匿名和差分隐私。分组匿名易受背景知识攻击且缺陷层出不穷,而差分隐私与背景知识无关且经过严格数学证明并提供量化可控的隐私保护能力。因此,差分隐私被业界广泛认可并逐渐成为研究热点。但差分隐私模型存在引入噪声过大,数据可用性不高及实现困难多的问题。
  现有面向数据挖掘的差分隐私发布方法中,将K-匿名模型和差分隐私相结合的DiffGen算法是公认较好的算法。该算法以构建决策树的方式完成对原始记录“先泛化,后逐步精确化”的分组发布过程。但该算法生成的数据集的分类准确率不够理想,对给定的隐私保护预算利用不够充分。
  本文主要研究工作如下:
  1.研究面向分类的差分隐私保护发布领域的主要技术,并且深入研究DiffGen算法的思想,针对其不足之处提出改进方案。首先,分析比较了指数机制可用性函数,使用基尼增益替代信息熵增益和最大频度。然后,研究其隐私预算分配方案,找出其利用不充分的问题。最后,提出自己的改进算法GiniDiff。
  2.对改进方案进行实现,并研究实现过程中的难题,用实验结果验证改进效果。首先,使用面向对象方法解决泛化匿名实现问题。然后,提出算法解决指数机制和拉普拉斯机制只有定义框架而难于实现的问题。
  实验结果表明,改进的算法在同等条件下发布的数据集的分类准确率和DiffGen算法相比有明显优势,且接近原始数据集的分类准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号