首页> 中文学位 >差分隐私保护数据聚合优化方法及其在数据可视化中的应用
【6h】

差分隐私保护数据聚合优化方法及其在数据可视化中的应用

代理获取

目录

摘要

CONTENTS

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 差分隐私保护

1.2.2 数据可视化及其质量评价

1.3 本文主要研究内容与组织结构

第二章 差分隐私保护研究综述

2.1 引言

2.2 获取ε-差分隐私保护

2.3 差分隐私保护的几类重要方法

2.4 差分隐私保护与同类方法比较

2.4.1 K-匿名

2.4.2 L-diversity

2.4.3 差分隐私保护

2.5 小结

第三章 差分隐私保护聚类方法研究

3.1 引言

3.2 相关工作

3.2.1 保护隐私的数据挖掘

3.2.2 聚类分析中的隐私保护

3.3 差分隐私k-means聚类思想

3.4 差分隐私聚类算法IDP k-means

3.5 实验分析

3.5.1 实验方案

3.5.2 实验结果

3.6 小结

第四章 数据可视化中的数据聚合方法及其质量评价

4.1 引言

4.2 均分k-means++:一种多维数据可视化中的数据聚合方法

4.3 数据可视化质量评价模型

4.3.1 质量评价模型

4.3.2 质量评价对象

4.4 实验分析

4.4.1 多维数据可视化

4.4.2 多维数据可视化中的数据聚合及其质量评价

4.5 小结

第五章 差分隐私保护数据安全可视化

5.1 引言

5.2 相关工作

5.2.1 问题描述

5.2.2 研究现状

5.3 差分隐私数据聚合方法DPE k-means

5.4 实验分析

5.5 小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读博士学位期间发表或完成的论文

声明

致谢

展开▼

摘要

在医疗、金融、户籍管理等涉及国计民生的国家基础信息网络和重要信息系统中,存在着大量的隐私数据,其中,许多包含敏感信息的数据都是大样本数据,数据可视化技术可以辅助用户快速准确地发掘其中隐含的信息,如何对包含敏感信息的大样本数据进行可视化是本文的主要研究内容。
   本文研究2006年由Dwork等人首次提出的差分隐私保护方法,差分隐私保护方法首次定义了一个严格的攻击模型,通过添加噪声使数据失真,从而达到隐私保护的目的。差分隐私保护方法具有两大优点:①隐私披露风险与攻击者所具有的背景知识无关。②隐私保护所添加的噪声量不随数据集的增大而增加。由于差分隐私保护仅通过添加与数据集大小无关的少量噪声,就能达到高级别的隐私保护,极大的保证了数据可视化的可用性,因而非常适合于解决大样本数据的安全可视化问题。
   数据可视化通过数据聚合来减少可视化中的图像叠加,提高大样本数据可视化质量,差分隐私保护数据聚合的难点在于①数据聚合中的聚簇数量往往很大,噪音的添加使得聚合的成功率极低。②迭代次数的不确定性导致隐私预算消耗过快,一旦隐私预算耗尽,则难以实现有效的隐私保护。本文在上述背景下提出,研究“差分隐私保护下的数据聚合及其在数据可视化中的应用”,包括以下四个内容:
   1.研究获取ε-差分隐私保护的理论和方法,分析了交互式与非交互式框架下的差分隐私保护机制,列举了几种攻击模型下,差分隐私保护方法与k-匿名和L-diversity相比所具备的优势。差分隐私保护方法隐私预算的消耗速度与敏感度有着密切的关系,本文对几种特定情况下敏感度的界进行了分析。
   2.在对大样本数据进行可视化时,通常先对数据进行聚合处理,以减少可视化中的图像交叠、重合的现象,从而提高大样本数据的可视化图像质量。聚类是数据聚合的基本手段,本文研究差分隐私保护下的聚类算法,针对差分隐私k-means聚类可用性差的问题,在满足ε-差分隐私保护的基础上,通过改进初始中心点的选择,提出了一个IDPk-means聚类方法,与现有的隐私保护k-means聚类方法相比,IDPk-means聚类方法在同样的隐私保护级别下,提高了聚类可用性。为了更具客观性,我们引入了隐私保护聚类的同类算法与IDPk-means聚类方法进行了比较,通过仿真实验可得出结论,IDPk-means的聚类质量在各项指标上的表现更具优势,尤其在大样本数据集上的优势会更加明显。
   3.聚合与聚类算法的不同之处在于聚合算法需要支持数量更大的聚簇。很多聚类算法在聚簇数目较大的情况下,往往会出现聚类可用性低,迭代次数大,算法效率低等问题。本文提出了一种均分k-means++数据聚合算法,以数据可视化为目的对算法进行了改进,使算法支持高效地聚合为更多的簇。聚合得到的数据既较好地保持了原数据空间的大部分特性,又显著提高了可视化后的图像质量。仿真实验证明,在不同的DAL下,无论是图像质量还是质量评价指标HDM,NNM上,算法都表现出了较好的效果。
   4.差分隐私保护下的数据聚合方法是本文的主要研究内容之一,本文提出了一种差分隐私DPEk-means数据聚合算法,在保护隐私数据的同时,解决了大样本数据可视化中数据重叠严重,图像质量低的问题,聚合后的数据较好的保持了原数据集的分布、关联、聚集等特性。与IDPk-means算法相比,在同等隐私保护级别ε-差分隐私保护下,DPEk-means提高了所能支持的最大DAL,即成功聚为更多的簇。聚合后的点在原数据集上的分布更加均匀,表征数据聚合质量的相关指标值有所提高,算法运行时间比传统k-means聚合减少了一半以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号