差分隐私保护数据聚合优化方法及其在数据可视化中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在医疗、金融、户籍管理等涉及国计民生的国家基础信息网络和重要信息系统中，存在着大量的隐私数据，其中，许多包含敏感信息的数据都是大样本数据，数据可视化技术可以辅助用户快速准确地发掘其中隐含的信息，如何对包含敏感信息的大样本数据进行可视化是本文的主要研究内容。
　　本文研究2006年由Dwork等人首次提出的差分隐私保护方法，差分隐私保护方法首次定义了一个严格的攻击模型，通过添加噪声使数据失真，从而达到隐私保护的目的。差分隐私保护方法具有两大优点:①隐私披露风险与攻击者所具有的背景知识无关。②隐私保护所添加的噪声量不随数据集的增大而增加。由于差分隐私保护仅通过添加与数据集大小无关的少量噪声，就能达到高级别的隐私保护，极大的保证了数据可视化的可用性，因而非常适合于解决大样本数据的安全可视化问题。
　　数据可视化通过数据聚合来减少可视化中的图像叠加，提高大样本数据可视化质量，差分隐私保护数据聚合的难点在于①数据聚合中的聚簇数量往往很大，噪音的添加使得聚合的成功率极低。②迭代次数的不确定性导致隐私预算消耗过快，一旦隐私预算耗尽，则难以实现有效的隐私保护。本文在上述背景下提出，研究“差分隐私保护下的数据聚合及其在数据可视化中的应用”，包括以下四个内容:
　　 1.研究获取ε-差分隐私保护的理论和方法，分析了交互式与非交互式框架下的差分隐私保护机制，列举了几种攻击模型下，差分隐私保护方法与k-匿名和L-diversity相比所具备的优势。差分隐私保护方法隐私预算的消耗速度与敏感度有着密切的关系，本文对几种特定情况下敏感度的界进行了分析。
　　 2.在对大样本数据进行可视化时，通常先对数据进行聚合处理，以减少可视化中的图像交叠、重合的现象，从而提高大样本数据的可视化图像质量。聚类是数据聚合的基本手段，本文研究差分隐私保护下的聚类算法，针对差分隐私k-means聚类可用性差的问题，在满足ε-差分隐私保护的基础上，通过改进初始中心点的选择，提出了一个IDPk-means聚类方法，与现有的隐私保护k-means聚类方法相比，IDPk-means聚类方法在同样的隐私保护级别下，提高了聚类可用性。为了更具客观性，我们引入了隐私保护聚类的同类算法与IDPk-means聚类方法进行了比较，通过仿真实验可得出结论，IDPk-means的聚类质量在各项指标上的表现更具优势，尤其在大样本数据集上的优势会更加明显。
　　 3.聚合与聚类算法的不同之处在于聚合算法需要支持数量更大的聚簇。很多聚类算法在聚簇数目较大的情况下，往往会出现聚类可用性低，迭代次数大，算法效率低等问题。本文提出了一种均分k-means++数据聚合算法，以数据可视化为目的对算法进行了改进，使算法支持高效地聚合为更多的簇。聚合得到的数据既较好地保持了原数据空间的大部分特性，又显著提高了可视化后的图像质量。仿真实验证明，在不同的DAL下，无论是图像质量还是质量评价指标HDM，NNM上，算法都表现出了较好的效果。
　　 4.差分隐私保护下的数据聚合方法是本文的主要研究内容之一，本文提出了一种差分隐私DPEk-means数据聚合算法，在保护隐私数据的同时，解决了大样本数据可视化中数据重叠严重，图像质量低的问题，聚合后的数据较好的保持了原数据集的分布、关联、聚集等特性。与IDPk-means算法相比，在同等隐私保护级别ε-差分隐私保护下，DPEk-means提高了所能支持的最大DAL，即成功聚为更多的簇。聚合后的点在原数据集上的分布更加均匀，表征数据聚合质量的相关指标值有所提高，算法运行时间比传统k-means聚合减少了一半以上。

著录项

作者
李杨;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科控制理论与控制工程
授予学位博士
导师姓名郝志峰;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;数据安全;
关键词
差分隐私保护; 聚类分析; 均分k-均值; 数据聚合; 数据可视化; 质量评价指标;

相似文献

中文文献
外文文献
专利

1. 基于改进的k-means差分隐私保护方法在位置隐私保护中的应用 [J] . 齐晓娜 ,王佳 ,徐东升 . 河北大学学报（自然科学版） . 2018,第003期
2. 无线传感器网络中基于隐私保护元的数据聚合机制 [J] . 曾玮妮 ,林亚平 ,何施茗 . 通信学报 . 2012,第010期
3. 数据可视化和遗传算法在有限差分网格自动剖分中的应用 [J] . 尹志喜 ,蔡锁章 ,侯华 . 铸造技术 . 2003,第5期
4. 医疗大数据中应用差分隐私保护 [J] . 白云璐 . 电子技术与软件工程 . 2017,第024期
5. 差分隐私保护在推荐系统中的应用研究 [J] . 鲜征征 ,李启良 . 计算机应用研究 . 2016,第005期
6. 浅析医疗大数据中应用差分隐私保护 [C] . 白云璐 . 第四届中国中医药信息大会 . 2017
7. 智能电网中基于本地差分隐私的隐私保护数据聚合机制研究 [A] . 盖娜 . 2021

差分隐私保护数据聚合优化方法及其在数据可视化中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅