基于差分隐私的幂迭代聚类方法

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

近年来，聚类作为一种无监督的数据挖掘方法，通过提取数据的特征信息，以特征作为聚类的基本属性，来实现对数据的信息挖掘。结合线性代数的方法和理论，出现了许多信息数据的特征提取技术，进一步提高特征提取的质量和聚类精度。本文采用一种简单、快速的幂法获取数据集的特征，利用迭代后的特征向量对样本进行聚类，即幂迭代聚类。然而，数据集中往往包含一些隐私数据或者敏感信息，在追求高质量聚类效果的同时难以避免涉及到隐私数据，且忽视聚类发布后数据的隐私安全问题。
　　差分隐私保护模型无需面对可能受到的背景知识攻击，针对任意背景知识的强度，通过参数来量化隐私保护水平，保证隐私信息安全的同时达到聚类效果目的。差分隐私的具体扰动方法，需要结合相应的聚类算法，保证数据集隐私安全的前提下，最大化数据集的可用性。
　　本文提出一种基于差分隐私的幂迭代聚类算法，针对迭代过程中特征向量以及特征聚类过程中心点存在的隐私泄露问题，分别对聚幂迭代类算法的两个层面融合差分隐私保护模型。而传统的差分隐私技术使用数据扰动降低了算法的聚类质量，且容易改变特征向量的收敛方向。因此，依次对迭代过程中的特征向量的属性值添加满足拉普拉斯分布的噪声函数，并实验设置合理隐私预算ε解决传统融合差分隐私技术的缺陷。最后利用差分隐私的序列组合性质证明基于差分隐私的幂迭代聚类算法满足ε-差分隐私，给出算法过程和实现代码。
　　实验通过变量ε测试隐私预算的最佳聚类效果，同时实验不同以幂迭代聚类算法和其在差分隐私条件下的聚类结果做比较。然而，差分隐私技术一定条件下影响聚类效果，但实验数据集结果的可用性仍较高。另外，测试不同参数下的聚类算法聚类质量，并和现有的差分隐私聚类算法做对比分析，在较大的数据集测试下体现出明显优势。

著录项

作者
赵濛;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科软件工程
授予学位硕士
导师姓名杨静;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
数据挖掘; 特征提取; 幂迭代聚类; 差分隐私;

相似文献

中文文献
外文文献
专利

1. 基于差分隐私的RDPk-means聚类方法 [J] . 马哲 ,鹿方凯 . 软件导刊 . 2018,第008期
2. 基于差分隐私的RDPk-means聚类方法 [J] . 马哲 ,鹿方凯 . 软件导刊 . 2018,第008期
3. 支持本地化差分隐私保护的k-modes聚类方法 [J] . 彭春春 ,陈燕俐 ,荀艳梅 . 计算机科学 . 2021,第002期
4. MapReduce框架下支持差分隐私保护的k-means聚类方法 [J] . 李洪成 ,吴晓平 ,陈燕 . 通信学报 . 2016,第002期
5. 差分隐私保护k-means聚类方法研究 [J] . 李杨 ,郝志峰 ,温雯 . 计算机科学 . 2013,第003期
6. 直井多级抽油杆柱系统纵向振动问题的频率和振型函数的超逆幂迭代求解 [C] . 徐永君 ,王晓博 ,于俊波 . 第18届全国结构工程学术会议 . 2009
7. 基于差分隐私保护的数据聚类方法研究 [A] . 吕泽芳 . 2020

基于差分隐私的幂迭代聚类方法

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅