首页> 中文学位 >基于差分隐私的幂迭代聚类方法
【6h】

基于差分隐私的幂迭代聚类方法

代理获取

目录

声明

摘要

第1章绪论

1.1研究背景及意义

1.2国内外研究现状

1.3论文主要研究内容

1.4论文组织结构

第2章相关理论与研究方法

2.1隐私保护技术概述

2.2传统隐私保护方法

2.2.1 k-anonymity

2.2.2l-diversity

2.3差分隐私技术

2.3.1基本定义和相关概念

2.3.2差分隐私实现机制

2.3.3差分隐私的性质

2.3.4差分隐私数据发布

2.4基于差分隐私的K-means算法

2.4.2 DP K-means算法

2.4.3 IDP K-means算法

2.5本章小结

第3章基于差分隐私的幂迭代聚类方法

3.1幂迭代聚类方法

3.1.1幂法

3.1.2幂迭代聚类算法及其优势

3.1.3幂迭代聚类算法的隐私泄露问题

3.2基于差分隐私的幂迭代聚类方法

3.2.1扰动特征向量

3.2.2扰动聚类中心点

3.2.3证明DP PIC满足差分隐私

3.2.4 DP PIC算法过程

3.3本章小结

第4章实验与结果分析

4.1实验环境

4.2实验数据集

4.3评价指标

4.4实验设计

4.5实验分析

4.6本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

近年来,聚类作为一种无监督的数据挖掘方法,通过提取数据的特征信息,以特征作为聚类的基本属性,来实现对数据的信息挖掘。结合线性代数的方法和理论,出现了许多信息数据的特征提取技术,进一步提高特征提取的质量和聚类精度。本文采用一种简单、快速的幂法获取数据集的特征,利用迭代后的特征向量对样本进行聚类,即幂迭代聚类。然而,数据集中往往包含一些隐私数据或者敏感信息,在追求高质量聚类效果的同时难以避免涉及到隐私数据,且忽视聚类发布后数据的隐私安全问题。
  差分隐私保护模型无需面对可能受到的背景知识攻击,针对任意背景知识的强度,通过参数来量化隐私保护水平,保证隐私信息安全的同时达到聚类效果目的。差分隐私的具体扰动方法,需要结合相应的聚类算法,保证数据集隐私安全的前提下,最大化数据集的可用性。
  本文提出一种基于差分隐私的幂迭代聚类算法,针对迭代过程中特征向量以及特征聚类过程中心点存在的隐私泄露问题,分别对聚幂迭代类算法的两个层面融合差分隐私保护模型。而传统的差分隐私技术使用数据扰动降低了算法的聚类质量,且容易改变特征向量的收敛方向。因此,依次对迭代过程中的特征向量的属性值添加满足拉普拉斯分布的噪声函数,并实验设置合理隐私预算ε解决传统融合差分隐私技术的缺陷。最后利用差分隐私的序列组合性质证明基于差分隐私的幂迭代聚类算法满足ε-差分隐私,给出算法过程和实现代码。
  实验通过变量ε测试隐私预算的最佳聚类效果,同时实验不同以幂迭代聚类算法和其在差分隐私条件下的聚类结果做比较。然而,差分隐私技术一定条件下影响聚类效果,但实验数据集结果的可用性仍较高。另外,测试不同参数下的聚类算法聚类质量,并和现有的差分隐私聚类算法做对比分析,在较大的数据集测试下体现出明显优势。

著录项

  • 作者

    赵濛;

  • 作者单位

    哈尔滨工程大学;

  • 授予单位 哈尔滨工程大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 杨静;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    数据挖掘; 特征提取; 幂迭代聚类; 差分隐私;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号