首页> 中文学位 >基于随机扰动的隐私保护方案研究
【6h】

基于随机扰动的隐私保护方案研究

代理获取

目录

声明

摘要

插图索引

表格索引

符号对照表

第一章 绪论

1.1 数据挖掘概述

1.2 隐私保护与数据挖掘

1.3 研究背景和现状

1.4 本文的章节安排

第二章 数据挖掘隐私保护方法概述

2.1 基于数据清洗的隐私保护方法

2.2 基于随机干扰的隐私保护方法

2.3 基于数据变换的隐私保护方法

2.4 基于数据屏蔽的隐私保护方法

2.5 基于数据泛化的k匿名隐私保护方法

2.6 各种隐私保护方法的比较

2.7 本章小结

第三章 基于DDPD的隐私保护方案

3.1 基于DDPD的隐私保护方案简介

3.1.1 数据分组

3.1.2 DDPD隐私保护方案

3.2 基于重要属性的样本相关性排序方案

3.2.1 构造分类规则

3.2.2 属性选择

3.2.3 数据相关性检测

3.2.4 DDPD扰动数据相关性排序

3.3 方案分析

3.4 本章小结

第四章 基于LRDP的隐私保护方案

4.1 传统的随机扰动隐私保护方法

4.2 基于LRDP的隐私保护方案

4.2.1 数据随机映射及分布估计方法

4.2.2 数值随机筛选和分布估计方法

4.3 基于朴素贝叶斯分类方法的隐私保护

4.4 实验结果及分析

4.4.1 数据集简介

4.4.2 可靠性度量和隐私性度量

4.4.3 实验结果

4.5 本章小结

第五章 总结与展望

5.1 工作总结

5.2 研究展望

参考文献

致谢

作者简介

展开▼

摘要

随着大数据技术的不断发展,隐私保护已经成为数据挖掘中的一个重要问题。因此,在进行数据挖掘的过程中必须考虑和防止隐私数据的泄露。传统的数据挖据技术都假定数据集是可以直接获取的,而这个假设通常都与隐私数据的特征不符。事实上,由于隐私保护的需要,使用者所得到的数据都是经过隐私处理后的发布数据。基于以上考虑,就需要在数据的精确值未知的情况下进行数据挖掘工作。本文围绕集中式数据的隐私保护技术进行研究,主要完成了以下几项工作:
  1、本文分析和总结了常见的PPDM算法,从数据集合的分布、数据挖掘方法和采用的隐私保护方法等角度对现有的数据挖掘隐私保护技术进行了分类,同时,在此基础上详细的阐述了各类方法的实现过程。最后,从算法的有效性、复杂性和可扩展性等视角分析了各种隐私保护算法的优缺点。
  2、本文研究了基于DDPD的数据挖掘隐私保护方案。针对分类问题的数据匹配方法,提出了基于重要属性的样本相关性排序算法。本方案保证了发布数据集和原始数据集在样本相关性上的一致性。算法在实现的过程中,综合使用了顺序覆盖算法的两种规则增长方式,降低了规则的泛化误差;分析了属性集合中的各个属性对数据挖掘的影响程度,提取了对分类有重要作用的属性;同时,定义了一个加权相关系数来衡量样本之间的关联,提高了相似性检测的准确率。在最后的方案分析中,将方案由分类问题推广到了其他的数据挖掘应用中。
  3、针对朴素贝叶斯分类问题,本文提出了一种基于LRDP的隐私保护方案。与TRDP算法不同的是,该方案在隐私保护时并不是对数据实行全部的隐藏,而是根据给定的参数和分布进行数据的部分隐藏。本文针对标称属性和连续属性,分别设计了两种不同的部分隐藏算法:数据随机映射算法和随机筛选算法。实验结果表明:在选择合适参数的前提下,本方案能够在保持较高可靠性的同时达到隐私保护的目的。

著录项

  • 作者

    左霖;

  • 作者单位

    西安电子科技大学;

  • 授予单位 西安电子科技大学;
  • 学科 信息与通信工程;通信与信息系统
  • 授予学位 硕士
  • 导师姓名 马文平;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据挖掘; 隐私保护; 随机扰动; 朴素贝叶斯分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号