首页> 中文学位 >分布式数据挖掘中的隐私保护问题研究
【6h】

分布式数据挖掘中的隐私保护问题研究

代理获取

目录

中国科学技术大学学位论文相关声明

摘要

第一章绪论

1.1研究背景与意义

1.1.1隐私保护的现实意义

1.1.2隐私保护的研究意义

1.2论文的研究对象和所做的工作

1.3论文的结构安排

1.4本章小结

第二章数据挖掘中的隐私保护回顾

2.1引言

2.2数据挖掘中隐私的定义

2.2.1隐私的分类

2.2.2隐私的度量

2.3集中式数据挖掘的隐私保护方法

2.3.1启发式方法

2.3.2重构方法

2.4分布式数据挖掘的隐私保护方法

2.4.1垂直分布的安全关联规则挖掘

2.4.2水平分布的安全关联规则挖掘

2.4.3垂直分布的安全决策树归纳

2.4.4水平分布的安全决策树归纳

2.5隐私保护算法的评价

2.5.1运行效率

2.5.2数据效用

2.5.3不确定性

2.5.4横向适应性

2.6本章小结

第三章数据挖掘中的隐私保护算法

3.1应用密码学方法

3.1.1 SMC计算思路

3.1.2 SMC计算的优缺点

3.2标量积安全计算

3.3随机应答方法

3.3.1随机应答原理

3.3.2分类决策树构造

3.4不经意传输方法

3.4.1 2取1不经意传输

3.4.2 n取1不经意传输

3.4.3 n取m不经意传输

3.5 K-Anonymity方法

3.5.1问题提出

3.5.2相关研究

3.5.3 K-Anonymity模型

3.6本章小结

第四章考虑恶意行为的数据挖掘平台

4.1研究假设

4.2串谋与对策

4.1.1研究进展

4.1.2相关定义

4.1.3 防串谋隐私保护

4.3运算背景

4.4防串谋平台设计

4.5实验设计和仿真

4.6本章小结

第五章结束语

5.1本文工作

5.2未来展望

5.3后续工作

参考文献

附录:

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

高新信息技术和数据分析手段的出现大大降低了数据采集、加工和发布的难度,各类组织希望从数据中获取有用的知识而使用最广泛的分析手段就是数据挖掘方法。该项技术的潜在负面作用就是对隐私信息的过分搜集、滥用或买卖。因此,对组织或个人隐私的保护日益受到各界重视并提上了研究日程。 首先,数据挖掘研究和相关从业人员希望更高的数据可用性和精确性、信息越详细越好,这样可以减少前期工作量并极大缩小结果的失真和偏差;从用户的角度来说,则不希望暴露隐私细节,从而更倾向于使用各种数据扭曲方法来保护自有隐私信息。这类对立行为的现实后果就是使得研究人员必须花费更多的时间和工作来弥补由此导致的数据实用性和精确度的损耗。本文着眼于建立考虑隐私保护的数据挖掘平台,将有助于在完成挖掘任务的同时保护参与者的隐私信息并防止其被滥用,从而缓和此类矛盾。 其次,在分布式的数据存储环境中,各个数据库所有者都倾向于以最大的可能来保护本方隐私(商业模式、战略行为等)。文中设计了一种可以在保护个体隐私的基础上展开全局合作的数据挖掘工作平台和算法,以保证此过程中安全地交换统计信息而不涉及具体隐私细节,从而更好地满足现代企业和商务发展的隐私性需求。 本文介绍分析了前人的各种方法思想及各自优缺点,并从两个方面入手展开研究。首先,分析了快速分布式关联规则挖掘算法(FDM),指出在复杂甚至恶意的环境中保留可置信的第三方(TIP)一般认为是不安全的做法;将安全多方计算(SMC)的思想引入数据挖掘任务进而实现了各站点的平等合作(无需第三方介入)。其次,在设计防串谋的隐私保护平台时,定义了分布式合作数据挖掘任务中的一类恶意威胁,放松了半诚实假设并在预防此类恶意行为的基础上实现了解决算法平台——RPA。 文章最后,设计仿真实验将RPA与另外两种代表性的分布式数据挖掘算法(FDM快速算法和CER加密算法)进行了比较。实验结果表明RPA平台具有较好的挖掘计算效率和效果:(1)该方法仅增加线性通讯次数,是一种轻量级的解决方案;(2)所有的站点都可以得到有力的保护,避免了站点子集隐私泄漏的可能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号