高维数据的非显式隐私维度识别研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据的发布者往往拥有数据但不具备数据挖掘的能力。数据的分析者往往拥有数据挖掘的技术但苦于缺少数据。一些数据发布者担心发布没有采取任何保护措施的数据可能会导致隐私信息泄露。而采取了隐私保护的数据又可能对后期的数据挖掘过程产生不利的影响。
　　为了解决这个问题，学者们提出了一些隐私保护方法，包括k-anonymity、l-diversity、t-closeness等等。这些隐私保护方法在一定程度上对数据的隐私性取得了很好的保护效果，然而这些传统的隐私保护方法都是基于预先指定的非显式隐私维度的隐私保护方法，并没有研究如何自动地选择非显式隐私维度。当数据的维度数量变得很大的时候，通过人工的分析并指定对哪些属性做保护是不现实的。这就迫切地需要一种自适应地识别非显式隐私维度的方法。
　　非显式隐私维度往往在概率分布上与敏感属性具有一定的相似性。而在进行非显式隐私维度查找方面往往会遇到组合爆炸（Combinatorial Explosion）问题。为了在查找过程中对查找空间进行约减，本文在概率分布相似性基础上提出了两个假设前提，并对其等价性进行了证明。基于该假设，本文提出了一种称为IPFS（Implicit Privacy Feature Set）的算法，去发现所有可能导致属性泄露（Attribute Disclosure）的非显式隐私维度组合。这种维度组合被称为完备非显式隐私维度集合；此外，本文又提出了一种称为KIPFS（Key Implicit Privacy Feature Set）的算法，在非显式隐私维度组合的集合中识别关键的非显式隐私维度，而这些关键的非显式隐私维度的集合就是本文选择出来的将要去做隐私保护的维度集合。
　　实验结果表明在该方法选择出来的维度上做隐私保护要比在预先设定的维度上能达到更好的隐私保护效果，而且最小化了隐私保护过程对数据分布的影响，从而在保护隐私的前提下保证了后期数据挖掘的质量。

著录项

作者
八华峰;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名张海军;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类数据安全;
关键词
高维数据; 隐私保护; 非显式隐私维度; 数据挖掘; 识别算法;

相似文献

中文文献
外文文献
专利

1. 移动端非显式用户身份信息的隐私问题研究 [J] . 张颖 ,代遵志 ,滕彩峰 . 计算机系统应用 . 2018,第8期
2. 基于非显式小波神经网络的通信信号调制识别方法研究 [J] . 高蒙 ,刘旭东 ,张福生 . 石家庄铁道大学学报（自然科学版） . 2004,第003期
3. 差分隐私的高维数据发布研究综述 [J] . 张兴 ,陈昊 . 智能系统学报 . 2021,第006期
4. 基于变系数模型的高维数据异同性识别方法研究 [J] . 孙怡帆 ,王彩晶 ,罗梓烨 . 统计研究 . 2021,第005期
5. 基于变系数模型的高维数据异同性识别方法研究 [J] . 孙怡帆 ,王彩晶 ,罗梓烨 . 统计研究 . 2021,第005期
6. 大数据时代教育隐私保护三重维度研究 [C] . 周孟 ,段智宸 ,上超望 . 全国计算机辅助教育学会第17届学术年会 . -1
7. 基于聚类模型的非显式隐私保护方法研究 [A] . 高小明 . 2014

高维数据的非显式隐私维度识别研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅