首页> 中文学位 >一种应用粗糙集理论的匿名规则及微聚集算法的研究
【6h】

一种应用粗糙集理论的匿名规则及微聚集算法的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 相关研究

1.2.1 匿名规则

1.2.2 匿名实现技术

1.2.3 匿名数据质量的评判标准

1.2.4 粒计算在数据发布中的隐私保护里应用

1.3 本文的研究内容与论文组织

1.3.1 本文研究的主要内容

1.3.2 论文的组织结构

第二章 隐私保护规则设计

2.1 相关概念

2.2 多约束规则

2.3 多约束匿名参数的智能化选择

2.3.1 约束子集的划分

2.3.2 匿名化参数K值的选择

2.4 多约束条件的匿名化方法

2.5 本章小结

第三章 匿名化算法研究

3.1 微聚集算法相关概念及技术

3.1.1 相关概念

3.1.2 微聚集算法分类

3.2 连续型数据集的匿名化方法

3.2.1 概述

3.2.2 一种基于DENCLUE的微聚集方法

3.3 分类型数据集的匿名化方法

3.3.1 数据泛化介绍

3.3.2 数据泛化策略

3.3.3 分类型数据距离度量

3.3.4 分类型数据泛化算法

3.4 混合型数据匿名化方法

3.4.1 概述

3.4.2 混合型数据度量方法

3.5 本章小结

第四章 数据可用性评估模型研究

4.1 分类型数据可用性评估模型

4.1.1 粗糙熵

4.1.2 数据发布中的粗糙熵定义及分类型数据可用性度量模型

4.2 连续性变量数据可用性评估模型

4.3 本章小结

第五章 实验与结果分析

5.1 实验环境

5.2 实验数据集介绍

5.3 具体操作流程

5.4 实验中的相关参数

5.4.1 风险评价参数

5.4.2 数据可用性评估模型

5.4.3 K值

5.5 实验比较结果

5.5.1 分类型数据集实验

5.5.2 连续型数据集实验

5.5.3 混合型数据集实验

5.6 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

信息技术发展十分迅猛,对各种产业都产生了巨大的影响。各行各业都广泛收集了海量的数据。这些数据中蕴涵大量有用的信息和知识。为从这些收集的数据中获取有用的信息和知识,数据所有人无法避免会发布包含个人信息的数据。这些数据中很可能有适合直接发布的个人隐私信息,未经处理的数据直接发布后将侵犯个人的隐私。因此,怎样发布既真实有效又能保护个人的隐私信息不被泄露的数据成为需要解决的重要问题。
   传统的匿名算法都是把数据表所有的属性统一处理,采用相同的匿名强度实现k-划分。但是对于高维数据表,传统匿名方法会损失大量信息。本文考虑不同的准标识符属性对敏感属性产生的影响程度是不同的,即重要度不同。因此,本文提出一种基于粗糙集理论的维度划分匿名规则,根据准标识符属性重要度的差别,对准标识符属性进行智能划分。再根据划分结果,对不同的划分进行不同层次的匿名化操作。
   大量的数据匿名化方法是基于泛化技术。泛化技术在处理高维数据时,会使得数据缺损巨大,实用性低。微聚集算法利用聚类的思想,简单有效。尤其在处理连续型数据时,能保持更多的语义,有着独特的优势。但是微聚集算法主要是针对连续型数据集。本文对其进行改进,提出了面向分类型数据和混合型数据的度量距离公式,并基于其设计了不同的微聚集匿算法,使得能够较好地处理分类型数据集及混合型数据集。
   本文研究了匿名化后数据的可用性评估模型,并且针对分类型数据,应用粗糙集理论,提出了一种评估数据可用性的模型
   最后,在通用数据集上进行测试与比较表明:在保证具有相同程度的隐私保护的前提下,本文所提出的改进方法比经典匿名规则具有信息损失量更少,即有效地实现了在保证隐私的基础下提高了数据的可用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号