首页> 中文学位 >面向差分隐私的微博垃圾用户检测技术研究与实现
【6h】

面向差分隐私的微博垃圾用户检测技术研究与实现

代理获取

目录

声明

第 1 章 绪 论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 社交网络垃圾用户检测

1.2.2 隐私保护技术

1.2.3 差分隐私与分类挖掘方法的结合

1.3 研究内容

1.4 论文组织结构

第 2 章 基础理论与相关技术介绍

2.1 新浪微博垃圾用户

2.2.1 隐私保护度

2.2.2 隐私保护中的几个属性

2.2.3 差分隐私保护的相关概念

2.2.4 实现机制

2.3.1 决策树算法简介

2.3.2 随机森林算法简介

2.3.3 AdaBoost算法简介

2.4 本章小结

第 3 章 微博数据集构建和垃圾用户特征分析选择

3.1 引言

3.2 微博数据获取

3.2.1 自动切换IP代理部分

3.2.2 数据获取部分

3.3.1 特征预处理

3.3.2 缺失值处理

3.4 微博数据集标注

3.5 特征选择和分析

3.5.1 用户个人信息特征分析与选择

3.5.2 用户微博内容特征分析与选择

3.6 实验结果

3.6.1 基于随机森林的特征优选算法

3.6.2 实验结果

3.7 本章小结

第 4 章 基于改进的差分隐私随机森林算法

4.1 引言

4.2 评分函数的设计

4.3 基于差分隐私的C4.5算法

4.4.1 DP-C4.5算法

4.4.2 隐私性分析

4.5.1 基于特征贡献度的隐私预算分配

4.5.2 DP-RFS算法

4.5.3 隐私性分析

4.6.1 验证数据集

4.6.2 算法评价指标

4.7.1 实验准备

4.7.2 实验结果与分析

4.8 本章小结

第 5 章 基于改进的差分隐私AdaBoost算法

5.1 引言

5.2 基于改进的差分隐私AdaBoost算法

5.2.1 DP-AdaBoost算法

5.2.2 隐私性分析

5.3 验证数据集与算法评价指标

5.4.1 实验准备

5.4.2 结果与分析

5.5 本章小结

结论与展望

工作总结

未来展望

致谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

随着信息技术的不断发展,各种信息被存储分析,然而数据集中包含了很多个人隐私信息,使用数据挖掘技术生成的算法模型可能被攻击者利用,从而导致隐私信息被泄露。因此,怎样结合数据挖掘方法和隐私保护技术既能保护隐私信息又不影响数据挖掘性能,成为了隐私保护数据挖掘领域要研究的重要问题。  集成隐私保护的数据挖掘技术既要防止用户隐私信息不被泄露又要保证数据挖掘方法的有效性。本文不仅要研究如何保护隐私数据还要同时保证数据挖掘分类算法性能。首先为了研究新浪微博垃圾用户的高效检测和用户的隐私信息保护,针对目前垃圾用户检测的性能不高问题,本文构建了新浪微博数据集,根据用户微博内容信息提取出能够较好的区分正常用户和垃圾用户的特征,提取出的新特征能够提高垃圾用户的检测性能。实验结果表明,本文提出的新特征能够得到更佳的分类性能。  考虑到随着迭代次数的增加,平均分配隐私预算并不能始终保证候选方案以较优概率被选择问题,设计了基于改进的差分隐私C4.5算法,该算法对隐私预算分配进行优化,在进行指数机制选择分裂点时分配不同的隐私预算。通过和SuLQ_basedID3算法、DiffP-C4.5进行对比实验,验证了DP-C4.5算法的有效性。  考虑到当数据集中分类属性的维度非常大时,指数机制的选择低效和隐私预算分配策略简单两个问题,设计了基于改进的差分隐私随机森林算法,该算法提出了基于特征贡献度的隐私预算分配策略,贡献度大的特征子集分配更多的隐私预算。通过和DiffRF算法、DiffRFS算法、giniDiffRF算法进行对比实验,结果验证了本文改进的DP-RFS算法有较高的分类准确度且能够有效保护隐私信息。  考虑到隐私预算利用率低的问题,设计了基于改进的差分隐私AdaBoost算法,该算法在决策树迭代完成之后加入差分隐私噪声,提高了隐私预算的利用率,降低了添加的噪声。通过和AdaBoost-DP算法进行对比,结果验证了该算法在分配相同隐私预算的情况下有更佳的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号