面向差分隐私的微博垃圾用户检测技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的不断发展，各种信息被存储分析，然而数据集中包含了很多个人隐私信息，使用数据挖掘技术生成的算法模型可能被攻击者利用，从而导致隐私信息被泄露。因此，怎样结合数据挖掘方法和隐私保护技术既能保护隐私信息又不影响数据挖掘性能，成为了隐私保护数据挖掘领域要研究的重要问题。　　集成隐私保护的数据挖掘技术既要防止用户隐私信息不被泄露又要保证数据挖掘方法的有效性。本文不仅要研究如何保护隐私数据还要同时保证数据挖掘分类算法性能。首先为了研究新浪微博垃圾用户的高效检测和用户的隐私信息保护，针对目前垃圾用户检测的性能不高问题，本文构建了新浪微博数据集，根据用户微博内容信息提取出能够较好的区分正常用户和垃圾用户的特征，提取出的新特征能够提高垃圾用户的检测性能。实验结果表明，本文提出的新特征能够得到更佳的分类性能。　　考虑到随着迭代次数的增加，平均分配隐私预算并不能始终保证候选方案以较优概率被选择问题，设计了基于改进的差分隐私C4.5算法，该算法对隐私预算分配进行优化，在进行指数机制选择分裂点时分配不同的隐私预算。通过和SuLQ_basedID3算法、DiffP-C4.5进行对比实验，验证了DP-C4.5算法的有效性。　　考虑到当数据集中分类属性的维度非常大时，指数机制的选择低效和隐私预算分配策略简单两个问题，设计了基于改进的差分隐私随机森林算法，该算法提出了基于特征贡献度的隐私预算分配策略，贡献度大的特征子集分配更多的隐私预算。通过和DiffRF算法、DiffRFS算法、giniDiffRF算法进行对比实验，结果验证了本文改进的DP-RFS算法有较高的分类准确度且能够有效保护隐私信息。　　考虑到隐私预算利用率低的问题，设计了基于改进的差分隐私AdaBoost算法，该算法在决策树迭代完成之后加入差分隐私噪声，提高了隐私预算的利用率，降低了添加的噪声。通过和AdaBoost-DP算法进行对比，结果验证了该算法在分配相同隐私预算的情况下有更佳的分类性能。

著录项

作者
杨天彬;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机技术
授予学位硕士
导师姓名朱焱;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
数据挖掘,差分隐私,指数机制,随机森林,AdaBoost算法;

相似文献

中文文献
外文文献
专利

1. 基于岭回归极限学习机的微博垃圾用户分类 [J] . 张瑶瑶 ,朱小栋 . 计算机与数字工程 . 2021 ,第011期
2. 基于多视图融合的微博垃圾用户检测方法 [J] . 杨晓晖 ,梁笑 . 华南理工大学学报（自然科学版） . 2020 ,第012期
3. 警惕算法误伤的风险——以微博抽奖“被垃圾用户”现象为例 [J] . 黄秀平 . 青年记者 . 2019 ,第029期
4. 基于统计特征的微博垃圾用户检测系统研究 [J] . 范雨萌 ,易秀双 ,倪石建 . 网络空间安全 . 2019 ,第009期
5. 基于统计特征的微博垃圾用户检测系统研究 [J] . 范雨萌 ,易秀双 ,倪石建 . 信息安全与技术 . 2019 ,第009期
6. 面向普通用户的Web服务发现与协商架构的研究与实现 [C] . 虞欣平 ,苏伟宏 . 2011年亚太青年通信学术会议(APYCC2011) . 2011
7. 面向差分隐私的微博垃圾用户检测技术研究与实现 [A] . 杨天彬 . 2020

面向差分隐私的微博垃圾用户检测技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅