首页> 中文学位 >面向隐私保护的多方协作集成学习算法研究
【6h】

面向隐私保护的多方协作集成学习算法研究

代理获取

目录

1 绪 论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文研究内容

1.4 论文组织结构

2 背景知识

2.1 差分隐私

2.2 分类与回归树

2.3 集成学习技术

2.4 本章小结

3 差分隐私约束下多方协作集成学习

3.1 问题描述及挑战

3.2 系统模型及假设

3.3 带差分隐私的多方协作集成学习框架

3.4 差分隐私约束下的分类与回归树算法

3.5 差分隐私约束下的随机森林算法

3.6 差分隐私约束下的自适应提升算法

3.7 模型融合

3.8 理论分析

3.9 实验结果

3.10 本章小结

4 实例研究——广告点击率预估

4.1 广告点击率简述

4.2 广告点击率的隐私保护研究成果

4.3 广告点击率预估

4.4 网络广告点击率预估系统

4.5 本章小结

5 总结与展望

5.1 主要总结

5.2 未来工作展望

致谢

参考文献

附录

A. 作者在攻读学位期间发表的论文目录:

B. 作者在攻读学位期间主持和参与的科研项目:

展开▼

摘要

集成学习是大数据分析中重要的组成部分,它通过学习一系列的规则并将它们组合起来共同解决一个问题,如分类、回归。当多方协作地建立集成学习模型时,如何确保该模型的有效性和隐私性是集成学习研究方向的一个挑战。不同机构独立地建立本地的集成学习模型,由于受限于数据资源大小和计算资源规模,故模型的性能难以满足大数据挖掘的需要。传统的多方用户共享数据或者集成学习模型的方法,存在个人隐私泄露的风险。
  本文提出面向差分隐私的多方协作的集成学习框架和具体算法。方案的主要思想是多方在本地建立集成学习分类器,分类器是受到差分隐私约束的,能够保护个体的敏感属性;在半诚实的中心机构融合多个机构的集成学习分类器,然后再分发给各个机构。融合函数考虑了每个本地集成学习分类器的准确度和各方的数据量大小,并使得不同的本地模型在最终的融合模型中有不同的权重贡献。基于此框架,实现了差分隐私约束下的随机森林算法(CRFsDP)和自适应提升算法(CAdaBoostDP);理论分析和实验结果证明了本文的方案在隐私和模型有效性之间寻找到平衡点,并且个性化的隐私预算配置能够提升融合分类器的性能。
  本文在提出的差分隐私方案基础上,讨论了广告点击率预估的隐私问题。有效地预测广告点击率是解决包括广告推荐、产品定位和用户画像等问题的基础,在计算广告学方向具有举足轻重的地位。首先设计了混淆方法,即直接向广告点击数据集加入噪声记录。其次通过在KDD CUP2012真实数据集的实验比较了混淆和差分隐私两种方法,实验结果也说明差分隐私的策略使得融合分类器的性能更优,加入的噪声量更容易控制。最后设计并实现了带差分隐私的广告点击率预估系统,模拟了真实场景的广告推荐。广告点击率预估实例的研究,进一步说明了本文方案的实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号