首页> 中文学位 >基于分布式数据集的神经网络隐私保护研究
【6h】

基于分布式数据集的神经网络隐私保护研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着信息的指数增长以及数据挖掘领域的蓬勃发展,越来越多的数据挖算法和数据挖掘工具被开发出来应用于海量数据知识发现、模式发现和规则发现。这些隐藏在数据中的知识和规则往往能够帮助商业公司或者机构去做出合理的、科学的决策和对未来的发展趋势提前做出应对方案。数据挖掘的基本材料是数据,而这些数据都是商业公司或机构通过正常渠道或者不经用户许可的条件下取得的,并且随意转手售卖这些数据给其他公司,导致用户隐私泄露非常严重。近年来,随着用户的隐私意识不断提高,越来越多的用户不愿意给这些商业公司或机构提供个人数据。由于数据的缺乏,这在一定程度上给数据挖工作提高了难度。对此,我们希望提出一种兼顾数据挖掘和隐私保护的方案,在透明、安全、可靠的条件下,让用户参与数据挖掘的过程中来,既能保证个人隐私的条件下,又能让数据挖掘工作顺利进行。 本文深入研究了基于分布式数据集的数据挖掘隐私的保护,在不可信的平台环境下,提出了基于数据垂直分布的神经网络隐私方案和基于数据水平分布的神经网络隐私保护方案。主要研究工作如下: 1.我们提出了基于数据垂直分布的神经网络隐私方案。该方案旨在为多个参与者联合训练和使用同一个神经网络,在数据按属性垂直分布的条件下,不但能保护用户的隐私,而且不降低数据的可用性。在该方案中,我们首先建立了两方联合训练模型,每个参与者拥有部分神经网络权重参数,这部分权重参数不进行共享,为了保护权重参数,参与者自行产生并补全权重参数以对其进行隐藏,被隐藏的参数能够和其他参与者一起完成神经网络的训练过程。我们在两方模型的基础上推出三方及三方以上的训练模型,随着参与者的增多,我们引入了通信平台来减少每个参与者的通行量,使其达到和两方模型同样的可用性和隐私性。我们采用了开源数据库UCI Machine Learning Repository中Breast Cancer Wisconsin(Diagnostic)Data Set乳腺癌细胞诊断数据集,并在该数据集上建立了相应的神经网络架构,进行了系统性能实验。实验结果表明了该方案的在可用性方面无损失,隐私性能够得到保证,并且通信量不会随着参与者的增加而带来额外的代价,非常适用于对时间有容忍度并有高精度、高隐私需求的场景中。 2.我们提出了基于数据水平分布的神经网络隐私保护方案。该方案旨在为多个参与者提供一个开放共享的神经网络以及完整的权重参数,以便于各个参与者以后对新的数据进行分类。首先,我们的方案架构是由开放共享的云平台和多个参与者形成分布式场景;然后,参与者依据云平台上的给出的神经网络架构、训练目标以及全局参数在本地数据集上进行本地训练;最后,将训练得到的本地参数依据参与者的隐私保护程度进行参数转换后上传到全局参数。经过多个参与者的协同式训练,使得神经网络不断迭代并收敛。为了测试该方案各方面的性能,我们采用了开源数据库UC I Machine Learning Repository中Breast Cancer Wisconsin(Diagnostic)Data Set乳腺癌细胞诊断数据集,并在该数据集上建立了相应的神经网络架构,进行了系统性能实验。实验结果表明了该方案各方面性能都能满足现实环境要求,与其他方案比较,具有较高的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号