【24h】

Disclosure Risk Evaluation for Fully Synthetic Categorical Data

机译:全面综合分类数据的披露风险评估

获取原文

摘要

We present an approach for evaluating disclosure risks for fully synthetic categorical data. The basic idea is to compute probability distributions of unknown confidential data values given the synthetic data and assumptions about intruder knowledge. We use a "worst-case" scenario of an intruder knowing all but one of the records in the confidential data. To create the synthetic data, we use a Dirichlet process mixture of products of multinomial distributions, which is a Bayesian version of a latent class model. In addition to generating synthetic data with high utility, the likelihood function admits simple and convenient approximations to the disclosure risk probabilities via importance sampling. We illustrate the disclosure risk computations by synthesizing a subset of data from the American Community Survey.
机译:我们提出了一种评估完全合成的分类数据的披露风险的方法。基本思想是给定综合数据和有关入侵者知识的假设,计算未知机密数据值的概率分布。我们使用“最坏情况”的情形,即入侵者知道机密数据中除一条记录以外的所有记录。为了创建综合数据,我们使用多项式分布乘积的Dirichlet过程混合,这是潜在类模型的贝叶斯版本。除了生成具有高实用性的合成数据外,似然函数还通过重要性抽样方法对披露风险概率进行简单方便的近似计算。我们通过综合来自美国社区调查的数据子集来说明披露风险的计算。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号