首页> 外文会议>Privacy in Statistical Databases >Accounting for Intruder Uncertainty Due toSampling When Estimating Identification Disclosure Risks in Partially Synthetic Data
【24h】

Accounting for Intruder Uncertainty Due toSampling When Estimating Identification Disclosure Risks in Partially Synthetic Data

机译:在估计部分合成数据中的标识披露风险时,应考虑抽样导致的入侵者不确定性

获取原文
获取原文并翻译 | 示例

摘要

Partially synthetic data comprise the units originally surveyed with some collected values, such as sensitive values at high risk of disclosure or values of key identifiers, replaced with multiple draws from statistical models. Because the original records remain on the file, intruders may be able to link those records to external databases, even though values are synthesized. We illustrate how statistical agencies can evaluate the risks of identification disclosures before releasing such data. We compute risk measures when intruders know who is in the sample and when the intruders do not know who is in the sample. We use classification and regression trees to synthesize data from the U.S. Current Population Survey.
机译:部分合成数据包括最初使用一些收集的值(例如,处于高披露风险的敏感值或关键标识符的值)进行调查的单位,并用统计模型的多次抽取代替。由于原始记录保留在文件中,因此入侵者也许可以将这些记录链接到外部数据库,即使值是合成的。我们将说明统计机构在发布此类数据之前如何评估身份披露的风险。当入侵者知道样本中的人以及入侵者不知道样本中的人时,我们将计算风险度量。我们使用分类树和回归树来综合来自美国当前人口调查的数据。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号