首页> 美国卫生研究院文献>other >Preparing an Annotated Gold Standard Corpus to Share with Extramural Investigators for De-identification Research
【2h】

Preparing an Annotated Gold Standard Corpus to Share with Extramural Investigators for De-identification Research

机译:准备带注释的黄金标准语料库以与壁外研究人员共享以进行身份​​识别研究

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

ObjectiveThe current study aims to fill the gap in available healthcare de-identification resources by creating a new sharable dataset with realistic Protected Health Information (PHI) without reducing the value of the data for de-identification research. By releasing the annotated gold standard corpus with Data Use Agreement we would like to encourage other Computational Linguists to experiment with our data and develop new machine learning models for de-identification. This paper describes: (1) the modifications required by the Institutional Review Board before sharing the de-identification gold standard corpus; (2) our efforts to keep the PHI as realistic as possible; (3) and the tests to show the effectiveness of these efforts in preserving the value of the modified data set for machine learning model development.
机译:目的本研究旨在通过创建具有现实的受保护健康信息(PHI)的新的可共享数据集来填补可用的医疗保健去识别资源中的空白,而不会降低去识别研究的数据价值。通过发布带有数据使用协议的带注释的黄金标准语料库,我们希望鼓励其他计算语言学家尝试我们的数据并开发新的机器学习模型以进行去识别。本文描述:(1)机构审查委员会在共享取消标识黄金标准语料库之前需要进行的修改; (2)我们努力使PHI尽可能切合实际; (3)和测试显示了这些努力在保留修改后的数据集对机器学习模型开发的价值方面的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号