首页> 外文会议>Traitement automatique des langues naturelles >Détection et correction automatique d'entités nommées dans des corpus OCRisés
【24h】

Détection et correction automatique d'entités nommées dans des corpus OCRisés

机译:自动检测和更正OCR化语料库中的命名实体

获取原文

摘要

La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd'hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d'erreurs à l'aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C'est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d'identification et de correction par règles d'un large éventail d'entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d'atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.
机译:如今,校正通过光学字符识别(OCR)获得的文本数据以达到编辑质量仍然是一项昂贵的任务,因为它仍然需要人工干预。使用统计模型进行自动错误检测和纠正只能有效地处理一般语言错误。但是,在某些命名实体中,存在最多的错误,尤其是在诸如专利主体或法律文本之类的数据中。在本文中,我们提出了一种用于通过规则对各种命名实体(不包括专有名称)进行识别和更正的体系结构。我们证明,我们的体系结构可以实现良好的召回率和出色的校正精度,从而可以处理通常的统计方法难以处理的故障。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号