Détection et correction automatique d'entités nommées dans des corpus OCRisés

机译：自动检测和更正OCR化语料库中的命名实体

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd'hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d'erreurs à l'aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C'est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d'identification et de correction par règles d'un large éventail d'entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d'atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.

机译：如今，校正通过光学字符识别（OCR）获得的文本数据以达到编辑质量仍然是一项昂贵的任务，因为它仍然需要人工干预。使用统计模型进行自动错误检测和纠正只能有效地处理一般语言错误。但是，在某些命名实体中，存在最多的错误，尤其是在诸如专利主体或法律文本之类的数据中。在本文中，我们提出了一种用于通过规则对各种命名实体（不包括专有名称）进行识别和更正的体系结构。我们证明，我们的体系结构可以实现良好的召回率和出色的校正精度，从而可以处理通常的统计方法难以处理的故障。

著录项

来源
《Traitement automatique des langues naturelles》|2014年|437-442|共6页
会议地点
作者
Benoît Sagot; Kata Gábor;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
OCR; Entités nommées; Détection d'erreurs; Correction d'erreurs;

机译：OCR;命名实体;错误检测;纠正错误;
入库时间 2022-08-26 15:19:00

相似文献

外文文献
中文文献
专利

1. Aide à la détection automatique des utilisateurs dépressifs dans les médias sociaux [J] . Document Numerique . 2019,第3期

机译：帮助自动检测社交媒体中的沮丧用户
2. Intégration d'un système d'allumage automatique et de détection de flamme dans le design d'un bruleur immergé en ligne [J] . Research Disclosure . 2020,第673期

机译：集成自动点火系统和火焰检测在线浸没式燃烧器
3. Une méthodologie pour la détection automatique de comptes multiples dans les réseaux sociaux Application à Wikipédia [J] . Zaher Yamak, Julien Saunier, Laurent Vercouter Revue d'Intelligence Artificielle . 2016,第4期

机译：一种自动检测社交网络中多个帐户的方法，应用于维基百科
4. Détection et correction automatique d'entités nommées dans des corpus OCRisés [C] . Beno?t Sagot, Kata Gábor Traitement automatique des langues naturelles . 2014

机译：自动检测和校正受保护基板中名为的实体
5. Application Des Algorithmes d’Apprentissage Automatique Pour La détection De défauts De Roulements Sur Les Machines Tournantes Dans Le Cadre De l’Industrie 4.0 [D] . Zoungrana, Wend-Benedo Arnaud Bienvenue. 2020

机译：自动学习算法在旋转机械中检测轴承默认的应用4.0
6. Emergence endémique de la fièvre jaune en Côte dIvoire: place de la détection des IgM antiamariles dans la stratégie de surveillance. [O] . M. Lhuillier, J. L. Sarthou, R. Cordellier, 1986

机译：科特迪瓦黄热病流行：监测策略中黄热病IgM的检测地点。
7. Détection et correction automatique d'entités nommées dans des corpus OCRisés [O] . Sagot Benoît, Gábor Kata 2014

机译：自动检测和更正OCR化语料库中的命名实体

Détection et correction automatique d'entités nommées dans des corpus OCRisés

摘要

著录项

相似文献

相关主题

期刊订阅