首页> 外文期刊>Revue d'Intelligence Artificielle >Amélioration continue d'une chaîne de traitement de documents avec l'apprentissage par renforcement
【24h】

Amélioration continue d'une chaîne de traitement de documents avec l'apprentissage par renforcement

机译:通过强化学习不断完善文档处理链

获取原文
获取原文并翻译 | 示例
           

摘要

Nous modélisons une chaîne de traitement de documents comme un processus de décision markovien, et nous utilisons l'apprentissage par renforcement afin de permettre à l'agent d'apprendre à construire des chaînes adaptées à la volée, et de les améliorer en continu. Nous construisons une plateforme qui nous permet de mesurer l'impact sur l'apprentissage de divers modèles, services web, algorithmes, paramètres, etc. Nous l'appliquons dans un contexte industriel, spécifiquement à une chaîne visant à extraire des événements dans des volumes massifs de documents provenant de pages web et d'autres sources ouvertes. Nous visons à réduire la charge des analystes humains, l'agent apprenant à améliorer la chaîne, guidé par leurs retours (feedback) sur les événements extraits. Pour ceci, nous explorons des types de retours différents, d'un feedback numérique requérant un important calibrage, à un feedback qualitatif, beaucoup plus intuitif et demandant peu, voire pas du tout, de calibrage. Nous menons des expériences, d'abord avec un feedback numérique, puis nous montrons qu 'un feedback qualitatif permet toujours à l'agent d'apprendre efficacement.
机译:我们将文档处理链建模为马尔可夫决策过程,并使用强化学习使代理能够学习动态构建链并不断改进它们。我们正在建立一个平台,使我们能够衡量对各种模型,Web服务,算法,参数等的学习产生的影响。我们将其应用于工业环境,特别是旨在从网页和其他开放源中的大量文档中提取事件的链。我们的目标是减轻人员分析员的负担,使他们可以根据提取的事件的反馈来改进代理商链。为此,我们正在探索不同类型的反馈,从需要显着校准的数字反馈到更加直观,几乎不需要校准的定性反馈。我们进行实验,首先使用数字反馈,然后证明定性反馈始终可以使代理有效学习。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号