首页> 外文会议>Traitement automatique des langues naturelles >Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux
【24h】

Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux

机译:通过视觉和词汇标记自动检测文档的组织结构

获取原文

摘要

La compréhension d'un texte s'opère à travers les niveaux d'information visuelle, logique et discursive, et leurs relations d'interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inverse en proposant de générer automatiquement la structure organisationnelle du texte (structure logique) à partir de sa forme visuelle. Le principe consiste à (ⅰ) labelliser des blocs visuels par apprentissage afin d'obtenir des unités logiques et (ⅱ) relier ces unités par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tâches, des Champs Aléatoires Conditionnels et un Maximum d'Entropie sont respectivement utilisés. Après apprentissage, les résultats aboutissent à une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l'arbre.
机译:对文本的理解是通过视觉,逻辑和话语信息及其相互依存关系的层次来进行的。研究这些关系的大部分工作都是在文本生成的背景下进行的,在文本生成的背景下,视觉属性是从逻辑和话语元素推断出来的。本文提出的作品采用了一种相反的方法,即提议从视觉形式自动生成文本的组织结构(逻辑结构)。原理在于(ⅰ)通过学习标记视觉块以获得逻辑单元,以及(ⅱ)通过协调或从属关系连接这些单元以构建树。对于这两个任务,分别使用条件随机场和最大熵。在学习之后,结果导致标签的准确度为80.46%,树木的构造为97.23%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号