首页> 外文OA文献 >Combining neural-based approaches and linguistic knowledge for text recognition in multimedia documents
【2h】

Combining neural-based approaches and linguistic knowledge for text recognition in multimedia documents

机译:将基于神经的方法和语言知识结合在多媒体文档中进行文本识别

摘要

Les travaux de cette thèse portent sur la reconnaissance des indices textuels dans les images et les vidéos. Dans ce cadre, nous avons conçu des prototypes d'OCR (optical character recognition) capables de reconnaître tant des textes incrustés que des textes de scène acquis n'importe où au sein d'images ou de vidéos. Nous nous sommes intéressée à la définition d'approches robustes à la variabilité des textes et aux conditions d'acquisition. Plus précisément, nous avons proposé deux types de méthodes dédiées à la reconnaissance de texte : - une approche fondée sur une segmentation en caractères qui recherche des séparations non linéaires entre les caractères adaptées à la morphologie de ces derniers ; - deux approches se passant de la segmentation en intégrant un processus de scanning multi-échelles ; la première utilise un modèle de graphe pour reconnaître les textes tandis que la seconde intègre un modèle connexionniste récurrent spécifiquement développé pour gérer les contraintes spatiales entre les caractères.Outre les originalités de chacune des approches, deux contributions supplémentaires de ce travail résident dans la définition d'une reconnaissance de caractères fondée sur un modèle de classification neuronale et l'intégration de certaines connaissances linguistiques permettant de tirer profit du contexte lexical. Les différentes méthodes conçues ont été évaluées sur deux bases de documents : une base de textes incrustés dans des vidéos et une base publique de textes de scène. Les expérimentations ont permis de montrer la robustesse des approches et de comparer leurs performances à celles de l'état de l'art, mettant en évidence leurs avantages et leurs limites.
机译:本文的工作着眼于图像和视频中文本线索的识别。在这种情况下,我们设计了OCR(光学字符识别)原型,能够识别图像或视频中任何位置获取的嵌入文本和场景文本。我们对文本变化和获取条件的健壮方法的定义感兴趣。更准确地说,我们提出了两种专用于文本识别的方法:-一种基于分割成字符的方法,该方法寻求适应其形态的字符之间的非线性分离; -集成多尺度扫描过程的两种无需分割的方法;第一种使用图形模型来识别文本,第二种使用专门为管理字符之间的空间约束而开发的循环连接主义模型,除了每种方法的独创性之外,这项工作的另外两个贡献在于对''基于神经分类模型的字符识别和某些语言知识的集成,使得可以利用词汇上下文。设计的不同方法在两个数据库中进行了评估:视频中嵌入的文本数据库和舞台文本的公共数据库。实验使得展示这些方法的鲁棒性并将它们的性能与现有技术进行比较成为可能,从而突出了它们的优势和局限性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号