首页> 外文OA文献 >Text detection and recognition in natural images using computer vision techniques
【2h】

Text detection and recognition in natural images using computer vision techniques

机译:使用计算机视觉技术在自然图像中进行文本检测和识别

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

El reconocimiento de texto en imágenes reales ha centrado la atención de muchos investigadores en todo el mundo en los últimos años. El motivo es el incremento de productos de bajo coste como teléfonos móviles o Tablet PCs que incorporan dispositivos de captura de imágenes y altas capacidades de procesamiento. Con estos antecedentes, esta tesis presenta un método robusto para detectar, localizar y reconocer texto horizontal en imágenes diurnas tomadas en escenarios reales. El reto es complejo dada la enorme variabilidad de los textos existentes y de las condiciones de captura en entornos reales. Inicialmente se presenta una revisión de los principales trabajos de los últimos años en el campo del reconocimiento de texto en imágenes naturales. Seguidamente, se lleva a cabo un estudio de las características más adecuadas para describir texto respecto de objetos no correspondientes con texto. Típicamente, un sistema de reconocimiento de texto en imágenes está formado por dos grandes etapas. La primera consiste en detectar si existe texto en la imagen y de localizarlo con la mayor precisión posible, minimizando la cantidad de texto no detectado así como el número de falsos positivos. La segunda etapa consiste en reconocer el texto extraído. El método de detección aquí propuesto está basado en análisis de componentes conexos tras aplicar una segmentación que combina un método global como MSER con un método local, de forma que se mejoran las propuestas del estado del arte al segmentar texto incluso en situaciones complejas como imágenes borrosas o de muy baja resolución. El proceso de análisis de los componentes conexos extraídos se optimiza mediante algoritmos genéticos. Al contrario que otros sistemas, nosotros proponemos un método recursivo que permite restaurar aquellos objetos correspondientes con texto y que inicialmente son erróneamente descartados. De esta forma, se consigue mejorar en gran medida la fiabilidad de la detección. Aunque el método propuesto está basado en análisis de componentes conexos, en esta tesis se utiliza también la idea de los métodos basados en texturas para validar las áreas de texto detectadas. Por otro lado, nuestro método para reconocer texto se basa en identificar cada caracter y aplicar posteriormente un modelo de lenguaje para corregir las palabras mal reconocidas, al restringir la solución a un diccionario que contiene el conjunto de posibles términos. Se propone una nueva característica para reconocer los caracteres, a la que hemos dado el nombre de Direction Histogram (DH). Se basa en calcular el histograma de las direcciones del gradiente en los pixeles de borde. Esta característica se compara con otras del estado del arte y los resultados experimentales obtenidos sobre una base de datos compleja muestran que nuestra propuesta es adecuada ya que supera otros trabajos del estado del arte. Presentamos también un método de clasificación borrosa de letras basado en KNN, el cual permite separar caracteres erróneamente conectados durante la etapa de segmentación. El método de reconocimiento de texto propuesto no es solo capaz de reconocer palabras, sino también números y signos de puntuación. El reconocimiento de palabras se lleva a cabo mediante un modelo de lenguaje basado en inferencia probabilística y el British National Corpus, un completo diccionario del inglés británico moderno, si bien el algoritmo puede ser fácilmente adaptado para ser usado con cualquier otro diccionario. El modelo de lenguaje utiliza una modificación del algoritmo forward usando en Modelos Ocultos de Markov. Para comprobar el rendimiento del sistema propuesto, se han obtenido resultados experimentales con distintas bases de datos, las cuales incluyen imágenes en diferentes escenarios y situaciones. Estas bases de datos han sido usadas como banco de pruebas en la última década por la mayoría de investigadores en el área de reconocimiento de texto en imágenes naturales. Los resultados muestran que el sistema propuesto logra un rendimiento similar al del estado del arte en términos de localización, mientras que lo supera en términos de reconocimiento. Con objeto de mostrar la aplicabilidad del método propuesto en esta tesis, se presenta también un sistema de detección y reconocimiento de la información contenida en paneles de tráfico basado en el algoritmo desarrollado. El objetivo de esta aplicación es la creación automática de inventarios de paneles de tráfico de países o regiones que faciliten el mantenimiento de la señalización vertical de las carreteras, usando imágenes disponibles en el servicio Street View de Google. Se ha creado una base de datos para esta aplicación. Proponemos modelar los paneles de tráfico usando apariencia visual en lugar de las clásicas soluciones que utilizan bordes o características geométricas, con objeto de detectar aquellas imágenes en las que existen paneles de tráfico. Los resultados experimentales muestran la viabilidad del sistema propuesto.
机译:近年来,真实图像中的文本识别已引起全球众多研究人员的关注。原因是结合了图像捕获设备和高处理能力的低成本产品(如手机或平板电脑)的数量有所增加。在此背景下,本文提出了一种在真实场景下拍摄的白天图像中检测,定位和识别水平文本的可靠方法。鉴于现有文本的巨大可变性和实际环境中的捕获条件,挑战是复杂的。最初,对自然图像中文本识别领域的近年来主要工作进行了回顾。接下来,对关于不对应于文本的对象描述文本的最适当的特性进行了研究。通常,图像文本识别系统包括两个主要阶段。第一种是检测图像中是否存在文本,并尽可能准确地定位文本,从而最大程度地减少未检测到的文本的数量以及误报的数量。第二阶段是识别提取的文本。此处提出的检测方法是基于在应用将MSER等全局方法与局部方法相结合的分割后对相关组件进行的分析,从而即使在复杂的情况下(例如模糊的图像)也可以对文本进行分割时改进了最新的建议或非常低的分辨率。提取的相关成分的分析过程通过遗传算法进行优化。与其他系统不同,我们提出了一种递归方法,该方法允许您使用文本恢复那些最初被错误丢弃的对应对象。这样,大大提高了检测的可靠性。尽管所提出的方法是基于对相关组件的分析,但是在本文中,基于纹理的方法的思想也被用于验证检测到的文本区域。另一方面,我们的文本识别方法是基于识别每个字符,然后通过将解决方案限制为包含一组可能术语的字典,来应用语言模型来纠正误识别的单词。提出了一种新的字符识别功能,我们将其称为方向直方图(DH)。它基于计算边缘像素中梯度方向的直方图。将此特性与现有技术中的其他特性进行了比较,并且在复杂数据库中获得的实验结果表明,我们的建议是足够的,因为它超越了现有技术中的其他作品。我们还介绍了一种基于KNN的模糊字母排序方法,该方法允许在分割阶段分离错误连接的字符。所提出的文本识别方法不仅能够识别单词,而且能够识别数字和标点符号。使用基于概率推论的语言模型和英国国家语料库(现代英式英语的完整词典)进行单词识别,尽管该算法可以轻松地与其他任何词典一起使用。语言模型使用隐马尔可夫模型对前向算法进行了修改。为了检查所提出系统的性能,使用不同的数据库获得了实验结果,其中包括不同情况和情况下的图像。这些数据库在过去十年中被大多数研究人员用作自然图像文本识别领域的测试平台。结果表明,所提出的系统在定位方面达到了与现有技术类似的性能,而在识别方面却超过了它。为了证明本文提出的方法的适用性,提出了一种基于改进算法的交通板块信息检测与识别系统。此应用程序的目的是使用Google的街景服务中提供的图像,自动创建有助于维护垂直路标的国家或地区的交通面板清单。已经为此应用程序创建了一个数据库。我们建议使用视觉外观而不是使用几何特征或边框的经典解决方案来对交通面板进行建模,以检测其中存在交通面板的那些图像。实验结果表明了该系统的可行性。

著录项

  • 作者

    González Arroyo Álvaro;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号