首页> 中国专利> 用于处理图像以识别一连串字母数字字符的系统和方法

用于处理图像以识别一连串字母数字字符的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了用于处理图像以识别一连串字母数字字符的系统和方法。所述系统和方法拍摄图像并且进一步处理所述图像，以通过计算图像的图案从而进行二值化。然后过滤所生成的二值化图像，以去除不需要的元素。从所过滤的二值化图像中识别出候选图像。所有所获得的候选图像相结合，以生成最终的候选图像，进一步分割所述最终的候选图像，以识别一连串有效的字母数字字符。

著录项

公开/公告号CN103366167A

专利类型发明专利
公开/公告日2013-10-23

原文格式PDF
申请/专利权人塔塔顾问服务有限公司;印度统计研究院;
展开▼

申请/专利号CN201310098006.2
发明设计人塔努沙姆·查托帕迪艾;乌杰瓦尔·巴塔查里亚;比迪亚特·巴拉恩·乔杜里;
展开▼

申请日2013-03-25
分类号G06K9/20;
代理机构北京康信知识产权代理有限责任公司;
代理人余刚
地址印度孟买
入库时间 2024-02-19 21:14:32

法律信息

法律状态公告日

法律状态信息

法律状态
2017-01-18

授权

授权
2013-11-20

实质审查的生效 IPC(主分类):G06K9/20 申请日:20130325

实质审查的生效
2013-10-23

公开

公开

说明书

技术领域

本发明总体上涉及用于进行字符识别的方法和系统。更具体地，本发明涉及用于识别图像内存在的一连串字母数字字符的方法和系统。

背景技术

在某些特别的情况下，为了某些特定的目的，人们用移动电话照相机多次拍摄车辆识别码（VIN）的图像。在拍摄的过程中进行的人工干预、照明不均匀并且不足以及复杂的聚焦系统的无效导致产生劣质图像。

由于图像质量受到各种噪声的影响，所以由移动电话拍摄的VIN图像上的可用开放源码光学字符识别（OCR）系统的性能极差。因此，在将扫描图像作为输入提供给光学字符识别系统之前，需要使用图像增强技术。二值化技术用作图像增强技术，以从复杂的背景（更具体地，背景文本）中获得文本区域。

移动电话拍摄的图像内的文本的OCR具有各种缺点。在现有系统中，需要提取嵌入式移动平台上的各个字符，该平台具有低存储和处理速度。二值化技术用作图像增强技术，以从复杂的背景（更具体地，背景文本）中获得文本区域。已经提出许多种二值化技术，来提高图像的识别准确度。现有的二值化技术仅可将图像的识别准确度至多提高至5.89%。

因此，需要能够提供合适的低复杂度二值化技术的系统和方法，该技术将更大程度上提高图像的识别准确度。

本发明的目的

本发明的主要目的在于，提供一种用于识别图像内存在的一连串字母数字字符的系统和方法。

本发明的另一个目的在于，提供一种将这样拍摄的图像进行二值化的系统和方法。

本发明的又一个实施方式在于，提供一种用于从二值化图像中去除不需要的、过度分割和分割不足的部分的系统和方法。

本发明的又一个目的在于，提供一种用于应用形态闭合以将有效的字母数字字符内的多个元素标签合并的系统和方法。

发明内容

本发明提供了一种用于识别图像内存在的一连串字母数字字符的方法。所述方法包括处理器，其执行以下步骤：拍摄包括一连串字母数字字符的图像并且处理图像，以从所述一连串字母数字字符中产生一组可识别字符。所述处理进一步包括：计算图案，以在图像中识别像素强度分布，从而确定背景峰值和前景峰值；通过选择背景峰值和前景峰值之间的多个动态阈值，生成多个二值化图像；并且通过从多个图像中去除不需要的元素，过滤所生成的二值化图像，以识别一个或多个有效字符。所述处理进一步包括：通过比较有效字符和已知的基础真值，识别一个或多个候选图像；通过组合候选图像，生成最终的候选图像，从而候选图像的组合取决于预定的条件；以及将最终的候选图像分成预定的部分，并且识别与其内的每个部分相关联的有效字母数字字符。

本发明还提供了一种用于识别图像内存在的一连串字母数字字符的系统。所述系统包括：图像拍摄装置，用于拍摄包括一连串字母数字字符的图像；以及处理器，其被配置成从所述一连串字母数字字符中产生一组可识别的字符。所述处理器进一步包括：计算模块，其被配置成计算图案，以在图像中识别像素强度分布，从而确定背景峰值和前景峰值；二值化模块，其被配置成通过选择背景峰值和前景峰值之间的多个动态阈值，生成多个二值化图像；以及滤波器，其被配置成从多个图像中去除不需要的元素，以识别一个或多个有效字符。所述处理器进一步包括：比较器，其被配置成比较有效字符和已知的基础真值，以识别一个或多个候选图像；以及图像生成器，其被配置成通过组合候选图像，生成最终的候选图像，从而候选图像的组合取决于预定的条件。所述系统进一步包括输出生成模块，其被配置成将最终的候选图像分成预定的部分，并且识别与其内的每个部分相关联的有效字母数字字符。

附图说明

图1示出了根据本发明实施方式的系统架构；

图2示出了根据本发明可替换实施方式的示范性流程图。

图3示出了在应用根据系统的可替换实施方式的形态闭合（closing）之后的图像的形式；

图4示出了根据本发明实施方式的本发明的二值化技术和现有技术的二值化技术的比较分析。

具体实施方式

现在，将讨论本发明的某些实施方式，这些实施方式示出了本发明的特征。

词语“包括（comprising）”、“具有（having）”、“包含（containing）”和“含有（including）”及其的其他形式意旨具有相同的意义，并且是开放用语，即，这些词语中的任一个之后的一项或多项并不表示该项或这些项的详尽列表，也并不表示仅仅限于所列出的一项或多项。

还要注意的是，除非文中另有明确规定，否则本文中所使用的以及所附权利要求书内的单数形式“一（a）”、“一（an）”、以及“该（the）”包括复数指示物。虽然与本文中所描述那些等同或类似的任何系统、方法、设备以及装置可用于实践或测试本发明的实施方式，但是现在所描述的是优选的系统和部分。为了进行解释和有助于理解，在以下描述中，所涉及的多个实施方式的目的并非在于限制本发明的范围。

为了理解本说明书，本发明的一个或多个元素将被描述为模块。例如，模块可包括包含逻辑门的硬件电路内的独立元素、半导体器件、集成电路或任何其他分立元素。该模块也可为任何软件程序的一部分，该软件程序由任何硬件实体（例如，处理器）执行。模块作为软件程序的实施方式可包括由处理器或任何其他硬件实体执行的一组逻辑指令。而且，通过接口，模块可结合有这组指令或程序。

所公开的实施方式仅仅为本发明的示例，该示例可以以多个形式来实施。

本发明涉及一种用于识别图像内存在的一连串字母数字字符的方法和系统。在第一步骤中，从灰度图像的图案中识别两个主要的峰值，并且获得大量二值化图像。从二值化图像中去除不需要的元素。此外，分割一个或多个候选图像，使得每个部分包含有效字符，从而生成一个最终的候选图像。

根据实施方式，参照图1，系统（100）包括图像拍摄装置（102），用于拍摄包括一连串字母数字字符的图像（如图2中的步骤202中所示）。该系统进一步包括处理器（104），配置成从所述一连串字母数字字符中产生一组可识别字符（如图2中的步骤206中所示）。处理器进一步包括：计算模块（106）、二值化模块（108）、滤波器（110）、比较器（112）以及图像生成器（114）。

根据实施方式，依然参照图1，图像拍摄装置拍摄灰度图像。图像拍摄装置可包括照相机。这种照相机可与一些其他的电子装置耦接。通过具体示例，照相机可位于移动电话内。图像拍摄装置（102）以多个帧拍摄图像。这些图像可再次包括要进一步识别的一连串字母数字字符，并且因此可包括一种或多种噪声。由处理器进一步处理所拍摄的图像。处理器（104）然后从图像内存在的一连串字母数字字符中产生一组可识别字符。

通过具体示例，一连串字母数字字符的数量可包括但不限于17个字母数字字符。

处理器（104）进一步包括计算模块（106），其被配置成计算图案，以识别图像中的像素强度分布，从而确定背景峰值和前景峰值。以直方图的形式识别像素强度。

计算模块（106）通过应用视网膜增强算法（retinex）策略，增强输入图像的质量（如图2中的步骤204中所示）。根据具有两个噪声源的两种主要观察，增强图像。一种本质上为由背景文本和玻璃的反射所呈现的乘积。计算模块（106）进一步将图像转换成灰度图像。灰度图像为仅仅颜色为灰色阴影的图像。计算灰度图像的强度直方图，其为示出图像内具有在图像内发现的各个不同强度值的像素的数量的示图（如图2的步骤208中所示）。通过具体示例，对于8位灰度图像而言，具有256个可能不同的强度，因此，该直方图用图形显示了256个数字，其示出了在那些灰度值之间的像素分布。而且，通过这个强度分布，识别两个主要的峰值，一个峰值位于0值附近，并且另一个位于255值附近（如图2的步骤210中所示）。这些峰值分别由图像的背景部分和前景部分表示。

处理器（104）进一步包括二值化模块（108），其被配置成生成多个二值化图像。

根据一个实施方式，所公开的二值化方法是基于两个主要的观察的，即，在背景文本（BGT）和兴趣文本（TOI）之间具有轻微的灰度变化，并且在所拍摄的图像内确实具有17个字母数字字符。背景峰值和前景峰值之间的动态阈值（像素值）的具体数量（n）用于进行二值化（如图2的步骤212中所示）。对于具有每个像素8位的格式的图像而言，这个数量为启发式获得的16。因此，从单个灰度图像中获得n个二值化图像（如图2的步骤214中所示）。

根据实施方式，使用连接元素标记方法，标记每个这种图像的前景像素。连接元素标记为图论的一种算法应用，其中，根据规定的启发法，唯一地标记连接元素的子集。包含顶点和连接边的图形由输入图像构成。顶点包含比较启发法所需要的信息，而边表示连接的‘邻居’。算法通过图形，根据连接性和其邻居的相对值，标记顶点。在标记阶段之后，可将该图形分成子集，随后，可恢复和处理原始信息。

处理器（104）进一步包括滤波器（110），其被配置成从n个数量的二值化图像中去除不需要的元素，以识别一个或多个有效字符（如图2的步骤216中所示）。去除太小或太大的元素。如果具有特定水平的像素的数量小于100或者如果元素的高度（h）或宽度（w）小于3像素，那么将元素定义为太小。类似地，如果具有特定水平的像素的数量大于宽度/4，或者如果

h>(ht_image/3)或

w>(wd_image/4)，

那么将元素定义为太大，其中，

ht_image为图像的高度，并且wd_image为图像的宽度。

处理器（104）进一步包括比较器（112），其被配置成比较有效字符和已知的基础（ground）真值，以识别一个或多个候选图像。已知的基础真值（k）等于一连串字母数字字符的数量。

比较器（112）用于去除不需要的元素，以识别候选图像。如果元素的数量小于k/2，那么这表示实际的k个数量的字符的分割非常不足或者二值化的图像不包括作为前景的所有有效值（如图2的步骤218中所示）。因此，不将这种二值化图像视为候选图像。同样，如果元素的数量大于k*3，那么平均将一个有效字符过度分割成三个以上的部分（如图2的步骤218中所示）。忽视过度分割和分割不足的二值化图像。将剩下的二值化图像视为候选图像。因此，n个二值化图像中只剩下几个有效图像。通常，用于每个输入图像的这种候选图像的数量小于或等于3（对于一连串字母数字字符的数量为17的情况而言）。

处理器（104）进一步包括图像生成器（114），其被配置成通过组合候选图像，生成最终的候选图像（如图2的步骤220中所示）。只有在一半以上的候选图像被确定为背景文本，那么就通过将像素标记为背景文本（BGT），组合候选图像。一旦这个预定的条件满足，就构建最终的候选图像。

系统（100）进一步包括输出生成模块（116），其被配置成将最终的候选图像分成预定的部分，以使得每个部分包含仅一个有效字符。将候选图像分成等于一连串字母数字字符数量的数量（如图2的步骤222中所示）。

根据一个实施方式，在分割之前，使用传统的倾斜校正方法。以下分割方法是基于以下观察：有效字符的数量等于一连串字母数字字符的数量（k）。字符和数字分割以及识别方法所包括的步骤如下：

●无需任何前景像素，识别列。如果获得连续的这种行，那么将这些列的中间视为候选切割列（CCC）。假设所获得的CCC的数量为n。

●找出连续的CCC之间的距离（δ）。假设第i和第（i+1）个CCC之间的距离定义为δ_i=|CCC_i+1-CCC_i|。

●找出δ_ii∈(1,2,LL,n)的中数（med_δ），其中，n为图像内CCC的数量。启发式获得的容差因子用于限定阈值（Th_δ），其被限定为Th_δ=(med_δ-τ)。

●如果获得k-1个元素，这些元素基本上均等地间隔地排成列，那么每个部分用作候选部分。

●如果n>k-1，那么结论是，某个有效字符水平上过度分割。随后，反复地将这种CCC合并并且将n减小1。

●如果n<k-1，那么结论是，肯定具有彼此接触的某些有效字符。

因此，获得k数量的部分，每个部分具有有效字符。所获得的这些部分可具有过度分割的形式。

根据实施方式，参照图3，如果任何这种部分包括多个元素标签，那么通过应用形态闭合将其合并（如图2的步骤224中所示）。图（3a）示出了过度分割的字符，并且图（3b）示出了应用形态闭合之后的同一个字符。闭合类似于逆向执行开运算。将其简单地定义为先扩大再减少，这两个操作使用相同的结构元素。因此，闭合符需要两个输入：要被闭合的图像以及结构元素。灰度闭合直接包括灰度扩展，然后包括灰度减少。闭合为双重打开，即，使用特定的结构元素闭合前景像素，其等同于使用相同的元素闭合背景。

根据实施方式，图4（g）示出了相对于图4(a)、(b)、(c)、(d)、(e)以及(f)中所示的现有技术，本发明中所公开的二值化技术的改进结果。

本发明操作的最佳方式/示例

通过以下段落中所阐述的实施例，可示意性给出用于识别图像内一连串字母数字字符的示意性系统和方法；该处理不仅仅限于所述示例。

考虑人们通过其移动电话上两百万像素分辨率的摄像头拍摄的车辆识别码（VIN）的图像。考虑该图像受到多种噪声（车牌上的污泥、一些其他车辆的阴影等）的影响。假设该号码原始为MH05142466720087（包括2个字母的17个号码）。其中，清晰的号码和/或字母包括M-0514-4---2008-（剩下的号码可部分识别）。通过上述方法和系统，增强在由OCR（光学字符识别）识别之前包括数字和字母的这个图像。首先计算直方图，提供背景和前景的峰值点。这就提供了获得多个二值化图像所利用的阈值（例如16）。

进一步过滤这些二值化图像，去除不需要的图像，并且获得某些有效字符。这些有效字符用于通过与地面真值（在本文中为17）相比，识别候选图像。现在，通过组合这些小候选图像，生成一个最终的候选图像，从而识别缺失的字符。

重复该处理，以识别所有缺失的或受噪声影响的字符，并且在由OCR进行处理之前，最终增强图像质量。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于处理图像以识别一连串字母数字字符的系统和方法 [P] . 中国专利： CN103366167B . 2017.01.18
2. 用于处理图像以识别一连串字母数字字符的系统和方法 [P] . 中国专利： CN103366167A . 2013-10-23
3. System and method for processing image for identifying alphanumeric characters present in a series [P] . 美国专利： US8965123B2 . 2015-02-24

机译：用于处理图像以识别系列中存在的字母数字字符的系统和方法
4. A system and method for processing image for identifying alphanumeric characters present in a series [P] . 欧洲知识产权局专利： EP2645305A3 . 2014-05-14

机译：一种用于处理图像以识别系列中存在的字母数字字符的系统和方法
5. A system and method for processing image for identifying alphanumeric characters present in a series [P] . 欧洲知识产权局专利： EP2645305A2 . 2013-10-02

机译：一种用于处理图像以识别系列中存在的字母数字字符的系统和方法