首页> 中国专利> 布局分析程序、布局分析设备和布局分析方法

布局分析程序、布局分析设备和布局分析方法

摘要

布局分析程序、布局分析设备和布局分析方法。能够高度准确地从图像(如果该图像为彩色图像)中提取文本块的布局分析程序、布局分析设备、布局分析方法和介质。布局分析程序使得计算机执行:分割区域提取步骤,根据二值图像提取通过图案划分的区域,以使用该提取结果作为分割区域;字符要素集合提取步骤,针对各分割区域,对通过第一二值图像布局分析处理提取的字符要素集合进行提取,以使用该提取结果作为字符要素集合;文本块提取步骤,在各分割区域中提取包含有所提取的字符要素集合的区域,以避免与第二二值图像布局处理所提取的非字符要素交叠,并使用该提取结果作为文本块;以及布局信息生成步骤,根据所述文本块以及第二二值图像布局分析处理所提取的非字符要素,生成布局信息。

著录项

  • 公开/公告号CN1987895A

    专利类型发明专利

  • 公开/公告日2007-06-27

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN200610074795.6

  • 申请日2006-04-14

  • 分类号G06K9/20(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人黄纶伟

  • 地址 日本神奈川县川崎市

  • 入库时间 2023-12-17 18:46:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-03-21

    未缴年费专利权终止 IPC(主分类):G06K 9/20 专利号:ZL2006100747956 申请日:20060414 授权公告日:20091209

    专利权的终止

  • 2009-12-09

    授权

    授权

  • 2007-08-22

    实质审查的生效

    实质审查的生效

  • 2007-06-27

    公开

    公开

说明书

技术领域

本发明涉及用于从图像中提取文本块等的布局分析程序、布局分析设备、布局分析方法和介质。

背景技术

光学字符读取器(OCR)可以识别一般通过扫描仪读出的文档的图像的布局,以及该图像的一个或多于一个字符区域中的字符。近年来,用于存储、检索和再使用普通文档和其他文档的OCR应用和文档管理系统已经引起了关注。最近,根据电子文档法的要求条款,通常要求OCR不仅扫描黑白文档,而且扫描彩色文档。

在用于彩色图像的OCR技术领域,按照以下示出的顺序执行相关处理。

1、布局分析处理

2、二值化处理

3、字符区域中的字符识别处理

在以上列出的三个处理中,布局分析处理如果与其余两个处理相比,倾向于不太精确。此外,当对彩色图像执行布局分析处理时,该倾向尤其显著。

下面将以用于分析彩色图像的布局的已知布局分析设备的结构为示例进行讨论。图17是用于分析彩色图像的布局的已知布局分析设备的示意框图,示出了该设备的结构。布局分析设备包括:图像获取部101、NiblackDeltaGNoiseRemoveFast二值化部102、二值图像布局分析部103、文本块分割部104、文本块重构部105和布局信息生成部106。

下面,将说明用于分析彩色图像的布局的已知布局分析设备的操作。首先,图像获取部101获取彩色图像。然后,NiblackDeltaGNoiseRemoveFast二值化部102对所获取的彩色图像执行基于Niblack二值化处理的NiblackDeltaGNoiseRemoveFast二值化处理。随后,二值图像布局分析部103执行二值图像布局分析处理,该处理是用于二值图像的布局分析处理。在专利文献1[日本专利申请特开平11-219407号公报]中说明的技术在此处用于二值图像布局分析处理。结果,提取包含字符要素的文本块和包含非字符要素的图形分隔符块(图片区域、表格区域、分隔符、框区域)。

然后文本块分割部104对每个文本块进行分割。因为报纸页面中的栏可能未被适当提取并且两个或者多于两个的栏被一起提取为一个栏,所以需要执行该处理。在该分割处理中,针对通过在文本块中垂直和水平地投影黑色像素而制备的黑色像素的周期,生成直方图,并根据该直方图确定要用于分割的位置。

随后,文本块重构部105通过在使两个相邻文本块的顶坐标和底坐标以及左端坐标和右端坐标彼此相互靠近时对这两个相邻文本块进行调整,来重构文本块。随后,布局信息生成部106将所获得的文本块和图形分隔符块作为布局信息输出,从而结束布局分析。

专利文献2[日本专利申请特开2001-184511号公报]说明了图像处理设备、图像处理系统、图像处理方法和存储介质,其适于从作为原始图像的多级图像中获取多个二值图像、从所述多个二值图像中提取包含黑色像素集合的区域、根据黑色像素的各个集合中的起始像素和结束像素的密集状态对这些区域进行分割,并根据通过分割产生的各区域中的原始图像的直方图对通过分割产生的各区域的性质(字符、图片等)进行识别。

专利文献3[再表00/62243]说明了用于根据文档图像的基本成分来提取字符串的设备和方法,其适于提取文档图像(其可以为二值图像、多级图像、彩色图像或者其他图像)的基本成分,并通过使用基本成分之间的包含关系确定各成分是否为字符成分。然后,根据确定结果提取字符成分的集合,并从该字符成分的集合中提取字符串。随后,字符串提取设备的二值图像生成部根据预定阈值对各像素的亮度成分进行二值化,并生成由具有对应于所绘区域的值或者对应于背景区域的值的多个像素构成的二值图像。此外,二值图像生成部高度准确地提取字符图案,但是其不能可靠地提取图片图案和表格图案。对黑色背景上的多个白色字符中的各字符部分进行反转,并提取为白色背景上的多个黑色字符的字符部分。

然而,在上述已知的布局分析技术中,适于只使用单个二值化方法的技术无法高度准确地提取字符和图形两者。此外,其不能处理字符区域中的多个背景色和白色字符。例如,虽然上述NiblackDeltaGNoiseRemoveFast二值化处理可以保持划线的连续性,然而其无法提取黑色背景上的白色字符。此外,当字符和图片被布置为相互靠近时,由于他们可能容易相互接触,所以有时该处理无法正确地提取文本块。

通过与专利文献2中公开地一样通过多级图像的直方图提取字符区域的技术无法提供高准确度。通常,从二值图像中提取的字符区域比从多级(灰度)图像中提取的字符区更为精确。此外,专利文献2的技术从多个二值图像中检测多个区域,但是当对两个区域(它们表现出完全包含关系)中的较大区域生成原始图像的直方图时,该技术只使用排除较小区域的关系。

发明内容

考虑到现有技术的以上指出的问题,因此本发明的目的是提供一种用于高度准确地从图像(如果该图像为彩色图像)中提取文本块的布局分析程序、布局分析设备、布局分析方法和介质。

在本发明的一个方面,通过提供布局分析程序来使计算机分析图像的布局,以实现以上目的,所述程序包括:分割区域提取步骤,根据二值图像提取通过图案划分的区域,以使用该提取结果作为分割区域;字符要素集合提取步骤,针对在所述分割区域提取步骤中提取的各分割区域,对通过第一二值图像布局分析处理提取的字符要素集合进行提取,以使用该提取结果作为字符要素集合;文本块提取步骤,在各分割区域中提取包含有在所述字符要素集合提取步骤中提取的字符要素集合的区域,以避免与第二二值图像布局分析处理所提取的非字符要素交叠,并使用该提取结果作为文本块;以及布局信息生成步骤,根据在所述文本块提取步骤中提取的文本块以及第二二值图像布局分析处理所提取的非字符要素,生成布局信息。

在根据本发明的布局分析程序中,所述字符要素集合提取步骤还适于:在所述字符要素集合中包括以下字符要素,该字符要素包含在通过所述第一二值图像布局分析处理从通过所述第二二值图像布局分析处理提取的字符要素中提取的非字符要素中。

在根据本发明的布局分析程序中,所述文本块提取步骤还适于:在所述分割区域提取步骤中提取的各分割区域中提取分隔符,然后在各分割区域中提取包含有在所述字符要素集合提取步骤中提取的字符要素集合的区域,以避免与所述分隔符和通过所述第二二值图像布局分析处理提取的非字符要素交叠,并使用该提取结果作为文本块。

在根据本发明的布局分析程序中,所述文本块提取步骤还适于:在确定通过所述第一二值图像布局分析处理提取的非字符要素构成了文本块时,使用所述非字符要素作为文本块。

在根据本发明的布局分析程序中,所述文本块提取步骤还适于:根据所述第一二值图像布局分析处理所提取的非字符要素的黑色像素的垂直分布的周期性和黑色像素的水平分布的周期性,确定所述非字符要素是否构成了文本块。

在根据本发明的布局分析程序中,所述第一二值图像布局分析处理的提取字符要素的准确级别高于所述第二二值图像布局分析处理的提取字符要素的准确级别。

在根据本发明的布局分析程序中,所述第一二值图像布局分析处理用于对其为彩色图像的原始图像执行第一二值化处理,并对通过所述第一二值化处理获得的第一二值图像进行布局分析,并且所述第二二值图像布局分析处理用于对原始图像执行与所述第一二值化处理不同的第二二值化处理,并对通过所述第二二值化处理获得的第二二值图像进行布局分析,同时所述分割区域提取步骤适于根据第二二值图像提取分割区域。

在根据本发明的布局分析程序中,所述分割区域提取步骤适于:对第二二值图像的亮度进行反转,从通过所述反转获得的反转二值图像中提取黑色像素链接的区域,然后提取外切该区域的多个矩形,从这些矩形中选择满足预定要求的矩形作为矩形分割区域,并使用通过从矩形分割区域中去除包含在该矩形分割区域中的矩形分割区域所获得的区域,作为所述分割区域。

在根据本发明的布局分析程序中,所述第二二值图像布局分析处理用于对其为二值图像的原始图像进行布局分析,并且所述第二二值图像布局分析处理用于对原始图像的亮度进行反转,并对通过所述反转获得的反转二值图像进行布局分析,同时所述分割区域提取步骤适于根据所述反转二值图像提取所述分割区域。

在根据本发明的布局分析程序中,所述分割区域提取步骤适于:从所获得的反转二值图像中提取链接黑色像素的区域,然后提取外切该区域的多个矩形,从这些矩形中选择满足预定要求的矩形作为矩形分割区域,并使用通过从矩形分割区域中去除包含在该矩形分割区域中的矩形分割区域所获得的区域,作为所述分割区域。

在根据本发明的布局分析程序中,所述字符要素是字符矩形。

在本发明的另一方面,提供了一种用于分析图像的布局的布局分析设备,所述设备包括:分割区域提取部,其根据二值图像提取通过图案划分的区域,以使用该提取结果作为分割区域;字符单元集合提取部,其针对通过分割区域提取部提取的各分割区域,对通过第一二值图像布局分析处理提取的字符要素集合进行提取,以使用该提取结果作为字符要素集合;文本块提取部,其在各分割区域中提取包含有由所述字符要素集合提取部提取的字符要素集合的区域,以避免与第二二值图像布局分析处理所提取的非字符要素交叠,并使用该提取结果作为文本块;以及布局信息生成部,其根据所述文本块提部提取的文本块以及所述第二二值图像布局分析处理提取的非字符要素,生成布局信息。

在根据本发明的布局分析设备中,所述字符要素集合提取部还适于:在所述字符要素集合中包括以下字符要素,该字符要素包含在通过所述第一二值图像布局分析处理从通过所述第二二值图像布局分析处理提取的字符要素中提取的非字符要素中。

在根据本发明的布局分析设备中,所述文本块提取部还适于:在由所述分割区域提取部提取的各分割区域中提取分隔符,然后在各分割区域中提取包含有通过所述字符要素集合提取部提取的字符要素集合的区域,以避免与所述分隔符和通过所述第二二值图像布局分析处理提取的非字符要素交叠,并使用该提取结果作为文本块。

在根据本发明的布局分析设备中,所述文本块提取部还适于:在确定通过所述第一二值图像布局分析处理提取的非字符要素构成了文本块时,使用所述非字符要素作为文本块。

在根据本发明的布局分析设备中,所述文本块提取部还适于:根据所述第一二值图像布局分析处理所提取的非字符要素的黑色像素的垂直分布的周期性和黑色像素的水平分布的周期性,确定所述非字符要素是否构成了文本块。

在根据本发明的布局分析设备中,所述第一二值图像布局分析处理的提取字符要素的准确级别高于所述第二二值图像布局分析处理的提取字符要素的准确级别。

在根据本发明的布局分析设备中,所述第一二值图像布局分析处理用于对其为彩色图像的原始图像执行第一二值化处理,并对通过所述第一二值化处理获得的第一二值图像进行布局分析,并且所述第二二值图像布局分析处理用于对原始图像执行与所述第一二值化处理不同的第二二值化处理,并对通过所述第二二值化处理获得的第二二值图像进行布局分析,同时所述分割区域提取部适于根据所述第二二值图像提取分割区域。

在本发明的又一方面,提供了一种计算机可读记录介质,其上记录有布局分析程序,所述程序适于在计算机上执行以分析图像的布局,所述程序包括:分割区域提取步骤,根据二值图像提取通过图案划分的区域,以使用该提取结果作为分割区域;字符要素集合提取步骤,针对在所述分割区域提取步骤中提取的各分割区域,对通过第一二值图像布局分析处理提取的字符要素集合进行提取,以使用该提取结果作为字符要素集合;文本块提取步骤,在各分割区域中提取包含有在所述字符要素集合提取步骤中提取的字符要素集合的区域,以避免与第二二值图像布局分析处理所提取的非字符要素交叠,并使用该提取结果作为文本块;以及布局信息生成步骤,根据在所述文本块提取步骤中提取的文本块以及第二二值图像布局分析处理所提取的非字符要素,生成布局信息。

根据本发明的又一方面,提供了一种用于分析图像布局的布局分析方法,所述方法包括:分割区域提取步骤,根据二值图像提取通过图案划分的区域,以使用该提取结果作为分割区域;字符要素集合提取步骤,针对在所述分割区域提取步骤中提取的各分割区域,对通过第一二值图像布局分析处理提取的字符要素集合进行提取,以使用该提取结果作为字符要素集合;文本块提取步骤,在各分割区域中提取包含有在所述字符要素集合提取步骤中提取的字符要素集合的区域,以避免与第二二值图像布局分析处理所提取的非字符要素交叠,并使用该提取结果作为文本块;以及布局信息生成步骤,根据在所述文本块提取步骤中提取的文本块以及第二二值图像布局分析处理所提取的非字符要素,生成布局信息。

由此,根据本发明,如果图像为彩色图像,则可以从该图像中高度准确地提取文本块。

附图说明

图1是根据本发明的布局分析设备的实施例的示意框图,示出了该设备的结构;

图2是作为图1的实施例的图像获取部11的输出而产生的图像的示意图;

图3是作为图1的实施例的用于提取字符要素21的二值化部的输出而产生的图像的示意图;

图4是作为图1的实施例的二值图像布局分析部23的输出而产生的图像的示意图;

图5是作为图1的实施例的用于提取非字符要素31的二值化部的输出而产生的图像的示意图;

图6是作为图1的实施例的二值图像布局分析部33的输出而产生的图像的示意图;

图7是作为图1的实施例的矩形分割区域提取部52的输出而产生的图像的示意图;

图8是一图像的示意图,示出了图1的实施例的独立分割区域提取部53的操作;

图9是作为图1的实施例的字符要素集合提取部62的输出而产生的图像的示意图;

图10是作为图1的实施例的空白分隔符提取部63的输出而产生的图像的示意图;

图11是一图像的示意图,示出了图1的实施例的文本块转换部65的操作;

图12是作为图1的实施例的布局信息生成部66的输出而产生的图像的示意图;

图13是可用于由图1的实施例进行评估的正确字符区域的示意图;

图14是可用于由图1的实施例进行评估的分离区域的示意图;

图15是可用于由图1的实施例进行评估的分离区域的大小的示意图;

图16是可用于由图1的实施例进行评估的图像的分离比率的计算的示意图;

图17是用于彩色图像的已知布局分析设备的示意框图。

具体实施方式

下面将参照示出了本发明优选实施例的附图来更详细地说明本发明。

下面所述的本发明的实施例是用于分析彩色图像布局的布局分析设备。该布局分析设备的实施例适于分析满足电子文档法要求的彩色图像的布局。换言之,在以下说明中分别出现的分辨率[dpi]、字符大小、文档大小等分别示出满足电子文档法的要求的值。

首先,将说明本实施例的布局分析设备的结构。

图1是本实施例的布局分析设备的示意框图。参照图1,布局分析设备包括:图像获取部11、分辨率调整部12、用于提取字符要素的二值化部21、分辨率调整部22、二值图像布局分析部23、用于提取非字符要素的二值化部31、分辨率调整部32、二值图像布局分析部33、反转部41、矩形删除部42、矩形分割区提取部52、独立分割区域提取部53、非字符要素内的字符要素提取部61、字符要素集合提取部62、空白分隔符提取部63、文本块提取部64、文本块转换部65和布局信息生成部66。

接下来,下面将以实际操作所获得的图像为示例来说明用于分析彩色图像布局的布局分析设备的以上实施例的操作。当分析彩色图像的布局时不需要矩形删除部42。

图像获取部11获取要用于布局分析的彩色图像。图2是作为本实施例的图像获取部11的输出而产生的图像的示意图。更具体地,该图像是要用于布局分析的原始图像。当分析彩色图像的布局时,图像获取部11将彩色图像传送到分辨率调整部12。

如果所输入的纸张的大小在预定范围内(大约A4大小),则图像大小随着读取分辨率而变化。为了保持彩色图像的分辨率和大小恒定,当所输入的彩色图像的分辨率高于预定级别时,分辨率调整部12减小该彩色图像的大小。在本实施例中,分辨率调整部12进行简单的薄化/尺寸减小操作,以使彩色图像表现为150与250dpi之间的分辨率。然后将经分辨率调整部12调整了其分辨率的彩色图像传送到用于提取字符要素的二值化部21以及用于提取非字符要素的二值化部31。彩色图像通常包含有字符要素和非字符要素。用于提取字符要素的二值化部21和用于提取非字符要素的二值化部31可以提取字符要素和非字符要素。将字符要素提取为字符矩形(即该字符的外切矩形),并将可能是图形、表格或分隔符的非字符要素提取为外切这些图形、表格或分隔符的矩形。

然后,用于提取字符要素的二值化部21执行用于提取字符要素的二值化处理,该处理为针对被分辨率调整部12调整了分辨率的彩色图像的二值化处理,因为该处理善于提取字符要素并生成用于提取文本块的二值图像。注意,在专利文献3中公开的二值图像生成部所使用的技术也用于在本实施例中提取字符要素的二值化处理。图3是可以作为本实施例的用于提取字符要素的二值化部21的输出而产生的图像的示意图。

然后,分辨率调整部22对通过用于提取字符要素的二值化部21获得的用于提取字符要素的二值图像的分辨率进行调整,从而使其适合于下游二值图像布局分析部23。在本实施例中,分辨率调整部22放大二值图像,以使得其表现出大约400dpi的分辨率。随后,二值图像布局分析部23对分辨率调整部22获得的用于提取字符要素的二值图像执行二值图像布局分析处理。注意,在本实施例中使用了如专利文献1中所公开的二值图像布局分析处理。由二值图像布局分析部23从用于提取字符要素的二值图像中提取字符要素和非字符要素作为多个矩形,并分别进行保存。图4是可以作为本实施例的二值图像布局分析部23的输出而产生的图像的示意图。应当理解,在图4的图像中,特别良好地提取了作为字符要素的多个字符矩形。

另一方面,用于提取非字符要素的二值化部31执行用于提取非字符要素的二值化处理,该处理为对于由分辨率调整部12调整了分辨率的彩色图像的二值化处理,因为该处理善于提取非字符要素并生成用于提取非字符要素的二值图像。用于提取非字符要素的二值化处理是NiblackDeltaGNoiseRemoveFast二值化处理,这在前面说明过。图5是可以作为本实施例的用于提取非字符要素的二值化部31的输出而产生的图像的示意图。由此,该图像是二值图像。

随后,分辨率调整部32调整由用于提取非字符要素的二值化部31获得的用于提取非字符要素的二值图像的分辨率,以使其适于下游二值图像布局分析部33。在本实施例中,分辨率调整部32与分辨率调整部22一样,放大二值图像,以使其表现为大约400dpi的分辨率。随后,二值图像布局分析部33对分辨率调整部32获得的用于提取非字符要素的二值图像执行二值图像布局分析处理。注意,专利文献1中公开的二值图像布局分析处理技术一般被本实施例中的二值图像布局分析部23和二值图像布局分析部33两者使用。从用于提取非字符要素的二值图像中提取字符要素和非字符要素并分别进行保存。图6是可以作为本实施例的二值图像布局分析部33的输出而产生的图像的示意图。应当理解,与图4相比,在图6的图像中,特别良好地提取了作为非字符要素的图形和表格。

然后,反转部41对用于提取非字符要素的二值图像的亮度进行反转并产生反转二值图像。该反转二值图像表现为诸如框线为白色、框线的背景区域为黑色的图案。当本实施例对彩色图像进行布局分析时,反转部41将反转二值图像传送到矩形分割区域提取部52。

随后,矩形分割区域提取部52通过对经反转的二值图像的黑色像素进行标记来提取黑色像素链接区域、提取外切该所提取的黑色像素链接区域的矩形,并选择大于预定大小的外切矩形作为矩形分割区域。作为使用反转二值图像的结果,被诸如框线的图案划分出的区域被提取为矩形分割区域。用于提取非字符要素的整个二值图像可能变成矩形分割区域。图7是作为本实施例的矩形分割区域提取部52的输出而产生的图像的示意图。应当理解,框线和表格被提取为该图像中的矩形分割区域。

随后,独立分割区域提取部53提取矩形分割区域的包含关系,并提取作为与这些矩形分割区域相独立的部分的独立分割区域。换言之,将通过从矩形分割区域中去除该矩形分割区域中包含的矩形分割区域而获得的区域用作独立分割区域。因此,独立分割区域没有相互覆盖。图8是一图像的示意图,示出了本实施例的独立分割区域提取部53的操作。独立分割区域提取部53从图8中的矩形分割区域0到5中提取独立分割区域0到5。

独立分割区域0

=通过从矩形分割区域0中去除矩形分割区域1和3而获得的区域

独立分割区域1

=通过从矩形分割区域1中去除矩形分割区域2而获得的区域

独立分割区域2

=矩形分割区域2

独立分割区域3

=通过从矩形分割区域3中去除矩形分割区域4和5而获得的区域

独立分割区域4

=矩形分割区域4

独立分割区域5

=矩形分割区域5

例如,独立分割区域0是位于矩形分割区域0内部、矩形分割区域1和3外部的区域。

非字符要素内的字符要素提取部61在由二值图像布局分析部23(从用于提取字符要素的二值图像中)提取的非字符要素中提取由二值图像布局分析部33(从用于提取非字符要素的二值图像)提取的字符要素。

随后,字符要素集合提取部62从二值图像布局分析部23(从用于提取字符要素的二值图像中)提取的字符要素中提取出各独立分割区域中所包含的字符要素集合,并将它们用作字符要素集合。字符要素集合提取部62另外包括由非字符要素内的字符要素提取部61提取的字符要素中的字符要素对应集合中的各独立分割区域中的字符要素。图9是可以作为本实施例的字符要素集合提取部62的输出而生成的图像的示意图。应当理解,图4的字符要素被识别为针对各独立分割区域而分割的字符要素集合。

随后,空白分隔符提取部63生成一图像,该图像利用白色像素填充各个独立分割区域;并利用黑色像素将通过字符要素集合提取部62生成的字符要素集合绘制到白色像素上;此外利用黑色像素绘制通过二值图像布局分析部33(从用于提取非字符要素的二值图像中)提取的非字符要素。随后,空白分隔符提取部63提取大于预定大小的纵长白色区域,并将所提取的白色区域的纵向中心线提取为虚拟空白分隔符。图10是可以作为本实施例的空白分隔符提取部63的输出而产生的图像的示意图。应当理解,空白分隔符被提取为纵长矩形。在本实施例中,将预定尺寸限定为纵向2000个像素和横向75个像素。在空白分隔符提取部63提取空白分隔符时,可以准确地分离文本块,该文本块通过独立分割区域中的空白而分离开。

随后,文本块提取部64利用字符要素集合提取部62所提取的字符要素集合、二值图像布局分析部33(从用于提取非字符要素的二值图像中)提取的非字符要素以及空白分隔符提取部63提取的空白分隔符,来提取文本块。文本块提取部64提取通过收集字符要素集合而形成的矩形,以不将它们交叠在非字符要素和空白分隔符的矩形上,并使用它们作为文本块。该处理可以通过使用上述用于二值图像布局分析处理的技术来执行。

然后,文本块转换部65对满足预定要求、并从通过二值图像布局分析部33(从用于提取非字符要素的二值图像中)提取的非字符要素中选出的非字符要素进行转换。图11是一图像的示意图,示出了本实施例的文本块转换部63的操作。图11示出了通过二值图像布局分析部33(从用于提取非字符要素的二值图像中)提取的非字符要素的二值图像,以及在该二值图像的右侧示出的纵向上的黑色像素数分布图案和阈值分布图案(将在下文更详细地说明),以及在该二值图像下侧示出的横向上的黑色像素数分布图案和阈值分布图案(将在下文更详细地说明)。

首先,文本块转换部65在通过二值图像布局分析部33(从用于提取非字符要素的二值图像中)提取的非字符要素的各区域中,通过针对各垂直坐标值对黑色像素数进行计数,来通过计算确定纵向上的黑色像素数分布。类似地,文本块转换部65通过针对各水平坐标值对黑色像素数进行计数,来通过计算确定横向上的黑色像素数分布。随后,文本块转换部65确定纵向上的黑色像素数分布的移动平均值,将所获得的值乘以0.5以确定纵向上的黑色像素数阈值分布。类似地,文本块转换部65根据横向上的黑色像素数分布确定横向上的黑色像素数阈值分布。在本实施例中,使得移动平均值的窗口尺寸等于21个像素。

随后,文本块转换部65针对各垂直坐标值将黑色像素数分布与黑色像素数阈值分布进行比较,并选出黑色像素数分布的值超过黑色像素数阈值分布的坐标值,作为纵向的黑色确定坐标值。类似地,文本块转换部65根据对于各水平坐标值的黑色像素数分布和黑色像素数阈值分布选择横向的黑色确定坐标值。随后,文本块转换部65通过计算确定纵向上的连续黑色确定坐标值的宽度的直方图,作为纵向上的连续黑色确定宽度直方图。类似地,文本块转换部65根据横向上的黑色确定坐标值通过计算确定连续黑色确定宽度直方图。

随后,文本块转换部65通过计算确定纵向上的连续黑色确定宽度直方图中的众数的宽度值,并将该众数的宽度的频率和与该众数的宽度邻近的宽度的频率相加,以使用其和作为纵向上的该众数处及附近的频率。类似地,文本块转换部65根据横向上的连续黑色确定宽度直方图通过计算确定横向上的频率最大值处及附近的频率。随后,文本块转换部65通过计算确定(纵向上的频率最大值/横向上的频率最大值处及附近的频率)作为纵向上的频率最大值处和附近的集中率。类似地,文本块转换部65通过计算确定(横向上的频率最大值/纵向上的频率最大值处及附近的频率),作为横向上的频率最大值处及附近的集中率。

当纵向上的集中率或横向上的集中率超过预定集中率阈值时,判定所分析的非字符要素满足预定要求。换言之,黑色像素在纵向上或横向上分布了预定宽度的非字符要素可以被视为文本块。

随后,布局信息生成部66将文本块提取部64提取的文本块、文本块转换部65提取的文本块和二值图像布局分析部33(从用于提取非字符要素的二值图像中)提取的非字符要素放在一起,而不考虑重复,并将它们输出为布局信息,从而结束彩色图像的布局分析。图12是可以作为本实施例的布局信息生成部66的输出而产生的图像的示意图。在该图像中,将字符要素集合放在一起并将其提取为矩形文本块。如上面指出地,利用本实施例,通过组合用于提取字符要素的二值化部21以及用于提取非字符要素的二值化部31所提取的要素,发挥了这两个部件各自的优点,可以高度准确地从彩色图像中提取文本块。

下面,将说明布局分析设备的评估的具体示例。

通过观测字符获取率和分离率来执行该评估。通过将预先准备的正确答案数据与布局分析的结果进行比较,来通过计算确定字符获取率和分离率。

样本数据中的作为布局分析设备要识别为字符的区域的由正方形所包围的区域被定义为正确答案数据的正确字符区域。图13是可用于由本实施例进行评估的正确字符区域的示意图。如果可以,对图形和表格执行类似的处理以将它们评估为正确图形区域和正确表格区域。对每行字符串产生正确答案数据。不期望布局分析设备将需要分离的正确字符区域误识别为一行。因此,在需要分离地识别出正确字符区域的位置处设置分离区域,并且如果所识别的区域延伸超过分离区域,则针对该评估给予扣分。图14是可以用于由本实施例进行评估的分离区域的示意图。将对要分离的区域进行分离的间隙的最大值选为分离区域的宽度。使分离区域的高度等于要分离的区域的高度。图15是可用于由本实施例进行评估的分离区域的大小的示意图。

获取率是表示由布局分析设备输出的所识别区域与正确区域的对应程度的指标。获取率是通过计算布局分析设备输出的字符、图形和表格的所识别区域与正确区域的比率而确定的获取率。通过下面示出的公式计算字符获取率。

字符获取率={(布局分析设备输出的字符区域中包含的字符的大约数量)-(字符区域的不必要分割的扣分)}/(所有正确字符的大约数量)

通过根据各正确区域的宽度和高度预测各字符的大小,来计算字符的大约数量。当要被识别为一区域的字符区域被不必要地分割时,对于其给予与四个字符的误获取而给予的扣分相同的扣分。对获取率的计算设置余量。至于字符获取率,当正确字符区域是水平书写的时,将余量定义为预定系数乘以高度。然后,根据布局分析的输出而识别的区域被扩展余量长度,并且当正确字符区域包含在该扩展区域中时,该区域被批准为正确区域。另一方面,当正确字符区域是垂直书写的,则余量被定义为预定系数乘以宽度。在该评估系统中,系数被定义为50%。

分离率是用于表示布局分析设备正确识别分离字符串的程度的指标。将分离率只应用于字符区域而不应用于图形区域和表格区域,如果图形区域和表格区域延伸超出分离区域之外。当布局分析设备所输出的识别区域延伸超出分离区域之外时,判定该设备未能准确地识别要分离的区域并犯了错误。分离区域的宽度被定义为分离余量。当所识别的区域相互重叠但却没有延伸超出分离区域之外时,这些区域在容限范围内,并且被视为正确区域。通过下面示出的公式计算分离率。

分离率=1-((延伸超出分离区域之外、并且在布局分析设备输出的字符区域以外的字符区域的长度)/(分离区域的长度))

图16是可用于由本实施例进行评估的图像的分离率的计算的示意图。本示例中的分离率由下面示出的公式来计算。

分离率=1-(X1+X2)/(S1+S2)

其中X1和X2代表字符区域的高度,S1和S2代表与各字符区域对应的分离区域的高度。简言之,计算这些区域的长边的比率。

本实施例所分析和评估的对象包括63种不同类型的彩色文档图像。它们包括:目录(6种不同类型)、连环画(5种不同类型)、JEITA(日本电子和信息技术工业协会)打印机用评估器图像(17种不同类型)、杂志(6种不同类型)、报纸(8种不同类型)、办公文档(内部报告)(5种不同类型)、手册(5种不同类型)、演示页(5种不同类型)和论文(6种不同类型)。以上文档通过使用24位彩色和150dpi来扫描,以产生用于评估的彩色图像。

使用以上列出的公式所计算的字符获取率和分离率并未被直接使用。换言之,通过考虑要评估的文档的每种类型的出现概率、在要评估的多种文档类型的文档中期望发现的字符数以及其他因素,利用以下列出的值对计算结果进行加权。

目录=3,440

连环画=1,800

JEITA打印机用评估对象=10,796

杂志=7,475

报纸=4,530

办公文档(内部报告)=14,634

手册=3,514

演示页面=2,463

纸张=16,318

首先,计算各类型图像的平均值,并进行加权以确定加权平均值,该加权平均值用作最终值。

作为上述评估过程的结果,如果与上述已知布局分析设备的字符获取率和分离率(分别为90.92%和95.18%)相比,发现本实施例的布局分析设备的字符获取率和分离率分别为96.89%和96.82%,这证明了本发明的效果。

下面,将说明用于分析二值图像的布局的本实施例的布局分析设备的操作。

当分析二值图像的布局时,图像获取部11将二值图像传送到分辨率调整部22和分辨率调整部32。这两个分辨率调整部22和32的操作与它们在分析彩色图像的布局时的上述操作相同。更具体地,当分析二值图像的布局时,反转部41将该反转的二值图像传送到矩形删除部42。矩形删除部42通过标记反转二值图像来提取黑色像素链接区域、提取外切所提取的黑色像素链接区域的矩形、从反转二值图像中删除所提取的具有最大面积的矩形,并将所获取的反转二值图像传送到矩形分割区域提取部52和二值图像布局分析部33。随后的处理与上述用于彩色图像的布局分析的处理相同。

作为上述处理的结果,本实施例的布局分析设备可以高准确度地从二值图像中提取文本块。

本实施例的上述布局分析设备可以容易地应用于OCR设备,以提高OCR设备的性能。OCR设备可以是信息处理设备或扫描仪。

本发明还提供了一种使布局分析设备的计算机执行上述步骤的布局分析程序。当该程序存储在计算机可以读取的记录介质中时,该程序可以由布局分析设备的计算机来执行。计算机可以读取的记录介质包括:可以安装在计算机内的诸如ROM和RAM的内部存储介质;诸如CD-ROM、软盘、DVD盘、磁光盘和IC卡的便携式存储介质;保存程序的数据库;其他计算机及其数据库;以及传输线上的传输介质。

注意,分割区域提取步骤和分割区域提取部对应于本实施例的反转部41、矩形删除部42、矩形分割区域提取部52和独立分割区域提取部53。字符要素集合提取步骤和字符要素集合提取部对应于本实施例的非字符要素内的字符要素提取部61和字符要素集合提取部62。文本块提取步骤和文本块提取部对应于本实施例的空白分隔符提取部63、文本块提取部64和文本块转换部65。布局信息生成步骤和布局信息生成部对应于本实施例的布局信息生成部66。

第一二值图像布局分析处理对应于本实施例的二值图像布局分析部22。第二二值图像布局分析处理对应于本实施例的二值图像布局分析部32。第一二值化处理对应于本实施例的用于提取字符要素的二值化部21。第二二值化处理对应于用于提取非字符要素的二值化部31。分割区域对应于本实施例的独立分割区域。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号