首页> 中国专利> 使用自动图像修补的彩色文档图像分割和二值化

使用自动图像修补的彩色文档图像分割和二值化

摘要

提供了一种用于在文档图像中分离前景和背景内容的方法。该方法首先计算最大局部特征(例如,局部方差、局部对比度等)的像素方面的图,该图被二值化以生成用于潜在前景的掩模。为了有效利用颜色信息,使用该图像的所有颜色通道来计算局部特征图。然后通过根据原始文档图像的非掩模区域对掩模区域进行图像修补,来获得背景图像。向原始文档图像和背景图像之间的差别应用自适应阈值化,以获得二进制前景图像。二进制前景图像的后处理能进一步去除不期望的元素。最后,通过使用二进制前景图像作为掩模来对原始文档图像进行图像修补,能获得更精确的背景图像。

著录项

  • 公开/公告号CN104463161A

    专利类型发明专利

  • 公开/公告日2015-03-25

    原文格式PDF

  • 申请/专利权人 柯尼卡美能达美国研究所有限公司;

    申请/专利号CN201410493986.0

  • 发明设计人 田宜彬;

    申请日2014-09-24

  • 分类号G06K9/38;G06T7/00;

  • 代理机构北京市柳沈律师事务所;

  • 代理人李芳华

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 08:05:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-12

    授权

    授权

  • 2015-04-22

    实质审查的生效 IPC(主分类):G06K9/38 申请日:20140924

    实质审查的生效

  • 2015-03-25

    公开

    公开

说明书

技术领域

本发明涉及文档图像处理,并具体地,它涉及前景文本和背景图形或图 像的分离(分割)。

背景技术

一些文档图像包括前景(典型地,文本)和背景(典型地,图形或图像) 内容两者。示例包括具有“主题”图形作为背景和文本作为前景的PowerPoint 文档、具有加阴影的表格单元的表格或电子表格、具有背景图像的支票等。 有时,背景可由图像获取期间的不期望的假象(artifacts)产生,诸如当通过 拍摄硬拷贝文档而生成文档图像时不均匀的照明条件。典型地,与前景文本 相比,背景图形或图像是慢慢变化的。彩色文档图像能具有各种复杂前景和 背景条件。为了各种目的,诸如文档二值化、OCR(光学字符识别)、打印 等,通常期望自动分离前景文本和图形的背景图像。

用于彩色文档图像二值化的现有方法通常将彩色图像变换为灰度等级, 并然后应用特定全局或局部(适应性)阈值化以获得二进制输出,其目的是 从二值化的文档中排除背景图像或图形。

发明内容

本发明针对用于分离前景和背景内容的方法和相关设备。

本发明的其他特征和优点将在接下来的描述中阐明,并将根据该描述而 部分清楚,或者可通过实践本发明来得知。本发明的目的和其他优点将通过 在书写的说明书及其权利要求以及附图中具体指出的结构来实现和达到。

为了实现这些和/或其他目的,如实施和广泛描述的,本发明提供了一种 用于处理包括背景内容和前景内容的文档图像的方法,其包括:(a)生成作 为二元图的前景掩模,该前景掩模指示包括局部特征的高值的文档图像的区 域;(b)对该前景掩模所指示的区域中的文档图像进行图像修补,以生成背 景图;(c)计算该文档图像和该背景图像之间的差别图像;和(d)对该差 别图像进行二值化以生成二进制前景图像。

步骤(a)可包括:(a1)对于文档图像的每一像素,计算局部窗口中的 最大局部特征值,以生成最大局部特征图;和(a2)对该最大局部特征图进 行二值化以生成该前景掩模。该局部特征值可以是局部方差、局部对比度、 局部梯度、或局部相位一致性。

在另一方面中,本发明提供了一种计算机程序产品,包括其中嵌入有用 于控制数据处理设备的计算机可读程序代码的计算机可用非瞬时介质(即, 存储器或储存装置),该计算机可读程序代码被配置为促使该数据处理设备 运行以上方法。

应理解的是,前述一般描述和后面详细描述是示范性和解释性的,并意 欲提供要求保护的本发明的进一步解释。

附图说明

图1示意性图示了根据本发明实施例的用于分离背景和前景内容的方 法。

图2A-2D图示了使用根据本发明实施例的方法的前景和背景分离的示 例。图2A示出了包括前景文本和背景图形的输入彩色文档图像。图2B是 二进制掩模。图2C是使用原始彩色图像和图2B的掩模通过图像修补所生 成的背景图像。图2D是原始彩色图像和背景之间的灰度等级差。图2E是 二进制前景图像。

图3示意性图示了其中可实现本发明实施例的数据处理设备。

具体实施方式

本发明的实施例提供了用于在文档图像中分离前景和背景内容的方法。 该方法首先计算最大局部特征(例如,局部方差、局部对比度、局部纹理等) 的像素方面的图,其被二值化以生成用于潜在前景的掩模。为了有效利用颜 色信息,使用图像的所有颜色通道来计算局部方差、对比度或纹理图。然后, 通过从原始文档图像的非掩模区域对掩模区域进行图像修补,而获得背景图 像。其后,向原始文档图像和背景图像之间的差别应用适应性阈值化,以获 得二进制前景图像。二进制前景图像的后处理可进一步去除不期望的元素。 最终,可通过使用二进制前景图像作为掩模,来对原始文档图像进行图像修 补,而获得更精确的背景图像。

参考图1来详细描述根据本发明实施例的背景分离处理。该处理的输入 是彩色文档图像C0,其可以例如通过扫描或拍摄硬拷贝文档而获得。该处理 也可应用到灰度等级图像。

在可选步骤S101,输入图像C0被尺寸减小期望等级,以生成调整尺寸 的图像C。减小尺寸(即,调整尺寸为较小尺寸)的主要目的是生成较小图 像以加速计算。另外,可选去噪声步骤(图1中未示出)可在尺寸减小之前 或之后执行。去噪声最好使用保留边缘过滤方法来进行,诸如双向过滤(美 国专利7146059)、或各向异性漫射(Perona P和Malik J,“Scale-space and edge  detection using anisotropic diffusion”,IEEE Transaction on Pattern Analysis and  Machine Intelligence,vol.12,pp.629-639,1990)。

然后,对于地点[x,y]处的每一图像像素,对于每一数据通道i计算局部 窗口内的局部特征Vi[x,y](步骤S102)。数据通道可表示图像的颜色通道和 /或信息的其他通道。换言之,通道的数目是向每一图像像素分配的值的数目。 在公共彩色图像格式中,彩色图像可具有三个通道(例如,在RGB色彩空 间中)或多于三个通道(例如,在CMYK色彩空间中)。输入图像也可以是 混合图像格式,诸如RGBD,其中D是深度,在该情况下,进行每一通道中 的像素值的适当规格化(例如,所有通道被规格化到0和1之间)。而且, 如果输入图像是灰度等级图像,则它仅具有一个通道。

局部窗口是以像素地点[x,y]为中心的窗口,并可具有N×N个像素的尺 寸,例如7乘7、9乘9、11乘11个像素等。局部特征最好是局部方差、局 部对比度或局部纹理;可使用其他适当的局部特征,诸如梯度、相位一致性 等,但是它们意欲要求非常多的计算。可使用方差的标准统计定义来计算方 差。可按照不同方式计算对比度;最简单的形式是迈克逊对比度:

Contrast=max(I)-min(I)max(I)+min(I)

其中I是N×N个图像像素的局部窗口。能使用百分位数基于直方图来计算 更复杂的对比度:

Contrast=Percentilepu(I)-Percentilepl(I)

其中pu和pl是上和下百分位数。例如,pu=0.95,pl=0.05。这使得计算的局 部对比度对于噪声的干扰更鲁棒。能按照多种方式计算纹理:非常普遍的方 案基于伽柏滤波器(见Grigorescu S,Petkov N和Kruizinga P,“Comparison of  texture features based on Gabor filters”,IEEE Transactions on Image Processing, Vol.11,pp.1160-1167,2002)。

对于[x,y]处的每一像素,获得所有通道i中的最大局部特征值(步骤 S103)。这导致图Vmax[x,y](最大局部特征图),其与彩色图像C具有相同尺 寸。然后,最大局部特征图Vmax[x,y]被二值化以获得二元图M(步骤S104), 这将在稍后的图像修补步骤中被用作前景掩模。二值化步骤S104可使用任 何适当的二值化方法,全局二值化方法或局部二值化方法。

更一般地,步骤S102到S104构成生成前景掩模的步骤,其是指示包括 局部特征的高值的文档图像的区域的二元图。在一个示例中,在具有局部特 征的高值的区域中的像素具有前景掩模M中的非零值(例如1),并且其他 像素具有零值。具有局部特征的高值的区域是要进行图像修补的区域。

优选地,执行步骤以填充前景掩模M中的小洞(步骤S105,可选)。例 如,应填充对面小于大约3个像素的洞。这可例如通过使用形态学运算(例 如,膨胀和腐蚀)来执行。步骤S105还可以包括去除表格线和其他线,这 可通过使用连接分量分析、霍夫变换、或二者的组合、或其他适当方法来进 行。如果在该状态下去除表格线,即,它们不是前景掩模的一部分,则将分 离它们作为背景(而不是前景)的一部分。

在某些情况下,例如当前景文本字符是大的粗体时,例如当字符笔划的 厚度与局部窗口的尺寸类似时,前景掩模K在字符笔划内部可以是中空的。 换言之,大粗体字符可在前景掩模K中被表示为字符的轮廓线。例如,大的 粗体字符“O”可在掩模K中成为两个圆圈。可能难以使用膨胀和腐蚀来填 充这两个圆圈之间的中空部分,因为迅速蔓延的膨胀和腐蚀可导致其他小字 符的不期望的失真。为了处置该问题,获得掩模M的连接分量,并且得到 每一连接分量的凸起外壳(hull)。所有连接分量的凸起外壳形成掩模M。由 此,例如,对于大的粗体字符“O”,凸起外壳是没有中空内部的、限制该字 符的实心形状(例如,多边形)。折衷方案是如果字符在内部具有洞,如同 字符“O”那样,则(该字符没有覆盖的)内部区域现在成为掩模的一部分 并将被图像修补。这应是可接受的,因为期望背景慢慢变化。

然后,在前景掩模M所定义的区域中对彩色图像C(输入图像、或者 如果执行步骤S101则缩小尺寸的图像)进行图像修补,以获得背景图像BG (步骤S106)。图像修补是摄像和其他领域中的公知技术,用来恢复或修复 在涉及损坏或其他缺陷的区域中的图像、替换对象等。它使用来自周围像素 的信息来重构(掩模所定义的)指定区域中的像素。可在步骤S106中使用 任何适当的图像修补方法,尽管优选实施例应保留显著结构(例如线)的连 续性和图像对比度(见Bertalmio M,“Strong-continuation,contrast-invariant  inpaiting with a third-order optimal PDE”,IEEE Transaction on Image  Processing,Vol.15,p.1934-1938,2006)。如果不存在前景图像,则步骤S106 所生成的背景图像大约是背景图像本应是的模样。

在一个实现中,通过向与前景掩模M中的非零像素对应的所有像素分 配唯一颜色值、首先修改彩色图像C,来执行步骤S106。换言之,对于[x,y] 处的掩模M中的每一非零像素,将彩色图像C中的像素[x,y]设置为唯一颜 色。该唯一颜色是与彩色图像C中的任何颜色不同的颜色。可通过检查图像 C的像素颜色值(对于所有颜色通道,例如R、G、B),来得到该唯一颜色。 作为选择,这通常是其中在彩色图像的任何像素中不存在纯黑色的情况(通 常,甚至非常黑的像素也不具有纯黑值),这样在该步骤中能将纯黑色用作 唯一颜色。然后,通过使用周围像素对具有该唯一颜色的像素进行图像修补, 对修改的彩色图像执行图像修补。该实现的优点在于,图像修补计算仅需要 具有一个图像(修改的彩色图像)作为输入,而不需要彩色图像和掩模两者。

如果输入彩色图像C0在步骤S101减小尺寸,则现在执行增加尺寸步骤 S107以将背景图像BG的尺寸增加与步骤S101中使用的相同缩放因子(即, 调整尺寸为较大尺寸),使得增加尺寸的背景图像BG0和输入图像C0具有相 同尺寸。

接下来,使用逐像素减法,根据输入图像C0和增加尺寸的背景图像BG0来计算差别图像D0(步骤S108)。差别图像D0然后被二值化以获得二进制 图像BW0,其代表前景内容,并被称为前景图像(步骤S109)。二值化步骤 可使用任何适当的二值化方法,全局二值化方法或局部二值化方法。

可选地,可使用形态学运算和/或连接分量分析或其他适当方法来进行清 除步骤(步骤S110),以去除二进制前景图像BW0中的不期望的分量。例如, 不期望的分量可包括噪声,其可使用形态学运算去除;诸如表格线的不想要 的线,其可使用连接分量分析或其他方法来标识并去除,等等。结果生成“干 净的”前景图像BW1

如果期望背景图像自己作为输出图像,则可使用来自步骤S109或S110 的二进制前景图像作为掩模,来对原始彩色图像C0执行第二图像修补步骤 (S111,可选)。可使用与步骤S106相同的图像修补过程。按照该方式获得 的背景图像更接近实际背景图像。

图2A-2E图示了使用上述方法的前景和背景分离的示例。图2A示出了 包括前景文本和背景图形的输入彩色文档图像。在该示例中,注意相同的前 景文本比局部背景具有较浅的颜色,一些具有较深的颜色,而一些和局部背 景具有相似饱和度但是不同色调的颜色。图2B示出了根据步骤S104计算的 前景掩模。图2C示出了通过使用图2A的原始彩色图像和图2B的掩模通过 图像修补(步骤S106)所生成的背景图像。图2D示出了图2A的输入彩色 图像和图2C的图像修补之后的背景图像之间的差别图像(其在该示例中已 被变换为灰度等级)。图2E示出了在步骤S109获得的二进制前景图像。注 意,图2E被示出为白背景上的黑文本,但是其也可被示出为黑背景上的白 文本。

可以看出,前景掩模(图2B)具有和前景文本对应的分量,但是这些 线比文本中的更粗;它还包括由背景图像中的更尖锐(更高频率)特征形成 的分量,诸如由原始图像中的红盘子21A导致的一些圆圈21B(图2A)和 一些圆弧。在图像修补之后,一些红盘子21C的边缘变得有点模糊(见图 2C,例如从顶部起第五个红盘子),但是这仅导致差别图像中的可忽略的噪 声(见图2D),这通过二值化步骤S109来消除(见图2E)。

概括来说,上述背景和前景分离方法具有至少两个主要特征。首先,使 用图像修补来发现文档图像的背景,并且从文档图像中自动提取要图像修补 的区域(前景掩模)。这与用于图像恢复和修复、对象替换等的现有图像修 补方法(其中手动标记要图像修补的区域)不同。第二,为了提取前景掩模, 利用颜色信息使得获得颜色通道之一中的最有优势的局部度量(局部方差、 局部对比度、或其他更复杂的度量),以生成掩模。

上述方法具有很多优点。首先,较好利用颜色信息,以分离前景和背景, 其中它们的灰度等级值差别可以小。第二,可有效处置复杂背景颜色组合, 诸如交织颜色或逐渐改变颜色。第三,可使用相同算法有效处置不同前景背 景极性(“黑上面的白”和“白上面的黑”)。第四,图像修补区域的标识是 完全自动的。第五,能获得完整背景信息,其在诸如布局分析、文档验证等 的其他应用中可以是有用的。

这里描述的背景和前景分离方法可在诸如图3中示出的计算机120的数 据处理系统中实现。计算机120包括处理器121、储存装置(例如,硬盘驱 动器)122、和内部存储器(例如,RAM)123。储存装置122存储软件程序, 它们被读出到RAM 123,并由处理器121运行以执行这些方法。

本领域技术人员将清楚的是,可在本发明的背景和前景分离方法以及相 关设备中进行各种修改和变型,而不脱离本发明的精神或范围。由此,预期 本发明覆盖落入所附权利要求及其等效的范围中的修改和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号