首页> 中国专利> 用于移除文本的基于二值化和归一化的修补

用于移除文本的基于二值化和归一化的修补

页面导航

摘要
著录项
说明书
相似文献

摘要

融合掩模作为边缘掩模、轮廓掩模和二值掩模的组合提取用于修补的文本。所述边缘掩模查找所述文本的一组分层闭合边缘轮廓，并在所述闭合边缘轮廓中填充标记为可能的文本的像素作为轮廓掩模。对原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中文本的笔画边缘。基于所述文本的所述检测到的笔画边缘对所述二值图像进行分割，并对每个图像分区应用至少一个二值化方法以获得二值掩模候选作为用于修补的前景。对所述原始图像应用所述融合掩模以提取所述文本，以及在提取所述文本的所述原始图像的各个部分使用修补算法进行修补。

著录项

公开/公告号CN112840373A

专利类型发明专利
公开/公告日2021-05-25

原文格式PDF
申请/专利权人华为技术有限公司;
展开▼

申请/专利号CN201980049692.X
发明设计人徐惠辉;苏魏;孙宏宇;朱小星;张璠;
展开▼

申请日2019-08-01
分类号G06T5/00(20060101);
代理机构
代理人
地址 518129 广东省深圳市龙岗区坂田华为总部办公楼
入库时间 2023-06-19 11:03:41

说明书

相关申请案交叉申请

本申请要求于2018年8月21日提交的、申请名称为“用于移除文本的基于二值化和归一化的修补(Binarization and Normalization-Based Inpainting for RemovingText)”的美国临时申请第62/720,558号的优先权和权益，其申请以引用的方式并入本文中。

技术领域

本文中的公开内容涉及一种图像处理设备和相关方法，更具体地，涉及用于基于文本区域二值化和归一化的修补的系统和方法，所述系统和方法用于移除不同类型的文本以及恢复图像的背景。

背景技术

数字修补是将算法应用于图像以替换图像数据中丢失、恶化或损坏的部分的过程。修补可用于替换图像编码和传输中的丢失块，以及从图像和视频中移除标志或文本，并填充原始图像的缺失细节。图像修补的应用范围很广，包括照片的修复、胶片的修复、文字、字幕、标志、邮票、刮痕等遮挡的移除等。

有时，图像可能包含嵌入的文本，出于美观、翻译或其他原因，这些文本将被移除。在这些情况下，目标是移除不需要的文本，恢复文本所在的图像的背景，并用图像背景重新填充文本区域。然而，当文本区域不是水平的且以一定角度旋转时，该过程变得复杂。此外，文本区域的字符可以具有任何文本大小、艺术字体或色彩，进一步使得文本移除和修补过程复杂化。现有流程无法有效移除此类文本，且当在例如移动设备上应用时，无法高效、低功耗地对各种文本样式和角度的多个文本区域进行文本修补。

正如刚刚指出的，修补的应用之一是从图像中移除文本或对象，如文本字幕和标志。图1示出了另一示例，其中移除了图像102中的文本“NOODLES”，并在图像104中修补了背景。如图所示，修补后的图像104不一致。在文本翻译应用中，希望移除原始文本并用已翻译文本替换原始文本。图2示出了翻译器应用，其中在渲染已翻译文本206(此时即“Emergencyrefuge”)之前，使用修补来移除图像202中的原始字符以获得干净的背景204。

图3示出了一种用于如图2中所示的图像渲染的通用修补框架。如图所示，分为两个步骤：

1、查找与原始图像300大小相同的文本掩模(图像分割)，其中文本标记为白色，背景标记为黑色(步骤302)。所述文本掩模303区分文本前景和背景的像素。理想的掩膜将覆盖文本的所有像素。分离前景和背景的技术包括，例如，US9,042,649中描述的自适应阈值化技术。

2、在步骤304中，将文本掩模与原始图像一起使用，并应用特定的修补算法，如Telea在“一种基于快速前进方法的图像修补技术(An image inpainting techniquebased on the fast-marching method)”(《图形工具杂志》9.1(2004年)第25-36页)(https://docs.opencv.org/ref/master/df/d3d/tutorial_py_inpainting.html)中公开的开源图像修补算法，以获取修补后的图像。该算法首先从区域边界开始，然后逐步填充区域边界内的所有元素。在要修补的邻域上的像素周围需要一个小的邻域。将该像素替换为所述邻域内所有已知像素的归一化加权和。像素一经修补，将使用快速前进方法移动到下一个最近的像素。其它修补技术包括，例如，CN102567955中描述的图像修补方法，该方法通过反复确定待修补区域的轮廓以及依次向内逐层修补所述待修补区域所有设置轮廓点的邻域的未知像素点来修补图像，直至填充完所述待修补区域，生成图像修补结果306。

这种方法依赖于轮廓上起始点的初始化，而这不具有鲁棒性。还采用了递归方案来更新修补结果，而这将造成速度问题。查找文本掩模的现有方法包括使用图像二值化分割将像素图像402转换为例如图4所示的值为0和255的二值图像404。二值化用于局部或全局查找阈值以对图像进行分割。若像素值大于阈值，则像素值设置为255；若像素值小于阈值，则像素值设置为0。但是，由于图像中的低照度或低对比度会导致文本与背景的分离不准确，大多数二值化算法都存在局限性。例如，大津(Otsu)的二值化方法自动执行基于聚类的图像阈值化，以全局地查找阈值，但是其鲁棒性不足以处理图像某些部分中的低照度和低对比度。

二值化过程可能导致文本信息丢失，特别是对于边缘上的像素。通常，当存在例如图5中504处图像502的特写图像所示的模糊过渡区域时，文本和背景之间的边缘锐度不理想。由于这个限制，现有二值化算法(例如图6中描述的Niblack、Sauvola等人和Wolf等人提出的算法)的结果600是次优的，因为文本像素标记错误或背景被误标记为文本。可以在Niblack,W的“数字图像处理导论(An introduction to digital image processing)”(1986年，新泽西，安歌坞，培生出版社(Prentice-Hall，Englewood Cliffs，NJ，1986))，第115-116页；Sauvola,J.等人的“自适应文档二值化(Adaptive document binarization)”(1997年德国乌尔姆第四届文档分析与识别国际会议(Int.Conf.on Document Analysisand Recognition)论文集第147-152页)；以及C.Wolf等人的“多媒体文档中的文本本地化增强和二值化(Text localization enhancement and binarization in multimediadocuments)”(2002年模式识别国际会议(Int.Conf.on Pattern Recognition)论文集第四卷第1037-1040页)中找到关于这些算法的描述。此外，二值化是分割图像但不决定图像的前景和背景的过程。若错误地将文本标记为背景，则真正的背景将用文本色彩进行修补。

Bhuvaneswari等人公开了关于“文本图像自动检测和修补”的另一种方法(计算机应用国际杂志(International Journal of Computer Applications)(0975-8887)，2013年第7号第61卷)，将输入图像调整到400*400像素，并采用Niblack方法进行局部阈值二值化。然后，使用连接组件法来查找可能的文本区域，并设置两个阈值来移除非文本区域。扩张后的文本区域的二值图像是用于修补的掩模。但是，这种算法的局限性在于Niblack方法是一种局部阈值二值化方法，使用存在局限性。同时，将输入图像调整为400*400像素的过程会导致文本信息丢失，特别是对于长文本行中的文本。另外，用于设置阈值以移除宏或大的连接区域的标准不具有鲁棒性。由此产生的用于修补文本区域的二值掩模在许多情况下是不够的，特别是在图像质量低或照明不均匀的情况下。

发明内容

现在描述各种示例，来以简化的形式介绍一系列概念，这些概念在下文的具体实施方式中会进一步描述。发明内容部分并非旨在确定所要求保护标的的关键或必要特征，也并非旨在用于限制所要求保护标的的范围。

本文描述的系统和方法通过提高用于标记用于修补的文本区域的原始图像的所述文本区域的掩模的准确性来解决现有技术的局限性。本文描述的系统和方法使用二值化来提取文本区域掩膜，从而解决了上述问题。在示例实施例中，将基于黑色背景和白色字符的归一化的三个掩模：二值掩模、边缘掩模和轮廓掩模组合成融合掩模。或者，三个掩模中只有两个可以组合成融合掩模(例如，将轮廓掩模和二值掩模组合成融合掩模)。每种掩模提供的优点保证了原始图像中的文本像素被修补完全覆盖。在输入图像上应用融合掩模和修补算法，提取出整个背景。将图像归一化为黑色背景和白色字符，决定了文本二值掩模作为修补的前景，而融合掩模则包含了文本的边缘特征和内部的文本像素，保证了文本分割的准确性。同时，所述处理并不复杂，从而使得所述系统和方法能够用于在处理能力相对较低且对电池寿命有影响的移动设备上实现文本修补。

根据本发明的第一方面，提供了一种计算机实现方法，用于在原始图像中查找文本掩模以提取用于修补的文本。所述方法包括以下步骤：通过一个或多个处理器应用边缘检测以检测所述原始图像中的文本的边缘作为边缘掩模。使用所述边缘掩模查找所述文本的一组分层闭合边缘轮廓，并在所述闭合边缘轮廓中填充标记为可能的文本的像素作为轮廓掩模。对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘。基于所述二值图像中的所述文本的所述检测到的笔画边缘对所述二值图像进行分割。对每个图像分区应用至少一个二值化方法以获得至少一个二值掩模候选作为用于修补的前景。将所述边缘掩模、所述轮廓掩模和所述二值掩模中的至少两个组合成融合掩模，对所述原始图像应用所述融合掩模以提取所述原始图像中的所述文本，并获得不包含所述文本的所述原始图像的原始背景。在提取所述文本的所述原始图像的各个部分进行修补。组合成所述融合掩模的每种掩模提供的优点保证了原始图像中的文本像素被修补完全覆盖。

根据本发明的第二方面，提供了一种图像处理设备，包括：包括指令的非瞬时性存储器，以及与所述存储器通信的一个或多个处理器。所述一个或多个处理器执行所述指令以通过以下步骤在原始图像中查找文本掩模以提取用于修补的文本：应用边缘检测以检测所述原始图像中的文本的边缘作为边缘掩模；使用所述边缘掩模查找所述文本的一组分层闭合边缘轮廓，并在所述闭合边缘轮廓中填充标记为可能的文本的像素作为轮廓掩模；对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘；基于所述二值图像中的所述文本的所述检测到的笔画边缘对所述二值图像进行分割，并对每个图像分区应用至少一个二值化方法以获得至少一个二值掩模候选作为用于修补的前景；将所述边缘掩模、所述轮廓掩模和所述二值掩模中的至少两个组合成融合掩模，对所述原始图像应用所述融合掩模以提取所述原始图像中的所述文本，并获得不包含所述文本的所述原始图像的原始背景；以及在提取所述文本的所述原始图像的各个部分进行修补。与第一方面一样，组合成所述融合掩模的每种掩模提供的优点保证了原始图像中的文本像素被修补完全覆盖。

根据本发明的第三方面，提供了一种非瞬时性计算机可读介质，其存储计算机指令以在原始图像中查找文本掩模以提取用于修补的文本，当一个或多个处理器执行所述计算机指令时，使得所述一个或多个处理器执行以下步骤：应用边缘检测以检测所述原始图像中的文本的边缘作为边缘掩模；使用所述边缘掩模查找所述文本的一组分层闭合边缘轮廓，并在所述闭合边缘轮廓中填充标记为可能的文本的像素作为轮廓掩模；对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘；基于所述二值图像中的所述文本的所述检测到的笔画边缘对所述二值图像进行分割，并对每个图像分区应用至少一个二值化方法以获得至少一个二值掩模候选作为用于修补的前景；将所述边缘掩模、所述轮廓掩模和所述二值掩模中的至少两个组合成融合掩模，对所述原始图像应用所述融合掩模以提取所述原始图像中的所述文本，并获得不包含所述文本的所述原始图像的原始背景；以及在提取所述文本的所述原始图像的各个部分进行修补。与第一和第二方面一样，组合成所述融合掩模的每种掩模提供的优点保证了原始图像中的文本像素被修补完全覆盖。

根据本发明的第四方面，提供了一种图像处理设备，包括：包括指令的非瞬时性存储器，以及与所述存储器通信的一个或多个处理器。所述一个或多个处理器执行所述指令以在原始图像中查找文本掩模以提取用于修补的文本。所述存储器中的指令被组织为功能处理模块，这些功能处理模块在被所述一个或多个处理器处理时提供：用于应用边缘检测以检测所述原始图像中的文本的边缘作为边缘掩模的方法；用于使用所述边缘掩模查找所述文本的一组分层闭合边缘轮廓，并在所述闭合边缘轮廓中填充标记为可能的文本的像素作为轮廓掩模的方法；用于对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘的方法；用于基于所述二值图像中的所述文本的所述检测到的笔画边缘对所述二值图像进行分割，并对每个图像分区应用至少一个二值化方法以获得至少一个二值掩模候选作为用于修补的前景的方法；用于将所述边缘掩模、所述轮廓掩模和所述二值掩模中的至少两个组合成融合掩模，对所述原始图像应用所述融合掩模以提取所述原始图像中的所述文本，并获得不包含所述文本的所述原始图像的原始背景的方法；以及用于在提取所述文本的所述原始图像的各个部分进行修补的方法。与前三个方面一样，组合成所述融合掩模的每种掩模提供的优点保证了原始图像中的文本像素被修补完全覆盖。

在前述任一方面的第一种实现方式中，在应用所述边缘检测之前将所述原始图像转换为灰度图像。

在前述任一方面的第二种实现方式中，应用所述边缘检测包括对所述原始图像应用形态学梯度边缘检测算法或Sobel算子边缘检测算法中的至少一个，以检测所述原始图像中的所述文本的所述边缘。

在前述任一方面的第三种实现方式中，所述使用所述边缘掩模查找所述文本的一组分层闭合边缘轮廓包括对所述原始图像应用所述形态学梯度边缘检测算法以创建形态学梯度轮廓掩模，对所述灰度图像应用所述Sobel算子边缘检测算法以创建Sobel轮廓掩模，以及将所述形态学梯度轮廓掩模与所述Sobel轮廓掩模相结合以创建所述轮廓掩模。

在前述任一方面的第四种实现方式中，应用连接组件法来填充由所述轮廓掩模限定的像素以填充所述闭合边缘轮廓。

在前述任一方面的第五种实现方式中，所述对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘包括以下至少一项：在所述原始图像的色度、亮度和饱和度色彩空间中对亮度通道进行二值化，以增强所述原始图像的对比度；对LAB色彩空间二值化的对比度受限的自适应直方图均衡进行二值化，以增强所述原始图像的所述对比度；通过应用主成分分析二值化对LAB色彩空间的所述亮度通道进行二值化，以增强所述原始图像的所述对比度；以及从每种二值化方法生成的二值图像中选择最佳的二值图像。

在前述任一方面的第六种实现方式中，所述对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘包括以下至少一项：在所述原始图像的所述色度、亮度和饱和度色彩空间中取所述二值化后的亮度通道的逆值；取所述LAB色彩空间二值化的所述二值化后的对比度受限的自适应直方图均衡的逆值；取所述主成分分析二值化的逆值；以及从所述每个二值化方法和每个逆二值化方法生成的二值图像中选择最优二值图像。

在前述任一方面的第七种实现方式中，所述基于所述二值图像中的所述文本的所述检测到的笔画边缘对所述二值图像进行分割包括：通过水平和垂直直方图投影将所述二值图像分割为子图像，以及将所述子图像二值化。

在前述任一方面的第八种实现方式中，对所述二值图像进行归一化包括：将所述文本设置为第一色彩的像素，将所述背景设置为第二色彩的像素，并从所述至少一个二值掩模候选中选择最佳二值掩模。

所述方法可以由所述设备执行，所述计算机可读介质上的指令可以由所述设备处理，并且所述方法的其他特征和所述计算机可读介质上的指令由所述设备的功能产生。同时，针对每个方面提供的说明及其实现方式同样适用于其它方面和相应的实现方式。不同的实施例可以在硬件、软件或其任意组合中实现。同时，上述示例中的任一示例可以与上述其它示例中的任一或多个示例组合以创建本发明范围内的新实施例。

附图说明

附图不一定按比例绘制，其中类似数字可以描述不同视图中的类似部件。附图通过示例而非限制的方式大致说明了本文中讨论的各种实施例。

图1示出了移除了文本“NOODLES”且背景被修补的示例；

图2示出了翻译器应用，其中在渲染已翻译文本之前，使用修补来移除原始字符以获得干净的背景；

图3示出了在习知方法中用于图像渲染的通用修补框架；

图4示出了一种图像二值化分割方法，通过将像素图像转换为值为0和255的二值图像来查找文本掩模；

图5示出了二值化过程如何可能导致文本信息丢失，特别是对于图像边缘上的像素；

图6示出了现有二值化算法的结果，其中文本像素标记错误或背景被误标记为文本；

图7示出了用于生成用于修补的融合掩模的示例实施例；

图8示出了在示例实施例中用于生成融合掩模用于创建修补后的图像的详细流程图；

图9示出了作为扩张图像和二值化的侵蚀图像之间的差异而提供的形态学梯度；

图10示出了形态学梯度如何更准确地检测文本边缘像素，但是当文本和背景处于低对比度时检测失败的情况；

图11示出了在示例实施例中实现轮廓掩模的步骤；

图12示出了从边缘图像生成的轮廓掩模；

图13示出了除了二值掩模之外还需要轮廓掩模的原因；

图14示出了在示例实施例中生成二值掩模的过程；

图15示出了使用有限对比度自适应直方图均衡(Contrast Limited AdaptiveHistogram Equalization，简称CLAHE)算法处理灰度图像得到的二值图像；

图16示出了与其它方法相比，对HLS中的L进行二值化后的输入图像；

图17示出了与其他仅设置阈值并分割文本边界的方法相比，使用主成分分析(Principal Component Analysis，简称PCA)对输入图像进行二值化的示例；

图18示出了低对比度或低照度以及由此产生的二值图像的示例；

图19示出了垂直直方图投影，其投影出每一列的黑白变化，并查找笔画边缘的起始列；

图20示出了水平直方图投影，其投影每一行的像素值总和，并查找笔画边缘的起始行；

图21是显示分割后二值化的益处的示例；

图22示出了计算出的边缘掩模、轮廓掩模和二值掩模的组合以提供融合掩模；

图23示出了使用传统二值掩模的结果与使用如图7-22相关的描述中生成的融合掩模的结果的比较；

图24示出了应用融合掩模的技术益处的其他示例；

图25示出了归一化的过程，其中前景标记为白色，通过比较二值掩模候选与轮廓掩模来选择最相似的掩模；

图26示出了当文本被误标记为背景时的结果，以及相对的，当文本被正确标记为前景时的结果；

图27示出了本文描述的文本移除和修补技术与习知的翻译器应用中使用的习知的文本移除和修补技术之间的比较；以及

图28示出了根据示例性实施例的如上文结合图7-27所述的用于生成用于图像修补的融合掩模的电路的框图。

具体实施方式

首先应理解，尽管下文提供了一个或多个实施例的说明性实施方式，但是结合图7-28描述所公开的系统和/或方法可以使用任何数量的技术来实现，无论这些技术是当前已知的还是现有的。本发明决不应限于下文所说明的说明性实施方案、附图和技术，包括本文所说明并描述的示例性设计和实施方案，而是可在所附权利要求书的范围以及其等效物的完整范围内修改。

以下结合附图进行详细描述，所述附图是描述的一部分，并通过图解说明的方式示出可以实施本发明的具体实施例。这些实施例已进行了足够详细地描述，以使本领域技术人员能够实践本文描述的方法，并且应理解，可以利用其它实施例以及可以在不脱离本发明的范围的情况下进行结构、逻辑和电气上的更改。因此，以下描述的示例性实施例并不当作限定，本发明的范围由所附权利要求书界定。

本文描述的功能或算法可以在一个实施例中通过软件实现。所述软件可以包括存储于计算机可读介质或计算机可读存储设备(例如一个或多个非瞬时性存储器或其他类型的基于硬件的本地或网络存储设备)上的计算机可执行指令。此外，这些功能对应于模块，所述模块可以是软件、硬件、固件或其任意组合。可以根据需要在一个或多个模块中执行多个功能，所描述的实施例仅仅是示意性的。所述软件可以在数字信号处理器、ASIC、微处理器或运行在计算机系统上的其它类型的处理器上执行，例如个人计算机、服务器或其它计算机系统，从而将所述计算机系统转换成特定编程的机器。

如上所述，本文描述的系统和方法通过使用二值掩模、边缘掩模和轮廓掩模，基于将背景的像素归一化为一种颜色(例如，黑色)的像素以及将前景的像素归一化为另一种颜色(例如，白色)的像素，来提取用于修补的文本区域的精确掩膜。至少两个所述掩膜组合成融合掩模，所述融合掩模是掩膜组的结合。所述融合掩模是每个像素处的像素值为0或255的二值图像，其中特定行和列的像素在任何掩膜中若为255时则其值将为255。只有在所有融合掩模中都为0时，该值才为0。将所述融合掩模应用于输入图像，以提取原始背景，从而应用修补算法。这种方法即使对于低质量(例如，手写文本)或低照度或非均匀(例如，用不同颜色勾勒的字体或多于一种颜色的背景)或斜体文本的图像也同样适用。

图7示出了用于生成用于修补的融合掩模的示例实施例。在本示例中，将边缘检测702应用于原始图像700，以将彩色图像转换为灰度图像，并检测文本的边缘以形成边缘掩模。基于所述边缘掩模，在704处查找闭合边缘轮廓，并且在所述闭合边缘轮廓中填充标记为可能的文本的白色像素。使用二值化方法706，选择投影直方图来检测二值图像中的笔画边缘。基于笔画边缘对图像进行分割，在706处可以对每个子图像应用几种二值化方法以获得二值掩模。在708处应用归一化步骤，以将文本部分设置为用于二值化结果的白色像素，将背景设置为用于二值化结果的黑色像素。从候选二值图像中选取最佳二值掩模。当然，所述归一化也可以将所述文本部分设置为用于所述二值化结果的黑色像素，将所述背景设置为用于所述二值化结果的白色像素。在710处，将边缘掩模、轮廓掩模和二值掩模中的至少两个组合成融合掩模，各掩模的作用是相互取长补短。然后，在712处将融合掩模与修补算法一起使用。

图8示出了在示例实施例中用于生成融合掩模用于创建修补后的图像的详细流程图。如图8所示，所述融合掩模可以具有三个组件：边缘掩模、轮廓掩模和二值掩模，尽管在示例实施例中可以将三个掩膜中的任意两个组合到融合掩模中。该过程包括在802处获取输入图像并在804处将输入图像转换为灰度图像。然后，系统生成边缘掩模、轮廓掩模和二值掩模，以生成如下所述的融合掩模。

边缘掩模

在一个示例实施例中，实现了两个边缘检测器：形态学梯度和Sobel算子。形态学梯度通过确定扩张图像902(输入图像900中的扩展形状)与侵蚀图像904(输入图像900中的减少形状)之间的差异，在806处查找文本的边缘。如图9所示，所述扩张图像902可包括在所述文本的边缘周围的附加像素，而所述侵蚀图像904包括在所述文本的边缘周围的像素的减少。扩张图像和侵蚀图像之间的区别在于，文本边界图像906被二值化以提供形态学梯度908，如图9所示。

另一方面，在808处将Sobel算子应用于灰度图像，以检测水平和垂直方向的边缘。Sobel算子是一种离散微分算子，用于计算图像强度函数梯度的近似值。Sobel算子通常用于边缘检测算法中，以创建强调边缘的图像。

这两个边缘检测器(形态学梯度806和Sobel算子808)都具有足够的鲁棒性，可用于低照度和可测量噪声的图像。如图10所示，形态学梯度806从输入图像1000中更准确地检测文本边缘像素，如图像1002所示，但是当文本和背景的对比度低时，检测失败。然而，如图像1004所示，Sobel算子808在这种情况下是一个很好的补充。

如下所述，轮廓掩模和归一化都是基于边缘掩模的。

轮廓掩模

图11示出了在示例实施例中实现轮廓掩模的步骤。如图所示，轮廓掩模的过程从边缘检测1100开始。在示例实施例中，形态学梯度边缘检测1102和Sobel边缘检测1104应用于如上所述的灰度图像。在OpenCV中利用findContour()算法从形态学梯度边缘图像和Sobel边缘图像中提取出各层次闭合文本轮廓。该算法通过跟踪边界实现数字化二值图像的拓扑结构分析。然后，通过OpenCV中的drawContour()算法利用连接组件法对形态学梯度边缘图像和Sobel边缘图像的轮廓所限定的像素进行填充。这些过程产生了形态学梯度轮廓掩模1106和Sobel轮廓掩模1108。在1110处，将两种类型的轮廓掩模1106和1108组合成最终的轮廓掩模。

轮廓是一种形状描述符，对文本检测有用。如图12所示，查找文本轮廓和填充轮廓内的像素，以从边缘图像1202生成轮廓掩模1200。轮廓掩模1200可以实现对人工字体字符的修补。例如，在图13中，输入图像1300的二值化或边缘检测仅分割文本的边界，如1302所示。然而，如1304所示的轮廓填充解决了这个问题。在轮廓掩模1304中，文本像素标记为白色，背景像素标记为黑色，并且轮廓掩模1304查找大部分文本像素。

再次参考图8，通过810和812处的相应边缘掩模的二值化以及814和816处的相应轮廓的填充，从形态学梯度过程806和Sobel边缘过程808的输出生成轮廓掩模。在818处，将相应的填充轮廓组合成轮廓掩模。在一个示例实施例中，将所述轮廓掩模归一化为带有白色文本的黑色背景。

二值掩模

大多数二值化方法都有阈值限制。最好提供一个阈值，可以在各种不同的环境中使用，以便在各种不同情况下进行处理，因为有时一种二值化产生的结果优于其它的二值化，反之亦然。因此，提供了三种不同的基于大津的二值化方法和候选列表，以供在示例实施例中考虑作为最终的二值掩模。当然，还可以实现三种以上的二值化方法来处理所有输入图像情况。

图14示出了在示例实施例中生成二值掩模的过程。如图14所示，在1402处，将输入图像1400提供给一个或多个二值化算法。在示例实施例中，提供了三种不同的二值化选项，以供在不同条件下使用。

第一种二值化方法包括应用于LAB色彩空间(L指的是明度，A指的是绿红颜色分量，B指的是蓝黄颜色分量)的L通道的CLAHE算法的二值化的应用。CLAHE过程使用图像增强进行预处理。首先，仅在L通道上应用直方图均衡，以在保持亮度的同时增强彩色图像的对比度，避免放大噪声。然后，通过大津全局二值化算法对增强后的彩色图像进行阈值化。图15示出了使用CLAHE算法处理灰度图像1502得到的二值图像1500。

第二种二值化方法包括HLS色彩空间的L通道的二值化。由于L通道代表颜色中的黑白，所以它对图像中的光线变化或阴影非常敏感。这样，这种二值化方法在低对比度图像中具有很强的鲁棒性。图16示出了与1604处的其它方法相比，在1602处对HLS中的L进行二值化后的输入图像1600。

第三种二值化方法提供了使用LAB色彩空间的PCA进行二值化。PCA在LAB色彩空间中查找主轴和次轴，并求出图像的均值。PCA对色彩空间非常敏感，而对亮度不敏感。PCA二值化方法对那些花式的字符特别有用。图17示出了在1702处使用PCA对输入图像1700进行二值化的示例。如1704处所示，其他方法仅设置阈值并分割文本的边界，而PCA选择主要值并正确分割文本像素。

再次参考图14，在1402处对输入图像进行二值化之后即在1404处应用通过水平直方图投影和垂直直方图投影的笔画边缘检测。虽然在大多数情况下二值化是有效的，但是当背景复杂或输入图像的一部分具有低对比度时，二值化过程仍然可能失败。图18示出了1800和1802处的低对比度或低照度以及由此产生的在1804和1806处的二值图像的例子。1404处的笔画边缘检测旨在检测明显的照度或对比度变化的边缘。

如图19所示，通过垂直直方图投影对图像1900中各列的黑白变化进行投影，并在直方图1904中查找笔画边缘1902的起始列。另一方面，如图20所示，通过水平直方图投影对输入图像2000中的每行的像素值总和进行投影，并在直方图2004中查找笔画边缘2002的起始行。

在1404处检测出图像的笔画边缘之后，在1406处将原始图像分割为子图像，并分别应用相应的二值化方法。这样，虽然它与全局二值化方法一起工作，但结果受益于局部二值化的优点。此外，该方法自动设置窗口大小，具有足够的鲁棒性，可以针对不同情况进行调整。图21是显示分割后二值化的益处的示例。如图所示，如2104和2106处所示的输入图像2100和2102在分割前进行二值化时提供的结果，不及如2108和2110处所示的在分割后进行二值化时提供的结果。

在1408处，在二值掩模候选列表中提供每个二值化结果及其逆二值图像，以供选择。使用下文所述的技术对候选列表中的最佳二值图像进行评估，并将其选择为二值掩模。

再次参考图8，在820处检测笔画边缘，在822处通过HLS二值图像中的L通道的水平和垂直投影进行分割，并在822处计算6个二值化候选以生成二值图像824。示例实施例中的所述6个二值化候选包括LAB色彩空间二值化中的CLAHE及其在826处计算出的逆值，LAB色彩空间二值化中的PCA及其在828处计算出的逆值，以及HLS色彩空间二值化的L通道及其在830处计算出的逆值。在832处，将每个二值图像及其逆二值图像与轮廓掩模进行比较，以识别差异最小的二值图像。在834处，对具有最小差异的二值图像进行归一化，以提供具有白色字符和黑色背景的二值图像。

融合掩模

所述融合掩模通过在836处组合如上所述确定的边缘掩模、轮廓掩模和二值掩模中的任意两个或两个以上来实现。图22示出了计算出的边缘掩模2200、轮廓掩模2202和二值掩模2204的组合以提供融合掩模2206。每种掩模提供的优势保证了原始图像中的文本像素被完全覆盖。然后，将所得的融合掩模展开并应用于原始图像，以在838处应用修补算法，例如前述的Telea修补算法。修补算法在文本区域搜索外边缘上的像素，然后将背景图像填充到文本区域。所得的图像840不含所有文本，并且图像的文本部分填充有背景图像数据。

总体而言，上述结合图7-22描述的实施例具有足够的鲁棒性，可以处理各种不同的原始图像，包括手写图像、具有不同字体颜色的额外轮廓的字体、以及多于一种颜色的背景。如图23所示，融合掩模标记所有可能的文本像素以用于修补。另一方面，传统的二值掩模2300可能会误标原始图像2302的文本像素，特别是沿边缘。如2304处所示，它引导着将背景填充为背景和文字颜色混合物的修补。使用上述结合图7-22生成的融合掩模2306，完全移除文本，恢复背景，如2308处所示。

图24示出了将融合掩模应用于图像2402和2404的技术益处的其他示例。如2406和2408处所示，所述融合掩模对所有类型的文本的移除都具有鲁棒性。

如上所述，二值化结果的归一化是计算轮廓掩模和二值掩模候选之间的相似度，然后选择最佳二值图像的过程。如图25所示，该过程需要使用在822处确定的每个二值掩模候选，并将计算出的二值掩模2500和逆二值掩模2502与轮廓掩模2504进行比较，以在2506处确定最相似的掩膜，以供选择。这种归一化不仅选择二值掩模，而且由于轮廓掩模是标准，所以还决定作为前景标记白色和背景标记黑色的文本。若文本像素标记错误，则修补将以相反的方式执行。例如，如图26所示，当原始图像2600中的文本在2602处被误标记为背景时，背景在2604处被填充为文本颜色。然而，当原始图像2600中的文本在2606处被正确标记为前景时，背景在2608处被填充背景颜色。

图27示出了本文描述的文本移除和修补技术与习知的翻译器应用中使用的习知的文本移除和修补技术之间的比较。示例2700和2702均包括人工字符。如2704和2706所示，习知的翻译器应用的结果仍然具有文本残留，而使用本文描述的文本移除和修补技术的结果没有文本残留(2708和2710)。

本文描述的技术旨在通过应用文本图像的多个特征并在一组候选中选择最佳二值分割来提取用于修补的掩模。融合掩模是边缘掩模、轮廓掩模和二值掩模中的任意两个或多个的组合，以精确标记用于修补的像素。归一化过程选择与轮廓掩模最相似的最优二值掩模，并保证文本像素被标记为前景。由此产生的用于修补文本区域的掩模适用于许多情况，特别是在图像质量低或照明不均匀的情况下。所得的图像修补可以具有用于移除图像中不需要的区域或恢复有用背景信息的应用。这类应用包括翻译器应用、图像恢复相关应用，例如移动平台上的愈合图像工具，以及视频修补或缩小现实的其他应用。由于处理速度快，所以对实时移动平台特别有用。

图28示出了根据示例性实施例的如上文结合图7-27所述的用于生成用于图像修补的融合掩模的电路的框图。不需要在各种实施例中使用所有组件。计算机2800形式的一个示例计算设备可以包括处理单元2802、存储器2803、可移动存储器2810和不可移动存储器2812。尽管示例计算设备示出和描述为计算机2800，但是计算设备2800在不同的实施例中可以具有不同形式。例如，计算设备2800可以是智能手机、平板电脑、智能手表或其它计算设备。智能手机、平板电脑和智能手表等设备通常统称为移动设备或用户设备。此外，尽管所述各种数据存储元件作为所述计算机2800的一部分示出，但是所述存储器也可以或可替代地包括通过网络(例如，互联网或基于服务器的存储器)访问的基于云的存储器。同时，本文描述的方法可以在一个处理线程上的流水线中实现，或者可以酌情使用多个处理器和/或多个处理线程。

存储器2803可以包括易失性存储器2814和非易失性存储器2808。计算机2800还可以包括或可以访问包括各种计算机可读介质的计算环境，例如易失性存储器2814和非易失性存储器2808、可移动存储器2810和不可移动存储器2812。计算机存储包括随机存储器(random access memory，简称RAM)、只读存储器(read-only memory，简称ROM)、可擦除可编程只读存储器(erasable programmable read-only memory，简称EPROM)或电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称EEPROM)、闪存或其他存储器技术，只读光盘(compact disc read-only memory，简称CDROM)、数字多功能光盘(digital versatile disc，简称DVD)或其他光盘存储、磁卡带、磁带、磁盘存储器或其他磁存储设备、或能够存储计算机可读指令的任何其他介质。

计算机2800可以包括或可以访问计算环境，该计算环境包括接收输入图像以进行处理的输入接口2806、将处理后的图像提供给显示器2805的输出接口2804、以及通信接口2816。显示器2805可包括显示设备，例如触摸屏，也可以用作输入设备。输入接口2806可包括触摸屏、触摸板、鼠标、键盘、摄像头、一个或多个设备专用按钮、集成在计算机2800内或通过有线或无线数据连接耦合到计算机2800的一个或多个传感器以及其他输入设备中的一个或多个。所述计算机2800可以使用通信连接在网络环境中运行，以连接到一个或多个远程计算机，例如数据库服务器。所述远程计算机可以包括个人计算机(personalcomputer，简称PC)、服务器、路由器、网络PC、对端设备或其他常见的DFD网络交换机等。所述通信连接可以包括局域网(local area network，简称LAN)、广域网(wide areanetwork，简称WAN)、蜂窝网、Wi-Fi、蓝牙或其他网络。根据一个实施例，计算机2800的各种组件与系统总线2820连接。

存储在计算机可读介质上的计算机可读指令可由计算机2800的处理单元2802执行，例如程序2818。在一些实施例中，程序2818包括软件，当由所述处理单元2802执行时，执行根据本文包括的任一实施例的图像处理操作。硬盘、CD-ROM和RAM是包括非瞬时性计算机可读介质(例如存储设备)的物品的一些示例。术语计算机可读介质和存储设备不包括载波，因为载波被认为太短暂。存储还可以包括网络存储，例如存储区域网络(storage areanetwork，简称SAN)。计算机程序2818可以包括指令模块，当这些指令模块被处理时，使得处理单元2802执行本文描述的一个或多个方法或算法。

在示例实施例中，所述计算机2800包括：边缘检测模块，应用边缘检测以检测所述原始图像中的文本的边缘作为边缘掩模；边缘掩模模块，使用所述边缘掩模查找所述文本的一组分层闭合边缘轮廓，并在所述闭合边缘轮廓中填充标记为可能的文本的像素作为轮廓掩模；二值化模块，对所述原始图像应用二值化方法以将所述原始图像转换为二值图像并检测所述二值图像中所述文本的笔画边缘；分割模块，基于检测到的所述二值图像的所述文本的所述笔画边缘对所述二值图像进行分割，并对每个图像分区应用至少一个二值化方法以获得至少一个二值掩模候选作为用于修补的前景；组合模块，将所述边缘掩模、所述轮廓掩模和所述二值掩模中的至少两个组合成融合掩模，对所述原始图像进行融合掩模以提取所述原始图像中的所述文本，并获得不包含所述文本的所述原始图像的原始背景；以及修补模块，用于在提取所述文本的所述原始图像的各个部分进行修补。在一些实施例中，所述计算机2800可以包括其它模块或附加模块，用于执行实施例中所述步骤中的任一步骤或步骤的组合的。此外，所述方法的任何附加或替代实施例或方面(如任何附图中所示或在任何权利要求中叙述)还设想为包括类似的模块。

尽管上文详细描述了几个实施例，但还可以进行其他修改。例如，附图中描绘的逻辑流程不需要按照所示的特定顺序或者先后顺序来实现期望的结果。可以提供其它步骤或者从所述流程中删除步骤，并且可以向所述系统中添加或从所述系统中移除其它组件。其它实施例可以在所附权利要求的范围内。

还应理解，包括一个或多个计算机可执行指令的软件(所述一个或多个计算机可执行指令便于执行如上文结合本发明任一或所有步骤所描述的处理和操作)可以安装在符合本发明的一个或多个计算设备中并与其一起销售。或者，可以获取软件并将其加载到一个或多个计算设备中，包括通过物理介质或分发系统获取软件，例如，包括从属于软件创建者所有的服务器或从不属于软件创建者所有但由其使用的服务器获取软件。可以将软件存储在服务器上，以便通过例如互联网进行分发。

同时，本领域技术人员将理解，本发明在其应用中不限于在描述中或附图中示出的构造细节和组件布置。本文的实施例可以是其他实施例，并且能够以各种方式实践或实施。同时，应理解的是，此处使用的措辞和术语是为了描述的目的，不应视为限制性的。“包括”、“包含”或“具有”及其变体在本文中的用法意在包括其后列出的各项及其等效项以及其他项。此外，术语“连接”和“耦合”及其变体不限于物理或机械连接或耦合。此外，术语如上、下、底部和顶部是相对的，并用于辅助说明，但并不是限制性的。

根据所说明的实施例采用的说明性设备、系统和方法的组件可以至少部分地在数字电子电路、模拟电子电路中实现，或在计算机硬件、固件、软件或其组合中实现。例如，这些组件可以实现为计算机程序产品，例如作为计算机程序、程序代码或计算机指令有形地体现在信息载体或机器可读存储设备中，用于由数据处理装置如可编程处理器、计算机或多台计算机执行或控制其进行操作。

计算机程序可以用任何形式的编程语言编写，包括编译语言或解释语言，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适合在计算环境中使用的其他单元。计算机程序可以部署在一台或多台计算机上执行，也可以分布在多个站点上，通过通信网络相互连接。同时，本文所述技术所属领域的程序员能够容易地理解到，用于实现本文所述技术的功能程序、代码和代码段落入权利要求的范围内。与说明性实施例相关的方法步骤可以由一个或多个可编程处理器执行计算机程序、代码或指令来执行功能(例如，通过对输入数据进行操作和/或产生输出)。方法步骤也可以由专用逻辑电路执行，且执行所述方法的装置可以实现为专用逻辑电路，所述专用逻辑电路例如是现场可编程门阵列(field programmable gate array，简称FPGA)或专用集成电路(application-specificintegrated circuit，简称ASIC)等等。

本发明描述的各种说明性逻辑块、模块和电路可以通过通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、离散硬件组件、或设计用于执行本文描述功能的任何组合来实现或执行。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

例如，适合执行计算机程序的处理器包括通用和专用微处理器，以及任意一种数字计算机的任何一个或多个处理器。通常，处理器将从ROM或RAM或两者中接收指令和数据。计算机所需的元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合以从一个或多个用于存储数据的大容量存储设备(例如磁、磁光盘或光盘)接收或向其传输数据或二者同时进行。适于体现计算机程序指令和数据的信息载体包括所有形式的非易失性存储器，包括例如半导体存储器设备，例如，EPROM或ROM、EEPROM、闪存设备、数据存储磁盘(例如磁盘、内置硬盘或可移动磁盘、磁光盘、CD-ROM和DVD-ROM)。处理器和存储器可以由专用逻辑电路补充，或并入专用逻辑电路中。

本领域技术人员应当理解，信息和信号可以使用多种不同的技术和方法中的任意一种来表示。例如以上描述提到的数据、指令、命令、信息、信号、比特、符号和芯片可由电压、电流、电磁波、磁场或粒子、光场或粒子、或者任何组合表示。

如本文所使用的，“机器可读介质”是指能够暂时或永久存储指令和数据的设备，可以包括但不限于RAM、ROM、缓冲存储器、闪存、光学介质、磁性介质、高速缓存内存、其他类型的存储(例如，EEPROM)、和/或其任何合适的组合。术语“机器可读介质”应理解为包括能够存储处理器指令的单个介质或多个介质(例如，集中式或分布式数据库，或关联的缓存和服务器)。术语“机器可读介质”还应视为包括能够存储由一个或多个处理器2802执行的指令的任何介质或多种介质的组合，当由一个或多个处理器2802执行时，所述指令使得所述一个或多个处理器2802执行本文所述的任何一个或多个方法。相应地，“机器可读介质”是指单个存储装置或设备，以及包括多个存储装置或设备的“基于云”的存储系统或存储网络。由于认为信号过于短暂，本文中使用的术语“机器可读介质”不包括此类信号本身。

此外，在不脱离本发明的范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、模块、技术或方法进行组合或集成。展示或论述为彼此耦合或直接耦合或通信的其它项也可以采用电方式、机械方式或其它方式经由某一接口、设备或中间组件间接地耦合或通信。其他变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。

尽管已经参考本发明的特定特征和实施例描述了本发明，但是明显在不脱离本发明的情况下可以制定本发明的各种修改和组合。说明书和附图仅被视为所附权利要求书所定义的本发明的说明并且考虑落于本发明的范围内的任何和所有修改、变体、组合或均等物。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于移除文本的基于二值化和归一化的修补 [P] . 中国专利： CN112840373A . 2021-05-25
2. 一种基于图像复杂度的彩色文本图像二值化方法及系统 [P] . 中国专利： CN111597968A . 2020-08-28
3. BINARIZATION AND NORMALIZATION-BASED INPAINTING FOR REMOVING TEXT [P] . 世界知识产权组织专利： WO2020038207A1 . 2020-02-27

机译：基于二值化和归一化的文本删除
4. Method and apparatus for transducer-based text normalization and inverse text normalization [P] . 美国专利： US7630892B2 . 2009-12-08

机译：用于基于换能器的文本归一化和逆文本归一化的方法和装置
5. Method and apparatus for transducer-based text normalization and inverse text normalization [P] . 美国专利： US2006069545A1 . 2006-03-30

机译：用于基于换能器的文本归一化和逆文本归一化的方法和装置