首页> 中国专利> 对文档图像进行透视校正的方法和设备

对文档图像进行透视校正的方法和设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种对文档图像进行透视校正的方法和设备。该方法包括：确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容；根据所述长阿拉伯数字串的内容，创建参考图像；根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数；以及根据所述校正函数，对所述文档图像进行透视校正。

著录项

公开/公告号CN106803269A

专利类型发明专利
公开/公告日2017-06-06

原文格式PDF
申请/专利权人富士通株式会社;
展开▼

申请/专利号CN201510830447.6
发明设计人李鑫;刘伟;范伟;孙俊;
展开▼

申请日2015-11-25
分类号G06T7/60;
代理机构北京集佳知识产权代理有限公司;
代理人康建峰
地址日本神奈川县
入库时间 2023-06-19 02:30:15

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-10

授权

授权
2017-06-30

实质审查的生效 IPC(主分类):G06T7/60 申请日:20151125

实质审查的生效
2017-06-06

公开

公开

说明书

技术领域

本发明一般地涉及图像处理领域。具体而言，本发明涉及一种能够对包含长阿拉伯数字串的文档图像进行透视校正的方法和设备。

背景技术

在现代社会中，存在有各种各样的证件、卡片、文档等，例如身份证，名片，银行卡，户口本，驾驶证，护照、派出所的户籍管理文档等。某些单位或者个人需要频繁的收集或存档这些信息，需要将这些证件、卡片、文档等留存电子件。除了一些特殊的读取工具以外，通常的电子化方法就是拍照，然后存储图像或者对图像进行识别后存储所识别的信息。

在拍照留存的过程中，往往需要解决透视变换的问题。这是因为：由于环境或设备的限制，对这些证件、卡片、文档等进行拍摄时，有可能不是正对着拍摄对象的表面拍摄，而是与拍摄对象的表面的法线方向之间存在一定的角度，造成拍照结果受到倾斜的影响，这种倾斜通常被称为透视变换。为了下一步的识别和存储，必须对图像进行透视校正，然后才能进行版面分析、识别等后续处理。

传统的方法是分析拍摄的图像，找出其边缘和角点，或者直接识别图像的内容，根据上述信息与标准模板进行比对，根据透视变换模型建立变换公式，进行透视投影变换。因此，传统的方法在每次校正之前，都需要建立特定于证件、卡片、文档等的标准模板，根据拍摄图像和标准模板图像之间的匹配进行校正。建立标准模板通常是非常繁琐的事情，需要用尺子测量所有要用到的角点之间的相对距离。如果需要电子化的证件、卡片、文档等的种类比较多，或者同一种电子化对象的信息位置不固定，那么这些方法就不太适用。另外，如果用户手持身份证进行拍摄的话，手容易挡住身份证的四个角点，无法基于角点进行处理。

也就是说，传统的进行透视校正的方法和设备严重依赖于标准模板，准备标准模板的工作量大，标准模板的适应性不广，灵活性低，透视校正效果不稳定。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是提出一种不依赖于预先准备的标准模板、能够灵活地对包含长阿拉伯数字串的文档图像进行透视校正的方法和设备。

为了实现上述目的，根据本发明的一个方面，提供了一种对包含长阿拉伯数字串的文档图像进行透视校正的方法，该方法包括：确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容；根据所述长阿拉伯数字串的内容，创建参考图像；根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数；以及根据所述校正函数，对所述文档图像进行透视校正。

根据本发明的另一个方面，提供了一种对包含长阿拉伯数字串的文档图像进行透视校正的设备，该设备包括：数字串确定装置，被配置为：确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容；参考图像创建装置，被配置为：根据所述长阿拉伯数字串的内容，创建参考图像；校正函数计算装置，被配置为：根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数；以及透视校正装置，被配置为：根据所述校正函数，对所述文档图像进行透视校正。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明的实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法的流程图；

图2示出了确定所述文档图像中所述长阿拉伯数字串所在的部分的流程图；

图3示出了输入文档图像和经过步骤S1处理后得到的中间结果；

图4示出了长阿拉伯数字串所在的部分的示例；

图5示出了特征点提取的示例；

图6(a)和图6(b)分别示出了透视校正前的输入文档图像和透视校正后的变换结果；

图6(c)示出了识别结果；

图7示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的设备的结构方框图；以及

图8示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

下面将参照图1描述根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法的流程。

图1示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法的流程图。如图1所示，根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法包括如下步骤：确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容(步骤S1)；根据所述长阿拉伯数字串的内容，创建参考图像(步骤S2)；根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数(步骤S3)；以及根据所述校正函数，对所述文档图像进行透视校正(步骤S4)。

如上所述，文档图像包括各种证件、卡片、文档等的图像，包括身份证，名片，银行卡，户口本，驾驶证，护照、派出所的户籍管理文档等的图像。

这些文档图像的共同特点是包含长阿拉伯数字串，例如身份证号、卡号等。由于有些身份证号的尾号是X，而不是数字，所以在下文中，为了处理方便，只取身份证号的纯数字部分作为长阿拉伯数字串的示例。

由于长阿拉伯数字串与文档图像的其它部分具有显著区别，所以可以相对容易和准确地定位和分析长阿拉伯数字串所在的部分，从而确定用于透视校正的校正函数。

因此，根据本发明，首先在步骤S1中，确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容。

具体地，参见图2，确定所述文档图像中所述长阿拉伯数字串所在的部分包括：对所述文档图像进行二值化处理，以得到二值化图像(步骤S11)；提取所述二值化图像中的所有连通域(步骤S12)；利用数字OCR引擎，对所提取的连通域进行OCR识别(步骤S13)；在OCR结果中，搜索置信度高、彼此接近、形成一个最长串的一组连通域(步骤S14)；将所述一组连通域的外接矩形所包围的区域，确定为所述文档图像中所述长阿拉伯数字串所在的部分(步骤S15)。

在步骤S11中，对所述文档图像进行二值化处理，以得到二值化图像。

在文档图像本身为灰度图像的情况下，可以直接利用二值化阈值，对灰度文档图像进行二值化，以得到二值化图像。

在文档图像本身为彩色图像的情况下，可以先将彩色文档图像转换为灰度图像，再利用二值化阈值，对灰度文档图像进行二值化，以得到二值化图像。

关于将彩色文档图像转换为灰度图像的方法，此处给出两个优选的实施方式。本发明不限于此，只要能够实现彩色文档图像到灰度图像的转换即可。

将彩色文档图像转换为灰度图像的方法的第一优选实施方式是针对所述文档图像中的每个像素，将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值，以得到灰度图像。

将彩色文档图像转换为灰度图像的方法的第二优选实施方式是针对所述文档图像中的每个像素，取该像素的R、G、B中的最大值与大于1的预定常数之积、以及255中的较小者，作为灰度图像中对应位置的像素值，以得到灰度图像。

即，如下公式。

g＝min(255,max(r,g,b)*1.25)

其中，g为灰度值，min()表示取最小值，max表示取最大值，r、g、b表示像素的彩色三通道值，大于1的预定常数在上述公式中的示例是1.25，可以根据经验指定，不限于此。

采用上述两种方式，尤其是第二实施方式进行灰度化，会使得非黑色的彩色像素点更加偏白色。以身份证为例，部分文字是彩色的，而身份证号都是黑色的，所以有利于初步筛选像素(去掉具有非黑色的颜色的文字部分)，提高二值化效果。

另外，为了进一步提高处理效果，还可以针对灰度图像，在进行二值化之前，进行黑色像素增强处理。

具体地，针对灰度图像中的每个灰度值p_i，利用如下公式更新灰度值。

新灰度值

其中，p_i表示灰度值，α、β为预定正整数，α取接近127.5的值，β例如取5，但不限于此，主要起放大作用。

α取值在0到255的中间位置，使得当p_i远大于α时，更新后的p_i更接近255，即白色像素更白，p_i远小于α时，更新后的p_i更接近0，即黑色像素更黑，p_i与α越接近时，更新后的p_i约接近127.5，更新前后变化不大。

通过黑色像素增强处理，可以有效地增强黑色像素，减弱灰色像素。

在步骤S12中，提取所述二值化图像中的所有连通域。

连通域提取是本领域公知的技术，在此不再赘述。

在步骤S13中，利用数字OCR引擎，对所提取的连通域进行OCR识别。OCR识别是本领域公知的技术，在此不再赘述。

应注意的是此处采用的是数字OCR引擎。因为步骤S1的目的是定位文档图像中所述长阿拉伯数字串所在的部分以及识别所述长阿拉伯数字串的内容，所以采用数字OCR引擎可以实现。同时，二值化图像中的黑色像素还包括文字。文字对于数字OCR引擎来说，属于噪声，所以相应的识别置信度低，有利于定位长阿拉伯数字串所在的部分。

在步骤S14中，在OCR结果中，搜索置信度高、彼此接近、形成一个最长串的一组连通域。

具体地，通过置信度，去掉例如文字、噪声等对应的连通域，然后在剩下的连通域中计算两两连通域之间的连接关系，如果两个连通域左右相邻，则标记两者连接，从而获得最长的一条连通域构成的串，因为身份证号是处理对象中连续的数字部分中最长的。将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果，确定为所述长阿拉伯数字串的内容。标记该串的每个连通域为cc₀…cc_n，并获得对应的识别结果a₀…a_n，其中假设该串由n个连通域构成。

在步骤S15中，将所述一组连通域的外接矩形所包围的区域，确定为所述文档图像中所述长阿拉伯数字串所在的部分。

图3示出了输入文档图像和经过步骤S1处理后得到的中间结果。其中，身份证上通常以彩色文字出现的姓名、性别、民族、出生、年、月、日、地址、公民身份证号码等字样以及方块和圆形的噪声均已去除。身份证号123456789987654321的位置和内容得到了确认。

在步骤S2中，根据所述长阿拉伯数字串的内容，创建参考图像。

由于在步骤S1中已确定长阿拉伯数字串的内容，因此可以基于内容来创建标准的没有透视变换问题的参考图像，作为计算校正函数的基础。

具体地，根据所述长阿拉伯数字串的内容，利用预定字体，形成对应的参考图像。预定字体即为处理对象中数字部分的规定字体。相比于传统技术，本发明仅需要得知字体信息，而无需标准模板。

在步骤S3中，根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数。

校正函数例如是透视变换方程。

透视变换方程如下所示。

其中，a₁₁、a₁₂、a₁₃、a₂₁、a₂₂、a₂₃、a₃₁、a₃₂、a₃₃为透视变换参数，X、Y分别为变换前的像素点的横坐标、纵坐标，U、V分别为变换后的像素点的横坐标、纵坐标。因此，只要针对将长阿拉伯数字串所在的部分的特征点p_i(X,Y)和参考图像的特征点P_i'(U,V)代入方程，即可求解透视变换参数。a₃₃在实际计算中默认取值为1。透视变换方程有2个，共具有八个未知参数，代入四组坐标八个值可以求解。

步骤S3例如可通过如下步骤实现：获取所述长阿拉伯数字串所在的部分的四个特征点(步骤S31)；获取所述参考图像的四个特征点(步骤S32)；根据所获取的八个特征点，计算校正函数(步骤S33)。

下面介绍特征点的选取方法。

在步骤S31中，提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点；提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作为第四点；将连接所述第一点和所述第三点的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确定为第一特征点；将连接所述第二点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的平均像素位置确定为第二特征点；将所述第一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为第三特征点；将所述第二直线整体上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。

在图4中，以靠左侧的连通域为最左侧的连通域(对应数字1)，靠右侧的连通域是最右侧的连通域(对应数字2)为例。如图4所示，第一直线整体下移若干像素后和第二直线整体上移后如图4中的两条横线所示。

提取的第一至第四特征点如图5上方所示。

靠左侧连通域和靠右侧连通域也可以都向中间靠拢，而不是把边的连通域，但是靠左侧连通域和靠右侧连通域之间的间隔要相对较大。

之所以将第一直线整体下移若干像素和将第二直线整体上移是为了去除最高点和最低点附近噪声的影响，防止误判。

可以采取类似的方法提取参考图像的特征点。

当然，由于参考图像是标准图像，没有噪声干扰，所以直接选两端的四个点即可。

也即，在步骤S32中，对所述参考图像进行二值化处理并提取连通域；提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点；提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。

同样，靠左侧的连通域可以是最左侧的连通域(对应数字1)，靠右侧的连通域可以是最右侧的连通域(对应数字2)，靠左侧连通域和靠右侧连通域也可以都向中间靠拢，而不是把边的连通域，但是靠左侧连通域和靠右侧连通域之间的间隔要相对较大。

提取的第五至第八特征点如图5下方所示。

当然，也可采用其它几何方法或者图像处理方法在数字串图像和参考图像上获取足够多的对应点作为特征点。

在步骤S33中，根据所获取的八个特征点，计算校正函数。

如上所述，计算校正函数，只需要四组特征点的坐标。

得到了校正函数，就可以在步骤S4中，根据所述校正函数，对所述文档图像进行透视校正。

具体地，利用透视变换方程将原图即输入文档图像中的每个像素点的坐标代入透视变换方程，求得每个像素点在透视校正后的像素位置，将该像素点的像素值赋予在透视校正后的像素位置。

图6(a)和图6(b)分别示出了透视校正前的输入文档图像和透视校正后的变换结果。

经过透视校正的文档图像可以进行后续处理。

例如，可以根据所述文档图像中所述长阿拉伯数字串所在的部分的位置，确定所述文档图像中感兴趣内容所在的部分。这是因为文档图像中各个感兴趣内容的相对位置关系是固定的。然后，对所述文档图像中感兴趣内容所在的部分进行文本行提取和混合文本OCR识别，从而获得感兴趣内容。注意，由于此时进行的OCR的识别对象包括文字和数字，所以采用混合文本OCR引擎进行识别，而非之前使用的数字OCR引擎。图6(c)示出了识别结果。

下面，将参照图7描述根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的设备。

图7示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的设备的结构方框图。如图7所示，根据本发明的对包含长阿拉伯数字串的文档图像进行透视校正的透视校正设备700包括：数字串确定装置71，被配置为：确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容；参考图像创建装置72，被配置为：根据所述长阿拉伯数字串的内容，创建参考图像；校正函数计算装置73，被配置为：根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数；以及透视校正装置74，被配置为：根据所述校正函数，对所述文档图像进行透视校正。

在一个实施例中，数字串确定装置71包括：区域确定单元，其包括：二值化处理子单元，被配置为：对所述文档图像进行二值化处理，以得到二值化图像；连通域提取子单元，被配置为：提取所述二值化图像中的所有连通域；数字OCR引擎，被配置为：对所提取的连通域进行OCR识别；搜索子单元，被配置为：在OCR结果中，搜索置信度高、彼此接近、形成一个最长串的一组连通域；确定子单元，被配置为：将所述一组连通域的外接矩形所包围的区域，确定为所述文档图像中所述长阿拉伯数字串所在的部分。

在一个实施例中，数字串确定装置71还包括：内容确定单元，被配置为：将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果，确定为所述长阿拉伯数字串的内容。

在一个实施例中，二值化处理子单元被进一步配置为：针对所述文档图像中的每个像素，将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值，以得到灰度图像；利用二值化阈值，对所述灰度图像进行二值化，以得到二值化图像。

在一个实施例中，二值化处理子单元被进一步配置为：针对所述文档图像中的每个像素，取该像素的R、G、B中的最大值与大于1的预定常数之积、以及255中的较小者，作为灰度图像中对应位置的像素值，以得到灰度图像；利用二值化阈值，对所述灰度图像进行二值化，以得到二值化图像。

在一个实施例中，二值化处理子单元被进一步配置为：在进行二值化之前，还对灰度图像中的每个灰度值pi，进行如下公式所示的黑色像素增强处理：

其中，p_i表示灰度值，α、β为预定正整数，α接近127.5。

在一个实施例中，参考图像创建装置72被进一步配置为：根据所述长阿拉伯数字串的内容，利用预定字体，形成对应的参考图像。

在一个实施例中，校正函数计算装置73包括：第一特征点获取单元，被配置为：获取所述长阿拉伯数字串所在的部分的四个特征点；第二特征点获取单元，被配置为：获取所述参考图像的四个特征点；校正函数计算单元，被配置为：根据所获取的八个特征点，计算校正函数。

在一个实施例中，第一特征点获取单元被进一步配置为：提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点；提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作为第四点；将连接所述第一点和所述第三点的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确定为第一特征点；将连接所述第二点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的平均像素位置确定为第二特征点；将所述第一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为第三特征点；将所述第二直线整体上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。

在一个实施例中，第二特征点获取单元被进一步配置为：对所述参考图像进行二值化处理并提取连通域；提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点；提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。

在一个实施例中，所述靠左侧的连通域为最左侧的连通域，所述靠右侧的连通域是最右侧的连通域。

在一个实施例中，透视校正设备700还包括：感兴趣内容获取装置，被配置为：根据所述文档图像中所述长阿拉伯数字串所在的部分的位置，确定所述文档图像中感兴趣内容所在的部分；对所述文档图像中感兴趣内容所在的部分进行文本行提取和混合文本OCR识别，从而获得感兴趣内容。

在一个实施例中，所述文档图像包括：身份证、户口本的图像；所述长阿拉伯数字串包括身份证号。

由于在根据本发明的透视校正设备700中所包括的各个装置和单元中的处理分别与上面描述的透视校正方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些装置和单元的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图8示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中，还根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要，驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种对包含长阿拉伯数字串的文档图像进行透视校正的方法，包括：

确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容；

根据所述长阿拉伯数字串的内容，创建参考图像；

根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数；以及

根据所述校正函数，对所述文档图像进行透视校正。

2.如附记1所述的方法，其中，确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括：

对所述文档图像进行二值化处理，以得到二值化图像；

提取所述二值化图像中的所有连通域；

利用数字OCR引擎，对所提取的连通域进行OCR识别；

在OCR结果中，搜索置信度高、彼此接近、形成一个最长串的一组连通域；

将所述一组连通域的外接矩形所包围的区域，确定为所述文档图像中所述长阿拉伯数字串所在的部分。

3.如附记2所述的方法，其中，确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容还包括：

将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果，确定为所述长阿拉伯数字串的内容。

4.如附记2所述的方法，其中，对所述文档图像进行二值化处理，以得到二值化图像包括：

针对所述文档图像中的每个像素，将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值，以得到灰度图像；

利用二值化阈值，对所述灰度图像进行二值化，以得到二值化图像。

5.如附记2所述的方法，其中，对所述文档图像进行二值化处理，以得到二值化图像包括：

针对所述文档图像中的每个像素，取该像素的R、G、B中的最大值与大于1的预定常数之积、以及255中的较小者，作为灰度图像中对应位置的像素值，以得到灰度图像；

利用二值化阈值，对所述灰度图像进行二值化，以得到二值化图像。

6.如附记4或5所述的方法，其中，在进行二值化之前，还对灰度图像中的每个灰度值p_i，进行如下公式所示的黑色像素增强处理：

其中，p_i表示灰度值，α、β为预定正整数，α接近127.5。

7.如附记1所述的方法，其中，根据所述长阿拉伯数字串的内容，创建参考图像包括：

根据所述长阿拉伯数字串的内容，利用预定字体，形成对应的参考图像。

8.如附记1所述的方法，其中，根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数包括：

获取所述长阿拉伯数字串所在的部分的四个特征点；

获取所述参考图像的四个特征点；

根据所获取的八个特征点，计算校正函数。

9.如附记8所述的方法，其中，获取所述长阿拉伯数字串所在的部分的四个特征点包括：

提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点；

提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作为第四点；

将连接所述第一点和所述第三点的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确定为第一特征点；

将连接所述第二点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的平均像素位置确定为第二特征点；

将所述第一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为第三特征点；

将所述第二直线整体上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。

10.如附记8所述的方法，其中，获取所述参考图像的四个特征点包括：

对所述参考图像进行二值化处理并提取连通域；

提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点；

提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。

11.一种对包含长阿拉伯数字串的文档图像进行透视校正的设备，包括：

数字串确定装置，被配置为：确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容；

参考图像创建装置，被配置为：根据所述长阿拉伯数字串的内容，创建参考图像；

校正函数计算装置，被配置为：根据所述长阿拉伯数字串所在的部分与所述参考图像，计算校正函数；以及

透视校正装置，被配置为：根据所述校正函数，对所述文档图像进行透视校正。

12.如附记11所述的设备，其中，数字串确定装置包括：区域确定单元，其包括：

二值化处理子单元，被配置为：对所述文档图像进行二值化处理，以得到二值化图像；

连通域提取子单元，被配置为：提取所述二值化图像中的所有连通域；

数字OCR引擎，被配置为：对所提取的连通域进行OCR识别；

搜索子单元，被配置为：在OCR结果中，搜索置信度高、彼此接近、形成一个最长串的一组连通域；

确定子单元，被配置为：将所述一组连通域的外接矩形所包围的区域，确定为所述文档图像中所述长阿拉伯数字串所在的部分。

13.如附记12所述的设备，其中，数字串确定装置还包括：内容确定单元，被配置为：

将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果，确定为所述长阿拉伯数字串的内容。

14.如附记12所述的设备，其中，二值化处理子单元被进一步配置为：

针对所述文档图像中的每个像素，将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值，以得到灰度图像；

利用二值化阈值，对所述灰度图像进行二值化，以得到二值化图像。

15.如附记12所述的设备，其中，二值化处理子单元被进一步配置为：

利用二值化阈值，对所述灰度图像进行二值化，以得到二值化图像。

16.如附记14或15所述的设备，其中，二值化处理子单元被进一步配置为：在进行二值化之前，还对灰度图像中的每个灰度值p_i，进行如下公式所示的黑色像素增强处理：

其中，p_i表示灰度值，α、β为预定正整数，α接近127.5。

17.如附记11所述的设备，其中，参考图像创建装置被进一步配置为：

根据所述长阿拉伯数字串的内容，利用预定字体，形成对应的参考图像。

18.如附记11所述的设备，其中，校正函数计算装置包括：

第一特征点获取单元，被配置为：获取所述长阿拉伯数字串所在的部分的四个特征点；

第二特征点获取单元，被配置为：获取所述参考图像的四个特征点；

校正函数计算单元，被配置为：根据所获取的八个特征点，计算校正函数。

19.如附记18所述的设备，其中，第一特征点获取单元被进一步配置为：

提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点；

提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作为第四点；

将连接所述第一点和所述第三点的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确定为第一特征点；

将连接所述第二点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的平均像素位置确定为第二特征点；

将所述第一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为第三特征点；

将所述第二直线整体上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。

20.如附记18所述的设备，其中，第二特征点获取单元被进一步配置为：

对所述参考图像进行二值化处理并提取连通域；

提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点；

提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对文档图像进行透视校正的方法和设备 [P] . 中国专利： CN106803269B . 2020.03.10
2. 透视变形文档图像的校正装置和校正方法 [P] . 中国专利： CN101267493B . 2011.01.19
3. DOCUMENT IMAGE TILT DETECTION METHOD, DOCUMENT IMAGE TILT CORRECTION METHOD, DOCUMENT IMAGE TILT DETECTION DEVICE AND DOCUMENT IMAGE TILT CORRECTION DEVICE [P] . 日本专利： JP2005010886A . 2005-01-13

机译：文档图像倾斜检测方法，文档图像倾斜校正方法，文档图像倾斜检测设备和文档图像倾斜校正设备
4. Methods, Systems and Apparatus for Correcting Perspective Distortion in a Document Image [P] . 美国专利： US2013094764A1 . 2013-04-18

机译：用于校正文档图像中的透视畸变的方法，系统和设备
5. Methods, systems and apparatus for correcting perspective distortion in a document image [P] . 美国专利： US9390342B2 . 2016-07-12

机译：用于校正文档图像中的透视畸变的方法，系统和装置