首页> 中国专利> 基于连通分量和支持向量机的图像文本定位方法和装置

基于连通分量和支持向量机的图像文本定位方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开基于连通分量和支持向量机的图像中文本定位的方法和装置，图像分割单元，连通域分析单元；连通分量特征获取和阈值确认单元，支持向量机分类单元，连通分量组合成文本区域单元，文本区域统计特征获取并确认单元；方法将输入图像分割得到图像分层结果，用连通域分析对前景层进行分析得到连通分量的集合；提取出连通分量特征，通过使用级联阈值分类器的结构排除大量的非字符连通分量，对剩下的候选字符连通分量再运用支持向量机分类方法进行识别是否是字符连通分量；对剩余的连通分量根据特征一致和距离相近原则组合成候选文本区域，并提取出这些候选文本区域的特征，对这些特征用经验性的阈值确认是否为文本区域。

著录项

公开/公告号CN101266654A

专利类型发明专利
公开/公告日2008-09-17

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN200710064388.1
发明设计人姚金良;杨一平;台宪青;薛文芳;
展开▼

申请日2007-03-14
分类号G06K9/72(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人周国城
地址 100080 北京市海淀区中关村东路95号
入库时间 2023-12-17 20:49:36

法律信息

法律状态公告日

法律状态信息

法律状态
2009-12-02

授权

授权
2008-11-05

实质审查的生效

实质审查的生效
2008-09-17

公开

公开

说明书

技术领域

本发明属于计算机视觉的光学字符识别(OCR)的预处理领域，涉及一种基于连通分量和支持向量机的真实场景图像或视频序列图像中文本的定位方法和装置，用于智能数字图像分析和理解。

背景技术

数字图像或视频帧中的文本拥有大量的语义信息，比如：路标，广告，指示标语等。因此一个鲁棒的针对复杂背景图像中的文本定位方法，并联合文字识别会带来各种实际的运用，例如：基于内容的视频索引和图像的检索，汽车辅助驾驶，移动机器人的视觉导航等应用。将该方法加上一个机器翻译系统有助于国际游客克服语言上的障碍。然而由于在复杂背景图像中文本定位上的困难，传统的针对扫描得到的文档图像的光学字符识别很难直接运用到针对一般图像中的字符识别。为了能够识别嵌入在复杂图像中的文字，首先需要能够很好的定位复杂图像中的字符区域的准确边框，才能很好利用已有的光学字符识别技术。

近年来，已有很多研究机构开展了这方面的研究工作，提出了一些方法，而且取得了一定的效果，参考，Zhong Y.，Kary K.，Jain A.K.的论文(题目：“Locating text in complex color images”，发表在“Patternrecognition”，Vol.28，No.10，1995，pp1523-1535)。这些方法主要分为两类：基于纹理的方法和基于连通分量的方法。基于纹理的方法认为文本区域是一种纹理，大量的类似于纹理分割的方法的被使用。这类方法首先要确定一个框，这个框在图像上不断的移动，提取出框中的特征，并用分类方法对该框进行分类，为了克服大字符纹理特征不明显，这类方法一般要对原始图像进行金字塔分解，对每个分解得到的图像上进行识别。这类方法一般很难定位到文本区域准确的外围框，而且对一些字符数较少的文本区域很难进行有效的识别，对含有丰富纹理特征的一些树叶和窗口等很难得到准确的去除。而基于区域的方法认为字符拥有一致的颜色，先对图像进行分割，然后对各割后图像运用连通分量分析方法得到每个层的连通分量，接着都运用一些规则的方法进行确认是否是字符的连通分量。这类方法由于仅仅运用一些规则方法很难对复杂的背景进行有效的识别。

发明内容

本发明的目的主要是针对现有的文本区域定位方法的鲁棒性不是很高，已有的一些方法基于太多的人为假设，而本发明提供一种基于连通分量和支持向量机、鲁棒的针对各种复杂背景数字图像中文本区域定位的方法及装置，实现对文字大小、字体、颜色、背景复杂程度高等有难度的数字图像进行鲁棒的文本区域定位方法，从而为后续的文字识别做准备。

为了实现所述的目的，本发明的第一方面，基于连通分量和支持向量机的数字图像中文本定位方法，包括步骤：

步骤S1：将需要定位的图像根据其灰度值信息进行图像的分割处理，获得图像分层结果；

步骤S2：对分层后的每一层作为前景进行连通域分析，得到候选字符连通分量集合；

步骤S3：提取候选字符连通分量的特征，并用一个级联阈值分类器的结构排除非字符连通分量；每个阈值分类器的阈值通过统计样本数据获得；

步骤S4：对使用级联阈值分类器未被排除的候选字符连通分量，采用基于支持向量机的分类方法进行是否是字符连通分量的分类，支持向量机的特征向量为上述获取的所有字符连通分量特征；

步骤S5：将支持向量机分类结果中为字符的连通分量，根据其在图像中的位置关系和特征一致性进行组合，得到候选字符连通分量集合，包括子集中所有连通分量的最小矩形框称为该子集对应的文本区域，同时该子集称为文本区域中连通分量集合；

步骤S6：计算文本区域中连通分量集合中连通分量特征的方差作为候选文本区域的特征，并使用经验性的阈值确认是否是文本区域。

具体地，所述的图像分割是对灰度图像进行分析，如果输入图像是彩色图像需要将其转换为单色的灰度图像，然后根据像素灰度值与该像素为中心的窗口中像素灰度值的平均值和方差来确定像素所属的层。

具体地，所述提取连通分量的特征和阈值分类器确认构成一个级联阈值分类器的结构，得到一个特征就用阈值分类器进行判断是否该排除该连通分量，使之后续的特征计算无需再对排除了的连通分量进行计算。

具体地，阈值分类器的阈值的设定是通过对样本数据库字符连通分量的对应特征进行统计来获取，获得的阈值保证样本中的字符连通分量都确认为是字符连通分量。

具体地，支持向量机采用了LIBSVM工具，并使用径向基函数作为所使用的支持向量机的核函数。

具体地，对步骤S5所述的组合采用如下步骤：步骤S51：通过判断候选连通分量集合中的任意两个连通分量是否相邻，并且是否具有一致的特征来确认它们是否属于同一文本区域；如果是属于同一文本区域，则在这两个连通分量之间建立一条边，这样候选连通分量集合就转变为一张无向图；步骤S52：对得到的无向图进行深度优先周游图算法，得到其中的连通分支，一个连通分支对应一个候选文本区域中的连通分量的集合。

具体地，对所得到的候选文本区域连通分量集合，如果其包含的元素大于1，则提取连通分量特征的方差：笔画宽度的方差、连通分量高度的方差、连通分量宽度的方差、连通分量灰度值的方差；设定四个方差的阈值来确认该文本区域连通分量集合是否有字符构成：如果任意一个方差值大于给定的阈值，则认为该文本区域字符连通分量集合不是有字符连通分量构成的；如果文本区域字符连通分量集合元素个数等于1，则缩小字符连通分量特征阈值对文本区域中的唯一元素重新进行确认。

具体地，对确认的文本区域连通分量集合，获取能包含文本区域连通分量集合中各个连通分量的最小矩形框，作为文本区域的定位结果。

为了实现所述的目的，本发明的第二方面，是提供基于连通分量和支持向量机的数字图像文本定位装置，根据上述的定位数字图像中文字区域的方法提供的装置，包括：

图像分割单元，用于将输入的数字图像进行图像的分层；

连通域分析单元，用于对分层的图像进行连通性分析，得到候选的字符连通分量集合并得到简单的连通分量特征；

连通分量特征获取和阈值确认单元，用于提取候选字符连通分量的特征，并用级联阈值分类器结构进行连通分量的确认，排除明显的非字符连通分量；

支持向量机分类确认单元，用于对使用简单阈值不能排除的候选字符连通分量，使用基于支持向量机分类排除非字符连通分量；

连通分量组合成文本区域单元，用于对得到的字符连通分量根据位置相邻和连通分量特征一致进行组合，组合得到的连通分量子集作为一个文本区域所拥有的连通分量；

文本区域统计特征获取并确认单元，用于获取各个文本区域连通分量集合中连通分量特征的方差作为文本区域的统计特征，并用经验阈值判别候选文本区域是否有字符连通分量构成。

本发明是基于连通分量的方法，并且充分利用字符连通分量的各种特征，以及利用了支持向量机的分类方法进行识别，级联阈值分类器的结构减少了支持向量机分类的计算负担，克服了支持向量机分类需要大计算量的弱点，同时利用了其分类效果突出的优点。而且对组合的文本区域提取了连通分量的统计值作为特征，这类特征类似纹理特征进行有效的文本区域确认，使基于纹理方法和基于连通分量方法进行一定程度上的融合，达到了较高的准确率和召回率。在对2003年，internationalconference of document analysis and recognition会议上公开的训练图像数据库上获取本方法中的阈值，并对支持向量机进行训练，然后在其测试图像数据库上进行测试，达到准确率和召回率分别为0.67和0.61。

附图说明

图1表示了本发明基于连通分量的字符区域定位装置及方法整个过程的流程框图。

图2表示本发明中级联阈值分类器的结构框图。

图3表示判断连通分量边缘像素点为粗糙点的相邻像素情况的两个例子。

图4(a)实施例中的一幅测试图像。

图4(b)测试图像经过图像分割后的结果图像。

图4(c)测试图像经过级联阈值分类器后得到的结果。

图4(d)测试图像经过文本区域确认后得到的结果，黑框内为定位的文本区域。

图4(e)测试图像经过未使用支持向量机分类得到的结果，左下角有一个虚检文本框。

图4(f)测试图像经过整个系统得到结果。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明中，其输入的图像可以是各种图像获取单元获取的图像，例如：数码相机拍摄得到的图像、带拍摄功能的移动电话、带摄像功能的PDA或者可以是视频图像中的一帧等。如果输入图像是模拟信号，需要一个数目模转换工具，把模拟图像转换为数字图像进行处理。本发明方法处理的图像可以针对各种图像编码格式，例如：JPEG、BMP等，只要能将该格式的图像转换为位图图像即可。在此实施例中假定输入的图像已经是位图图像。在以下的叙述中，图像就是指数字图像，不在具体指明。同时本发明方法涉及的参数学习使用的库来之internationalconference of document analysis and recognition会议上公开的训练和测试图像库，其库中图像都为英文字符，所以本实施例是针对英文字符进行训练得到的参数。但是本发明方法同样可以适用其他各种语言。

下面将参考附图详细介绍本发明的实施例。

图1是一个流程框图，表示了本发明基于连通分量和支持向量机的文本定位方法的流程图。

参考图1中图像分割单元10，采用基于局部自适应的分割方法，每个象素点的分割阈值通过计算以该象素为中心的窗口中象素灰度值的均值与方差来得到。图像分割单元10的图像分割部分是实现对输入图像的分层，分割过程就是根据图像的颜色或灰度信息将图像分为不同的层的过程。对整个方法来说，其分割部分可以使用任何现有的分割方法。本实施例使用的基于局部象素灰度值均值和方差的分割方法进行图像的分层。其计算公式如下：

T_±(x，y)＝Mean(x，y，W_B)□k□Variance(x，y，W_F)

I(x，y)是输入图像的一个像素，T_±(x，y)是对应像素I(x，y)的上、下阈值。T_±(x，y)通过计算局部的均值Mean(x，y，W_B)和方差Variance(x，y，W_F)得到。Mean(x，y，W_B)是以图像中像素I(x，y)为中心，W_B为窗口大小的窗口中像素灰度值的均值。Variance(x，y，W_F)是以I(x，y)为中心，W_F为窗口大小的窗口中像素灰度值的方差。“Offset”是一个正整数，它使得更多的像素被分割到灰色层，从而使这些像素在后面的处理中不需要再进行处理而压制了噪声连通分量的数量，减少了后续的处理时间。参数k，offset，W_B，W_F通过经验被分别设置为0.2，3，71，11。

为了提高计算的速度，本发明方法不计算图像中全部像素点对应窗口中像素灰度值的方差，而是对一个3×3的窗口中的9个像素都使用3×3窗口中中心像素以W_F为窗口大小的方差。图像经过分割之后得到的分割结果为一个二维数组，大小为：图像宽度×图像高度，每个元素的值255表示该像素为白色层，0为黑色层，100为中间层。附图4(a)是原始测试图像，附图4(b)经过图像分割后的结果图像。

连通域分析单元20，采用基于区域增长的算法进行连通分量分析；连通域分析部分是对图像分割的结果进行连通性分析，连通性分析可以为图像中各个相邻的并且属于相同分割层的象素标记为一个唯一的标识，并得到整个连通分量的大小，位置等信息。在本实施例中把连通域分析之后得到的所有标记的连通分量称为候选字符连通分量集合。连通域分析的整个过程如下：首先，将分割结果值为255的作为前景层进行连通域分析，其它值做为背景层。使用同样的方法对值为0的黑色层作为前景层进行连通分量的分析。而对值为100的灰色层不进行连通分量的分析，因为字符通常写于特定颜色背景上，字符与背景两者有一定的颜色差，此分割方法很少会将字符分割到灰色层中。

连通分量分析方法有很多种，本发明的方法不限已在实施例中所使用的方法。在本实施例中采用的连通分量分析方法是基于区域增长的算法(Wesly E.Snyder Hairong Qi著林学訚崔锦实赵清洁等译机器视觉教程机械工业出版室第一版P142)。连通性定为八连通。同时对连通分量分析方法进行了适当的修改，在进行标记各个连通分量的同时，计算得到各个连通分量的最基础特征，其中包括连通分量的像素个数，连通分量边缘点个数(以非该连通分量标号相邻的像素个数)，连通分量的外围矩形框大小和位置(连通分量外围框是指包括连通分量所有像素的最小水平矩形框)，以及该连通分量在分割结果中所属的层(白色层和黑色层)。记录这些特征可以用阈值简单的过滤掉大量非字符的连通分量。现假定对白色层进行连通分量分析，黑色层可以用同样的步骤实现，其详细过程如下步骤：

步骤1)：找到一个未标号的像素(即SegmentResult[x，y]＝255，LabelArr[x，y]＝0)。为这个像素选取新的标号序号(即N加一)。如果所有的像素都已被标号，算法停止。

步骤2)：LabelArr[x，y]＝N，该连通分量像素数加一。同时更新外围框的左上端点值和右下端点值。

步骤3)：如果SegmentResult[x-1，y]＝255，且LabelArr[x-1，y]＝0，将坐标(x-1，y)压入堆栈。

如果SegmentResult[x+1，y]＝255，且LabelArr[x+1，y]＝0，将坐标(x+1，y)压入堆栈。

如果SegmentResult[x，y+1]＝255，且LabelArr[x，y+1]＝0，将坐标(x，y+1)压入堆栈。

如果SegmentResult[x，y-1]＝255，且LabelArr[x，y-1]＝0，将坐标(x，y-1)压入堆栈。

如果SegmentResult[x-1，y+1]＝255，且LabelArr[x-1，y+1]＝0，将坐标(x-1，y+1)压入堆栈。

如果SegmentResult[x-1，y-1]＝255，且LabelArr[x-1，y-1]＝0，将坐标(x-1，y-1)压入堆栈。

如果SegmentResult[x+1，y+1]＝255，且LabelArr[x+1，y+1]＝0，将坐标(x+1，y+1)压入堆栈。

如果SegmentResult[x+1，y-1]＝255，且LabelArr[x+1，y-1]＝0，将坐标(x+1，y-1)压入堆栈。

其中x-1大于等于零，x+1小于图像宽度，y-1大于等于零，y+1小于图像高度。

如果以上八个相邻点中，有一个像素值不等于255，则该连通分量的边缘点数加一。

步骤4)：如果堆栈非空，从堆栈中取出一个值作为新的(x，y)，并跳转到步骤2)。如果堆栈为空，将该连通分量像素数，边缘像素点个数，外围框数据保存，同时把临时变量赋值为初始值，跳转到步骤1)。

通过以上算法过程，我们可以从分割图像中得到所有连通分量，包括字符连通分量和大量的非字符连通分量。

字符特征获取和阈值确认单元30，采用一个级联阈值分类器的方法，如附图2所示，输入是连通分量。首先，获取连通分量的“特征一”，然后通过该特征值与阈值比较判断是否属于字符连通分量，如果是，则将该连通分量输入到下一个特征获取器获取“特征二”；如果不是连通分量则将该连通分量丢弃，并不计算后续的特征；如果级联的阈值分类器都判断连通分量为字符连通分量，则该连通分量就被级联阈值分类器确认为字符连通分量。级联的分类器结构有助于提高系统的速度，在提取一个特征之后，如果其不满足特定的阈值，则将该连通分量排除，这样可以避免计算该连通分量级联分类器后边的特征。本实施例中主要包括的特征有：连通分量的像素个数、边缘像素个数、外围框大小、粗糙度、笔画宽度、笔画宽度方差、对比度。通过以上的特征可以通过组合获得与字符大小无关的一致特征，如：外围框的高度和宽度比、连通分量像素个数与外围框面积比、连通分量的像素个数与边缘像素个数的平方比、粗糙度与外围框高度比、笔画宽度与高度比、笔画宽度方差与笔画宽度比。通过这些简单的组合可以使特征更为的有效，并使方法能够定位各种大小的字符，而无须再对图像进行多分辨率的分解。以下介绍各个特征的获取计算方法。

连通分量的像素个数、边缘像素个数、外围框大小已经在进行连通分量分析的时候获得。粗糙度是假设字符连通分量的边缘主要是由相对较直的线段组成，边缘上的像素点相对的毛刺较少。可以通过使用形态学滤波操作计算粗糙度。由于基于形态学的方法容易造成对笔画宽度小于三的字符连通分量误认为有较高的粗糙度，所以在本实施例中，采用了一种通过判断边缘像素点八领域相邻像素点的结构来判断该像素是否是一个粗糙点。然后该连通分量所有粗糙像素点个数除于边缘点个数即为该连通分量粗糙度。

粗糙点的八领域局部结构的两个例子如图3所示，1为前景，0为背景。在本方法中一共定义了180个类似的结构为粗糙点结构，其定义的准则是边缘上的毛刺被定义为粗糙点像素。本发明并不限于这样的粗糙度计算方式，其他的计算也适用。

连通分量笔画宽度和笔画宽度方差特征的获取方法，笔画宽度和笔画宽度方差分别是指连通分量的中轴上像素点到非连通分量像素的最短距离的两倍的平均值和方差。基于字符连通分量都是由相对一致的线条(笔画)组成，所以笔画宽度方差应该是一个较小的值。本方法采用Zhang的快速并行算法(T.Y.Zhang and C.Y.Suen，“A fast parallelalgorithm for thinning digital patterns”，Commun ACM，vol.27，no.3，pp.236--239，1984)计算笔画的中轴，然后在计算笔画的宽度和方差。

对比度是指连通分量的颜色和背景颜色之间的距离。一般认为字符连通分量的颜色和背景颜色之间有较大的距离。计算方法是统计连通分量上各个像素点颜色的平均值作为前景颜色，统计连通分量外围框内非连通分量的像素颜色平均值作为背景颜色，然后用欧式距离作为对比。如果输入图像是灰度图像则计算灰度值差作为对比度。在本实施例中使用灰度差作为对比度。

以上是获得各个连通分量特征的计算方法，同时根据连通分量各个特征的计算时间和排除非字符连通分量的能力，排列各个特征在级联阈值分类器结构中的先后顺序。在本实施例中其先后顺序为：连通分量的像素个数，边缘像素个数，连通分量的外围框，连通分量粗糙度、连通分量笔画宽度和方差、连通分量对比度。各个分类器的阈值确定是通过采用对样本数据库中的字符连通分量的特征值进行统计得到。在本方法中，用手工方法将采用单元10的方法得到的字符连通分量选择出来，并计算这些字符连通分量的所有上述特征。

对库中图像的所有字符连通分量的每个字符特征求得最大值和最小值。如果用这些最大值和最小值作为分类器的阈值，这些分类器可以在训练样本上达到100％的召回率，但是准确率相对较低。我们可以通过调整这些阈值来平衡准确率和召回率。在经过级联阈值分类器之后，大量的非字符连通分量被排除，但是仍有一些比较类似字符的非字符连通分量没能被去除，所以仅仅使用字符连通分量特征不足于获得较好的定位效果。

图4(a)是测试原始图像，图4(c)经过级联阈值分类器得到的排除非字符连通分量的结果。

支持向量机分类单元40，采用支持向量机分类算法；支持向量机是一种有效的机器学习分类方法，特别是针对样本不是很大的情况下。在本实施例中，采用了开源的LibSvm支持向量机应用程序接口函数库进行计算。采用的特征向量是以上计算得到的所有未组合基本连通分量特征组成一个特征向量，其维数为13维，在进行训练和分类时都使用了归一化操作。

在实施例训练支持向量集的模型时使用的参数如下：错误惩罚系数C为2000，gamma为1.8445，核函数为径向基函数(rbf)。训练的正样本就是在获取连通分量特征阈值时使用的字符连通分量，负样本也是从样本数据库图像中手工获取的非字符的连通分量。整个训练过程使用了正负样本数都为4374个。训练后得到的模型的支持向量个数为1512，其中正向量为397个。通过训练得到的模型可以有效的对未标记的连通分量进行分类。

附图4(f)为使用支持向量机的结果，而图4(e)为未使用支持向量机得到的结果，图4(e)左下角多了一个虚检。

连通分量组合文本区域单元50，采用的具体技术方案是首先确认各个连通分量之间是否是属于同一文本区域，通过判断经过支持向量机分类方法未排除的所有连通分量两两之间是否具有一致的特征，并且位置相近，然后利用深度优先周游图算法找到所有连通分支，每个连通分支对应一个候选文本区域中连通分量的集合；在本实施例中，其使用的样本数据库中所有的文本都是大致水平排列的所以组合的过程就是找到水平排列且相近的所有字符连通分量。当然如果针对中文要将垂直排列的情形考虑其中，其处理方式是一致的。对经过支持向量机分类之后得到的候选字符连通分量的集合。从集合中查找特征类似、位置大致处于同一水平线上的且相临的连通分量组合成一个子集，作为一个候选文本区域对应的连通分量集合。

在本实施例中，通过使用两个约束：位置约束和特征约束来判断集合中的两个连通分量是否属于同一候选文本区域中，如果属于同一候选文本区域就在构建一条边。水平方向上的组合约束条件如下公式所示，CCi和CCj.为候选连通分量集合中的任意两个连通分量，CCj_XXX为连通分量CCi，的某个属性，例如，CCj_Width为连通分量CCj的宽度属性。

(1)位置约束

MinHeight＝Min(CC_i_Height，CC_j_Height)

(CC_i_Bottom-CC_j_top)＞k₁*MinHeight

(CC_j_Bottom-CC_i_top)＞k₁*MinHeight (1)

式(1)确保可组合的两个连通域在同一水平方向上，k₁是一个控制文本线可倾斜程度的参数。在本实施例中，k₁设置为0.75。

CC_i_Right-CC_j_Left＞k₂*MinHeight

‖CC_j_Right-CC_i_Left＞k₂*MinHeight (2)

式(2)确保可组合的两个连通域距离很近，k₂是一个控制可组合连通域的距离参数。在本实施例中k₂设置为3。

(2)属性约束：

CC_i_GreyValue-CC_j_GreyValue＜k₃ (3)

$\frac{| {CC}_{i}_StrokeWidth - {CC}_{j}_StrokeWidth |}{{CC}_{i}_StrokeWidth + {CC}_{j}_StrokeWidth} < k_{4} - - - (4)$

k₅*MinHeight＞MaxHeight (5)

式(3)(4)(5)中k₃，k₄，k₅分别为23，0.15，2.1。

如果以上所有约束被满足，那么这两个连通分量可以被组合到同一个候选文本区域中，即两个连通分量之间存在一条连接的边。遍历所有的连通分量对，则整个连通分量集合加上获得的边，组成了一个张“无向图”。使用深度优先周游图将得到图中的各个连通分支。并将获得的连通分支中所有连通分量定义为一个候选文本区域，同时可以通过候选文本区域中的连通分量的位置、大小、灰度，计算该候选文本区域的位置、大小、灰度，并作为候选文本区域的特征。

图4(d)测试图像经过文本区域确认后得到的结果，但是未使用支持向量机对候选连通分量进行确认，黑框内为定位的文本区域。

文本区域统计特征的获取并确认单元60，采用的技术方案是计算文本区域内字符连通分量特征的方差，然后用经验阈值来确认候选文本区域是否是有字符构成；因为同一文本区域中的字符连通分量一般都具有一致的颜色、笔画宽度、高度。通过50步骤得到候选文本区域之后，对候选文本区域内包含的连通分量个数大于一的区域，可以统计该文本区域内连通分量特征(灰度，笔画宽度，外围框高度)的方差。如果该区域是文本区域，这些方差一般具有较小的值，所以通过阈值可以进行有效的对文本区域进行确认。在本实施例中，文本区域的灰度方差要小于28，笔画宽度的方差处于笔画宽度均值要小于0.4，高度方差除于高度均值要小于0.3，如果满足以上条件就认为该候选的文本区域为文本区域。如果该文本区域内只有一个连通分量，则用更为严格的连通分量特征的阈值进行判断该连通分量是否是字符连通分量，更为严格是指将级联阈值分类器中所获得的特征的阈值进行调整，使之尽可能的排除非字符连通分量。这些阈值都通过经验获得，也可以通过已获得的样本统计得到。

前面已经具体描述了本发明的实施方案，应当理解，对于一个具有本技术领域的普通技能的人，在不背离本发明的范围的情况下，在上述的和在附加的权利要求中特别提出的本发明的范围内进行变化和调整能同样达到本发明的目的。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于连通分量和支持向量机的图像文本定位方法和装置 [P] . 中国专利： CN100565559C . 2009.12.02
2. 基于连通分量和支持向量机的图像文本定位方法和装置 [P] . 中国专利： CN101266654A . 2008-09-17
3. storage media, apparatus for playing multimedia image data and text-based subtitle data recorded in a storage media for displaying subtitles in an image based on multimedia image data, method of reproducing image data from multi-media and text-based subtitle data recorded on a storage media for displaying subtitles on an image based on multimedia image data, computer readable media, and presentation graphics decoder [P] . BRPI0507878A . 2007-07-24

机译：存储介质，用于播放记录在存储介质中的多媒体图像数据和基于文本的字幕数据以基于多媒体图像数据在图像中显示字幕的装置，从多媒体和记录在屏幕上的基于文本的字幕数据再现图像数据的方法用于基于多媒体图像数据在图像上显示字幕的存储介质，计算机可读介质和演示图形解码器
4. Device and computer-based device method for generating a document equivalent text file from a text source file and an image source file display system and display method on a computer controlled display system including at least one central processing unit (cpu) computer-controlled display system comprising a central processing unit (cpu) and one display unit computer controller system to allow a processor to make a display unit for displaying text and images controller to allow a processor to generate a document equivalent text file from a text source file and an image source file [P] . BR9408111A . 1997-08-05

机译：用于从文本源文件和图像源文件显示系统生成文档等效文本文件的设备和基于计算机的设备方法，以及在包括至少一个中央处理器（cpu）计算机控制的显示系统的计算机控制的显示系统上的显示方法包括中央处理单元（cpu）和一个显示单元计算机控制器系统，以允许处理器制作用于显示文本和图像的显示单元控制器，以允许处理器从文本源文件和图像源生成文档等效文本文件文件
5. ULTRASOUND SYSTEM FOR FORMING 3D FETUS ULTRASOUND IMAGE BASED ON FETUS SURFACE IMAGE EXTRACTED BY SVM-BASED TEXTURE CLASSIFICATION AND METHOD FOR THE SAME [P] . 韩国专利： KR100870412B1 . 2008-11-26

机译：基于基于支持向量机的纹理分类提取的胎面图像的超声三维超声图像形成系统及其方法