首页> 中国专利> 一种确定一组不同特征的级联分类器的连接顺序和特征阈值的方法

一种确定一组不同特征的级联分类器的连接顺序和特征阈值的方法

摘要

本发明提出了一种确定一组不同特征的级联分类器的连接顺序和特征阈值的方法。该级联分类器组用于从由图像分解而得的候选连通分量中提取要选定的连通分量。该方法包括以下步骤:首先通过分解至少一幅图像而获得多个连通分量作为当前样例,再将当前样例并行送入当前各个特征的级联分类器中,进行循环训练,从而确定各个不同特征的级联分类器的连接顺序以及特征阈值区间。本发明还提出了一种从图像中获取要选定的图像的方法,利用根据前述方法级联起来的分类器组,能够快速去除非选定的连通分量,而将更多时间花费在计算可能是选定的连通分量上,既提高了图像处理速度,又提高了获取图像的精度。

著录项

  • 公开/公告号CN1920852A

    专利类型发明专利

  • 公开/公告日2007-02-28

    原文格式PDF

  • 申请/专利权人 欧姆龙株式会社;上海交通大学;

    申请/专利号CN200510099439.5

  • 申请日2005-08-26

  • 分类号G06K9/20(20060101);G06K9/62(20060101);

  • 代理机构31210 上海市华诚律师事务所;

  • 代理人徐申民

  • 地址 日本京都府

  • 入库时间 2023-12-17 18:16:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-11

    未缴年费专利权终止 IPC(主分类):G06K9/20 授权公告日:20090513 终止日期:20190826 申请日:20050826

    专利权的终止

  • 2009-05-13

    授权

    授权

  • 2007-07-18

    实质审查的生效

    实质审查的生效

  • 2007-02-28

    公开

    公开

说明书

                              技术领域

本分明涉及一种数字图像处理领域,尤其涉及一种确定一组不同特征的级联分类器的连接顺序和特征阈值的方法,以及利用由该方法形成的级联分类器组从图像中获取选定的图像的方法。

                              背景技术

自然场景中的文本检测和分割有很多应用。随着高性能、低价格、便携式数码影像设备的增加,场景文本识别的应用急速扩展。通过使用和手机、PDA或其他专用数码设备相连的摄像机,我们能轻易地捕取身边的文本:例如路名、广告、交通警告、饭店菜单等等。对这些文本的自动识别、翻译和发音能够对海外游客、视觉障碍人士和视频检索程序、会议处理等起到很大的帮助。

从图像特别是自然场景图像中全自动地提取文本,始终是一个具有挑战性的问题。其难点包括:字符的字体、大小、复杂背景、非均匀光照、阴影和图像噪声等。而且,对图像处理速度的要求也越来越高。

近年来,针对自然场景图像中文本获取的工作有了较快的发展。目前有两类从自然场景图像中获取文本的方法。

第一类是基于纹理的方法。Shin等人在2000年发表的《基于支持向量机的数字视频文本检测》中使用星型像素模板来揭示文本的内在特征。在2000年9月发表的《使用局部化度量方法获取文本区域》中,P.Clark等人仔细地提出了5种局部化的度量方法,并将这些度量组合来求得候选文本区域。频域方法也被用于检测类似文本的纹理,例如:短扫描行的傅立叶变换,离散余弦变换,Gabor变换,小波分解,多分辨率边缘检测。我们发现对于相对较小的字符,如菜单或文档中的文本行,这些方法效果良好,因为小文本通常拥有强纹理响应。然而,对于大字符,例如路旁或店名,对于复杂背景的强纹理响应会误导这些算法,从而留下很多大字符没有被发现。

第二类方法是基于连通分量(Connected-Component,CC)的方法。彩色量化,数学形态学操作和对称邻域滤波通常被用于将原始图像分解为候选连通分量。这些算法能有效地处理大字符和小字符。但如何从候选连通分量中提取文本连通分量,人们往往使用启发式的方法,例如:长宽比,对齐与合并分析,布局分析,多层连通分量分析。这类方法的缺点在于,所有启发式的规则是固定的顺序,而且其阈值是手动输入的经验值,通常不稳定,不能保证得到鲁棒的检测结果。另外,还可以用一种强分类器(例如支持向量机,SupportVector Machine,SVM)从候选连通分量中提取文本连通分量,这类方法的缺点是对每个连通分量必须计算其全部特征,计算量和耗费的时间都太大了。

本发明受到人脸检测技术的启发,利用级联分类器组从候选连通分量中提取要选定的连通分量(例如,文本连通分量),在提高图像处理速度的同时能获得很高的检测率。

                              发明内容

本发明的目的之一在于提出一种确定一组不同特征(F1,F2,...,FM)的级联分类器(h1,h2,...,hM)的连接顺序和特征阈值的方法。该级联分类器组用于从由图像分解而得的候选连通分量中提取要选定的连通分量,这里的不同特征与要选定的图像相关,该方法包括以下步骤:

a.通过分解至少一幅图像而获得多个连通分量作为当前样例,并将M个不同特征的级联分类器作为当前各个特征的级联分类器,所述当前样例包括正例集合P和反例集合N,所述正例是要选定的连通分量,所述反例是非选定的连通分量;

b.将当前样例并行送入当前各个特征的级联分类器中,进行i次循环训练中的一次训练,其中i为0<i≤M的正整数,依次选取参与每次训练的当前所有特征中最大虚警率对应的特征,由此确定各个不同特征的级联分类器的连接顺序,其中所述虚警率为每次训练中被级联分类器误认为要选定的连通分量而实际为非选定的连通分量的数量与当前反例数量之比;

c.每次选取特征后,再将当前样例送入此次选取的特征对应的级联分类器中进行训练,在此训练过程中,虚警率和检测率都不断变化,并根据该特征被允许的最小检测率获取所述特征的阈值区间,由此确定各个不同特征的级联分类器的特征阈值区间;所述检测率为一个级联分类器正确检测出的选定连通分量的数量与正例数量之比;以及

d.在执行步骤b和c之后,删除步骤b中被选取的特征和该特征的分类器以更新当前特征和当前各个特征的分类器,并且将该次训练中的正例集合保持不变以及将步骤c中获得特征的阈值区间时被级联分类器误认为要选定的连通分量而实际为非选定的连通分量作为新的反例集合来更新当前样例,用于下次循环训练。

上述步骤a中将图像分解为连通分量进一步包括以下步骤:

a1.用非线性Niblack阈值化方法处理所述图像;和

a2.将所述处理后的图像分解为连通分量。

其中,非线性Niblack阈值化方法在标准Niblack方法的背景滤波器和前景滤波器中各增加了一个统计顺序滤波器。

本发明的另一目的在于提供一种从图像中获取要选定的图像的方法,包括以下步骤:

A.将图像分解为连通分量;

B.将该连通分量送入根据前述方法所级联起来的一组不同特征的级联分类器的第一级,该特征与要选定的图像相关,每一个级联分类器丢弃非选定连通分量,并向下一级分类器输出要选定的连通分量;以及

C.将级联分类器组中最后一级分类器输出的要选定的连通分量组合形成要选定的图像。

本发明的又一目的在于提供一种从图像中获取要选定的图像的装置,该装置包括:

分解装置,用于将图像分解为连通分量;

根据前述方法级联起来的一组不同特征的级联分类器,将该连通分量输入该级联分类器的第一级,每一个级联分类器丢弃非选定的连通分量,并向下一级分类器输出要选定的连通分量;以及

图像合成装置,用于将级联分类器组中最后一级分类器输出的要选定的连通分量组合形成要选定的图像。

由于本发明方法使用了新的非线性Niblack方法来处理原始图像,可以高效地将灰度图像分解为多个候选连通分量,提高了连通分量的质量。另外,上述方法训练成的级联分类器组能够容易地去除大多数非文本连通分量,并快速关注认为可能是文本的连通分量。这样,既降低了本方法的计算量,提高了图像处理速度,又能得到很高的检测率。

                               附图简要说明

图1是根据本发明一个实施例的确定一组不同特征的级联分类器的连接顺序和特征阈值的方法的流程图;

图2是根据本发明第二实施例的从图像中获取文本图像的方法的流程图;以及

图3是根据本发明第三实施例的从图像中获取文本图像的装置图。

                              具体实施方式

下面将结合附图和具体实施方式对本发明作进一步的详细描述。

如前述提到的,本发明方法受到人脸检测技术的启发,利用级联分类器组从候选连通分量中提取文本连通分量,候选连通分量通过分解原始图像而得到,原始图像可以是自然场景图像。将文本连通分量组合起来形成文本图像,这样,我们就可以从自然场景图像中获取文本图像了。

那么,上述的级联分类器组怎样才能从候选连通分量中提取文本连通分量呢?

首先,我们提出了12种不同的特征,这12种特征能够有效地区分文本或非文本连通分量。再将这12个特征对应级联分类器组中的每个分类器,并且对该级联分类器组进行训练,以确定这组不同特征的级联分类器的连接顺序和特征阈值。这样级联起来的级联分类器组能够快速地丢弃非文本连通分量,输出文本连通分量。

接下来先具体描述揭示文本连通分量的内在本质特性的12种特征,包括:几何特征,边缘对比度特征,形状正则特征,笔划特征以及空间一致性特征。

1.几何特征

几何特征包括面积比率(Area Ratio),长度比率(Length Ratio)和长宽比(Aspect Ratio)。它们能够很有效地排除大量的显然是非文本的连通分量,而且计算的代价很小。因此它们能急剧降低整个算法的执行时间。

面积比AreaRatio为连通分量的包围盒(BoundingBox)面积与图像面积之比,用于排除太大或太小的连通分量,其公式为:

>>Feature>_>AreaRatio>=>>>Area>>(>CC>)>>>>Area>>(>Picture>)>>>>->->->>(>1>)>>>

长度比LengthRatio用于排除太长或太短的连通分量:

>>Feature>_>LengthRatio>=>>>max>{>w>,>h>}>>>max>{>PicW>,>PicH>}>>>->->->>(>2>)>>>

长宽比AspectRatio用于提出太细的连通分量:

>>Feature>_>AspectRatio>=>max>{>>>width>>(>CC>)>>>>height>>(>CC>)>>>>,>>>height>>(>CC>)>>>>width>>(>CC>)>>>>}>->->->>(>3>)>>>

上述公式中(2),(3)中,w表示所述连通分量包围盒宽度,h表示所述连通分量包围盒的高度,W表示图像的宽度,以及H表示图像的高度。

2.边缘对比度特征

边缘对比度特征包括边缘对比度(Edge Contrast),边缘对比度为连通分量的边界和原始图像的边缘图像的重合度与连通分量的边界之比,其公式为:

>>EdgeContrast>=>>>Border>>(>CC>)>>∩>Edge>>(>Picture>)>>>>Border>>(>CC>)>>>>->->->>(>4>)>>>

其中,Border(CC)是连通分量的边界像素,Edge(Picture)是原始图像的边缘检测图像,为Canny算子和Sobel算子的并集,其公式为:

          Edge(Picture)=Canny(Picture)∪Sobel(Picture)        (5)

边缘对比度特征是最重要的特征。提出这个特征是基于非常通用的视角,不考虑复杂背景和非均匀光照,文本连通分量通常被其边缘响应“高度包围”。因此,我们使用等式(4)来测量一个连通分量的边缘包围程度。这个特征非常充分地利用了基于纹理检测算法的优势,而其对于大字符也有很强的响应。而且,此特征提供了一种独立于图像的衡量每个连通分量边缘对比度的方法。

3.形状正规化特征

文本连通分量往往比自然场景中的噪声连通分量拥有更多的正规化形状。基于这种观点,我们提出了4个特征:空洞数、轮廓粗糙度、紧致度和占空比。我们发现文本连通分量在空洞数和轮廓粗糙度上具有较小的值,在紧致度和占空比上具有较大的值;而非文本的连通分量则恰恰相反。这些特征用于抑制具有不规则形状但却拥有较强纹理响应的连通分量。

>>Feature>_>ContourRoughness>=>>>|>CC>->open>>(>imfill>>(>CC>)>>,>2>×>2>)>>|>>>|>CC>|>>>->->->>(>6>)>>>

Feature_CCHoles=|imholes(CC)|                  (7)

>>Feature>_>Compact>=>>>Area>>(>CC>)>>>>>[>Perimeter>>(>CC>)>>]>>2>>>->->->>(>8>)>>>

>>Feature>_>OccupyRatio>=>>>Area>>(>CC>)>>>>Area>>(>BoundingBox>>(>CC>)>>)>>>>->->->>(>9>)>>>

上述公式中,imfill(CC)是填补连通分量内部洞的操作,2×2是形态学开运算的结构元素(structure element),形态学开运算(open)是对连通分量进行平滑的操作。

4.笔画统计特征

字符是由笔画组成的,因此我们提出2个计算相对复杂的特征,来揭示连通分量的笔画统计信息。这两个特征其实是在字符笔画的方面检查连通分量的“非规则性”。

第一个特征是平均笔画宽度MeanStrokeWidth,我们基于这样一种观点:字符的笔画宽度通常都比较小:

Feature_Stroke_Mean=Mean(strokeWidth(skeleton(CC)))             (10)

第二个特征是归一化的笔画宽度标准差,我们基于这样的观点:同个字符的笔画往往具有相似的宽度,在笔画宽度标准差特征上具有非常大的值的连通分量,更可能是噪声:

>>Feature>_>Stroke>_>Std>=>>>Deviation>>(>strokeWidth>>(>skeleton>>(>CC>)>>)>>)>>>>Mean>>(>strokeWidth>>(>skeleton>>(>CC>)>>)>>)>>>>->->->>(>11>)>>>

上述公式中,skeleton为形态学骨架算法,将连通分量抽骨架而得到骨架图,strokeWidth为对于所述骨架图上每一点求出的笔划宽度,Mean为对于所述骨架图上所有点求平均值,得到平均宽度。

5.空间一致性特征

最后两个空间一致性特征探索了空间一致性信息,来滤除非文本连通分量。噪声往往具有较小的空间规则性和聚合性,于是我们提出了这两个特征。空间一致性特征包括空间一致性面积比率(Spatial Coherence Area Ratio)和空间一致性边界特征(Spatial CoherenceBoundary Touching),其中,

>>Feature>_>AreaRatio>_>S>=>>>Area>>(>imdilate>>(>CC>,>5>×>5>)>>)>>>>Area>>(>Picture>)>>>>->->->>(>12>)>>>

Feature_Boundary_S=Bound(imdilate(CC,5×5))           (13)

上述公式中,imdilate是对连通分量进行膨胀的操作,5×5为膨胀操作的结构元素(structureelement)。

在很多显然非文本的连通分量已经被排除的情况下,在每一层中(Niblack具有黑和白两个颜色层),如果经过一个小结构元素的膨胀之后,某个连通分量扩展得非常厉害,那么它很有可能是空间相关的随机噪声。而文本连通分量则不会这样,由于字符串的结构本质,字符间往往具有一点的间距,膨胀之后不会互相粘连而扩展为一个很大的连通分量。通过使用空间一致性滤波器,我们可以有效降低图像噪声。

提出了上述12个能够有效地区分文本或非文本连通分量的特征后,将12个特征对应级联分类器组中的每个分类器,并且对该级联分类器组进行训练。我们的训练方法要解决两个问题,一,以什么顺序来排列这些特征;二,在每个特征上的阈值应该为多少。其优点在于使级联分类器组能以先弱后强的方式级联,既保证了获取图像的精度,又提高了图像处理速度。图1是根据本发明第一实施例的确定一组不同特征的级联分类器的连接顺序和特征阈值的方法的流程图。

要进行训练,首先要确定训练样例(步骤110)。例如,我们可以从图片库中随机选取200幅图片,将这200幅图片分解成多个连通分量作为训练样例(将原始图片分解为连通分量的方法将在下文详细描述)。该训练样率包括正例集合P和反例集合N。正例是我们手动标注为文本的连通分量,反例是我们手动标注为非文本的连通分量。

对于每一个训练样例(即一个连通分量),它有两个布尔值:一个是标注真值(GroundTruth),也就是此样本是否为文本,true为文本,false为非文本;另一个是分类器输出值,也就是分类器认为此样本是否为文本,输出positive为文本,negative为非文本。按此意义,虚警率false-positive表示被分类器误认为是文本的非文本样例与所有非文本样例之比;检测率detection rate实际就是true-positive,表示被分类器正确认为是文本的文本样例与所有文本样例之比;false-rejection就是false-negative,表示被分类器正确认为不是文本的非文本样例与所有非文本样例之比。

P作为正例集合,在整个训练过程中没有变化,因为我们期望每个正例(文本连通分量)能够通过所有的分类器,也就是说每个分类器必须“认识”这些正例,即要学习它们。而对于反例集合N,由于每个分类器都会“拦截”一部分反例,对于级联中的每个分类器而言,它们看到的反例是不同的。第一个分类器看到所有的反例,第二个只能看到被第一个错分为文本的那些反例...从后一个分类器的角度来说,它只需要关注前面那些分类器没有能够正确区分的问题,就是说它要处理的反例仅仅是通过前面所有分类器的非文本连通分量。所以,我们需要在训练的每次循环中改变反例集合N。

如上提到的,接下来详细描述将原始图片分解为连通分量的方法。

众所周知,将图像分解为连通分量是基于连通分量方法中非常关键的一步。如果分解步骤取得的结果很差,那么整个算法的性能就会急剧下降。现有的分解方法,主要追求有效性和鲁棒性。

本实施例使用了一种新的将图像分解为连通分量的分解方法,包括两个步骤:首先用非线性Niblack阈值化方法处理原始图像;再将处理后的图像分解为连通分量。

Niblack方法的关键在于:它认为人们所关心的那些文本像素点,其强度会和其邻域平均强度有一定的差距,这个差距大于其邻域强度标准差的k倍。其原被用于对图像进行二值化处理。本实施例中,我们用该方法先对图像进行处理,然后再将处理后的图像分解为候选的连通分量,这样能在现有的有效性和鲁棒性的基础上还得到高效性和实现的低复杂性。

其中,非线性Niblack阈值化方法在标准Niblack方法的背景滤波器和前景滤波器中各增加了一个统计顺序滤波器。非线性Niblack阈值化方法的公式为:

>>NLNiblack>>(>x>,>y>)>>=> >>>1>,>f>>(>x>,>y>)>>>>>T>+>>>(>x>,>y>)>>>>>>->1>,>f>>(>x>,>y>)>><>>T>->>>(>x>,>y>)>>>>>>0>,>other>>> >->->->>(>14>)>>>

>>>T>±>>>(>x>,>y>)>>=>ver>>μ>^>>>p>1>>>>(>x>,>y>>>,>W>>B>>)>>±>K>·>ver>>σ>^>>>p>2>>>>(>>>x>,>y>,>W>>F>>)>>>

>>ver>>μ>^>>>p>1>>>=>Order>[>Mean>>(>f>>(>x>,>y>)>>,>>W>B>>)>>,>p>1>,>>W>B>>]>>

>>ver>>σ>^>>>p>2>>>=>Order>[>Deviation>>(>f>>(>x>,>y>)>>,>>W>F>>)>>,>p>2>,>>W>F>>]>>

其中:k是根据标准Niblack方法的经验值,被设为0.17-0.19之间的数值,较佳地,本实施例中被设为0.18。f(x,y)是输入图像的(x,y)位置处的像素点强度,Mean(,W)是窗口宽度为W的均值滤波器,Deviate(,W)是窗口宽度为W的标准差滤波器,Order[,p,W]是以p为百分比,W为宽度的顺序统计滤波器。

本实施例中,在背景滤波器中,滤波器宽度WB设为原始图像宽度的1/16,百分比p1设为50%。这是因为大的中值滤波器可以在提取背景对象的同时不排除它们的高频分量。这个背景滤波器可以应付自然场景中的非均匀光照情况。

在前景滤波器中,宽度WF是WB的1/5,p2设为80%。对于具有较大方差的小块区域,这个高百分比的滤波器可以有效地将其影响传播到邻近的区域,同时能有效地抑制局部噪声。

当然,上述的滤波器宽度和百分比都可以根据实际需要进行调整。

另外,值得一提的是,上述图像分解步骤也可以不用非线性Niblack方法处理图像,而用现有的将图像分解为连通分量的技术,同样也能达到本发明的目的,但是由于用现有技术获得的连通分量质量差一些,因而使得本方法的总体效果也会有所下降。

接下来,进行设定和初始化操作(步骤120)。

设定该级联分类器组(h1,h2,...h12)的系统总体目标检测率Dtarget=0.95;并手动输入该目标检测率。

初始化变量:设置总体检测率D0=1.0,反例集合N1=N,循环次数i=0,i的范围为0<i≤M,即0<i≤12,以及初始化特征集合,该特征集合包含12个特征(F1,F2,...F12)。分类器与特征是一一对应。

令循环次数i=i+1(步骤130)。

判断i是否大于M(步骤140)。如果i不大于M,则进行i次循环计算中的一次。例如,i=1,那么就进行第一次循环计算。下面以第一次循环计算为例进行详细说明。

将该正例集合P以及当前反例集合N1中的样例并行送入每个级联分类器中进行训练(步骤150)。每个分类器都计算所有样例的特征值。例如,如果第一个分类器对应的特征为几何特征“面积比率”,那么就计算所有样例的面积比率,即样例连通分量包围盒的面积和整个图片的面积之比。

得到所有样例的特征值后,以特征值为横坐标,连通分量的数量为纵坐标,形成正例P和反例N1的特征值分布图。

针对每个特征,设一初始值为(-∞,+∞)的阈值区间,如果一个样例的特征值在该阈值区间之外,则该样例被该特征对应的级联分类器判为非文本的连通分量;如果一个样例的特征值在该阈值区间之外,则该样例被该特征对应的级联分类器判为文本的连通分量。

在该阈值区间(-∞,+∞)时,所有的样例都符合该阈值区间,因此,每个分类器的检测率d为1,虚警率f也为1。针对每个特征,将该阈值区间不断缩小,使得越来越多样例的特征值不符合该阈值区间,正例和反例被不断判为非文本连通分量,每个级联分类器的检测率dlj和虚警率flj不断下降,当第1次循环训练的某个分类器的检测率d1i下降到不小于前次循环后的总体检测率Di-l时,停止缩小所述阈值区间。这里Di-l=D0=1.0。由于实际计算时分布的离散性,d1i不可能降到等于D0,只会稍微大一些。

在此阈值区间时,计算得到每个级联分类器的检测率d1j,虚警率f1j以及正确丢弃非文本连通分量的概率FR1j,其中,FR1j=1-f1j,为一个级联分类器正确丢弃非文本连通分量的数量与当前反例数量之比。

在当前的特征集合中,即12个特征中,选取最大虚警率f1j对应的特征featurek(步骤160)。该被选取的特征featurek为第一个特征,其对应的分类器即为该级联分类器组的第一个分类器。

选取最大虚警率对应的特征,是因为通过上述的一轮计算可以看出,在同等的条件下,最大虚警率对应的特征最多地将非文本样例认为是文本样例,那么该特征就被认为是最无效的特征,其分类能力最差,因此要将它放在级联分类器组的最前面,依此类推,以使得用该方法级联起来的分类器组具有先弱后强的级联方式。

接下来,计算该被选取的特征featurek的质量比例以及其被允许的最小检测率(步骤170)。

被选取的特征featurek的质量比例γ=FRk/ΣFR1j,其中,FRk为第1次循环训练中被选取的特征featurek对应的级联分类器正确丢弃非文本连通分量的概率,相当于该分类器的质量,该值由步骤160中得到;ΣFR1j表示第1次循环训练中所有特征features对应的级联分类器正确丢弃非文本连通分量的概率之和。两者之比即为该被选取的特征对应的级联分类器的质量比例,用于衡量该特征区分文本连通分量和非文本连通分量的能力强弱。

根据检测率分配公式di=(Dtarget/Di-1)γ,计算该特征featurek被允许的最小检测率dmin,Di-1为前次循环训练后的总体检测率,i为循环次数。由于是第一次循环训练,这里Di-1=D0=1.0,dmin=(Dtarget)γ

下面具体描述该检测率分配公式是如何得到的。

假设我们将把一些连通分量串行送入一组M个不同特征的级联分类器中,一级级地进行分类,如果任何一个分类器认为一个连通分量是非文本连通分量,即将其去除,如果认为是文本连通分量,即输出给下一级分类器再次进行分类。这样,我们很容易得到如下关系:

>>F>=>>Π>>i>=>1>>M>>>f>i>>,>D>=>>Π>>i>=>1>>M>>>d>i>>->->->>(>15>)>>>

对于M个分类器中的每个都有一个检测率di,对于这个di有一个虚警率fi,为了简化表达,我们把di组成一个向量{d1,d2,...dM},此时总体检测率为>>D>=>>Π>>i>=>1>>M>>>d>i>>,>>总体虚警率为>>F>=>>Π>>i>=>1>>M>>>f>i>>.>>如果对于这M个分类器我们设定另一组检测率{d1′,d2′,...dM′},则对应的虚警率为{f1′,f2′,..fM′},总体检测率>>>D>′>>=>>Π>>i>=>1>>M>sup>>d>i>′sup>>,>>总体虚警率为>>>F>′>>=>>Π>>i>=>1>>M>>>>f>′>>i>>.>>在D=D′的情况下,未必有F=F′。我们的目的是,在总体检测率D=Dtarget的情况中,选择具有最小虚警率F的那组检测率向量。那么如何在D固定的情况下,最小化F呢?

通过对等式(15)基本形式的对数转换,我们发现总体检测率线性地分配给所有的分类器:

>>log>>(>F>)>>=>>Σ>>i>=>1>>M>>log>>(>>f>i>>)>>,>log>>(>D>)>>=>>Σ>>I>=>1>>M>>log>>(>>d>i>>)>>->->->>(>16>)>>>

假设总体检测率D根据分类器的“质量”线性地分配给所有分类器,第i个分类器的“质量”为Qi,所有分类器质量之和为>>Q>=>>Σ>>i>=>1>>M>>>Q>i>>,>>第i个分类器的质量比例γi定义为:

>>>γ>i>>=>>>Q>i>>>>Σ>>j>=>1>>M>>>Q>j>>>>->->->>(>17>)>>>

令D为总体检测率,我们可以将分配公式表达如下,第i个分类器分配到的检测率di为:

>>>d>i>>>>=>>(>D>)>>>>γ>I>>>->->->>(>18>)>>>

由等式1)我们有:

>>D>=>>Π>>i>=>1>>M>>>d>i>>=>>Π>>i>=>1>>M>>>>(>D>)>>>γ>i>>>=>>D>>>Σ>>i>=>t>>M>>>γ>i>>>>=>>D>>>Σ>>i>=>1>>M>>>>Q>i>>Q>>>>=>D>->->->>(>19>)>>>

这说明我的分配算法首先在数值上是正确的。

因为D∈[0,1],其指数函数是一个单调递减函数。一个分类器的“质量”越好,γ越大,分配到的检测率d越小。因为“质量”好意味着这个分类器能够最有效地排除非文本,所以我们允许它的检测率d小一些,让它可以有更多的空间去排除非文本连通分量。降低检测率代表了设置更为严格的条件,这样就可以排除更多的非文本连通分量。分类器的“质量”可以由正确排除非文本的概率来衡量。

在得到选取的特征featurek被允许的最小检测率后,将所有正例集合P以及当前反例集合N1中的样例送入选取的特征对应的级联分类器hk中进行训练(步骤180)。

该分类器计算所有样例的特征值。例如,如果该特征是长度比率,则计算所有样例的长度比率,计算公式参照上文的描述。

设一初始值为(-∞,+∞)的阈值区间,当一个样例的特征值在该阈值区间之外,则该样例被级联分类器hk判为非文本连通分量。

将该阈值区间不断缩小,使得正例和反例被不断判为非文本连通分量,级联分类器hk的检测率dk和虚警率fk不断下降,当dk下降到不小于步骤180中获得的被允许的最小检测率dmin时,停止缩小所述阈值区间;此时的阈值区间即为该选取的特征featurek的阈值区间。

到目前为止,选取特征以及确定特征阈值区间的工作都已完毕。

接下来要更新变量,以用于下一次循环训练(步骤190)。

删除上述被选取的特征和该特征的分类器以更新当前特征集合和当前各个特征的分类器。将步骤180中获得特征的阈值区间时被级联分类器误认为文本连通分量的非文本连通分量作为新的反例集合Ni+1,正例集合P保持不变,从而更新当前样例。再更新当前总体检测率Di=Di-1*dmin,用于下次循环训练。

接下来的循环计算与上述第一次的完全相同,每次选出一个特征并获得该特征的阈值区间。每次选出的特征对应的分类器序号即为该次循环的次数i。直到i大于M,则结束循环计算。

按上述方法确定的连接顺序级联起来的级联分类器组可以快速地排除非文本连通分量,而将更多的时间花费在计算可能是文本的连通分量上。

本实施例中提出的特征与文本图像相关,可以有效地区分文本或者非文本连通分量,因此,该组特征对应的级联分类器组可以从候选连通分量中获取文本连通分量,从而,通过组合文本连通分量,获得我们需要的文本图像。但是,本领域的技术人员应该熟知,如果提出的特征与其它要选定的内容相关,该内容可以是我们希望从原始图像中获取的任何内容,那么与该组特征对应的级联分类器组可以从候选连通分量中获取要选定的连通分量,从而组合形成我们要选定的图像,而并不限于文本图像。因此,由本实施例中的方法确定的级联分类器组可以根据与要选定的内容相关的特征,获取要选定的连通分量。

图2是根据本发明第二实施例的从图像中获取文本图像的方法的流程图。

首先,将原始图像分解为多个候选连通分量(步骤210)。这里的原始图像可以是自然场景图像。该步骤中可以先用非线性Niblack阈值化方法处理该原始图像;然后再将处理后的图像分解为多个连通分量。这里用非线性Niblack阈值化方法处理该原始图像的方法与第一实施例中的处理方法是相同的,此处不再赘述。用非线性Niblack阈值化方法可以快速而鲁棒地获取候选连通分量。

其次,将多个候选连通分量送入根据第一实施例的方法所级联起来的一组不同特征的级联分类器的第一级,该特征与文本图像相关,每一个级联分类器丢弃非文本连通分量,并向下一级分类器输出文本连通分量(步骤220)。该级联分类器组的连接顺序和特征阈值按照第一实施例的方法确定。

具体地,在多个候选连通分量输入级联分类器组的第一级后,第一分类器根据自己对应的特征,计算接收到的所有连通分量的特征值。将所有连通分量的特征值分别与该特征的阈值区间进行比较;最后将特征值在该阈值区间之外的连通分量作为非文本连通分量丢弃;将特征值在该阈值区间内的连通分量作为文本连通分量输出给第二级分类器。也就是说,被第一分类器拒绝的连通分量,将不再被输入第二分类器,不需要在对其进行进一步的计算和判断了,因此,可以节约大量的计算时间。

第二个分类器接收到第一个分类器输出的连通分量后,再进行相同的计算和分类工作,依此类推,直到最后一个分类器丢弃非文本连通分量,输出文本连通分量。

可选地,上述级联分类器组输出的文本连通分量还可以再输入一个强分类器(步骤230)。该强分类器为由标准Adaboost方法进行训练的分类器,该强分类器的特征与前述级联分类器组的特征相同。该强分类器对前述级联分类器组输出的每个连通分量的所有特征值进行线性组合并判断该连通分量是否为文本连通分量,从而丢弃非文本连通分量,输出文本连通分量。由于每个连通分量的所有特征值在级联分类器组中都已计算过了,因此在这个强分类器中只要进行线性组合,就能得到该连通分量的总的特征值。这样,可以花费较少的计算时间,进一步提高精度。

当然,这里不使用强分类器,也能达到本发明的目的、加了强分类器,可以进一步提高最终形成图像的精度。

最后,将步骤230中输出的文本连通分量组合形成文本图像(步骤240)。这样,我们就从原始图像中获得了我们需要的文本图像。

在本实施例的方法中,由于使用了新的非线性Niblack方法来处理原始图像,可以高效地将灰度图像分解为多个候选连通分量,提高了连通分量的质量。另外,级联分类器组能够容易地去除大多数非文本连通分量,并快速关注认为可能是文本的连通分量。这样,降低了本方法的计算量,提高了图像处理速度,并能得到很高的检测率。

本领域的技术人员应该熟知,虽然本实施例中级联分类器组的特征与文本图像相关,但是该特征也可以和其它要选定的内容相关,那么本实施例中的方法也可以用于从图像中获取要选定的任何图像,而不限于文本图像。

图3是根据本发明第三实施例的从图像中获取文本图像的装置图。装置300包括分解装置310,级联分类器组320,强分类器330以及图像合成装置340。

分解装置310用于将原始图像分解为多个连通分量。该分解装置310还包括处理装置312和图像分解装置316。处理装置312用非线性Niblack阈值化方法先处理原始图像,这里非线性Niblack阈值化方法与第一实施例相同。图像分解装置316将处理后的图像分解为多个连通分量。

级联分类器组320是根据第一实施例的方法级联起来的一组不同特征(F1,F2,...,F12)的级联分类器(h1,h2,...h12),这些特征与文本图像相关。将该连通分量输入级联分类器组的第一级,每一个级联分类器丢弃非文本连通分量,并向下一级分类器输出文本连通分量。

每个分类器中还包括计算装置,比较装置和输出装置。计算装置,用于根据本分类器对应的特征,计算接收到的所有连通分量的特征值。比较装置,将所有连通分量的特征值分别与该特征的阈值区间进行比较。输出装置,将特征值在该阈值区间之外的连通分量作为非文本连通分量丢弃;将特征值在该阈值区间内的连通分量作为文本连通分量输出给下一级分类器。

强分类器330,该强分类器为由标准Adaboost方法进行训练的分类器,该强分类器的特征与级联分类器组320的特征相同,即该强分类器的特征包含级联分类器组320的所有特征。强分类器330对级联分类器组320输出的连通分量的所有特征值进行线性组合,并判断该连通分量是否为文本连通分量,从而丢弃非文本连通分量,输出文本连通分量。

图像合成装置340,用于将强分类器330输出的文本连通分量组合形成要文本图像。

本领域的技术人员应该熟知,虽然本实施例中级联分类器组320的特征与文本图像相关,但是该特征也可以和其它要选定的内容相关,那么本实施例中的装置也可以用于从图像中获取要选定的任何图像,而不限于文本图像。

本发明结合上述典型实施例进行了详细描述,各种选择、修改、变化、改进和/或基本的等同技术,目前已知的或者是(可能)未知的内容,对本领域的普通技术人员是熟知的。因此,本发明的上述的典型实施例,在与阐明而不在于限制本发明。在不脱离本发明的精神和范围之内可以做多种改变。因此,本发明可以包含所有已知的或者以后发展的选择、修改、变化、改进和/或基本的等同技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号