首页> 中国专利> 基于汉字特征的文档图像分割方法

基于汉字特征的文档图像分割方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明是基于汉字特征的文档图像分割方法，属于图像处理技术领域。主要包括图像的递归分层及排序、排序后子层图像的合并及合并后子层图像的文本分割。首先读取文档图像，若为彩色图像，则将该图像转换为灰度。其次，根据最大类间距与最小类内距之比取得最大值准则对图像进行递归分层，根据子层图像的方差及所含有效像素点总数确定递归终止条件。并对各分层图像进行排序。然后，对已排序的各子层图像进行合并，由子层图像的连通特性确定合并准则。最后，对已合并的各子层图像进行文本分割，分割准则由汉字表现出的一系列图像特性决定。将各子层图像的分割结果合并成最终结果。本发明对复杂背景的文档图像进行分割，得到的文本不仅清晰而且完整。

著录项

公开/公告号CN101030257A

专利类型发明专利
公开/公告日2007-09-05

原文格式PDF
申请/专利权人中国传媒大学;
展开▼

申请/专利号CN200710065408.7
发明设计人黄祥林;杨朝;吕锐;杨占昕;
展开▼

申请日2007-04-13
分类号G06K9/34(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人张慧
地址 100024 北京市朝阳区定福庄东街1号
入库时间 2023-12-17 19:03:16

法律信息

法律状态公告日

法律状态信息

法律状态
2016-06-01

未缴年费专利权终止 IPC(主分类):G06K9/34 授权公告日:20081022 终止日期:20150413 申请日:20070413

专利权的终止
2008-10-22

授权

授权
2007-10-31

实质审查的生效

实质审查的生效
2007-09-05

公开

公开

说明书

技术领域

本发明是一种基于汉字特征的文档图像分割方法，针对彩色或灰度扫描图像进行分割，属于计算机数字图像处理技术领域。

背景技术

文档图像分割算法广泛应用于打印、传真、OCR(Optical CharacterRecognition，光学字符识别)、文档图像压缩等图像处理工作，它使得大型数据库中的文本图像的高效搜索与存储更加容易，是从文档图像中提取文档数据的有力工具。

现有的文档图像分割方法大致可以分为基于分块的和基于分层的分割方法。基于分块的分割方法，先对输入图像进行分块，然后再对每个子图像块进行处理。基于分层的分割方法，先对输入图像按某种准则分层，然后对各个子层图像进行处理。基于最大类间距离与最小类内距离比值的最大值进行分层是图像分层的常用方法。具体描述如下：

1)计算图像直方图及其最大类间距与最小类内距的比值J_f(t)。

2)根据J_f(t)取最大值时的t_th值将图像分为两层。

设一幅图像I的像素总数为n，灰度级为[0，T-1]，其中灰度值i的像素数为n_i。分层阈值t_th将其分为A、B两个子层图像，其中A的像素总数为n_A，灰度级为[0，1，…，t_th]，B的像素总数为n_B，灰度级为[t_th+1，0，1，…，T-1]，则

$>>>n>A>>=>>Σ>>i>=>0>>>t>th> >>n>i>>>s>$

$>>>n>B>>=>>Σ>>i>=>>t>th>>+>1>>>T>->1> >>n>i>>>s>$

$>>n>=>>n>A>>+>>n>B>>=>>Σ>>i>=>0>>>T>->1> >>n>i>>>s>$

子层图像A、B和原始图像I各灰度级i出现的频率h_i^A，h_i^B和h_i^I分别为

$>sup>>h>i>Asup>>=>>>n>i>>>n>A>>>>s>i＝0，1，…，t$ _th

$>sup>>h>i>Bsup>>=>>>n>i>>>n>B>>>>s>i＝t$ _th+1，t_th+2，…，T-1

$>sup>>h>i>Isup>>=>>>n>i>>n>>>s>i＝0，1，…，T-1$

子层图像A、B出现的概率p_A，p_B分别为

$>>>p>A>>=>>>n>A>>n>>=>>Σ>>i>=>0>>>t>th> sup>>h>i>Isup>>>s>$

$>>>p>B>>=>>>n>B>>n>>=>>Σ>>i>=>>t>th>>+>1>>>T>->1> sup>>h>i>Isup>>=>1>->>p>A>>>s>$

子层图像A、B和原始图像I的灰度均值m_A，m_B和m分别为

$>>>m>A>>=>>Σ>>i>=>0>>>t>th> >isup>>h>i>Asup>>>s>$

$>>>m>B>>=>>Σ>>i>=>>t>th>>+>1>>>T>->1> >isup>>h>i>Bsup>>>s>$

$>>m>=>>Σ>>i>=>0>>>T>->1> >isup>>h>i>Isup>>>s>$

当将两个子层图像视为两类时，它们的类间距离为

$>sup>>s>b>2sup>>>(>t>)>>=>>p>A>>>>(>>m>A>>->m>)>>2>>+>>p>B>>>>(>>m>B>>->m>)>>2>>->->->>(>5>)>>>s>$

类内距离为

$>sup>>s>w>2sup>>>(>t>)>>=>>p>A>>>Σ>>i>=>0>>>t>th> >>>(>i>->>m>A>>)>>2>sup>>h>i>Asup>>+>>p>B>>>Σ>>i>=>>t>th>>+>1>>>T>->1> >>>(>i>->>m>B>>)>>2>sup>>h>i>Bsup>>>s>$

$>>=>>Σ>>i>=>0>>>t>th> >>>(>i>>->>m>A>>>)>>2>sup>>h>i>Isup>>+>>Σ>>i>=>>t>th>>+>1>>>T>->1> >>>(>i>->>m>B>>)>>2>sup>>h>i>Isup>>>s>$

于是，依据最大类间距与最小类内距比的最大值准则，最佳阈值t_th应满足

$>>>J>f>>>(>t>)>>=>>sup>>s>b>2sup>>>(>t>)>>>sup>>s>w>2sup>>>(>t>)>>>>>|>>t>=>>t>th>>>>→>max>>s>$

目前对于复杂背景(字符与背景重叠)的文档图像，仍缺乏有效的分割方法。Yen-Lin Chen等(Yen-Lin Chen，Chung-Cheng Chiu and Bing-Fei Wu.Complex Document Image Segmentation using Localized Histogram Analysiswith Multi-Layer Matching and Clustering，2004 IEEE InternationalConference on Systems，Man and Cybernetics：3063-3070)提出了一种基于区域的分割方法，该方法首先对图像进行均匀分块，并利用每个子块的直方图信息对子块进行分层，然后再根据子层图像的边缘等信息对各个子层进行连接，将属于同一类型的子层连接为一个大的子层，最后对这些子层进行文本层判断，分割出文本。该方法计算比较复杂，对图像进行分块处理容易造成汉字的断裂。

发明内容

本发明提出了一种针对复杂文档图像的分割算法，该方法计算简单，不容易造成汉字断裂。

本发明属于基于分层的图像分割，依据最大类间距与最小类内距比的最大值准则，对输入图像进行递归分层，得到一系列的分层文档图像，并依据子层图像像素灰度最大值，对各层图像排序。根据子层图像合并规则，对排序的结果进行子层图像合并，得到最终的若干子层图像。对合并后的各个子层进行文本分割，并将各层分割结果合并，得到最终的分割图像。

具体创新点：图像分层的递归终止准则；相关子层的合并规则；基于汉字特征的图像分割。具体内容如下：

1、图像分层的递归终止准则：利用上述介绍的最大类间距与最小类内距比的最大值准则，将输入图像分为两层。本发明在于，将分出的子层继续分层，直到满足递归终止准则为止。然后并依据子层图像像素灰度最大值，对分割出的一系列子层进行排序。

2、相关子层的合并规则：对于已排序的各子层图像，并不全都利于图像的文本分割。本发明在于，对已排序的各子层图像，利用合并规则对相关子层进行合并。合并后的子层图像有利于文本的分割。

3、基于汉字特征的图像分割：本发明在于，对合并后的子层，计算每个子层图像所包含的连通区域信息，并根据其特征判断汉字区域和背景区域，然后将背景区域虑除。对各子层图像的分割结果合并成最终分割结果。

本发明的技术方案如图1所示。这种基于汉字特征的文档图像分割方法，以灰度或者彩色bmp格式(或其他格式的图像转换为bmp格式)的图像作为输入，保存于计算机硬盘或移动存储媒体上，再由计算机进行运算和处理。其主要过程为：计算机系统接收输入图像，再由分割程序对其进行处理。

具体方法步骤为：

输入文档图像后，若为彩色图像则将转为灰度图像，然后计算图像的灰度直方图，利用直方图对灰度图像进行递归分层，并对分层结果进行排序，再根据合并准则对相关子层图像进行合并，对合并后的子层图像进行基于汉字特征的分割处理，并合并各分层图像的分割结果。

1、递归分层的方法步骤如下：

设图像灰度值t在[a，b](0≤a＜256，0≤b＜256，a＜b，a、b均为整数)范围内，第一次的分层阈值为使J_f(t)取得最大值的t_th，将图像分为两层，其灰度值的范围分别为[a，t_th]和[t_th+1，b]。接下来，继续在[a，t_th]和[t_th+1，b]区间上找出使J_f(t)取得最大值时所对应的分层阈值t_th1和t_th2，将各子层图像再分层。如此进行，直到满足如下终止条件：

设待分层图像的灰度值变化区间为[t₁，t₂](t₁＜t₂)，此区间像素总数、灰度均值和方差分别为n_t、m_t和δ_t。当δ_t＜c×m_t(0.01＜c＜0.3)或者n_t＞d×n(0.01＜d＜0.5)时，即停止对此图像继续分层。其中，n为原始文档图像的像素总数，i为像素灰度级，h_i^t为i在待分层图像中出现的频率。

$>>>m>t>>=>>Σ>>i>=>>t>1>>>>t>2> >isup>>h>i>tsup>>>s>$

$>sup>>δ>t>2sup>>=>>Σ>>i>=>>t>1>>>>t>2> >>n>i>>>>(>i>->>m>t>>)>>2>>>s>$

$>>>n>t>>=>>Σ>>i>=>>t>1>>>>t>2> >>n>i>>>s>$

递归分层完成后，根据各分层子图像像素灰度最大值，对其进行递增(或递减)排序。排序后，各子层图像的灰度值范围相互邻接但互不重叠。

2、子层合并的方法步骤如下：

这里的合并是指将两个子层图像相加，得到一个新的子层图像。对于已排序的各子层图像，并不全都利于图像的文本分割，需要对相关子层图像进行合并。首先判断当前层是否需要合并，如果需要合并，应该合并到与其相邻的哪个子层，若当前层只有一个相邻层，则直接合并。对合并后得到的新子层图像，再进行判断，并根据判断进行合并，直到不满足合并条件为止。如此进行下去，直到所有的子层均不满足合并条件为止。合并可以按递增(或者递减)的顺序进行。

设已排序的子层图像共n个，其中第i个子层图像s_i的灰度值范围为[t_i，t_i+1-1]，i＝0，1，…，n-1。对s_i而言，n_p表示有效像素点的总数(像素灰度值在[t_i，t_i+1-1]内的像素为有效像素，否则为无效像素)，n_ph表示总的孔洞像素点数(同一行的两个有效像素点之间，若只有一个无效像素点，则这两个有效像素点称为孔洞像素)，n_r⁰表示子图像内连通区域总数，n_rs表示小连通区域总数(小连通区域是指包含的有效像素点数小于N的连通区域。其中，0＜N＜50)，n_ps表示所有小连通区域所含的有效像素点总数，n_r max p表示最大连通区域所含的有效像素点总数(最大连通区域是指包含有效像素点数最多的连通区域)，n_ρs表示有效像素密度小于R的所有连通区域所包含的有效像素点总数(有效像素密度是指该连通区域包含的有效像素点总数与包围该连通区域最小矩形面积之比)，其中，0＜R＜0.5，则满足以下4个条件之一，该层s_i需要合并：

(1)若n_ph＞a×n_p，则合并； (a＞0.05)

(2)若 $>>>n>rs>>>>bsup>>>×>n>>r>0sup>>>s>且n$ _r max p＜c×n_p，则合并； (b＞0.6，c＞0.1)

(3)若n_ps＞d×n_p，则合并； (d＞0.3)

(4)若n_ρs＞e×n_p，则合并。 (e＞0.3)

具体合并到哪一层的判断方法为：

设待合并子层s_i的前一层和后一层分别为s_i-1和s_i+1，其灰度值范围分别为[t_i-1，t_i-1]和[t_i+1，t_i+2-1]，其包含的连通区域总数分别为n_r^-1和n_r¹。若s_i与s_i-1合并，则新层为s_i-1′，范围为[t_i-1，t_i+1-1]，连通区域数目为n_r；若s_i与s_i+1合并，则新层为s_i+1′，范围为[t_i，t_i+2-1]，连通区域数目为n_r′。

合并步骤为：

(1)计算s_i-1与s_i所含连通区域数目的比值r₁， $>>>r>1>>=>>>min>>(sup>>n>r>>->1>sup>>,sup>>n>r>0sup>>)>>>>max>>(sup>>n>r>>->1>sup>>,sup>>n>r>0sup>>)>>>>;>>s>s$ _i+1与s_i所含连通区域数目的比值r₂， $>>>r>2>>=>>>min>>(sup>>n>r>1sup>>,sup>>n>r>0sup>>)>>>>max>>(sup>>n>r>1sup>>,sup>>n>r>0sup>>)>>>>.>>s>$

(2)计算s_i-1′与s_i-1所含连通区域数目的比值r₁′， $>sup>>r>1>′sup>>=>>>n>r>sup>>n>r>>->1>sup>>>;>>s>s$ _i+1′与s_i+1所含连通区域数目的比值r₂′， $>sup>>r>2>′sup>>=>sup>>n>r>′sup>sup>>n>r>1sup>>>;>>s>$

(3)若(r₁+r₁′)≤(r₂+r₂′)，则将s_i与s_i-1合并；若(r₁+r₁′)＞(r₂+r₂′)，则将s_i与s_i+1合并。

3、子层图像的文本分割

具体步骤如下：

对于合并后的子图像s_i(其宽和高分别为l_w、l_h，总有效像素数为n_p)，进行区域生长(即寻找出所有的由有效像素构成的连通区域)，得到一系列的连通区域。对于第i个连通区域而言，其有效像素密度为ρ_i：

$>>>ρ>i>>=>>>n>i>>>>w>i>>>>×>h>>i>>>>>s>$

其中，n_i表示其包含的有效像素个数，w_i和h_i分别表示包围此连通区域最小矩形的宽和高(以像素数为单位)。

对于单个连通区域及包围此连通区域的最小矩形，本发明提出如下定义：

1)跳变像素p_v：在同一行中(或者在同一列中)，每一个与无效像素相邻的有效像素均为跳变像素，对所有位于矩形边界的像素，虽然其与矩形边界外部的无效像素相邻，但不属于跳变像素。

2)孔洞像素p_h：在同一行中两个跳变像素之间只有一个无效像素，此两个跳变像素均为孔洞像素；

3)跳变行w_v，包含跳变像素的行；

4)跳变列h_v：包含跳变像素的列；

5)孔洞行w_h：包含孔洞像素的行；

6)外跳变像素p_ov：对行而言，是指某跳变行的第一个跳变像素或者最后一个跳变像素，其中，第一个跳变像素左侧是无效像素，最后一个跳变像素右侧是无效像素。

7)内跳变像素p_iv：对行而言，是指某跳变行中外跳变像素之外的跳变像素。

8)外跳变行w_v：包含外跳变像素的行。

9)双外跳变行h_v：包含两个外跳变像素的行。

在以上定义的基础上，提出了下列汉字特征：

1)矩形宽高比 $>>>r>wh>>=>>>min>>(>>w>i>>,>>h>i>>)>>>>max>>(>>w>i>>,>>h>i>>)>>>>>s>矩形中宽度和高度之间的小值与两者间的大值的比值；$

2)跳变行平均跳变次数 $>>>m>wv>>=>>>n>wpv>>>n>wv>>>,>>s>对行而言，所有的跳变像素数与所有的跳变行数的比值；$

3)跳变列平均跳变次数 $>>>m>hv>>=>>>n>hpv>>>n>hv>>>,>>s>对列而言，所有的跳变像素数与所有的跳变列数的比值；$

4)行跳变像素密度 $>>>ρ>wpv>>=>>>n>wpv>>>n>p>>>,>>s>对行而言，所有的跳变像素数与该子层图像包含的总像素数的比值；$

5)列跳变像素密度 $>>>ρ>hpv>>=>>>n>hpv>>>n>p>>>,>>s>对列而言，所有的跳变像素数与该子层图像包含的总像素数的比值；$

6)跳变行密度 $>>>ρ>wv>>=>>>n>wv>>>n>w>>>,>>s>所有的跳变行数与当前子层图像包含的总行数的比值；$

7)跳变列密度 $>>>ρ>hv>>=>>>n>hv>>>n>h>>>,>>s>所有的跳变列数与当前子层图像包含的总列数的比值；$

8)孔洞行密度 $>>>ρ>wh>>=>>>n>wh>>>n>w>>>,>>s>所有的包含孔洞像素的行数与当前子层图像包含的总行数的比值；$

9)外跳变行密度 $>>>ρ>wov>>=>>>n>wov>>>n>wv>>>,>>s>所有包含外跳变像素(一个或者两个)行的总数与当前子层图像包含的总行数的比值；$

10)双外跳变行密度 $>>>ρ>wbov>>=>>>n>wbov>>>n>wv>>>,>>s>所有包含两个外跳变像素行的总数与当前子层图像包含的总行数的比值。$

这里，n_wpv为总跳变行包含的跳变像素数(即水平方向上所有的跳变像素数)，n_hpv为总跳变列包含的跳变像素数(即垂直方向上所有的跳变像素数)，n_w为总行数，n_h为总列数，n_wv为总跳变行数(即跳变行的总个数)，n_hv为总跳变列数(即跳变列的总个数)，n_wh为包含孔洞像素的行数(即孔洞行的总个数)，n_wov为包含外跳变像素的行数(即外跳变行的总个数)，n_wbov为包含两个外跳变像素的行数(即双外跳变行的总个数)。

令n_ph表示当前子层图像的孔洞像素点总数，n_piv表示当前子层图像的内跳变像素点总数。

分割步骤为两大步，第一步为粗分割，第二步为细分割。

粗分割的过程为，先寻找该子层图像的所有连通区域，然后根据以下规则滤除子层图像中的所有非文本连通区域：

1)对于所有连通区域，满足以下条件之一者，则滤除：

A)如果max(w_i，h_i)＜a₁，则滤除。

B)如果max(m_wv，m_hv)＞b₁₁且ρ_wov＜b₁₂，则滤除。

C)如果n_ph＞c₁，则滤除。

D)如果n_piv＜d₁₁且ρ_i＜d₁₂，则滤除。

E)如果n_hp＞e₁×n_p，则滤除。

F)如果r_wh＜f₁，则滤除。

G)如果ρ_i＜g₁，则滤除。

H)如果ρ_wh＞h₁，则滤除。

其中，0＜a₁＜30，b₁₁＞5，0.05＜b₁₂＜0.2，c₁＞20，d₁₁＞1，d₁₂＞0.5，0.05＜e₁＜0.3，0＜f₁＜0.3，0＜g₁＜0.3，h₁＞0.2。

2)对于max(w_i，h_i)＞k₂×max(l_w，l_h)的连通区域，满足以下条件之一者，则滤除：

A)如果min(ρ_wv，ρ_hv)＜a₂，则滤除。

B)如果r_wh＜b₂，则滤除。

C)如果ρ_i＜c₂，则滤除。

其中，k₂＞0.6，0.3＜a₂＜0.8，0.4＜b₂＜0.6，0.2＜c₂＜0.5。

3)对于max(w_i，h_i)＜k₃的连通区域，满足以下条件之一者，则滤除：

A)如果max(ρ_wpv，ρ_hpv)＜a₃，则滤除。

B)如果n_p＜b₃，则滤除。

C)如果n_hp＞c₃，则滤除。

其中，10＜k₃＜30，0.6＜a₃＜1，0＜b₃＜30，c₃＞10。

对各子层图像经过上述分割后，合并分割结果得到文本分割图像。

对以上分割方法获得的文本图像，还可以进一步进行分割，其分割的步骤为：

1)对于ρ_i≥k₄的连通区域，满足r_wh＞a₄₁且max(ρ_wv，ρ_hv)＜a₄₂，则滤除；

其中，k₄＞0.95，a₄₁＞0.1，0.3＜a₄₂＜0.6。

2)对于k₅₁≤ρ_i＜k₅₂的连通区域，满足以下条件之一者，则滤除：

A)如果r_wh≤a₅₁，则滤除；

B)如果r_wh＞b₅₁且max(ρ_wv，ρ_hv)＜b₅₂，则滤除；

C)如果c₅₁≤r_wh≤c₅₂且max(ρ_wv，ρ_hv)＜c₅₃，则滤除；

D)如果d₅₁≤r_wh≤d₅₂，则滤除；

其中，0.8＜k₅₁＜0.95，0.95＜k₅₂＜1，0＜a₅₁＜0.1，b₅₁＞0.5，b₅₂＞0.5，0＜c₅₁＜0.1，0.1＜c₅₂＜0.3，c₅₃＞0.4，0.5＜d₅₂＜0.8，0.1＜d₅₁＜0.3。

3)对于k₆₁≤ρ_i＜k₆₂的连通区域，满足以下条件之一者，则滤除：

A)如果r_wh＞a₆₁且max(ρ_wpv，ρ_hpv)＜a₆₂且n_piv＜a₆₃，则滤除；

B)如果b₆₁＜r_wh＜b₆₂且max(ρ_vw，ρ_vh)＜b₆₃，则滤除；

C)如果r_wh＜c₆，则滤除；

其中，0.7＜k₆₁＜0.8，0.8＜k₆₂＜0.95，0.3＜a₆₁＜0.5，0.4＜a₆₂＜0.6，a₆₃＞1，0＜b₆₁＜0.2，0.2＜b₆₂＜0.4，0.6＜b₆₃＜1，0.05＜c₆＜0.2。

4)对于k₇₁≤ρ_i＜k₇₂的连通区域，满足以下条件之一者，则滤除：

A)如果ρ_wbov＜a₇₁且n_ph＞a₇₂，则滤除；

B)如果ρ_i＞b₇₁且r_wh＞b₇₂且max(ρ_wv，ρ_hv)＞b₇₃且n_piv＜b₇₄，则滤除；

C)如果r_wh＜c₇，则滤除；

其中，0.4＜k₇₁＜0.6，0.6＜k₇₂＜0.8，0.1＜a₇₁＜0.3，a₇₂＞15，0.5＜b₇₁＜0.7，0.6＜b₇₂＜0.8，b₇₃＞0.7，b₇₄＞1，0.05＜c₇＜0.2。

5)对于k₈₁≤ρ_i＜k₈₂的连通区域，满足以下条件之一者，则滤除：

A)如果r_wh＞a₈₁且max(ρ_wv，ρ_hv)＜a₈₂，则滤除；

B)如果r_wh≤b₈，则滤除；

其中，0.1＜k₈₁＜0.3，0.3＜k₈₂＜0.6，a₈₁＞0.1，0.2＜a₈₂＜0.5，0.1＜b₈＜0.3。

本发明中的连通区域可以是4连通区域，也可以是8连通区域。

本发明对复杂背景的文档图像中汉字的提取不仅清晰而且完整，不受汉字之间颜色变化的影响。

附图说明

图1：系统整体流程框图

图2：测试输入的原始图像

图3：对图2的递归分层子图像

图4：对图3各层图像进行合并后的子层图像

图5：图2的最终分割结果

图6：测试输入的原始图像

图7：对图6的递归分层子图像

图8：对图7各层图像进行合并后的子层图像

图9：图6的最终分割结果

具体实施方式

根据图1配置本发明的实施例。本实施例中计算机为“清华同方微机，Intel(R)Celeron(R)CPU 3.20GHz，256M内存，80G硬盘”。采用VC++6.0编程实现。

具体实施方案为：

1、彩色图像转灰度图像方案：

若输入图像为彩色图像，则用如下公式转换：

Y＝0.299×R+0.587×G+0.144×B

其中，Y为转换后的灰度值，R、G、B分别为转换前的彩色图像的三个颜色分量，R代表红色，G代表绿色，B代表蓝色，其值均在[0，255]范围内。

2、递归分层方案：

设待分层图像的灰度值变化区间为[t₁，t₂](t₁＜t₂)，当δ_t＜c×m_t(c＝0.1)或者n_t＞d×n(d＝0.2)时，停止对此图像继续分层，否则，继续递归分层，其中，n为输入文档图像的像素点总数，n_t、m_t和δ_t分别为此区间像素总数、灰度均值和方差。当分出的所有子层均满足上述停止分层条件时，停止分层，并对分出的各子层递增排序。

3、子层合并方案：

对以边界值从小到大排列的初始子层从小到大逐个判断是否需要合并。对于待合并子层s_i，满足以下4个条件之一，即可合并：

(1)若n_ph＞a×n_p，则合并； (a＝0.1)

(2)若 $>>>n>rs>>>>bsup>>>×>n>>r>0sup>>>s>且n$ _r max p＜c×n_p，则合并； (b＝0.9，c＝0.15)

(3)若n_ps＞d×n_p，则合并； (d＝0.5)

(4)若n_ρs＞e×n_p，则合并。 (e＝0.6)

其中：N＝20，R＝0.3

计算 $>>>r>1>>=>>>min>>(sup>>n>r>>->1>sup>>,sup>>n>r>0sup>>)>>>>max>>(sup>>n>r>>->1>sup>>,sup>>n>r>0sup>>)>>>>,>>r>2>>=>>>min>>(sup>>n>r>1sup>>,sup>>n>r>0sup>>)>>>>max>>(sup>>n>r>1sup>>,sup>>n>r>0sup>>)>>>>,sup>>r>1>′sup>>=>>>n>r>sup>>n>r>>->1>sup>>>,sup>>r>2>′sup>>=>sup>>n>r>′sup>sup>>n>r>1sup>>>>s>$

若(r₁+r₁′)≤(r₂+r₂′)，则将s_i与s_i-1合并；若(r₁+r₁′)＞(r₂+r₂′)，则将s_i与s_i+1合并。

4、子层分割方案：

依次对各个子层图像进行分割，包括粗分割和细分割。下列步骤中粗分割包含第一至第三步，细分割包含第四至第八步。具体分割步骤为：

首先找出该层图像的所有连通区域，根据以下规则滤除非文本区域：

1)对于所有连通区域，满足以下条件之一者，则滤除：

A)如果max(w_i，h_i)＜a₁，则滤除。

B)如果max(m_wv，m_hv)＞b₁₁且ρ_wov＜b₁₂，则滤除。

C)如果n_ph＞c₁，则滤除。

D)如果n_piv＜d₁₁且ρ_i＜d₁₂，则滤除。

E)如果n_hp＞e₁×n_p，则滤除。

F)如果r_wh＜f₁，则滤除。

G)如果ρ_i＜g₁，则滤除。

H)如果ρ_wh＞h₁，则滤除。

其中，a₁＝4，b₁₁＝12，b₁₂＝0.15，c₁＝50，d₁₁＝2，d₁₂＝0.8，e₁＝0.1，f₁＝0.05，g₁＝0.2，h₁＝0.3。

2)对于max(w_i，h_i)＞k₂×max(l_w，l_h)的连通区域，满足以下条件之一者，则滤除：

A)如果min(ρ_wv，ρ_hv)＜a₂，则滤除。

B)如果r_wh＜b₂，则滤除。

C)如果ρ_i＜c₂，则滤除。

其中，k₂＝0.8，a₂＝0.5，b₂＝0.5，c₂＝0.4。

3)对于max(w_i，h_i)＜k₃的连通区域，满足以下条件之一者，则滤除：

A)如果max(ρ_wpv，ρ_hpv)＜a₃，则滤除。

B)如果n_p＜b₃，则滤除。

C)如果n_hp＞c₃，则滤除。

其中，k₃＝20，a₃＝0.8，b₃＝30，c₃＝20。

4)对于ρ_i≥k₄的连通区域，满足r_wh＞a₄₁且max(ρ_wv，ρ_hv)＜a₄₂，则滤除；

其中，k₄＝0.99，a₄₁＝0.2，a₄₂＝0.5。

5)对于k₅₁≤ρ_i＜k₅₂的连通区域，满足以下条件之一者，则滤除：

A)如果r_wh≤a₅₁，则滤除；

B)如果r_wh＞b₅₁且max(ρ_wv，ρ_hv)＜b₅₂，则滤除；

C)如果c₅₁≤r_wh≤c₅₂且max(ρ_wv，ρ_hv)＜c₅₃，则滤除；

D)如果d₅₁≤r_wh≤d₅₂，则滤除；

其中，k₅₁＝0.9，k₅₂＝0.99，a₅₁＝0.05，b₅₁＝0.7，b₅₂＝0.6，c₅₁＝0.05，c₅₂＝0.2，c₅₃＝0.5，d₅₁＝0.2 d₅₂＝0.7。

6)对于k₆₁≤ρ_i＜k₆₂的连通区域，满足以下条件之一者，则滤除：

A)如果r_wh＞a₆₁且max(ρ_wpv，ρ_hpv)＜a₆₂且n_piv＜a₆₃，则滤除；

B)如果b₆₁＜r_wh＜b₆₂且max(ρ_vw，ρ_vh)＜b₆₃，则滤除；

C)如果r_wh＜c₆，则滤除；

其中，k₆₁＝0.75，k₆₂＝0.9，a₆₁＝0.35，a₆₂＝0.5，a₆₃＝3，b₆₁＝0.1，b₆₂＝0.1，b₆₃＝0.8，c₆＝0.1。

7)对于k₇₁≤ρ_i＜k₇₂的连通区域，满足以下条件之一者，则滤除：

A)如果ρ_wbov＜a₇₁且n_ph＞a₇₂，则滤除；

B)如果ρ_i＞b₇₁且r_wh＞b₇₂且max(ρ_wv，ρ_hv)＞b₇₃且n_piv＜b₇₄，则滤除；

C)如果r_wh＜c₇，则滤除；

其中，k₇₁＝0.5，k₇₂＝0.75，a₇₁＝0.2，a₇₂＝25，b₇₁＝0.6，b₇₂＝0.7，b₇₃＝0.8，b₇₄＝3，c₇＝0.1。

8)对于k₈₁≤ρ_i＜k₈₂的连通区域，满足以下条件之一者，则滤除：

A)如果r_wh＞a₈₁且max(ρ_wv，ρ_hv)＜a₈₂，则滤除；

B)如果r_wh≤b₈，则滤除；

其中，k₈₁＝0.2，k₈₂＝0.5，a₈₁＝0.15，a₈₂＝0.3，b₈＝0.15。

待各层图像分割完毕后，对其结果进行合并(相加)，得到最终的分割图像。

5、综述：

按照以上的步骤对输入的文档图像进行处理。首先在递归分层时，将一幅文档图像分为了一系列同样大小的子图像，并根据子图像的像素灰度最大值递增排序。其次，对已排序的各子图像按合并准则进行合并，得到了利于文本分割的若干分层图像。然后，利用本发明规定的汉字特征对这些子层图像进行分割，并将分割结果合并，得到最终的文本分割图像。

利用本实施例中的方法，分别对图2、图6所示的原始图像进行了分割。其中，图2是24位彩色文档图像，水平方向224个像素，垂直方向129个像素。对图2的递归分层图像、合并后的子层图像、分割结果分别如图3、4、5所示。为了清楚显示，各个子层图像以及最终的分割结果图像中的像素颜色均改变为了黑色。本实施例对图2的处理中，所说的连通区域均是指4连通区域。

图6所示的原始图像为24位彩色文档图像，水平方向498个像素，垂直方向291个像素，对图6的递归分层图像、合并后的子层图像、分割结果分别如图7、8、9所示。为了清楚显示，各个子层图像以及最终的分割结果图像中的像素颜色均改变为了黑色。在对图6的处理中，所说的连通区域均是指8连通区域。

实验结果表明，本发明对复杂文档图像中汉字的提取，不仅清晰，而且完整。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于汉字特征的文档图像分割方法 [P] . 中国专利： CN100428268C . 2008.10.22
2. 一种基于文档混合特征的文档相似度判定方法和装置 [P] . 中国专利： CN107656909B . 2021.06.01
3. METHOD AND DEVICE FOR FEATURE EXTRACTION AND METHOD FOR IMAGE BASED LOCATION RECOGNITION USING THE SAME BY USING HIERARCHICAL IMAGE SEGMENTATION [P] . 韩国专利： KR20110016160A . 2011-02-17

机译：基于分层图像分割的特征提取方法和装置以及基于图像的位置识别方法
4. DOCUMENT CLASSIFICATION PROGRAM, SERVER AND METHOD BASED ON SENTENCE FEATURES AND PHYSICAL FEATURES OF DOCUMENT INFORMATION [P] . 日本专利： JP2012043285A . 2012-03-01

机译：基于文档信息的句子特征和物理特征的文档分类程序，服务器和方法
5. Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image [P] . 美国专利： US8036497B2 . 2011-10-11

机译：用于使用从特征点计算出的不变值来存储文档和/或图像的方法，程序和装置，以及基于存储的文档和/或图像来获取文档的方法，程序和装置