首页> 中国专利> 一种藏文古籍文档的行切分方法及系统

一种藏文古籍文档的行切分方法及系统

摘要

本发明公开一种藏文古籍文档的行切分方法及系统。该方法包括:获取藏文古籍文档版面处理后的二值图像;获取二值图像中文字区域每个连通域的重心坐标,生成坐标集合;一个连通域为二值图像中一个连通的字符笔划;获取坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个连通域;判断差值是否小于设定阈值;当差值小于设定阈值时,连接第i个重心坐标和第i+1个重心坐标,得到行连通域;获得行连通域的轮廓曲线;根据轮廓曲线,将二值图像中对应的像素映射至空白图像中,得到行切分后的图像。采用本发明的方法及系统,在切分某一行时将相邻两行有交错的部分,不会一起切分到目标行,大大提高了切分的效率。

著录项

  • 公开/公告号CN107944451A

    专利类型发明专利

  • 公开/公告日2018-04-20

    原文格式PDF

  • 申请/专利权人 西北民族大学;

    申请/专利号CN201711206538.8

  • 发明设计人 王维兰;周枫明;

    申请日2017-11-27

  • 分类号

  • 代理机构北京高沃律师事务所;

  • 代理人王戈

  • 地址 730000 甘肃省兰州市城关区西北新村1号数学与计算机科学学院

  • 入库时间 2023-06-19 05:05:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-24

    授权

    授权

  • 2018-05-15

    实质审查的生效 IPC(主分类):G06K9/34 申请日:20171127

    实质审查的生效

  • 2018-04-20

    公开

    公开

说明书

技术领域

本发明涉及古籍文档的自动化处理领域,特别是涉及一种藏文古籍文档的行切分方法及系统。

背景技术

藏文文献浩如烟海,其数量仅次于汉文文献,且形式多样,有木刻本、线装本、手抄本、铅印本以及壁画文字等等,具有很高的研究价值。其中藏文古籍乌金体,主要是通过木刻方式将乌金体藏文印制在纸上。这类古籍是珍贵的文化遗产,需要利用科学技术从不同的科学领域去分析与保护。众多方法中,利用计算机对古籍图像文档进行自动化处理是数字化保护很好的选择。然而,古籍文档的自动化处理面临众多的挑战,如文档图像的版面分析、行切分、字切分、识别以及检索等。

对于图像文档进行版面分析与处理后,进一步获取文本行即行切分是一个关键的步骤。而藏文古籍乌金体木刻版经书为人工篆刻,人为因素干扰严重,再通过特殊的藏纸印刷,加上油墨的干扰,木刻字体的风格与图像文档的质量等,增加了图像文本行切分的难度。藏文乌金体古籍字符的上元音与下元音(或叠加的最下边字符)缩短了行与行之间的距离,通常的投影或外接矩形框的办法无法实现行的切分,甚至有些行的上下字符粘连,使文本行切分更加困难。又由于年代久远、时常的翻阅、频繁的处理以及贮藏的条件限制,都会使纸质版的古籍受损,形成的图像文档通常质量较差,如:大量的噪声、断裂的笔画等,这些因素都使文本行切分的过程变得更加复杂。因此木刻版的图像版面分析以及行切分比印刷体文档更具有挑战性。

现有技术中,大量方法进行行切分时利用外接矩形框进行分割,但在相邻两行之间文字笔画有交错、粘连的部分时,利用一行的外接矩形框切分会使行的边界混乱,将不属于目标行的部分一起切分进来。如果再利用其他方法处理这种情况,会增加时间的消耗,使文档分析的效率低下。并且在相邻行之间的附加符号的归属问题上,又将引出新的问题,增加整个算法的时间复杂度。因此,现有的行切分方法的切分效率低。

发明内容

本发明的目的是提供一种藏文古籍文档的行切分方法及系统,以提高行切分的切分效率。

为实现上述目的,本发明提供了如下方案:

一种藏文古籍文档的行切分方法,所述方法包括:

获取藏文古籍文档版面处理后的二值图像;

获取所述二值图像中文字区域每个连通域的重心坐标,生成坐标集合;一个所述连通域为所述二值图像中一个连通的字符笔划;

获取所述坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个所述连通域;

判断所述差值是否小于设定阈值,得到第一判断结果;

当所述第一判断结果表示所述差值小于设定阈值时,连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域;所述行连通域上包括多个所述连通域和所述连通域的重心坐标;

获得所述行连通域的轮廓曲线;

根据所述轮廓曲线,将所述二值图像中对应的像素映射至空白图像中,得到行切分后的图像。

可选的,所述获取所述二值图像中文字区域每个连通域的重心坐标,生成坐标集合,具体包括:

对于第s行的第i个连通域,获得所述第i个连通域的轮廓;

利用公式获得所述轮廓的水平矩m10;其中I(x,y)表示所述第i个连通域的图像,M表示x纬度的最大取值,N表示y纬度的最大取值;

利用公式获得所述轮廓的垂直矩m01

利用公式获得所述轮廓的面积m10

利用公式确定所述轮廓的重心的横坐标xi,s和纵坐标yi,s,得到所述第i个连通域的重心坐标(xi,s,yi,s);

依次获得所有连通域的重心坐标,生成坐标集合。

可选的,所述当所述第一判断结果表示所述差值小于设定阈值时,连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域之后,还包括:

获得所述坐标集合中不在所述行连通域上的重心坐标对应的孤立点;

获取所述孤立点到所述行连通域上的重心坐标的距离值;

将最小距离值对应的重心坐标与所述孤立点连接,获得更新后的行连通域。

可选的,所述确定所述行连通域的轮廓曲线,具体包括:

确定所述二值图像的背景区域像素值为0,所述行连通域的像素值为1;

依次遍历所述二值图像中的像素点,获得所述二值图像的第k个像素点(x,y);

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的左邻域(x-1,y)、右邻域(x+1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的上邻域(x,y-1)、左邻域(x-1,y)的像素值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)、右邻域(x+1,y)像素灰度值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的右邻域(x+1,y)、左邻域(x-1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的下邻域(x,y+1)、上邻域(x,y-1)像素值分别为0、1,或者所述第k个像素点(x,y)的左邻域(x-1,y)像素灰度值为1,或者所述第k个像素点(x,y)的右邻域(x+1,y)像素灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

连接所有被标记的像素点获得所述行连通域在所述二值图像中的轮廓曲线。

可选的,所述确定所述行连通域的轮廓曲线之后,还包括:

根据所述被标记的像素点生成标记点集合,每个标记点集合中的被标记的像素点的纵坐标相同;

确定每个所述标记点集合中被标记的像素点的个数;

获得个数最多的标记点集合;

按照横坐标的大小连接所述个数最多的标记点集合中的被标记的像素点,得到所述行连通域的基线。

可选的,所述根据所述轮廓曲线,将所述二值图像中对应的像素映射至空白图像中,得到行切分后的图像,具体包括:

获得所述轮廓曲线中每个像素点对应的坐标点集合;

按照横坐标的大小顺序对所述坐标点集合中的坐标点进行排序,获得第一坐标点集合;

对所述第一坐标点集合中的横坐标相同的坐标点,按照纵坐标的大小顺序进行排序,获得第二坐标点集合;

将所述第二坐标点集合中的坐标点映射至空白图像所对应的坐标位置,生成映射后的文本行文档;

对所述文本行文档求外接矩形框,生成切分后的文本行图像。

一种藏文古籍文档的行切分系统,所述系统包括:

二值图像获取模块,用于获取藏文古籍文档版面处理后的二值图像;

坐标集合获取模块,用于获取所述二值图像中文字区域每个连通域的重心坐标,生成坐标集合;一个所述连通域为所述二值图像中一个连通的字符笔划;

差值获取模块,用于获取所述坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个所述连通域;

第一判断模块,用于判断所述差值是否小于设定阈值,得到第一判断结果;

行连通域获取模块,当所述第一判断结果表示所述差值小于设定阈值时,用于连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域;所述行连通域上包括多个所述连通域和所述连通域的重心坐标;

轮廓曲线确定模块,用于获得所述行连通域的轮廓曲线;

行切分后的图像获取模块,用于根据所述轮廓曲线,将所述二值图像中对应的像素映射至空白图像中,得到行切分后的图像。

可选的,所述坐标集合获取模块具体包括:

轮廓获取单元,用于对于第s行的第i个连通域,获得所述第i个连通域的轮廓;

水平矩获取单元,用于利用公式获得第s行的第i个连通域的轮廓的水平矩m10;其中I(x,y)表示所述第i个连通域的图像,M表示x纬度的最大取值,N表示y纬度的最大取值;

垂直矩获取单元,用于利用公式获得第s行的第i个连通域的轮廓的垂直矩m01

面积获取单元,用于利用公式获得第s行的第i个连通域的轮廓的面积m10

重心坐标获取单元,用于利用公式确定第s行的第i个连通域的轮廓的重心的横坐标xi,s和纵坐标yi,s,得到所述第i个连通域的重心坐标(xi,s,yi,s);

坐标集合生成单元,用于依次获得所有连通域的重心坐标,生成坐标集合。

可选的,所述系统还包括:

孤立点获取模块,用于当所述第一判断结果表示所述差值小于设定阈值时,连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域之后,获得所述坐标集合中不在所述行连通域上的重心坐标对应的孤立点;

距离值获取模块,用于获取所述孤立点到所述行连通域上的重心坐标的距离值;

更新后的行连通域获取模块,用于将最小距离值对应的重心坐标与所述孤立点连接,获得第一更新后的行连通域。

可选的,所述轮廓曲线确定模块,具体包括:

像素值确定单元,用于确定所述二值图像的背景区域像素值为0,所述行连通域的像素值为1;

第k个像素点获取单元,用于依次遍历所述二值图像中的像素点,获得所述二值图像的第k个像素点(x,y);

像素点标记单元,用于当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的左邻域(x-1,y)、右邻域(x+1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的上邻域(x,y-1)、左邻域(x-1,y)的像素值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)、右邻域(x+1,y)像素灰度值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的右邻域(x+1,y)、左邻域(x-1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的下邻域(x,y+1)、上邻域(x,y-1)像素值分别为0、1,或者所述第k个像素点(x,y)的左邻域(x-1,y)像素灰度值为1,或者所述第k个像素点(x,y)的右邻域(x+1,y)像素灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

轮廓曲线获得单元,用于连接所有被标记的像素点获得所述行连通域在所述二值图像中的轮廓曲线。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

(1)不需要判断文本行的方向,对行不做倾斜矫正,行作为一个整体一次性切分;(2)避免了矩形框切分带来的越界或错切分的问题;(3)能够解决相邻行之间的文字笔划在水平方向投影后产生的重叠而无法用直线进行行切分的问题;(4)具有在文本行清洗或除噪的作用,将所标记的每行轮廓曲线内的像素信息映射到空白图像中从而切分出的行,过滤掉了原有文档图像中的一些污点,这有利于进一步的字切分。

本发明可以将文档图像中的行切分出来,并且得出比较好的结果。用曲线轮廓对行进行切分,在切分某一行时将相邻两行有交错的部分,不会一起切分到目标行,大大提高了切分的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明藏文古籍文档的行切分方法的流程图;

图2为本发明藏文古籍文档的行切分系统的结构图;

图3为本发明具体实施方式的二值图像;

图4为本发明具体实施方式的重心坐标分布图;

图5为本发明具体实施方式的重心坐标连线与孤立点示意图;

图6为本发明具体实施方式的行连通域示意图;

图7为本发明具体实施方式的孤立点归属后的重心坐标连线示意图;

图8为本发明具体实施方式的孤立点归属后的行连通域示意图;

图9为本发明具体实施方式的音节点归属后的行连通域示意图;

图10为本发明具体实施方式的行连通域的轮廓曲线;

图11为本发明具体实施方式的切分后的文本图像;

图12为本发明具体实施方式的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明藏文古籍文档的行切分方法的流程图。如图1所示,所述方法包括:

步骤100:获取藏文古籍文档版面处理后的二值图像。

步骤200:获取二值图像中每个连通域的重心坐标,生成坐标集合;一个所述连通域为所述二值图像中一个连通的字符笔划。

将文档中每个字符、相粘连的字符或者一个单独的笔划同样作为一个连通域,求出每个连通域的轮廓,通过对轮廓上所有点求和运算,可以得到轮廓的一个粗略特征。我们用图像矩计算闭合区域(轮廓)即连通域的重心。轮廓的(p+q)阶矩可以由公式求得,其中p,q=0,1,2,3,…。p对应x纬度上的矩,q对应y纬度上的矩,I(x,y)表示字符或字符粘连块图像,即连通域的图像,M表示x纬度的最大取值,N表示y纬度的最大取值。对于二值化图像中的任一连通域,当p=1,q=0时,即轮廓矩的水平矩m10,利用公式获得所述轮廓的水平矩m10;当p=0,q=1时,利用公式获得所述轮廓的垂直矩m01;当p=0,q=0时,利用公式获得所述轮廓的面积m10;利用公式确定所述轮廓的重心的横坐标xi,s和纵坐标yi,s,得到所述第i个连通域的重心坐标(xi,s,yi,s);每行包括多个连通域,依次获得所有行的所有连通域的重心坐标,生成坐标集合。

步骤300:获取同一行中相邻连通域的重心坐标的纵坐标的差值。此处获取的是坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个所述连通域;

步骤400:判断差值是否小于设定阈值。通常设定阈值为两个行之间的距离,当两个连通域的纵坐标之差大于设定阈值时,那么两个连通域可能属于不同的文本行。

步骤500:连接两个相邻的重心坐标,得到行连通域。当差值小于设定阈值时,连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域;所述行连通域上包括多个所述连通域和所述连通域的重心坐标。

定义变量l为两个行连通域之间的距离,为第s行纵坐标的平均值,为第s-1行纵坐标的平均值。纵坐标的平均值和两行之前的距离分别由下式计算:

令连接相邻字符重心的直线为Lab,已知两点的坐标,求经过两点直线Lab的方程如式所示:Lab:y=ax+b>c-yc-1<l)。

在乌金体藏文古籍图像文档中,行与行之间的距离总是在某一个值l的左右,连接这些满足条件的重心点形成一个折线行,而当两个重心点的纵坐标之差的绝对值超过l的时候,不连接这两点,那些没有被连接的点,暂时称其为孤立点。此时形成的行连通域包括由符合条件的重心坐标连接成的折线,还包括初始字符笔划形成的各个连通域。

对于没有归到行连通域的孤立点,一般都是藏文字丁的上元音、下元音或字丁的叠加字符中最下边的字符,需要将所有孤立点归属到相应的文本行。

获得所述坐标集合中不在所述行连通域上的重心坐标对应的孤立点;

获取所述孤立点到所述行连通域上的重心坐标的距离值;

将最小距离值对应的重心坐标与所述孤立点连接,获得更新后的行连通域。

假设孤立点之外的其他重心点总数为H,h=1,2,…,H,通过判断孤立重心点T(xg,yg)到其余各重心点的距离大小来决定其归属。距离的计算如下式所示:dist_h=|xg-xh|+|yg-yh|。

比较这些距离大小,根据获得最小距离值。

将距离值最小的重心点与孤立点T(xg,yg)连接,则T(xg,yg)归属到所连接的行连通域。遍历计算每一个孤立点到其他重心点的最小距离,将它们归属到相应的连通域。

步骤600:获得行连通域的轮廓曲线。具体包括以下步骤:

确定所述二值图像的背景区域像素值为0,所述行连通域的像素值为1;

依次遍历所述二值图像中的像素点,获得所述二值图像的第k个像素点(x,y);

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的左邻域(x-1,y)、右邻域(x+1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的上邻域(x,y-1)、左邻域(x-1,y)的像素值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)、右邻域(x+1,y)像素灰度值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的右邻域(x+1,y)、左邻域(x-1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的下邻域(x,y+1)、上邻域(x,y-1)像素值分别为0、1,或者所述第k个像素点(x,y)的左邻域(x-1,y)像素灰度值为1,或者所述第k个像素点(x,y)的右邻域(x+1,y)像素灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

连接所有被标记的像素点获得所述行连通域在所述二值图像中的轮廓曲线。

在乌金体藏文古籍的二值化图像文档中,设置背景区域的像素值为0,目标区域的像素值为1。从上到下、从左往右依次遍历文档的二值图像,直到遇到连通区域的一个点,以它为起始点,跟踪外边界并予以标记。首先判断外边界像素点四邻域像素灰度值是否存在为0的像素点,如果像素灰度值为0,则将对应的原图像文档的外边界标记为红色,最后形成红色的轮廓线。重复上述操作,将标记出图像中所有连通域的外边界。

令f(x,y)为原二值化图像,f'(x,y)为轮廓跟踪图像。遍历轮廓跟踪图像f'(x,y),判断目标像素点四邻域像素信息并予以标记。轮廓曲线跟踪算法如下:

Step 1.当被遍历像素点的灰度值为1,且它的左邻域、右邻域像素灰度值分别为0、1时,在f(x,y)中标记与被遍历点坐标对应的像素点。

Step 2.当被遍历像素点的灰度值为1,且它的上邻域、左邻域像素灰度值分别为0、1,或者它的上邻域、右邻域像素灰度值分别为0、1,在f(x,y)中标记与被遍历点坐标对应的像素点。

Step 3.当被遍历像素点的灰度值为1,且它的右邻域、左邻域像素灰度值分别为0、1时,在f(x,y)中标记与被遍历点坐标对应的像素点。

Step 4.当被遍历像素点的灰度值为1,且它的下邻域、上邻域像素灰度值分别为0、1,在f(x,y)中标记与被遍历点坐标对应的像素点。

获得行连通域的轮廓曲线之后,需要归属音节点:

根据所述被标记的像素点生成标记点集合,每个标记点集合中的被标记的像素点的纵坐标相同;

确定每个所述标记点集合中被标记的像素点的个数;

获得个数最多的标记点集合;

按照横坐标的大小连接所述个数最多的标记点集合中的被标记的像素点,得到所述行连通域的基线。

藏文文字是一种拼音文字,字与字之间以音节点为界。对文本行切分时,音节点应该在行所在的连通域中,否则行切分就没有实际意义。由于音节点的轮廓曲线不在一行的连通域轮廓曲线内,也就是说音节点没有被归属到行所在的连通域中。

藏文每个文本行的音节点与字丁的基线几乎都在同一水平线上,即行的基线位置。利用一条贯穿整行的直线将行中的音节点与之重叠,可以达到将音节点包括到行所在连通域中的目的。于是对孤立点归属后图像文档每行的连通域检测基线位置并找出基线,详细算法如下:

Step 1.跟踪孤立点归属后二值图像行连通域的外边界轮廓曲线,得到构成曲线所有点的集合V1;

Step 2.对点集合V1中的所有纵坐标,按从小到大的顺序排序,得到集合V2;

Step 3.将V2中纵坐标相同值形成的点集合用V21,V22,…,表示,求出每个点集合中的个数NUM_V21,NUM_V22,…,以及这些个数的最大值NUM_max和对应的纵坐标Y值。

Step 4.遍历集合V1,根据Step 3中得到的Y值,得到NUM_max个坐标点以及按照横坐标从小到大顺序的点集合V3。

Step 6.遍历点集合V3,在孤立点归属后的行连通域图像上连接所有V3中的相邻点,进而得到乌金体藏文图像文本行的基线。

步骤700:根据轮廓曲线,将二值图像映射到空白图像中,生成行切分后的图像。具体过程为:

获得所述轮廓曲线中每个像素点对应的坐标点集合;

按照横坐标的大小顺序对所述坐标点集合中的坐标点进行排序,获得第一坐标点集合;

对所述第一坐标点集合中的横坐标相同的坐标点,按照纵坐标的大小顺序进行排序,获得第二坐标点集合;

将所述第二坐标点集合中的坐标点映射至空白图像所对应的坐标位置,生成映射后的文本行文档;

对所述文本行文档求外接矩形框,生成切分后的文本行图像。

根据上述算法跟踪已归属文本行关键部分的行连通域,求出轮廓曲线,遍历文档中文本行的轮廓曲线,将每行轮廓曲线内的像素信息映射到空白图像中,达到切分行的目的。切分步骤如下:

Step 1.遍历图像文档中文本行的轮廓曲线,得到构成曲线的点集合P1。

Step 2.对P1中的点的横坐标按从小到大的顺序进行排序。

Step 3.得到一组以横坐标为顺序的点集合P2,再对相同横坐标对应的纵坐标按从小到大的顺序进行排序,求出纵坐标的最大值与最小值。

Step 4.创建一张与原二值图像相同大小的空白图像。

Step 5.映射原二值化图像中(X,Ymin),…,(X,Ymax)坐标区间内的像素信息到空白图像所对应的坐标位置,将文档的每一行映射到空白图像中,跳转到Step1直到每行都被处理,跳转到下一步。

Step 6.对已映射的行求外接矩形框,完成文档文本行的切分。

图2为本发明藏文古籍文档的行切分系统的结构图。如图2所示,所述系统包括:

二值图像获取模块201,用于获取藏文古籍文档版面处理后的二值图像;

坐标集合获取模块202,用于获取所述二值图像中文字区域每个连通域的重心坐标,生成坐标集合;一个所述连通域为所述二值图像中一个连通的字符笔划;所述坐标集合获取模块202具体包括:

轮廓获取单元,用于对于第s行的第i个连通域,获得所述第i个连通域的轮廓;

水平矩获取单元,用于利用公式获得第s行的第i个连通域的轮廓的水平矩m10;其中I(x,y)表示所述第i个连通域的图像,M表示x纬度的最大取值,N表示y纬度的最大取值;

垂直矩获取单元,用于利用公式获得第s行的第i个连通域的轮廓的垂直矩m01

面积获取单元,用于利用公式获得第s行的第i个连通域的轮廓的面积m10

重心坐标获取单元,用于利用公式确定第s行的第i个连通域的轮廓的重心的横坐标xi,s和纵坐标yi,s,得到所述第i个连通域的重心坐标(xi,s,yi,s);

坐标集合生成单元,用于依次获得所有连通域的重心坐标,生成坐标集合。

差值获取模块203,用于获取所述坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个所述连通域;

第一判断模块204,用于判断所述差值是否小于设定阈值,得到第一判断结果;

行连通域获取模块205,当所述第一判断结果表示所述差值小于设定阈值时,用于连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域;所述行连通域上包括多个所述连通域和所述连通域的重心坐标;

轮廓曲线确定模块206,用于获得所述行连通域的轮廓曲线;所述轮廓曲线确定模块206,具体包括:

像素值确定单元,用于确定所述二值图像的背景区域像素值为0,所述行连通域的像素值为1;

第k个像素点获取单元,用于依次遍历所述二值图像中的像素点,获得所述二值图像的第k个像素点;所述第k个像素点为所述行连通域中的像素点(x,y);

像素点标记单元,用于当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的左邻域(x-1,y)、右邻域(x+1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的上邻域(x,y-1)、左邻域(x-1,y)的像素值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)、右邻域(x+1,y)像素灰度值分别为0、1,或者所述第k个像素点(x,y)的上邻域(x,y-1)灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的右邻域(x+1,y)、左邻域(x-1,y)的像素值分别为0、1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;当所述第k个像素点(x,y)的像素值为1,且所述第k个像素点(x,y)的下邻域(x,y+1)、上邻域(x,y-1)像素值分别为0、1,或者所述第k个像素点(x,y)的左邻域(x-1,y)像素灰度值为1,或者所述第k个像素点(x,y)的右邻域(x+1,y)像素灰度值为1时,在所述二值图像中标记与所述第k个像素点(x,y)坐标对应的像素点;

轮廓曲线获得单元,用于连接所有的被标记的像素点获得所述行连通域在所述二值图像中的轮廓曲线。

行切分后的图像获取模块207,用于根据所述轮廓曲线,将所述二值图像中对应的像素映射至空白图像中,得到行切分后的图像。

所述系统还包括:

孤立点获取模块,用于当所述第一判断结果表示所述差值小于设定阈值时,连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域之后,获得所述坐标集合中不在所述行连通域上的重心坐标对应的孤立点;

距离值获取模块,用于获取所述孤立点到所述行连通域上的重心坐标的距离值;

更新后的行连通域获取模块,用于将最小距离值对应的重心坐标与所述孤立点连接,获得第一更新后的行连通域。

具体实施方式:

图3为本发明具体实施方式的二值图像;如图3所示,图3为乌金体藏文二值文档图像,其行切分过程如下:

第一步,对图3文字区域每个连通域重心坐标的计算,重心点的分布图如图4所示,图4为本发明具体实施方式的重心坐标分布图。

第二步,连接相邻字符的重心点,使相连接字符形成新的连通域,连接各重心点如图5所示,图5为本发明具体实施方式的重心坐标连线与孤立点示意图;然后显示在原图像文本中,如图6所示,图6为本发明具体实施方式的行连通域示意图。

第三步,将所有重心孤立点连接到第二步形成的连通域折线上,如图7所示,图7为本发明具体实施方式的孤立点归属后的重心坐标连线示意图。结果中很多没有被归属的点是字丁在文本行中偏上或偏下位置处的重心点,但字丁已属于行连通域的一部分。

第四步,在原文档图像中显示孤立点的归属效果。如图8所示,图8为本发明具体实施方式的孤立点归属后的行连通域示意图。

第五步,归属字符之间及文本行结尾处的音节点,如图9所示,图9为本发明具体实施方式的音节点归属后的行连通域示意图。

第六步,跟踪图9中行连通域外边界,求出轮廓曲线,如图10所示,图10为本发明具体实施方式的行连通域的轮廓曲线。

第七步,根据图10中的轮廓曲线对乌金体藏文图像文本行进行切分,如图11所示,图11为本发明具体实施方式的切分后的文本图像,图11中a部分为第一行的切分图像,b部分为第二行的切分图像,c部分为第三行的切分图像,d部分为第四行的切分图像,e部分为第五行的切分图像,f部分为第六行的切分图像,g部分为第7行的切分图像,h部分为第8行的切分图像。

图12为本发明具体实施方式的流程示意图。本具体实施方式中,乌金体藏文古籍图像文本行切分的主要内容:(1)连接每行中相邻连通域的重心点,使每一行形成一个新的连通域;(2)求出该连通域的轮廓曲线;(3)归属音节点与重心点的孤立点,形成完整的行连通域;(4)求出行连通域的轮廓曲线;(5)根据行连通域的轮廓曲线,映射原二值图像中对应的像素到空白图像中,完成行切分。其中,归属音节点与归属孤立点均在获得行连通域的轮廓曲线之前,在具体实施时,归属音节点与获得行连通域的轮廓曲线的步骤无固定先后顺序,或者是在归属音节点之前和之后都需要获得行连通域的轮廓曲线,这样更为准确。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号