首页> 中国专利> 表格结构化方法、表格恢复设备及具有存储功能的装置

表格结构化方法、表格恢复设备及具有存储功能的装置

摘要

本申请公开了一种表格结构化方法、表格恢复系统以及具有存储功能的装置。本申请的表格结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化。

著录项

  • 公开/公告号CN112733855A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN202011615053.6

  • 申请日2020-12-30

  • 分类号G06K9/34(20060101);G06K9/32(20060101);G06K9/46(20060101);G06T7/13(20170101);G06T7/187(20170101);

  • 代理机构44280 深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人李申

  • 地址 230088 安徽省合肥市高新开发区望江西路666号

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本申请涉及光学字符识别文字检测与识别以及表格检测技术领域,特别是涉及一种表格结构化方法、表格恢复设备及具有存储功能的装置。

背景技术

在拍照和扫描图片的场景中,表格广泛存在于各种文档图片中。对表格结构和表格中的信息进行提取可有助于使用者对表格数据进行分析。对于规则的表格,表格结构信息的恢复相对简单,然后对于不规则的表格,采用规则表格结构化方法,由于单元格合并、表格残缺等原因,很难恢复表格信息。

当前表格检测的技术方案大多数都基于深度学习方案,即将表格线或者表格单元检测出来。然后基于检测出来的表格线或者表格单元进行表格结构信息的构建和恢复。然后基于深度学习方案受限于训练数据,导致无法准确的检测出表格中的所有单元格或者表格线。

发明内容

本申请主要解决的技术问题是提供一种表格结构化方法、表格恢复系统及具有存储功能的装置,解决现有的表格检测方案无法准成检测的检测出表格中的所有单元格或者表格线的问题。

为解决上述技术问题,本申请采用的一个技术方案是:提供一种表格结构化方法,该表格结构化方法包括:获取到待结构化图像,提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的对应的包围框的顶点的位置信息;以及获取到边框轮廓的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。

其中,待结构化图像为至少一个;获取到边框轮廓对应的包围框的顶点的位置信息;以及获取到边框轮廓的顶点的位置信息的步骤包括:获取到各边框轮廓对应的包围框的顶点的位置信息;以及获取到各边框轮廓的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵的步骤,包括:利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到各边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正的步骤包括:通过变换矩阵对各边框轮廓的单元格的位置信息进行校正;利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格。

其中,获取到边框轮廓对应的包围框的顶点的位置信息的步骤,包括:将表格边框的最小外接边框进行旋转,得到最小外接边框旋转后的边框轮廓对应的包围框,并获取边框轮廓对应的包围框的顶点的位置信息。其中,将表格边框的最小外接边框进行旋转,得到最小外接边框旋转后的边框轮廓对应的包围框,并获取边框轮廓对应的包围框的顶点的位置信息的步骤,包括:将表格边框的最小外接斜矩形进行旋转,得到矩形的包围框,并获取矩形的包围框的顶点的位置信息。

其中,利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格的步骤,包括:利用校正后的单元格的位置信息以及边框轮廓的位置关系计算校正后的单元格与边框轮廓的重叠部分的面积的比值;判断比值是否大于第一预设值,若大于第一预设值则确定单元格属于表格;若否,则单元格不属于表格。

其中,获取到边框轮廓的顶点的位置信息以及获取到边框轮廓对应的包围框的顶点的位置信息的步骤具体包括:通过多边形拟合的方式和直线检测的方式分别获取对应边框轮廓的顶点的位置信息。

其中,获取到边框轮廓对应的包围框的顶点的位置信息之后的步骤:将多边形拟合的方式和直线检测的方式分别获取对应边框轮廓的顶点的位置信息分别映射到边框轮廓对应的包围框的顶点的位置信息上,并计算出对应的变换矩阵;根据对应的变换矩阵对表格边框的轮廓点进行透视变换得到表格边框的轮廓点对应的外接边框;计算表格边框的轮廓点对应的外接边框的倾斜角平均值;根据倾斜角平均值选择多边形拟合的方式或直线检测的方式以获取边框轮廓的顶点的位置信息。

其中,通过多边形拟合的方式和直线检测的方式获取边框轮廓的顶点的位置信息的步骤具体包括:通过二分法获得连通域的顶点的位置信息,将连通域的顶点的位置信息作为边框轮廓的顶点。

其中,通过多边形拟合的方式和直线检测的方式获取边框轮廓的顶点的位置信息的步骤还包括:通过边缘检测识别连通域的边框;通过霍夫变换检测连通域的边框中的线条;根据线条的斜率判断任意两条线条是否属于同一边线,若否,则求出两条线条的交点,重复上述步骤得到交点形成的点集;根据点集构建点集的外接边框,计算点集中距离外接边框端点最接近的点,将最接近的点作为边框轮廓的顶点。

其中,基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条的步骤具体还包括:计算校正后的每个单元格的外接边框的位置信息,根据校正后的每个单元格的外接边框形的位置信息将校正后的每个单元格的外接边框的位置信息拆分为多条线条,其中,每条线条用2个端点进行表示,多条线条包括沿水平方向和沿竖直方向的线条;重复上一步骤以获得线条的水平线条集合与竖直线条集合;选取任意线条,获取线条的两个端点坐标,分别计算与该端点最接近的点及其距离,判断距离是否小于第一误差值,若小于第一误差值,则停止计算;将过滤后的线条进行合并,得到网格线条。

其中,基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条的步骤具体还包括:计算校正后的的每个单元格的外接边框的位置信息,根据校正后的每个单元格的外接边框的位置信息获取每个单元格的外接边框的多条线条的中点坐标,其中,水平线条的中点坐标的集合为水平线条中心坐标集合,竖直线条的中点坐标的集合为竖直线条中心坐标集合;遍历水平线条中心坐标集合和竖直线条中心坐标集合,比较每个值与近邻值的差值是否小于第二误差值,若小于第二误差值,则标记两者有相同的标签,否则添加新标签;计算各类标签的均值,得到优化后的水平线条中心坐标均值集合和竖直线条中心坐标均值集合,根据优化后的水平线条中心坐标均值集合和竖直线条中心坐标均值集合进行网格划分,得到网格线条。

为解决上述技术问题,本申请采用的一个技术方案是:提供一种表格恢复设备,包括相互耦接的处理器和存储器,其中,处理器用于执行存储器存储的计算机程序以执行上述任一项的表格结构化方法

为解决上述技术问题,本申请采用的又一个技术方案是:提供一种具有存储功能的装置,存储有程序数据,程序数据能够被处理器执行以实现如上述任一项的表格结构化方法。

本申请的有益效果是:区别于现有技术的情况,本申请提供的表格结构化,该表格结构化方法通过提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的顶点的位置信息;以及获取到边框轮廓对应的包围框的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。本申请的结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请提供的表格结构化方法的第一实施例的流程示意图;

图2是本申请提供的表格结构化方法的第二实施例的流程示意图;

图3是本申请提供的表格恢复设备的一实施例的结构示意图;

图4是本申请提供的具有存储功能的装置的一实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。

请参阅图1,图1是本申请提供的表格结构化方法的第一实施例的流程示意图。

步骤S101:获取到待结构化图像,提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。

在本实施例中,在拍摄到图像或者扫描图片后,从拍摄到的图像或者扫描的图片中获取待结构化的图像,从获取到的待结构化图像提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。其中,文字的位置信息包括文字区域的位置和文字区域的大小等,多个单元格的位置信息包括各个单元格的位置、各个单元格的大小等。

步骤S102:对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓。

在本实施例中,在提取到待结构化图像的多个单元格的位置信息后,对多个单元格进行扩张,进一步得到每个单元格的的位置信息,再次对多个单元格进行第二次扩张,使多个单元格之间相互进行交叠,形成交叠区域,对该交叠区域进行连通域计算,得到待结构化图像的表格的边框轮廓。

步骤S103:获取到边框轮廓对应的包围框的顶点的位置信息。

根据上述步骤中的连通域,计算出表格边框的最小外接边框,并对表格边框轮廓的最小外接边框进行旋转,使其对正,获得边框轮廓的对应的包围框,并获取该包围框的顶点的位置信息。一般情况下,表格的外轮廓都是矩形的。因此,在该表格的外轮廓是矩形时,该最小外接边框为最小外接矩形如最小外接斜矩形,并将该最小外接斜矩形进行旋转,使其对正,得到一个矩形的包围框。

步骤S104:获取到边框轮廓的顶点的位置信息。

在本实施例中,在自然场景中,由于表格复杂性,获取到的表格区域通常不是正矩形,而是带有一定的倾斜角度、旋转角度和畸变等,同时,不能保证神经网络模型能够100%检测出所有的单元格,经常会出现漏缺单元格的现象,此时的表格区域经常会缺一角。因此,在获取边框轮廓的位置信息时,同时采用多边形拟合的方式和直线检测的方式对表格的边框轮廓的顶点进行检测。

具体地,采用多边形拟合的方式,通过二分法获得步骤S102中连通域的顶点的位置信息,并将该连通域的顶点的位置信息作为边框轮廓的顶点的位置信息,以连通域为矩形为例来说,通过二分法获得连通域的4个顶点的位置信息,并将该连通域的4个顶点的位置信息作为边框轮廓的顶点的位置信息。

进一步地,采用直线检测的方式,首先通过边缘检测识别步骤S102中连通域的各表格边框,再通过霍夫变换检测各表格边框中的边线,其中,表格边框的每条边线上检测出至少一条线条,根据各表格边框中的线条的斜率判断任意两条线条是否在同一条边线上,若任意两条线条在同一边线上则跳过,否则求出两条线条的交点,反复上述过程直至求出所有线条的交点,并将所有线条的交点合并为点集P;构建点集P的外接边框,并计算点集P中距离外接边框端点最接近的点,则确定该点集P中距离外接边框端点最接近的点为边框轮廓的顶点。例如,如果连通域为矩形或者近似矩形,则该外接边框为外接斜矩阵,外接边框的端点为4个,计算点集P中距离外接斜矩阵端点最接近的点,则确定该点集P中距离外接斜矩阵端点最接近的点为边框轮廓的4个顶点。

在不同的自然场景的图片中,上述两种方式寻找到的顶点的精确度并不一致,还需进一步判断在对应场景中哪一种方式寻找到的顶点的准确度更高,以确定采用多边形拟合的方式或直线检测的方式获取的边框轮廓的顶点的位置信息进行后续计算。

具体地,在获取到边框轮廓对应的包围框的顶点的位置信息后,将通过多边形拟合的方式和直线检测的方式获取的边框轮廓的顶点的位置信息映射到边框轮廓对应的包围框的顶点的位置信息上,计算出对应的变换矩阵,再通过对应的变换矩阵对边框轮廓的位置信息进行透视变换。

其中,边框轮廓的位置信息包括边框轮廓的各轮廓点的位置信息,计算经过透视变换后多边形拟合方式和直线检测的方式对应轮廓的外接边框的倾斜角平均值,并比较多边形拟合方式和直线检测的方式对应轮廓的外界斜矩形的倾斜角平均值中倾斜角平均值更低,对应方式寻找的顶点的准确度更高,选择倾斜平均值更低的方式得到的边框轮廓的顶点的位置信息进行后续计算。即当通过多边形拟合的方式得到的边框轮廓的外接边框的倾斜角平均值更低时,则选取多边形拟合的方式得到的边框轮廓的顶点的位置信息进行后续计算;当通过直线检测的方式得到的边框轮廓的外接边框的倾斜角平均值更低时,则选取直线检测的方式得到的边框轮廓的顶点的位置信息进行后续计算。以该外接边框为外接斜矩形为例来说,即当通过多边形拟合的方式得到的边框轮廓的外接斜矩形的倾斜角平均值更低时,则选取多边形拟合的方式得到的边框轮廓的4个顶点的位置信息进行后续计算;当通过直线检测的方式得到的边框轮廓的外接斜矩形的倾斜角平均值更低时,则选取直线检测的方式得到的边框轮廓的4个顶点的位置信息进行后续计算。

步骤S105:利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵。

在本实施例中,在计算得到边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置关系后,将边框轮廓的顶点的位置信息映射到其对应的包围框的顶点的位置信息以得到边框轮廓的变换矩阵。例如,以外接边框为外接斜矩形,边框轮廓对应的包围框为矩形为例,在计算得到外接斜矩形的4个顶点的位置信息以及边框轮廓对应的矩形的包围框的4个顶点的位置信息后,将外接斜矩形的4个顶点的位置信息映射到矩形的包围框的4个顶点的位置信息,从而得到边框轮廓的变换矩阵。

步骤S106:通过变换矩阵对边框轮廓的单元格的位置信息进行校正。

在本实施例中,在得到边框轮廓的变换矩阵后,通过变换矩阵对边框轮廓进行透视变换,从而将边框轮廓进行校正。具体地,通过变换矩阵对边框轮廓的所有轮廓点进行透视变换,将边框轮廓进行校正,同时通过变换矩阵对多个单元格的轮廓点进行透视变换,将单元格进行校正,从而完成对表格的校正。

步骤S107:基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条。

在本实施例中,为了进一步结构化待结构化图像,需要划分网格,以校正后的每个单元格的外接边框为外接斜矩形为例,为了获得高精度化的表格信息,还需对多个单元格进行如下处理:计算校正后的每个单元格的外接斜矩形的位置信息,根据每个单元格的外接斜矩形的位置信息获取每个单元格的外接斜矩形的4个端点,从而将每个单元格的外接斜矩形拆分为4条线条,其中,每条线条用2个端点进行表示,4条线条包括分别沿水平方向和沿竖直方式的线条各2条;重复上一步骤以获得所有线条的水平线条集合Lh与竖直线条集合Lv;在水平线条集合Lh与竖直线条集合Lv中,选取任意线条,选择该线条的2个端点坐标,分别计算与该端点最接近的点及其距离,判断该距离是否小于误差值,若小于误差值,则确定该线条与最接近的点所在的线条相连接,并将该线条与最接近的点所在的线条合并成一条线条;若大于误差,则停止计算;重复上述步骤,根据误差值过滤重复的线条;将过滤后的线条进行合并,得到网格线条。

在本实施例中,当待结构化图像为至少一个时,进一步地,利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格。

步骤S108:将网格线条与单元格进行映射,得到表格的结构化图像。

在本实施例中,根据多个单元格的位置信息将每个单元格再次拆分为4条线条,并将网格线条与每个单元格拆分的4条线条进行映射,从而得到表格的结构化图像。

步骤S109:利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。

在本实施例中,利用文字的位置信息确定对应的结构化图像的位置,将文字的位置信息映射到对应结构化图像上对应的位置上,从而得到待结构化图像的表格的结构化信息。

在本实施例中,得到待结构化图像的表格的结构化信息后,根据信息提取模块提取的文字的位置信息和待结构化图像的表格的结构化信息,对表格进行还原,将还原后的表格导出Excel或Word等文档格式。

区别于现有技术的情况,本实施例提供的表格结构化方法,该表格结构化方法通过提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的顶点的位置信息;以及获取到边框轮廓对应的包围框的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。本申请的结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化信息。

请参阅图2,图2是本申请提供的表格结构化方法的第二实施例的流程示意图。

步骤S201:获取到待结构化图像,提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。

在本实施例中,在拍摄到图像或者扫描图片后,从拍摄到的图像或者扫描的图片中获取待结构化的图像,通过深度学习的方法提取到的待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。具体地,通过resNet,hrNet或DBNet网络等深度学习方法提取到待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息,优选的,采用DBNet网络算法提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。其中,待结构化图像为至少一个,文字的位置信息包括文字区域的位置和文字区域的大小等,多个单元格的位置信息包括各个单元格的位置、各个单元格的大小等。

步骤S202:对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓。

在本实施例中,在提取到待结构化图像的多个单元格的位置信息后,对多个单元格进行扩张,进一步得到每个单元格的的位置信息,再次对多个单元格进行第二次扩张,使多个单元格之间相互进行交叠,形成交叠区域,对该交叠区域进行连通域计算,得到待结构化图像的表格的边框轮廓。

在本实施例中,当待结构化图像为至少一个时,根据待结构化图像的数量,多个单元格经过两次扩张后,形成的交叠区域有多个时,对每个交叠区域对应进行连通域计算,得到待结构化图像的表格的边框轮廓对应有多个。

步骤S203:获取到各边框轮廓对应的包围框的顶点的位置信息。

在本实施例中,当待结构化图像为至少一个时,需获取各边框轮廓的对应的包围框的顶点的位置信息,各边框轮廓的对应的包围框的顶点的位置信息根据对应的连通域,计算其对应的表格边框的最小外接边框,并对其对应的最小外接边框进行旋转,使其对正,获得各边框轮廓的对应的包围框,并获取各边框轮廓对应的包围框的顶点的位置信息。一般情况下,表格的外轮廓都是矩形的。因此,在该表格的外轮廓是矩形时,该最小外接边框为最小外接矩形如最小外接斜矩形,并将该最小外接斜矩形进行旋转,使其对正,得到一个矩形的包围框。

步骤S204:获取到各边框轮廓的顶点的位置信息。

在本实施例中,当待结构化图像为至少一个时,需获取各边框轮廓的顶点的位置信息,各边框轮廓的顶点的位置信息与上述边框轮廓的顶点的位置信息的步骤相同。

步骤S205:利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到各边框轮廓的变换矩阵。

在本实施例中,当待结构化图像为至少一个时,利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到各边框轮廓的变换矩阵。其中,各边框轮廓的变换矩阵的计算步骤与上述步骤S105相同,在此不再赘述。

步骤S206:通过变换矩阵对各边框轮廓的单元格的位置信息进行校正。

在本实施例中,当待结构化图像为至少一个时,通过各边框轮廓对应的变换矩阵对各边框轮廓的单元格的位置信息进行校正,其中通过变换矩阵对边框轮廓的单元格的位置信息进行校正与上述步骤S106相同,在此不再赘述。

步骤S207:利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格。

在本实施例中,由于待结构化图像为至少一个,即单元格还需进一步确定归属于哪一个待结构化图像。具体地,利用校正后的单元格的位置信息以及边框轮廓的位置关系计算校正后的单元格与边框轮廓的重叠部分的面积的比值,通过判断比值是否大于第一预设值来确定单元格归属于哪个表格,其中,第一预设值为经验常值。具体地,利用校正后的单元格的位置信息以及边框轮廓的位置关系计算校正后的单元格与边框轮廓的重叠部分的面积的比值,判断比值是否大于第一预设值,若大于第一预设值则确定单元格属于表格;若否,则单元格不属于表格。

步骤S208:基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条。

在本实施例中,为了进一步结构化待结构化图像,需要划分网格,以校正后的每个单元格的外接边框为外接斜矩形为例,为了获得高精度化的表格信息,还需对多个单元格进行如下处理:计算校正后的每个单元格的外接斜矩形的位置信息,根据每个单元格的外接斜矩形的位置信息获取每个单元格的外接斜矩形的多条线条的中点坐标,优选的,获取每个单元格外接斜矩形的4条线条的中心坐标,其中,水平线条的中点坐标的记录x值,水平线条的中点坐标的集合为水平线条中心坐标集合Lx,竖直线条的中点坐标记录为y值,竖直线条的中点坐标的集合为竖直线条中心坐标集合Ly;对水平线条中点坐标集合Lx和竖直线条中点坐标集合Ly进行排序,并遍历每个集合,比较集合内每个值与近邻值的差值是否小于第二误差值,若集合内每个值与近邻值的差值小于第二误差值,则标记该值与其近邻值有相同的标签;若集合内每个值与近邻值的差值不小于第二误差值,则添加新标签;对上一步骤中的每一类标签进行计算求取其均值,得到优化后的水平线条中点坐标均值集合Lx1和竖直线条中点坐标均值集合Ly1;根据优化后的水平线条中点坐标均值集合Lx1和竖直线条中点坐标均值集合Ly1进行网格划分,得到网格线条,其中,优化后的水平线条中点坐标均值集合Lx1记录了网格线条的X轴坐标,优化后的竖直线条中点坐标均值集合Ly1记录了网格线条的Y轴坐标。

步骤S209:将网格线条与单元格进行映射,得到表格的结构化图像。

步骤S209与上述步骤S108相同,在此不再赘述。

步骤S210:利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。

步骤S210与上述步骤S109相同,在此不再赘述。

区别于现有技术,本实施例提供的表格结构化方法,该表格结构化方法通过提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的顶点的位置信息;以及获取到边框轮廓对应的包围框的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。本申请的结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化信息。

请参阅图3,图3是本申请提供的表格恢复设备的一实施例的结构示意图。本实施例中的表格恢复设备30包括相互耦接的存储器301和处理器302;存储器301用于存储计算机程序;处理器302用于执行计算机程序,以实现如上所述的表格结构化方法。

本实施例中的表格恢复设备30中的处理器302实现上述功能的具体过程可参阅上述方法实施例。

请参阅图4,图4是本申请提供的具有存储功能的装置的一实施例的结构示意图,本申请还提供具有存储功能的装置40,存储有程序数据41,程序数据41能够被处理器执行以实现上述任一项的表格结构化方法。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号