首页> 中国专利> 一种三线表格图像识别方法及装置

一种三线表格图像识别方法及装置

摘要

本申请提供一种三线表格图像识别方法及装置,其中所述三线表格图像识别方法包括:获取待识别图像,其中,所述待识别图像包括三线表格;确定所述三线表格的关键点信息,并根据所述关键点信息确定所述三线表格的顶线、底线和栏目线;根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息;根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格,通过本方法提高了三线表格图像识别的识别准确性。

著录项

  • 公开/公告号CN113869085A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 北京金山数字娱乐科技有限公司;

    申请/专利号CN202010614672.7

  • 发明设计人 王洪伟;李长亮;

    申请日2020-06-30

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11637 北京智信禾专利代理有限公司;

  • 代理人王治东

  • 地址 100085 北京市海淀区小营西路33号金山软件大厦2层西区

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本申请涉及计算机技术领域,特别涉及一种三线表格图像识别方法及装置、计算设备和计算机可读存储介质。

背景技术

三线表是数据表述的一种形式,因具有鲜明的定量变大量化信息的功能而被广泛应用于科技论文、医学文章等方面,三线表的形式简洁、功能分明、阅读方便,三线表通常只有3条线,分别为顶线、底线和栏目线,顶线和栏目线之间的部分叫项目栏,栏目线与底线之间的部分叫表身。

在日常应用中,三线表经常会以图片的形式存储,当需要三线表中的数据时,需要将三线表中的数据识别输出为对应的表格,但是现有的三线表图片识别大多是基于图像像素对图片进行分析,如特征点检测等,其最终的检测识别结果的准确率不高,实际的转换效果不理想。

因此,如何提高三线表图像的识别准确率就成为技术人员亟待解决的问题。

发明内容

有鉴于此,本申请实施例提供了一种三线表格图像识别方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面,提供了一种三线表格图像识别方法,包括:

获取待识别图像,其中,所述待识别图像包括三线表格;

确定所述三线表格的关键点信息,并根据所述关键点信息确定所述三线表格的顶线、底线和栏目线;

根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息;

根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格。

可选的,确定所述三线表格的关键点信息,包括:

将所述待识别图像输入至预先训练好的关键点定位网络模型;

所述关键点定位网络模型根据输入的所述待识别图像确定所述三线表格的关键点信息。

可选的,所述关键点定位网络模型通过下述步骤训练获得,包括:

获取训练图像和所述训练图像对应的关键点标准信息;

将所述训练图像输入至关键点定位网络模型;

所述关键点定位网络模型响应于所述训练图像作为输入而生成所述训练图像的关键点信息;

基于所述关键点信息和所述关键点标准信息计算损失值;

通过对所述损失值进行反向传播以训练所述关键点定位网络模型。

可选的,根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息,包括:

对所述三线表格的项目栏做文字检测,确定所述三线表格的表格列信息和项目栏信息,其中,所述项目栏由所述顶线和所述栏目线确定;

根据所述表格列信息对所述三线表格的表身做文字检测,确定所述三线表格的表身信息,其中,所述表身由所述栏目线和所述底线确定。

可选的,对所述三线表格的项目栏做文字检测,确定所述三线表格的表格列信息和项目栏信息,包括:

对所述三线表格的项目栏做文字检测,获得多个第一区域和每个所述第一区域对应的第一区域信息;

根据每个所述第一区域信息确定所述三线表格的表格列信息;

根据每个所述第一区域确定所述三线表格的项目栏信息。

可选的,所述第一区域信息包括第一区域的第一顶点坐标和第二顶点坐标;

根据每个所述第一区域信息确定所述三线表格的表格列信息,包括:

根据每个所述第一区域的第一顶点坐标和第二顶点坐标确定每个所述第一区域的中心点坐标;

对每个所述第一区域的中心点坐标进行聚类;

根据聚类结果确定所述三线表格的表格列信息。

可选的,根据每个所述第一区域确定所述三线表格的项目栏信息,包括:

对每个所述第一区域做文字识别,获得每个所述第一区域的第一文字信息;

根据每个所述第一文字信息确定所述三线表格的项目栏信息。

可选的,根据所述表格列信息对所述三线表格的表身做文字检测,确定所述三线表格的表身信息,包括:

对所述三线表格的表身做文字检测,获得多个第二区域和每个所述第二区域对应的第二区域信息;

根据所述表格列信息和每个所述第二区域信息确定每个所述第二区域对应的位置信息;

对每个所述第二区域做文字识别,获得每个所述第二区域的第二文字信息;

根据每个所述第二区域对应的位置信息和每个所述第二文字信息确定所述三线表格的表身信息。

可选的,所述第二区域信息包括第二区域的第一顶点坐标和第二顶点坐标;

根据所述表格列信息和每个所述第二区域信息确定每个所述第二区域对应的位置信息,包括:

根据每个所述第二区域的第一顶点坐标和第二顶点坐标确定每个所述第二区域的中心点坐标;

对每个所述第二区域的中心点坐标进行聚类;

根据聚类结果和所述表格列信息确定每个所述第二区域对应的位置信息。

根据本申请实施例的第二方面,提供了一种三线表格图像识别装置,包括:

获取模块,被配置为获取待识别图像,其中,所述待识别图像包括三线表格;

确定模块,被配置为确定所述三线表格的关键点信息,并根据所述关键点信息确定所述三线表格的顶线、底线和栏目线;

检测模块,被配置为根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息;

生成模块,被配置为根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格。

根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述三线表格图像识别方法的步骤。

根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述三线表格图像识别方法的步骤。

根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述三线表格图像识别方法的步骤。

本申请实施例中,通过获取包括三线表格的待识别图像,将三线表格经过关键点定位网络模型确定三线表格的关键点信息,通过神经网络模型的识别可以极大提高关键点的识别准确度,再通过关键点信息确定三线表格的顶线、底线和栏目线,可以进一步推断出更加准确的表格,通过根据所述顶线、底线和栏目线对所述三线表格进行文字检测,确定三线表格的表格列信息、项目栏信息和表身信息,提高了图像识别的准确度,最后根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格,得到最终较为准确的表格,极大提高三线表格图像识别的准确度。

附图说明

图1是本申请实施例提供的计算设备的结构框图;

图2是本申请实施例提供的三线表格图像识别方法的流程图;

图3a至图3c是本申请实施例提供的三线表格图像识别方法的示意图;

图4是本申请另一实施例提供的三线表格图像识别方法的流程图;

图5是本申请另一实施例提供的三线表格图像识别方法的示意图;

图6是本申请实施例提供的三线表格图像识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先,对本发明一个或多个实施例涉及的名词术语进行解释。

三线表格:科技书刊普遍采用的一种表格形式,通常只有3条线,即顶线、栏目线和底线。

项目栏:三线表格中顶线与栏目线之间的部分。

表身:三线表格中栏目线一下,底线以上的部分叫做表身,容纳了表格内大部分信息,是三线表格的主体。

项目栏信息:项目栏中的文字信息。

表身信息:表身中的文字信息。

关键点定位网络模型:用于识别待识别图像中关键点的模型,可以为CNN模型。

第一区域:项目栏中经文字检测后获得的文字区域,第一区域为矩形区域。

第一区域信息:第一区域对应的位置信息,至少为一条对角线上的两个顶点坐标。

第一顶点坐标:文字区域的某个顶点坐标,第一顶点与第二顶点的连线为文字区域的对角线。

第二顶点坐标:文字区域的另外一个顶点坐标,第一顶点与第二顶点的连线为文字区域的对角线。

聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。

表格列信息:三线表格的列数,如三线表格有3列。

第一文字信息:每个第一文字区域中的文字信息。

第二区域:表身中经文字检测后获得的文字区域,第二区域为矩形区域。

第二区域信息:第二区域对应的位置信息,至少为一条对角线上的两个顶点坐标。

第二文字信息:每个第二文字区域中的文字信息。

在本申请中,提供了一种三线表格图像识别方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示三线表格图像识别方法中的步骤。图2示出了根据本申请一实施例的三线表格图像识别方法的流程图,包括步骤202至步骤208。

步骤202:获取待识别图像,其中,所述待识别图像包括三线表格。

待识别图像为等待被识别的图像,在本申请中,待识别图像为包括三线表格的图像,三线表格是科技书刊普遍采用的一种表格形式,通常只有3条线,即顶线、栏目线和底线。

在本申请提供的实施例中,参见图3a,图3a示出了本申请实施例提供的一个待识别图像的示意图,待识别图像中包括一个三线表格,如图所示,表格中由上到下三条线段分别为顶线、栏目线和底线。

步骤204:确定所述三线表格的关键点信息,并根据所述关键点信息确定所述三线表格的顶线、底线和栏目线。

关键点信息为三线表格的顶线、底线和栏目线分别对应的左端点和右端点,在一个三线表格中,包括有6个关键点信息,关键点信息包括关键点对应的坐标和类型。

可选的,所述确定所述三线表格的关键点信息,包括:将所述待识别图像输入至预先训练好的关键点定位网络模型;所述关键点定位网络模型根据输入的所述待识别图像确定所述三线表格的关键点信息。

关键点定位网络模型为预先训练好的神经网络模型,可以为CNN网络模型。所述关键点定位网络模型通过下述步骤训练获得,包括:获取训练图像和所述训练图像对应的关键点标准信息;将所述训练图像输入至关键点定位网络模型;所述关键点定位网络模型响应于所述训练图像作为输入而生成所述训练图像的关键点信息;基于所述关键点信息和所述关键点标准信息计算损失值;通过对所述损失值进行反向传播以训练所述关键点定位网络模型。

在本申请提供的一具体实施例中,沿用上例,将待识别图像输入至预先训练好的基于CNN网络模型的关键点定位网络模型,获得三线表格对应的关键点信息,参见图3b,图3b示出了本申请实施例提供的关键点的示意图,如图所示,三线表格的关键点分别A、B、C、D、E、F六个点,关键点信息为关键点的坐标:A(X

需要注意的是,由于待识别图像可能会偏移,为了提高识别效率,因此,在实际应用中,左端点与右端点的高度差小于图片高度的预设百分比即可认定左端点与右端点为同一线段。如左端点A与右端点B的y轴的差值小于图片高度的百分之三,则认定左端点A与右端点B为同一线段,只有在最理想的状态时,同一线段的左端点和右端点的Y坐标相同、左端点的X坐标相同、右端点的X坐标相同。

在本申请提供的另一具体实施方式中,关键点信息为关键点的坐标:A(X

步骤206:根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息。

可选的,根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息,包括S2062至S2064。

S2062、对所述三线表格的项目栏做文字检测,确定所述三线表格的表格列信息和项目栏信息,其中,所述项目栏由所述顶线和所述栏目线确定。

三线表格的顶线与栏目线之间的区域被称作项目栏,对项目栏中的图片内容做文字检测,如OCR识别,识别出项目栏中的表格列信息和项目栏信息,其中,项目栏中的列信息为三线表格的列数,如三列、四列等,项目栏信息为项目栏中具体的文字信息。

可选的,对所述三线表格的项目栏做文字检测,确定所述三线表格的表格列信息和项目栏信息,包括:对所述三线表格的项目栏做文字检测,获得多个第一区域和每个所述第一区域对应的第一区域信息;根据每个所述第一区域信息确定所述三线表格的表格列信息;根据每个所述第一区域确定所述三线表格的项目栏信息。

在实际应用中,对三线表格的项目栏做文字检测,可以获得多个第一区域,和每个第一区域对应的第一区域信息,其中,第一区域表示项目栏中经文字检测后获得的文字区域,第一区域为矩形区域,第一区域信息为第一区域对应的位置信息,至少包括第一区域的对角线上的两个顶点坐标,如左上顶点和右下顶点坐标,或左下顶点和右上顶点坐标。

根据每个第一区域信息确定三线表格的表格列信息,根据每个第一区域确定三线表格的项目栏信息。

具体的,所述第一区域信息包括第一区域的第一顶点坐标和第二顶点坐标;根据每个所述第一区域信息确定所述三线表格的表格列信息,包括:根据每个所述第一区域的第一顶点坐标和第二顶点坐标确定每个所述第一区域的中心点坐标;对每个所述第一区域的中心点坐标进行聚类;根据聚类结果确定所述三线表格的表格列信息。

在实际应用中,第一顶点为第一区域对应的某个顶点,第二顶点与第一顶点的连线为第一区域的对角线,根据第一顶点坐标和第二顶点坐标的确定对应的第一区域的中心点坐标,对每个第一区域的中心点坐标进行聚类,如K-means聚类算法,One-Pass Cluster聚类算法等,根据聚类结果确定三线表格的表格列信息。

可选的,根据每个所述第一区域确定所述三线表格的项目栏信息,包括:对每个所述第一区域做文字识别,获得每个所述第一区域的第一文字信息;根据每个所述第一文字信息确定所述三线表格的项目栏信息。

在本申请提供的实施例中,沿用上例,参见图3c,图3c示出了本申请一实施例提供的项目栏中第一区域的示意图。如图所示,共检测出6个第一区域,其中,第一区域为项目栏中检测出的文字区域,第一区域为矩形区域,如图3示出的1-6个第一区域,每个第一区域对应的第一区域信息为表示所述第一区域位置的信息,如第一区域的四个角的坐标、第一区域的左上角坐标和右下角坐标、第一区域的左下角坐标和右上角坐标等等。

根据每个第一区域的第一区域信息确定第一区域的中心点坐标。将每个中中心点按照X轴坐标进行K-means聚类,根据第一区域1-6的中心点的X坐标进行聚类,根据聚类结果确定所述三线表格有4列。并通过OCR识别每个第一区域中的第一文字信息,将项目栏中同一列的第一区域确定为一个区域,对应的第一文字信息保存至一个单元格中,根据每个第一文字信息确定所述三线表格的项目栏信息。

如图3c所示,第1个和第2个第一区域为同一列,将第1个和第2个第一区域识别的第一文字信息保存至第1个单元格中,第3个和第4个第一区域为同一列,将第3个和第4个第一区域识别的第一文字信息保存第2个单元格中,将第5个第一区域识别的第一文字保存至第3个单元格中,将第6个第一区域识别的第一文字保存至第4个单元格中,根据第1-4个单元格生成所述三线表格的项目栏信息。

S2064、根据所述表格列信息对所述三线表格的表身做文字检测,确定所述三线表格的表身信息,其中,所述表身由所述栏目线和所述底线确定。

三线表格的栏目线与底线之间的区域被称作表身,对表身中的图片内容做文字检测,如OCR识别,确定三线表格的表身信息。

可选的,根据所述表格列信息对所述三线表格的表身做文字检测,确定所述三线表格的表身信息,包括:对所述三线表格的表身做文字检测,获得多个第二区域和每个所述第二区域对应的第二区域信息;根据所述表格列信息和每个所述第二区域信息确定每个所述第二区域对应的位置信息;对每个所述第二区域做文字识别,获得每个所述第二区域的第二文字信息;根据每个所述第二区域对应的位置信息和每个所述第二文字信息确定所述三线表格的表身信息。

对三线表格的表身做文字检测的操作步骤同对三线表格项目栏做文字检测的步骤,关于对三线表格的表身做文字检测的详细内容,参见上述对三线表格项目栏做文字检测部分的描述,在此就不再赘述。

可选的,所述第二区域信息包括第二区域的第一顶点坐标和第二顶点坐标;根据所述表格列信息和每个所述第二区域信息确定每个所述第二区域对应的位置信息,包括:根据每个所述第二区域的第一顶点坐标和第二顶点坐标确定每个所述第二区域的中心点坐标;对每个所述第二区域的中心点坐标进行聚类;根据聚类结果和所述表格列信息确定每个所述第二区域对应的位置信息。

根据每个第二区域的第二区域信息确定每个第二区域的中心点坐标,根据每个中心点的X轴坐标进行聚类,参考上述步骤中获得的三线表格的列数,确定每个第二区域对应的列数,根据每个中心点的Y轴坐标进行聚类,根据聚类结果确定每个第二区域对应的行数,进而确定每个第二区域对应的列数和行数。通过ORC识别每个第二区域中的第二文字信息,根据每个第二区域对应的列数、行数和第二文字信息确定所述三线表格的表身信息。

步骤208:根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格。

最后,根据项目栏信息和表身信息生成并输出所述三线表格对应的表格,并将表格列信息填写到所述表格,所述表格可以为Excel表格。

本申请实施例提供的三线表格图像识别方法,通过获取包括三线表格的待识别图像,将三线表格经过关键点定位网络模型确定三线表格的关键点信息,通过神经网络模型的识别可以极大提高关键点的识别准确度,再通过关键点信息确定三线表格的顶线、底线和栏目线,可以进一步推断出更加准确的表格,通过根据所述顶线、底线和栏目线对所述三线表格进行文字检测,确定三线表格的表格列信息、项目栏信息和表身信息,提高了图像识别的准确度,最后根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格,得到最终较为准确的表格,提高三线表格图像识别的准确度。

图4示出了本申请一实施例的三线表格图像识别方法,包括步骤402至步骤414。

步骤402:获取待识别图像,其中,所述待识别图像包括三线表格。

在本申请提供的实施例中,参见图5,图5示出了待识别图像的示意图,待识别图像中包括三线表格。

步骤404:将所述待识别图像输入至预先训练好的关键点定位网络模型。

在本申请提供的实施例中,将图5所示的待识别图像输入至关键点定位网络模型,其中关键点定位网络模型为CNN网络模型。

步骤406:所述关键点定位网络模型根据输入的所述待识别图像确定所述三线表格的关键点信息。

在本申请提供的实施例中,关键点定位网络模型输出6个关键点信息,分别为A(X

步骤408:根据所述关键点信息确定所述三线表格的顶线、底线和栏目线。

在本申请提供的实施例中,确定线段AB为三线表格的顶线,线段CD为三线表格的栏目线,线段EF为三线表格的底线。

步骤410:对所述三线表格的项目栏做文字检测,确定所述三线表格的表格列信息和项目栏信息。

在本申请提供的实施例中,对线段AB和线段CD之间的项目栏做文字检测,确定4个第一区域,根据4个第一区域的中心点X坐标确定项目栏的表格列信息为4列,对每个第一区域进行识别确定项目栏信息分别为“一月”、“二月”、“三月”、“总计”。

步骤412:根据所述表格列信息对所述三线表格的表身做文字检测,确定所述三线表格的表身信息。

本申请提供的实施例中,对线段CD和线段EF之间的表身做文字检测,具体步骤如410所述,获得所述三线表格的表身信息“东部”、“7”、“7”、“5”、“19”、“西部”、“6”、“4”、“7”、“17”、“南部”、“8”、“7”、“9”、“24”、“总计”、“21”、“18”、“21”、“60”。

其中,“东部”、“西部”、“南部”、“总计”为一列;“7”、“6”、“8”、“21”为一列,且与项目栏中的“一月”对应;“7”、“4”、“7”、“18”为一列,且与项目栏中的“二月”对应;“5”、“7”、“9”、“21”为一列,且与项目栏中的“三月”对应;“19”、“17”、“24”、“60”为一列,且与项目栏中的“总计”对应。

步骤414:根据所述项目栏信息和所述表身信息生成所述待识别图像对应的表格。

本申请提供的实施例中,根据所述项目栏信息和所述表身信息生成所述待识别图像对应的表格。

本申请实施例提供的三线表格图像识别方法,通过获取包括三线表格的待识别图像,将三线表格经过关键点定位网络模型确定三线表格的关键点信息,通过神经网络模型的识别可以极大提高关键点的识别准确度,再通过关键点信息确定三线表格的顶线、底线和栏目线,可以进一步推断出更加准确的表格,通过根据所述顶线、底线和栏目线对所述三线表格进行文字检测,确定三线表格的表格列信息、项目栏信息和表身信息,提高了图像识别的准确度,最后根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格,得到最终较为准确的表格,提高三线表格图像识别的准确度。

与上述方法实施例相对应,本申请还提供了三线表格图像识别装置实施例,图6示出了本申请一个实施例的三线表格图像识别装置的结构示意图。如图6所示,该装置包括:

获取模块602,被配置为获取待识别图像,其中,所述待识别图像包括三线表格;

确定模块604,被配置为确定所述三线表格的关键点信息,并根据所述关键点信息确定所述三线表格的顶线、底线和栏目线;

检测模块606,被配置为根据所述顶线、所述底线和所述栏目线对所述三线表格进行文字检测,确定所述三线表格的表格列信息、项目栏信息和表身信息;

生成模块608,被配置为根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格。

可选的,所述确定模块604,进一步被配置为将所述待识别图像输入至预先训练好的关键点定位网络模型;所述关键点定位网络模型根据输入的所述待识别图像确定所述三线表格的关键点信息。

可选的,所述关键点定位网络模型通过下述步骤训练获得,包括:

获取训练图像和所述训练图像对应的关键点标准信息;

将所述训练图像输入至关键点定位网络模型;

所述关键点定位网络模型响应于所述训练图像作为输入而生成所述训练图像的关键点信息;

基于所述关键点信息和所述关键点标准信息计算损失值;

通过对所述损失值进行反向传播以训练所述关键点定位网络模型。

可选的,所述检测模块606,包括:

第一检测子单元,被配置为对所述三线表格的项目栏做文字检测,确定所述三线表格的表格列信息和项目栏信息,其中,所述项目栏由所述顶线和所述栏目线确定;

第二检测子单元,被配置为根据所述表格列信息对所述三线表格的表身做文字检测,确定所述三线表格的表身信息,其中,所述表身由所述栏目线和所述底线确定。

可选的,所述第一检测子单元,进一步被配置为对所述三线表格的项目栏做文字检测,获得多个第一区域和每个所述第一区域对应的第一区域信息;根据每个所述第一区域信息确定所述三线表格的表格列信息;根据每个所述第一区域确定所述三线表格的项目栏信息。

可选的,所述第一区域信息包括第一区域的第一顶点坐标和第二顶点坐标;

可选的,所述第一检测子单元,进一步被配置为根据每个所述第一区域的第一顶点坐标和第二顶点坐标确定每个所述第一区域的中心点坐标;对每个所述第一区域的中心点坐标进行聚类;根据聚类结果确定所述三线表格的表格列信息。

可选的,所述第一检测子单元,进一步被配置为对每个所述第一区域做文字识别,获得每个所述第一区域的第一文字信息;根据每个所述第一文字信息确定所述三线表格的项目栏信息。

可选的,所述第二检测子单元,进一步被配置为对所述三线表格的表身做文字检测,获得多个第二区域和每个所述第二区域对应的第二区域信息;根据所述表格列信息和每个所述第二区域信息确定每个所述第二区域对应的位置信息;对每个所述第二区域做文字识别,获得每个所述第二区域的第二文字信息;根据每个所述第二区域对应的位置信息和每个所述第二文字信息确定所述三线表格的表身信息。

可选的,所述第二区域信息包括第二区域的第一顶点坐标和第二顶点坐标;

所述第二检测子单元,进一步被配置为根据每个所述第二区域的第一顶点坐标和第二顶点坐标确定每个所述第二区域的中心点坐标;对每个所述第二区域的中心点坐标进行聚类;根据聚类结果和所述表格列信息确定每个所述第二区域对应的位置信息。

本申请实施例提供的三线表格图像识别装置,通过获取包括三线表格的待识别图像,将三线表格经过关键点定位网络模型确定三线表格的关键点信息,通过神经网络模型的识别可以极大提高关键点的识别准确度,再通过关键点信息确定三线表格的顶线、底线和栏目线,可以进一步推断出更加准确的表格,通过根据所述顶线、底线和栏目线对所述三线表格进行文字检测,确定三线表格的表格列信息、项目栏信息和表身信息,提高了图像识别的准确度,最后根据所述表格列信息、所述项目栏信息和所述表身信息生成所述待识别图像对应的表格,得到最终较为准确的表格,提高三线表格图像识别的准确度。

本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的三线表格图像识别方法的步骤。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述三线表格图像识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的三线表格图像识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述三线表格图像识别方法的技术方案的描述。

本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述三线表格图像识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号