首页> 中国专利> 一种票据图像的结构化信息提取方法及系统

一种票据图像的结构化信息提取方法及系统

摘要

本发明公开了一种票据图像的结构化信息提取方法及系统,包括:对训练集中每张票据进行处理,获得票据上所有的字段内容和对应的检测框坐标;对票据的字段内容进行字段类别和字段关系的学习,将每张票据的字段内容映射为字段嵌入向量、字段内容对应的检测框坐标映射为位置嵌入向量,经融合后输入layout LM模型中进行训练;将待测票据的字段内容和检测框坐标输入训练后的layout LM模型中,得到每个字段预测的标签和位置信息,与所对应的真实位置信息计算交并比,筛选出不同字段间的相互关系;按预设顺序输出匹配好的文本信息。本发明能够更好地解决票据版面不固定、倾斜、透视等情况下,关键字段的分类特性和匹配关系提取。

著录项

  • 公开/公告号CN115240178A

    专利类型发明专利

  • 公开/公告日2022-10-25

    原文格式PDF

  • 申请/专利权人 深源恒际科技有限公司;

    申请/专利号CN202210729098.9

  • 发明设计人 张军委;侯进;黄贤俊;

    申请日2022-06-24

  • 分类号G06V20/62(2022.01);G06V30/414(2022.01);G06V30/14(2022.01);G06V30/146(2022.01);G06V30/19(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京汇信合知识产权代理有限公司 11335;

  • 代理人林聪源

  • 地址 100085 北京市海淀区清河西三旗东路6幢2层203室

  • 入库时间 2023-06-19 17:25:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-11

    实质审查的生效 IPC(主分类):G06V20/62 专利申请号:2022107290989 申请日:20220624

    实质审查的生效

说明书

技术领域

本发明涉及图像信息提取技术领域,具体涉及一种票据图像的结构化信息提取方法及系统。

背景技术

票据结构化信息提取指的是从票据图像上提取文字信息,并构建不同字段间的结构关系,进而提取需要的关键字段信息。

在健康险理赔业务中,通常采用OCR(Optical Character Recognition)技术对用户上传的各类票据(门诊,发票,清单等)进行分类、检测、识别和结构化信息提取,已实现低成本、更快、规模化的信息自动录入,简化工作流程和提高工作效率。但在实际业务中,业务方提供的票据版式差异大,内容复杂,存在倾斜,透视等情况,增加了提取结构化信息的难度。因此,如何根据票据中的字段文本内容,字段位置和图像信息自动准确找到结构化信息变得非常重要。

目前业内提取票据结构化信息的主要方法如下:

一类是划分不同的票据版式,采用固定模板或者特定规则进行字段关联和相互匹配,但是票据存在倾斜、透视时,字段间的相互位置不太好确定,匹配的信息会不太准确,而且投入人力成本大,可复用性不高;

另一类是预测当前字段对应的标签信息(类似分类任务),对票据中的相似字段容易分类错误,以及项目详细信息列数不固定,错位和存在缺失时,难以从分类角度进行合理划分。

发明内容

针对现有技术中存在的上述问题,本发明提供一种票据图像的结构化信息提取方法及系统,其结合票据上的文本信息,位置信息和图像信息,采用改进版layout LM算法,直接预测当前字段对应的标签和内容位置,提取结构化信息。

本发明公开了一种票据图像的结构化信息提取方法,包括:

收集预设数量的不同地区不同类型的票据;

对每张票据进行分类和四点检测并矫正,检测当前票据上的文本区域,裁剪检测框并识别文本内容,获得每张票据上所有的字段内容和对应的检测框坐标;

对每张票据的字段内容进行字段类别和字段关系的学习;其中,所述字段类别为当前字段属性,所述字段关系包括单独字段、两个一组的字段和多个一组的连续字段;

将每张票据的字段内容映射为字段嵌入向量、字段内容对应的检测框坐标映射为位置嵌入向量,并将字段嵌入向量和位置嵌入向量融合后输入layout LM模型中;

将layout LM模型提取的特征先连接一个全连接层预测当前字段的类别,计算交叉熵损失;而后连接另一个全连接层预测对应的位置坐标,结合对应的真值,计算SmoothL1损失和GIOU损失,结合三种损失,进行反向传播更新模型参数,直到模型收敛;

将待测票据上检测和识别到的所有的字段内容和对应的检测框坐标输入训练后的layout LM模型中,得到每个字段预测的标签和位置信息,与所有的真实位置信息计算交并比,筛选出不同字段间的相互关系;

根据匹配关系,按预设顺序输出匹配好的文本信息。

作为本发明的进一步改进,

采用Faster RCNN算法进行分类和四点检测并矫正;

采用Mask RCNN算法检测当前票据上的文本区域;

采用CRNN+CTC算法识别文本内容。

作为本发明的进一步改进,在对每张票据的字段内容进行学习的过程中,每类字段关系的输入为字段内容和对应的检测框坐标、输出为检测框坐标以及字段类别。

作为本发明的进一步改进,

所述字段嵌入向量是将当前字段内容按字符级别进行划分,映射为维度为768的不同特征向量,然后将上述的特征向量进行求和;

所述位置嵌入向量是将当前字段的检测框坐标以及对应的宽和高分别映射为维度为768的不同特征向量,然后将上述的特征向量进行求和。

作为本发明的进一步改进,所述筛选出不同字段间的相互关系的判断规则,包括:

若当前字段预测的位置仅跟自身位置的IOU值超过IOU阈值,且没有与其它的预测框相交,则当前字段是单key;

若当前字段预测的位置跟自身位置的IOU值超过IOU阈值,存在另一个预测位置与自身位置的IOU也大于IOU阈值,且另一个预测框的真实位置没有与其它预测框相交,则当前两个字段是key-value对;

若当前字段预测的位置跟自身位置的IOU超过IOU阈值,存在另一个预测位置与自身位置的IOU也大于IOU阈值,且另一个预测框的真实位置与其它预测框相交的IOU大于IOU阈值,不断向上追溯,直到最后一个预测框的真实位置没有与其它预测框相交的IOU大于IOU阈值,则这些字段属于key-value-value-...类型;

由当前字段的标签信息,确定单key类型和key-value对的相对关系;

根据上述规则,得到单张图像上字段的标签和不同字段间的对应关系。

本发明还公开了一种票据图像的结构化信息提取系统,包括:

数据处理模块,用于:

收集预设数量的不同地区不同类型的票据;

对每张票据进行分类和四点检测并矫正,检测当前票据上的文本区域,裁剪检测框并识别文本内容,获得每张票据上所有的字段内容和对应的检测框坐标;

对每张票据的字段内容进行字段类别和字段关系的学习;其中,所述字段类别为当前字段属性,所述字段关系包括单独字段、两个一组的字段和多个一组的连续字段;

训练模块,用于:

将每张票据的字段内容映射为字段嵌入向量、字段内容对应的检测框坐标映射为位置嵌入向量,并将字段嵌入向量和位置嵌入向量融合后输入layout LM模型中;

将layout LM模型提取的特征先连接一个全连接层预测当前字段的类别,计算交叉熵损失;而后连接另一个全连接层预测对应的位置坐标,结合对应的真值,计算SmoothL1损失和GIOU损失,结合三种损失,进行反向传播更新模型参数,直到模型收敛;

推理模块,用于:

将待测票据上检测和识别到的所有的字段内容和对应的检测框坐标输入训练后的layout LM模型中,得到每个字段预测的标签和位置信息,与所有的真实位置信息计算交并比,筛选出不同字段间的相互关系;

输出模块,用于:

根据匹配关系,按预设顺序输出匹配好的文本信息。

作为本发明的进一步改进,

采用Faster RCNN算法进行分类和四点检测并矫正;

采用Mask RCNN算法检测当前票据上的文本区域;

采用CRNN+CTC算法识别文本内容。

作为本发明的进一步改进,在对每张票据的字段内容进行学习的过程中,每类字段关系的输入为字段内容和对应的检测框坐标、输出为检测框坐标以及字段类别。

作为本发明的进一步改进,

所述字段嵌入向量是将当前字段内容按字符级别进行划分,映射为维度为768的不同特征向量,然后将上述的特征向量进行求和;

所述位置嵌入向量是将当前字段的检测框坐标以及对应的宽和高分别映射为维度为768的不同特征向量,然后将上述的特征向量进行求和。

作为本发明的进一步改进,所述筛选出不同字段间的相互关系的判断规则,包括:

若当前字段预测的位置仅跟自身位置的IOU值超过IOU阈值,且没有与其它的预测框相交,则当前字段是单key;

若当前字段预测的位置跟自身位置的IOU值超过IOU阈值,存在另一个预测位置与自身位置的IOU也大于IOU阈值,且另一个预测框的真实位置没有与其它预测框相交,则当前两个字段是key-value对;

若当前字段预测的位置跟自身位置的IOU超过IOU阈值,存在另一个预测位置与自身位置的IOU也大于IOU阈值,且另一个预测框的真实位置与其它预测框相交的IOU大于IOU阈值,不断向上追溯,直到最后一个预测框的真实位置没有与其它预测框相交的IOU大于IOU阈值,则这些字段属于key-value-value-...类型;

由当前字段的标签信息,确定单key类型和key-value对的相对关系;

根据上述规则,得到单张图像上字段的标签和不同字段间的对应关系。

与现有技术相比,本发明的有益效果为:

本发明不需要采用固定规则或者模板提取结构化信息,减少了人力成本和提高了可复用性;

本发明充分利用了图像的语义和文本布局信息,输入layout LM模型直接预测字段标签和对应关系,更好地找到字段的类型和对应关系。

附图说明

图1为本发明一种实施例公开的票据图像的结构化信息提取方法的流程图;

图2为本发明一种实施例公开的构建的几何对应关系示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述:

如图1所示,本发明提供一种票据图像的结构化信息提取方法,包括:

步骤1、准备训练集:

1)收集预设数量的不同地区不同类型的票据;

2)对每张票据进行分类和四点检测并矫正,检测当前票据上的文本区域,裁剪检测框并识别文本内容,获得每张票据上所有的字段内容和对应的检测框坐标;其中,

采用Faster RCNN算法进行分类和四点检测并矫正;

采用Mask RCNN算法检测当前票据上的文本区域;

采用CRNN+CTC算法识别文本内容;

进一步,Faster RCNN和Mask RCNN是一种两阶段的目标检测算法,用于检测出图像上不同位置的文本区域;CRNN+CTC算法是采用卷积神经网络结构提取图像特征,用双向循环神经网络提取文字序列特征和CTC(connectionist temporal classification)损失训练识别模型。

3)对每张票据的字段内容从字段类别和字段关系两个角度的学习;其中,

字段类别是指当前字段属性,如“姓名”和“张三”分别表示姓名类别的key和value;

字段关系分为三类,包括:单独字段(单key)、两个一组的字段(key-value对)和多个一组的连续字段(key-value-value-...);

基于字段类别和字段关系,构建如表1所示的结构关系;

表1

其中,w*表示当前字段的文本内容,x*0,y*1,x*2,y*3分别表示当前检测框对应的左上角和右下角坐标,输出的第五个值**_key/**_value/other表示当前字段的类别。

上述的几何对应关系如图2所示,灰色框表示单key,黑色框编号只有两个的为key-value对,黑色框有多个编号的为key-多value组合。

进一步,考虑到模型对文本内容的鲁棒性,模型训练时,会进行一定比例的随机mask;(1)直接去掉当前文本中的部分字符;(2)替换部分字符为随机字符,提高模型的泛化能力。

步骤2、基于步骤1的数据对改进的layout LM模型进行训练:其中,

Layout LM模型是一个采用了多头自注意力的多模态transformer编码器模型,通过将图像上的字段内容和对应的检测框位置映射为不同的特征向量,进行特征融合输入transformer模型,挖掘不同字段间的语义和空间关联特征。

具体训练方法,包括:

1)将每张票据的字段内容映射为字段嵌入向量、字段内容对应的检测框坐标映射为位置嵌入向量,并将字段嵌入向量和位置嵌入向量融合后输入layout LM模型中;其中,

字段嵌入向量是将当前字段内容按字符级别进行划分,映射为维度为768的不同特征向量,然后将上述的特征向量进行求和;

位置嵌入向量是将当前字段的检测框坐标以及对应的宽和高分别映射为维度为768的不同特征向量,然后将上述的特征向量进行求和;

进一步,将特征向量(维度768)输入Transformer模型,内部采用多头注意力机制(12个),增强模型的内部表达能力,让注意力层学习不同子空间中的编码表示信息。

2)将layout LM模型提取的特征先连接一个全连接层预测当前字段的类别,计算交叉熵损失;而后连接另一个全连接层预测对应的位置坐标,结合对应的真值,计算SmoothL1损失和GIOU损失,结合三种损失,进行反向传播更新模型参数,直到模型收敛;模型收敛后,完成layout LM模型的训练。

步骤3、基于训练后的layout LM模型对待测票据进行推理:

具体包括:

1)基于步骤1的方法检测和识别待测票据所有的字段内容和对应的检测框坐标;

2)将待测票据上检测和识别到的所有的字段内容和对应的检测框坐标输入训练后的layout LM模型中,得到每个字段预测的标签和位置信息,与所有的真实位置信息计算交并比(IOU,Intersection over Union),筛选出不同字段间的相互关系;其中,

判断规则,包括:

①若当前字段预测的位置仅跟自身位置的IOU值超过IOU阈值,且没有与其它的预测框相交,则当前字段是单key;

②若当前字段预测的位置跟自身位置的IOU值超过IOU阈值,存在另一个预测位置与自身位置的IOU也大于IOU阈值,且另一个预测框的真实位置没有与其它预测框相交,则当前两个字段是key-value对;

③若当前字段预测的位置跟自身位置的IOU超过IOU阈值,存在另一个预测位置与自身位置的IOU也大于IOU阈值,且另一个预测框的真实位置与其它预测框相交的IOU大于IOU阈值,不断向上追溯,直到最后一个预测框的真实位置没有与其它预测框相交的IOU大于IOU阈值,则这些字段属于key-value-value-...类型;

④由当前字段的标签信息,确定单key类型和key-value对的相对关系;

根据上述规则,得到单张图像上字段的标签和不同字段间的对应关系。

步骤4、输出结构化信息:

根据上述匹配关系,按照某种固定顺序,依次直接输出匹配好的文本信息,便于后续直接读取指定key对应的信息,实现结构化信息提取。

本发明还提供一种票据图像的结构化信息提取系统,包括:

数据处理模块,用于实现上述步骤1;

训练模块,用于实现上述步骤2;

推理模块,用于实现上述步骤3;

输出模块,用于实现上述步骤4。

本发明的优点为:

本发明不需要采用固定规则或者模板提取结构化信息,减少了人力成本和提高了可复用性;

本发明充分利用了图像的语义和文本布局信息,输入layout LM模型直接预测字段标签和对应关系,更好地找到字段的类型和对应关系。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号