首页> 中国专利> 一种面向财务报表图像的结构化信息提取方法

一种面向财务报表图像的结构化信息提取方法

摘要

本发明涉及金融行业图像处理技术领域,为一种面向财务报表图像的结构化信息提取方法,包括:S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;S2,采取数据增广策略对所述标准财务报表进行科目增广;S3,对增广之后的数据进行fastText模型训练。在OCR解析存在部分错误的时候,如科目之间编辑距离很小、只有一字之差的情况,该方案能有效剔除清理此类错误,能泛化性更好地科目标准化,具有较好的鲁棒性,适于推广应用。尤其是针对数量较大的网站财务报表数据,其能快速进行收集、处理得到科目表述一致且错误少的科目数据信息。

著录项

  • 公开/公告号CN113094447A

    专利类型发明专利

  • 公开/公告日2021-07-09

    原文格式PDF

  • 申请/专利权人 北京三行科技有限公司;

    申请/专利号CN202110304028.4

  • 申请日2021-03-22

  • 分类号G06F16/28(20190101);G06K9/34(20060101);G06N3/04(20060101);

  • 代理机构44681 广东有知猫知识产权代理有限公司;

  • 代理人程文栋

  • 地址 100086 北京市海淀区知春路甲48号3号楼18层3单元21D

  • 入库时间 2023-06-19 11:45:49

说明书

技术领域

本发明涉及金融行业图像处理技术领域,具体涉及一种面向财务报表图像的结构化信息提取方法。

背景技术

金融业务是经营风险的活动,投资和投行等金融业务对风险的管理逐步向量化分析和管理转变,数据是实现风险量化管理的基础。财务报表数据是金融机构开展业务的基础,在投资、投行、风控等领域,高效的获取高质量的数据能够获得业务优势。而公开披露的财务报表数据尚需依赖人工录入,无法实现高效和高质量。

OCR作为一种高效的图像文字识别技术算法,已得到大规模商业应用。财务报表数据经过OCR识别后,仅仅得到图像中的文字和数据,并不能直接得到结构化的数据,主要存在三大问题:1、每家公司的财务报表科目的表述方式不一致;2、因为印章等的不确定性干扰,OCR的科目文字识别不能保证全部识别正确;3、存在“其他”、“(一)”、“(说明)”等文字干扰;这些不确定因素给财务报表的科目标准化带来极大困扰。

基于正则匹配的方式只能解决固定格式的科目干扰问题,尤其是在OCR解析存在部分错误的时候,基于正则匹配的方式几乎失效,而且存在科目之间编辑距离很小,只有一字之差,基于软匹配的方式也行不通。当前的解决方案只能随着使用场景的增加,不断增加补丁,鲁棒性较差。亟需一种泛化性更好地科目标准化算法。

发明内容

本发明提供了一种面向财务报表图像的结构化信息提取方法,解决了以上所述的财务报表图像文字识别方案效果差的技术问题。

本发明为解决上述技术问题提供了一种面向财务报表图像的结构化信息提取方法,包括:

S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;

S2,采取数据增广策略对所述标准财务报表进行科目增广;

S3,对增广之后的数据进行fastText模型训练。

可选的,所述数据增广策略包括随机剪裁科目文字、随机近义词替换科目文字及随机增添科目文字。

可选的,所述S3具体包括:利用自然语言处理(NLP)方式解决科目表述不一致问题。

可选的,所述自然语言处理(NLP)方式包括模型选择;

所述模型选择包括针对当前任务特点,底层特征选取字向量(embedding),字向量维度设置为50维,科目字符最长长度为20;选取轻量级BiLSTM为模型骨干网络,隐层向量输出为256维度;前后向特征拼接形成512维特征向量,经过全连接层输出288维logit。

可选的,所述自然语言处理(NLP)方式包括损失函数,所述损失函数由两部分构成,一部分为正常的类别交叉熵损失,另一部分考虑不同科目与标准科目的字符长度关系,加入编辑距离损失,所述编辑距离损失为:

其中,k=288,y为真实标签,p为预测标签,β为权重因子,a,b分别为真实标签和预测标签的字符串,i,j分别为a,b对应的字符串长度,lev为字符串编辑距离函数。

可选的,所述字符串编辑距离函数通过python-Levenshtein函数接口实现。

可选的,所述财务报表为PDF格式文件。

可选的,所述S1具体包括:将PDF格式的财务报表进行切分以得到多个独立的原始报表,然后将所有原始报表拼接得到完整报表,最后通过ocr识别方法对所述完整报表进行表格重构以将科目标准化,并得到标准财务报表。

可选的,所述S2具体包括:针对ocr识别得到标准财务报表进行错误替换,具体地,通过查找形近字随机替换。

可选的,所述S2具体包括:针对ocr识别得到标准财务报表进行漏检,具体地,对科目名称的头尾或中部减字。

有益效果:本发明提供了一种面向财务报表图像的结构化信息提取方法,包括:S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;S2,采取数据增广策略对所述标准财务报表进行科目增广;S3,对增广之后的数据进行fastText模型训练。在OCR解析存在部分错误的时候,如科目之间编辑距离很小、只有一字之差的情况,该方案能有效剔除清理此类错误,能泛化性更好地科目标准化,具有较好的鲁棒性,适于推广应用。尤其是针对数量较大的网站财务报表数据,其能快速进行收集、处理得到科目表述一致且错误少的科目数据信息。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明面向财务报表图像的结构化信息提取方法的流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示,本发明提供了一种面向财务报表图像的结构化信息提取方法,包括:

S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表。具体地,先收集财务报表所有科目项,人工整理出标准化科目类别,对科目数据进行标准化科目类别标注,得到标准财务报表。即数据准备阶段,在一个具体的实施场景中,所用数据来源自上清所、深交所网站,利用爬虫技术从网站爬取数据公司财务报表数据,共收集报表数据55000余份。然后人工整理出标准化科目类别。由于各家财务报表数据的科目存在类别一致但是表述方式不一致的情况,传统的基于规则的方法无法进行科目对齐。本发明首先对收集到的数据,进行人工整理科目类别,将利润表、现金流量表、资产负债表归为288个标准类别。如下表所示进行标准类别分类情况:

然后对已有的财务报表科目数据进行标准化类别标注。随机抽取100份财务报表,每份包含三表:资产负债表、利润表、现金流量表,共计300张科目表格数据。人工对300页科目数据进行打标,标签为288个对应科目。

S2,采取数据增广策略对所述标准财务报表进行科目增广。由于本项目是衔接在OCR识别之后的任务,OCR可能因为印章干扰、扫描模糊等因素而识别错误,从而影响后续的科目提取,通过模拟OCR是被错误进而对抗错字、少字带来的干扰。进而增广方式有以下两种:一是随机替换形近字;二是随机剪裁头部文字尾部文字(一般是1~2个文字)。

S3,对增广之后的数据进行fastText模型训练。以解决科目表述不一致及错别字、少字等的问题。

可选的方案,所述数据增广策略包括随机剪裁科目文字、随机近义词替换科目文字及随机增添科目文字。在收集财务报表时,会进行ocr识别处理,此时OCR可能因为印章干扰、扫描模糊等因素而识别错误,从而影响后续的科目提取。因此通过模拟OCR识别错误进而减少对抗错字、少字带来的干扰。

可选的方案,利用自然语言处理(NLP)方式解决科目表述不一致问题。利用NLP的方式解决科目表述不一致问题。自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。包括了模型选择和损失函数。

其中,针对当前任务特点,底层特征选取字向量embedding,字向量维度设置为50维,科目字符最长长度为20。选取轻量级BiLSTM为模型骨干网络,隐层向量输出为256维度。前后向特征拼接形成512维特征向量。经过全连接层输出288维logit。

LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。

损失函数有两部分构成,一部分为正常的类别交叉熵损失,另一部分考虑不同科目与标准科目的字符长度关系,加入编辑距离损失:

其中,k=288,y为真实标签,p为预测标签,β为权重因子,a,b分别为真实标签和预测标签的字符串,i,j分别为a,b对应的字符串长度,lev为字符串编辑距离函数。

其中,所述字符串编辑距离函数通过python-Levenshtein函数接口实现。python-Levenshtein函数接口为现有技术,通过调取直接应用到此处更加高效方便。

有益效果:本发明提供了一种面向财务报表图像的结构化信息提取方法,包括:S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;S2,采取数据增广策略对所述标准财务报表进行科目增广;S3,对增广之后的数据进行fastText模型训练。在OCR解析存在部分错误的时候,如科目之间编辑距离很小、只有一字之差的情况,该方案能有效剔除清理此类错误,能泛化性更好地科目标准化,具有较好的鲁棒性,适于推广应用。尤其是针对数量较大的网站财务报表数据,其能快速进行收集、处理得到科目表述一致且错误少的科目数据信息。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号