首页> 中国专利> 基于RPA和OCR协助的企业报表智能数据转录方法

基于RPA和OCR协助的企业报表智能数据转录方法

摘要

本发明公开了一种基于RPA和OCR协助的企业报表智能数据转录方法,属于数据自动化录入技术领域。本发明利用RPA和OCR技术,首先将审计标准附注财务报表中的封面数据转录到专用软件的封面代码标签内的对应文本输入框中,然后将固定企财子表中的数据转录到专用软件的固定模板表中,最后根据浮动表配置表中记录的数据从相应的浮动企财子表中匹配出浮动数据转录到专用软件中的相应浮动企财子表的空表中,实现了对线下审计标准附注财务报表中的封面数据、固定及浮动企财子表智能转录到专用软件中,解决了集团客户对线下审计标准附注财务报表中的单个甚至多个固定或浮动企财子表进行反复修改、调整,人为更新专用软件中的相应子表工作繁琐、重复度高的问题。

著录项

  • 公开/公告号CN116090419A

    专利类型发明专利

  • 公开/公告日2023-05-09

    原文格式PDF

  • 申请/专利权人 珠海金智维信息科技有限公司;

    申请/专利号CN202211531644.4

  • 发明设计人 廖万里;金卓;陈伟峰;欧阳博文;

    申请日2022-12-01

  • 分类号G06F40/18(2020.01);G06F40/186(2020.01);G06F40/174(2020.01);G06Q40/12(2023.01);

  • 代理机构深圳珠峰知识产权代理有限公司 44899;

  • 代理人黄伟

  • 地址 519080 广东省珠海市唐家湾镇哈工大路1号1栋A301t

  • 入库时间 2023-06-19 19:33:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-26

    实质审查的生效 IPC(主分类):G06F40/18 专利申请号:2022115316444 申请日:20221201

    实质审查的生效

  • 2023-05-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及数据自动化录入技术领域,具体涉及一种基于RPA和OCR协助的企业报表智能数据转录方法。

背景技术

企业在线下填写好审计标准附注财务报表(Excel文件)后,交由会计师事务所审计人员将数据录入到专用年度企业报表处理软件中,经软件内部自动统计、核算后生成本年度的集团财务报表。该报表通常包括企业的资产负债表、利润表、权益变动表、税金表、补充数据表等228个企财子表。这228个企财子表中有122个数据可能浮动变化的浮动企财子表和剩余106个数据固定不变的固定企财子表。审计人员需要手动将这122个浮动企财子表的数据录入到该专用软件中,这种手动数据录入的方式存在以下两个问题:

1、海量浮动表数据录入浪费大量的人力成本。审计人员人工将这122个浮动企财子表的数据通过复制粘贴的方式进行录入,工作重复度非常高,当同个审计人员对几十家甚至上百家企业在短期内同时录入浮动企财子表时容易造成数据录入错乱。

2、客户对浮动企财子表的数据内容进行调整或修改时,审计人员需要在专用软件中重新调整和修改相应内容,现实场景中,可能存在对同个浮动企财子表短期内修改数十次甚至更多的情况,这种反复的数据调整和修改对于审计人员而言,相当耗时且容易出错,可能导致因调整或修改而造成数据丢失、遗漏等后果。

发明内容

本发明以简化企业报表录入流程,降低审计人员工作重复度,提高数据录入的自动化程度为目的,提供了一种基于RPA和OCR协助的企业报表智能数据转录方法。

为达此目的,本发明采用以下技术方案:

提供一种基于RPA和OCR协助的企业报表智能数据转录方法,步骤包括:

S1,使用RPA工具将审计标准附注财务报表的FMDM封面代码中的企业基础数据自动转录到专用软件的封面代码标签内的对应文本输入框中;

S2,所述RPA工具加载固定模板表,然后自动导入与所述固定模板表具有绑定关系的固定企财子表并将导入的所述固定企财子表中的数据转录到所述固定模板表中;

S3,通过RPA工具和OCR文字识别技术提取各浮动企财子表的配置信息并记录,然后形成为综合各所述浮动企财子表的配置信息的浮动表配置表;

S4,通过所述RPA工具在所述审计标准附注财务报表的各所述浮动企财子表中匹配出与所述浮动表配置表中记录的数据相匹配的浮动数据,然后转录到所述专用软件中的相应的浮动企财子表空表中。

作为优选,步骤S1中提供的智能封面转录方法具体包括步骤:

S11,通过所述RPA工具自动寻找到所述专用软件中的所述封面代码标签,然后识别出所述封面代码标签下的每个窗口类名串或窗口标题串;

S12,根据每个所述窗口类名串或每个所述窗口标题串绑定的文本输入框的坐标识别码,通过所述RPA工具自带的查找窗口组件匹配出每个所述窗口类名串或每个所述窗口标题串分别对应的所述文本输入框的所述坐标识别码;

S13,在所述审计标准附注财务报表的所述FMDM封面代码中识别出每个所述窗口类名串或每个所述窗口标题串关联的封面数据;

S14,所述RPA工具根据步骤S12匹配到的所述坐标识别码的位置指引,将识别到的每个所述封面数据转录到所述专用软件的所述封面代码标签下的对应所述窗口类名串或所述窗口标题串所绑定的所述文本输入框中。

作为优选,步骤S2转录固定表数据的方法具体包括步骤:

S21,所述专用软件按指令根据事先绑定的所述固定模板表与所述审计标准附注财务报表的所述固定企财子表的绑定关系匹配出所述固定模板表并加载;

S22,所述RPA工具操作所述专用软件以导入所加载的部分或全量的各所述固定企财子表并以列表形式显示以供进一步选定固定表数据转录对象;

S23,通过所述RPA工具在固定企财子表列表中选定待进行数据转录的所述固定企财子表后,所述专用软件自动获取固定企财子表的“系统盘路径”“企业名称与集团企业(公司)总部代码”“子表标识码与子表名称主体”写入到事先加载的空白的所述固定模板表中;S24,所述专用软件继续从所述系统盘路径指引的对应选中的各所述固定企财子表中自动获取固定表数据并自动写入到所述固定表模板中。

作为优选,步骤S3中,提取所述浮动企财子表的所述配置信息的方法步骤包括:

S31,通过OCR文字识别技术识别所述浮动企财子表的第一列的表头数据是否为“序号”,

若是,则记录所述浮动企财子表的数据转录的起始列号为第二列;

若否,则记录所述浮动企财子表的数据转录的起始列号为第一列;

S32,通过所述OCR文字识别技术从所述浮动企财子表的数据转录起始列识别出区域标记配置信息;

S33,通过所述OCR文字识别技术识别出所述浮动企财子表的区域行数配置信息;

S34,通过所述OCR文字识别技术识别出所述浮动企财子表的区域坐标配置信息。

本发明利用RPA和OCR技术实现了对线下审计标准附注财务报表中的封面数据、固定及浮动企财子表智能转录到专用软件中,解决了集团客户对线下审计标准附注财务报表中的单个甚至多个固定或浮动企财子表进行反复修改、调整,人为更新专用软件中的相应子表工作繁琐、重复度高的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是专用软件与审计标准附注财务报表的示意图;

图2是将审计标准附注财务报表的FMDM封面代码中的企业基础数据使用RPA工具转录到专用软件的封面代码标签内的对应文本输入框中的示意图;

图3是由RPA工具导入到专用软件中的固定企财子表的示意图;

图4是固定企财子表的子表标识码与主标题、报表编号、报表类型的对应关系图;

图5是空白的数据关系模板配置文件.ini的示意图;

图6是RPA工具在固定企财子表列表中选定若干固定企财子表后专用软件向数据关系模板配置文件.ini自动写入固定表数据的示意图;

图7是RPA工具自动生成数据关系模板配置文件自动导入与模板配置文件具有绑定关系的固定企财子表并自动转录数据的示意图;

图8是浮动企财子表空表的示意图;

图9是通过OCR技术识别浮动企财子表的区域标记配置信息的示意图;

图10是通过OCR技术识别浮动企财子表的区域坐标配置信息的示意图;

图11是OCR针对浮动企财子表识别到的浮动配置信息表的示意图;

图12是本发明实施例提供的基于RPA和OCR协助的企业报表智能数据转录方法的原理图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

根据该专用年度企业报表处理软件的要求,企财子表的数据人工录入顺序分为三个步骤:封面录入、固定表数据录入和浮动表数据录入。为了提升数据录入该专用软件的自动化程度,本发明通过RPA+OCR技术,将原本人工录入的三个步骤转换为四个智能转录步骤:智能封面转录、智能固定表数据转录、浮动表配置信息智能提取、智能浮动表数据转录。以下结合图12对每个智能转录步骤具体如何基于RPA+OCR技术实现进行说明。

步骤一、智能封面转录

打开图1所示中左侧所示的专用软件后,首先需要在该专用软件窗口的【封面代码】标签中录入集团企业基础信息,该基础信息为记载在图1中右侧所示的审计标准附注财务报表Excel子表中的【FMDM封面代码】中的数据。本发明使用RPA工具将图1中右侧所示的【FMDM封面代码】中的企业基础数据自动转录到图1中左侧的对应文本输入框中。RPA自动转录封面数据的方法具体为:

1、通过RPA工具自动寻找到专用软件中的【封面代码】标签,然后识别出【封面代码】标签下的每个窗口类名串或窗口标题串(如图1中左侧专用软件中的“企业类别”、“企业名称”、“单位负责人”等为窗口类名串或窗口标题串);

2、根据每个窗口类名串或窗口标题串绑定的文本输入框的坐标识别码,匹配出每个窗口类名串或每个窗口标题串分别对应的文本输入框的坐标识别码(通过图2中所示的RPA工具中自带的【查找窗口】组件能够自动识别出封面代码标签下的每个窗口类名串或窗口挑剔串的文本输入框的坐标识别码);在数据录入时,RPA工具能够根据这个坐标识别码快速查询到相应数据自动录入的文本输入框的位置;

3、在审计标准附注财务报表的FMDM封面代码中识别出每个窗口类名串或每个窗口标题串关联的封面数据;

4、RPA工具根据步骤S12匹配到的坐标识别码的位置指引,将识别到的每个封面数据转录到专用软件的封面代码标签下的对应窗口类名串或窗口标题串所绑定的文本输入框中。

步骤二、智能固定表数据转录

由于客户对线下审计标准附注财务报表中的数据可能作反复调整或修改,可能不断对一个或者多个企财子表重复进行修改。经过步骤一成功转录得到智能封面数据后,专用软件根据事先绑定的软件固定模板表与审计标准附注财务报表的固定企财子表的绑定关系加载软件固定模板表(如图5所示),软件固定模板表被定义为“数据关系模板配置文件.ini”文件;

然后通过RPA工具操作专用软件以导入所加载的部分或全量固定企财子表并以列表形式显示以供进一步选定固定表数据转录对象,导入的固定企财子表的列表请参照图3;

然后RPA工具在如图6所示的固定企财子表列表中选定待进行数据转录的固定企财子表后,点击专用软件上的“选择上传.html”按钮,专用软件首先自动获取选定的固定企财子表的【系统盘路径】、【企业名称与集团企业(公司)总部代码】、【子表标识码与子表名称主题】数据(【系统盘路径】、【企业名称与集团企业(公司)总部代码】、【子表标识码与子表名称主题】这些数据在进行封面数据转录时已经被记录,因此在转录固定表数据时,专用软件直接从存储器中获取这些数据即可)写入到事先加载的空白的“数据关系模板配置文件.ini”中。如图4中所示的子表标识码(Z01、Z02等)由专用软件去获取。然后,继续从系统盘路径指引的对应固定企财子表中自动获取固定表数据并自动写入到“数据关系模板配置文件.ini”文件中。

步骤三、浮动表配置信息智能提取

通过RPA+OCR技术自动识别浮动企财子表空表形成【浮动配置表】(浮动企财子表空表的示意图请参照图8)。本申请采用OCR文字识别技术对浮动企财子表的空表内容进行智能提取。

首先,OCR识别技术对浮动企财子表的表头数据进行分类,然后自动抓取浮动企财子表空表配置信息,分别抓取浮动企财子表配置信息如下:【列号|区域标记|区域行数|区域坐标(在当前窗口中的位置坐标)】。以下对浮动企财子表各配置信息的具体含义和抓取方法进行重点说明:

1)“列号”配置信息。通过OCR文字识别技术识别浮动企财子表,由于浮动企财子表的表头区分有【序号】和无【序号】两种情况,当有【序号】时,则待添加数据的起始位置为第二列,当无【序号】时,数据添加的起始位置为第一列,因此转录浮动企财子表需要识别的配置信息首先为识别浮动企财子表是否携带有【序号】。若识别到的浮动企财子表的第一列表头数据为【序号】,则记录数据添加(转录)的起始列号为“2”(第二列),若识别到的浮动企财子表的第一列表头数据并非为【序号】,则记录数据添加的起始列号为“1”(第一列);

2)“区域标记”配置信息。通过OCR识别技术识别浮动企财子表,自动获取每个空白区域的首行空白数据内容的上一行表头名称并记录。通过[+]符号识别该区域下方是否有固定表头信息,通过[,]符号识别下一个表头内容。如图9所示,通过OCR技术对框选的区域A自动识别输出的区域标记配置信息为:

【一、连续持有[+]0[,]二、本年新增

二、本年新增[+]0[,]三、本年减少

三、本年减少[+]0[,]备注:“年末股权比例”>50%或“年末账面余额”未填列数据的情况,需在此项目中予以说明;以成本法核算的长期股权投资需在此予以说明。】

以图9中的区域A为例,该区域A的区域标题为“一、连续持有”,该区域存在换行情况,则其具有区域换行标识[+],在区域标题“一、连续持有”下是否存在区域副标题,由图9可见,该区域不存在区域副标题,为[0],然后通过符号[,]来识别同一列下方的下一个表头内容,识别到的下一个表头内容为“二、本年新增”,则最终针对区域A识别到的区域标记配置信息为【一、连续持有[+]0[,]二、本年新增】。

3)“区域行数”配置信息。通过OCR文字识别技术识别出数据转录起始列中以行分割的区域标题之间的行数,如图9所示,区域标题“一、连续持有”与区域标题“二、本年新增”之间分隔有3行,则OCR识别出区域标题“一、连续持有”与区域标题“二、本年新增”间的行数为“3”。同理,识别出区域标题“二、本年新增”与区域标题“三、本年减少”间的行数为“3”;识别出“三、本年减少”与“备注:“年末股权比例”……”间的行数同样为“3”。则识别出该浮动企财子表的区域行数配置信息为“3;3;3”。

4)“区域坐标”配置信息。通过OCR技术识别浮动企财子表,识别出数据转录起始列中的每个区域标题下方的单元格在该浮动企财子表中的位置坐标。例如如图10中所示,通过OCR技术对“一、连续持有”这一区域标题下方的单元格识别到的区域坐标为“24,110”。

通过OCR识别出的浮动配置信息表如图11所示。

以此类推,对每个浮动企财子表利用OCR技术进行配置信息识别,最终形成记录有每个浮动企财子表的配置信息的【浮动表配置表.xls】。

步骤四、智能浮动表数据转录

通过RPA工具在审计标准附注财务报表的各浮动企财子表中匹配出与浮动表配置表中记录的数据相匹配的浮动数据,然后转录到专用软件中的相应浮动企财子表空表中。

综上,本发明利用RPA和OCR技术实现了对线下审计标准附注财务报表中的封面数据、固定及浮动企财子表智能转录到专用软件中,解决了集团客户对线下审计标准附注财务报表中的单个甚至多个固定或浮动企财子表进行反复修改、调整,人为更新专用软件中的相应子表工作繁琐、重复度高的问题。

需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号