公开/公告号CN106776822A
专利类型发明专利
公开/公告日2017-05-31
原文格式PDF
申请/专利权人 远光软件股份有限公司;国网山东省电力公司;
申请/专利号CN201611055861.5
申请日2016-11-25
分类号G06F17/30;
代理机构济南圣达知识产权代理有限公司;
代理人黄海丽
地址 250000 山东省济南市市中区经四路5号万达广场C座1003
入库时间 2023-06-19 02:23:20
法律状态公告日
法律状态信息
法律状态
2019-11-12
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20180508 终止日期:20181125 申请日:20161125
专利权的终止
2018-05-08
授权
授权
2018-04-27
著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20161125
著录事项变更
2018-04-27
专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20180409 变更前: 变更后: 申请日:20161125
专利申请权、专利权的转移
2017-06-23
实质审查的生效 IPC(主分类):G06F17/30 申请日:20161125
实质审查的生效
2017-05-31
公开
公开
查看全部
技术领域
本发明涉及一种集团企业报表数据提取方法及系统。
背景技术
由于报表是一种半结构化文档,现有的报表数据提取方式主要是对报表单元格数据进行特征标记的技术手段来实现报表数据的识别与提取,但这种方法对原报表侵入性强,报表更改后难以维护,同时标记无法解决单元格数据之间的关联运算等关系以及满足用户动态扩展的需求。
发明内容
本发明的目的就是为了在不改造原有报表系统的条件下实现报表项数据识别、提取、关联等问题,提供一种集团企业报表数据提取方法及系统,本发明通过对二维报表的结构拆解、内容重组、体系优化、形式再造等方式建立集团企业指标体系标准,实现报表格式与数据分离,实现半结构化文档向全结构化数据转变,为集团企业关键信息多维反映及自助分析挖掘奠定基础。
为了实现上述目的,本发明采用如下技术方案:
集团企业报表数据提取方法,包括:
步骤(1):获取电子集团企业报表,将集团企业报表拆解为报表项;
步骤(2):对报表项进行预处理,对预处理后的报表项按逻辑进行去重处理,消除重复数据;将处理后的报表项存储到EXCEL表中;
步骤(3):对报表项进行维度抽取和内容重组,将含有所述报表项的EXCEL表转化为多维的指标体系;
步骤(4):利用值类型定义指标计算公式,建立指标体系中的指标关联关系;
步骤(5):基于指标体系从集团企业报表中抽取、转换及加载指标数据,构建指标数据仓库DW(Data Warehouse)。
所述步骤(1)的步骤为:
将集团企业报表中的单列式报表与矩阵式报表进行结构拆解,形成报表项;
将单列式报表进行结构拆解是指取单列式报表的所有列表头作为报表项;
将矩阵式报表进行结构拆解是指将矩阵式报表拆分为矩阵式报表所有行表头与矩阵式报表所有列表头的组合。
所述单列式报表是指第一列为报表项、其他列为值类型的报表;例如:第一列为货币资金、结算备付金的报表项。
所述矩阵式报表是指第一列与报表头一起构成报表项的报表;所述矩阵式报表项例如发电成本_购入电力费、售电成本_购入电力费。
所述步骤(2)的预处理包括:
(21)去掉特殊符号;
(22)去掉说明性文字;
(23)每个组合都是先引用列表头再引用行表头,列表头与行表头之间通过下划线“_”连接;
(24)对于存在中英文的指标,先引用中文,再引用英文,英文放在括号中间;
(25)对于存在上下级关系的多层指标,按照用户设定规则简化为两层指标;
所述特殊符号,包括:空格、三角形、冒号、括号、顿号、逗号、引号、星号等符号;
所述说明性文字,包括:阿拉伯数字、“其中”、“损失以负数填列”等;
所述步骤(2)的去重处理,发现重复报表项时,保留优先级在前面的报表项。
报表的排序规则是:先核算报表,后预算报表;
核算报表和预算报表分别按名称排序;名称先按阿拉伯数字排序,无阿拉伯数字的按报表名称的首字拼音字母顺序排序;
对于单列表,报表项由上而下排序;
对于矩阵表,报表行由上而下排序,报表列由左而右排序,以报表行为基准逐行与所有报表列组合排序。
若两个报表项实质相同但名称不同时,保留一个与类似报表项名称结构相似的报表项。
若两个报表项实质不同但名称相同时,通过修改名称来区分两个不同的报表项。
所述维度抽取是指:对可归类的指标合并为一个指标,并把报表项的类型抽取为维度。例如不再将发电成本的工资、输配电成本的工资、产品生产成本的工资、技术成本的工资、其他成本的工资、管理费用的工资、营业费用的工资等作为指标,而是将发电、输配电、产品生产、技术、其他、管理、营业等纳入“活动”维度,仅保留“工资”作为指标。
维度包括:活动维度、作业维度、资产维度、项目类型维度、用电类型维度、电能类型维度、客户类型维度、电压等级维度、员工类型维度等等,不同行业有不同的维度;
所述内容重组是指:指在原来报表结构化基础上,进一步实现模型化。例如,对于科目“生产成本输配电成本外包材料费生产大修输电线路检修”,将其中“生产成本输配电成本外包材料费”作为指标,“生产大修”纳入作业维度,“输电线路”纳入资产维度。
所述多维的指标体系是指:指标体系是指若干相互联系的指标所组成的有机体,通过报表项指标化及维度抽取与内容重组,实现表现形式由二维向多维的转变,实现指标的一次定义和反复使用,而不是根据千变万化的需求和不同报表的披露对象,对同一指标反复定义。
所述步骤(4)的步骤为:
报表管理中报表项关系盘根错节,计算层级错综复杂,构建指标体系,还需理清指标关系,理顺指标层级,而指标计算公式是指标关系的最佳载体,但要保证指标计算公式是唯一且可维护,所以引入值类型概念,值类型包括源生值类型、通用值类型和派生值类型三类;
所述源生值类型,是指业务发生时指标直接引用的值类型。会计科目类指标的源生值类型包括:期初余额、借方发生额、贷方发生额、期末余额。
所述通用值类型,是指各类指标的源生值类型各有不同,为了建立共同的计算平台,引进通用值类型"本期数",不同类型指标“本期数”指向各不同。
所述派生值类型,是指在通用值类型"本期数"基础上派生出的情景值,包括年初数、上期数、上年同期数、本年累计数、上年同期累计数等。
利用值类型定义指标计算公式的方法为:
计算公式通过逐层定义的,并最终指向原始指标;相应的,计算方式为层级计算。
搭建的计算体系只写本期数计算公式,其他情景值转化为本期数计算。
例如营业收入=主营业务收入+其他业务收入,要计算营业收入2015年3月的本年累计数计算步骤是:首先将2015年3月营业收入的本年累计数转化为1至3月的本期数之和,然后获取计算因子主营业务收、其他业务收入1至3月的本期数值进行累加。
营业收入.2015年3月本年累计数
=营业收入.2015年1月本期数+营业收入.2015年2月本期数+营业收入.2015年3月本期数=(主营业务收入.2015年1月本期数+其他业务收入.2015年1月本期数)+(主营业务收入.2015年2月本期数+其他业务收入.2015年2月本期数)+(主营业务收入.2015年3月本期数+其他业务收入.2015年3月本期数)
首先将2015年3月的本年累计数转化为2015年1至3月的本期数,计算时根据计算因子的时点或时期属性,明确其本期数指向,获取各计算因子值。
建立指标关联的方法为:
通过指标层级计算公式中的计算因子,建立指标层级关系。
如:
资产负债率=负债总计/资产总计,
负债总计=流动负债合计+非流动负债合计,
负债总计及资产总计与资产负债率建立了第一层关联;
流动负债合计、非流动负债合计与负债总计建立了第一层关联,
流动负债合计、非流动负债合计与资产负债率建立了第二层关联。
所述步骤(5)的步骤为:
步骤(51):抽取数据,由于企业报表数据通常是由多个异构数据库组成,通过数据收集组件收集数据;
步骤(52):转换数据,检测数据重复、缺失和不一致问题,可能的话进行修正;通过指标关联关系提取数据,通过指标计算公式计算逐层计算数据,将报表数据由源格式转换为统一的指标数据仓库格式。
步骤(54):加载数据,将数据排序、汇总、合并,检查数据完整性并存储到数据仓库。
指标数据仓库为自助式数据分析及多维报表展示提供联机分析处理OLAP(On-Line Analytical Processing)的数据服务。
集团企业报表数据提取系统,包括:
报表项拆解模块:获取电子企业报表,将企业报表拆解为报表项;
报表项预处理模块:对报表项进行预处理,对预处理后的报表项按逻辑进行去重处理,消除重复数据;将处理后的报表项存储到EXCEL表中;
维度抽取和内容重组模块:对报表项进行维度抽取和内容重组,将含有所述报表项的EXCEL表转化为多维的指标体系;
指标关联关系建立模块:利用值类型定义指标计算公式,建立指标体系中的指标关联关系;
指标数据仓库构建模块:基于指标体系从企业报表中抽取、转换及加载指标数据,构建指标数据仓库DW(Data Warehouse)。
本发明的有益效果:
在不改变集团企业现有报表现状的情况下,把分布在不同系统、不同存储、不同口径、不同命名的报表信息有效汇聚统一起来,构建企业关键指标信息资源池,确保指标数据之间互联互通,实现数据一次准备永久可用和柔性可扩,支撑企业关键信息自助分析与挖掘应用。
它是一种企业报表数据分解转换成可分析指标数据的技术,把隐藏于企业报表中的关键信息量子化,突破报表二维的固定展示方式,实现企业关键信息多层次、多视角,多口径的应用和随需展示。
将企业中单列式报表与矩阵式报表进行结构拆解,单列式报表穷尽报表的所有项目、矩阵式报表穷尽报表所有行与所有列的有效组合形成报表项;将拆解后的报表项通过系统自动化剖析清理进行内容重组,消除来源于不同报表相互重复的数据,实现报表项向指标及维度的转换,建立企业关键指标体系;引入源生、通用、派生值类型概念,厘清指标公式与关联,通过公式逐层定义,建立由计算、取数等方式组成的层级计算和网状关联体系;通过系统ETL从报表获取量子化的指标数据,建立维度表及事实表的关键指标信息资源池,达到企业报表数据提取、转换、关联、扩展、应用的目标。
附图说明
图1是集团企业报表数据提取流程
图2是报表拆解为报表项方法
图3是值类型的层级转换关系
图4是基于计算公式的指标关联分析示例
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
一种集团企业报表数据提取方法,包括如下步骤:
步骤(1):将集团企业报表拆解为报表项;
将企业报表中的单列式报表与矩阵式报表进行结构拆解,形成报表项;
将单列式报表进行结构拆解是指取单列式报表的所有列表头作为报表项;
将矩阵式报表进行结构拆解是指将矩阵式报表拆分为矩阵式报表所有行表头与矩阵式报表所有列表头的组合;
步骤(2):将报表项按逻辑进行去重处理;
由于各类型报表之间,如核算报表与预算报表,均存在重复指标,为保证报表项的唯一性,需要进行除重。
为了发现重复报表项,需要对报表项名称进行规范。规范方式包括:
·去掉报表项名称中来自报表行或报表列的空格、三角形、冒号、括号、顿号、逗号、引号、星号等符号;
·去掉报表项名称中来自报表行或报表列的阿拉伯数字、“其中”、“损失以负数填列”等说明性文字;
·报表行和报表列组合的指标名称,尽量沿用会计科目习惯,先引用列名,再引用行名,中间用“_”符号连接。例如,“发电成本_水电费”、“输配电成本_水电费”等;
·存在中英文的指标,先引用中文,再引用英文,中间用括号分开。例如,“经济增加值(EVA)”、“息税折旧及摊销前利润(EBITDA)”、“税后净营业利润(NOPAT)”、“资本成本率(WACC)”等。
·对于存在上下级关系的多层指标,在不影响理解的前提下,尽量简化层级。例如,“成本费用明细_输配电成本_农村电网维护费_工资”,简化为“农村电网维护费_工资”。
·由于会计科目层级用“”号表示,如“生产成本输配电成本”,因此限定指标名称不能使用“”符号;除了预算科目“现金流出金融现金流出业务及管理费现金支出业务费用办公费-电财”和“现金流出金融现金流出业务及管理费现金支出管理费用办公费-电财”之外,“-”表示计算关系中的减法,指标名称不再使用。
例如,保留《财务快报-资产负债表》中的“货币资金”,删除《3-6资产负债预算》中的“货币资金”。所谓“前面的报表项目”,是按如下规则确定的:
·指标在梳理过程中,保留了其来源报表、报表行和报表列,以便追溯指标的来源。报表的先后顺序是:先核算报表,后预算报表。
·核算报表和预算报表分别按名称排序。名称先按阿拉伯数字排序,无阿拉伯数字的按报表名称的首字拼音字母排序。
·对于单列表,报表项目由上而下排序;对于矩阵表,报表行由上而下排序,报表列由左而右排序,两者以报表行为基准逐行与所有报表列组合排序。
例如,对于重复报表项“售电单位成本”和“单位售电成本”,由于与已存在报表项“发电单位成本”、“输配电单位成本”等的结构相似,故保留“售电单位成本”,删除“单位售电成本”。
报表项实质不同但名称相同时,通过完善名称区分为不同报表项。
例如,“净资产收益率”通过名称区分为三个不同的指标:净资产收益率(含少数股东权益)、净资产收益率(不含少数股东权益)、净资产收益率。
步骤(3):对同一类的报表项进行维度抽取和内容重组,将二维报表项转化为多维的指标体系;
目前的报表管理,报表项关系盘根错节,计算层级错综复杂,需要通过报表项的指标化,拆除不同报表之间信息隔绝的藩篱,理清指标关系,理顺指标层级,避免数据冗余和信息重复,减轻公式定义工作量和报表维护难度。报表项转化为指标体系,不仅仅是转换概念,更有着实质内涵,包括:
·维度抽取:例如,对现金流量表,不再将现金流量项目作为指标,而是作为现金、银行存款、其他货币资金等指标的维度;再如,可不再将发电成本的工资、输配电成本的工资、产品生产成本的工资、技术成本的工资、其他成本的工资、管理费用的工资、营业费用的工资等作为指标,而是合并同类项纳入主数据,将发电、输配电、产品生产、技术、其他、管理、营业等纳入“活动”维度,仅保留“工资”作为指标。同时在原来报表结构化基础上,进一步实现模型化。例如,对于“生产成本输配电成本外包材料费生产大修输电线路检修”,将其中“生产成本输配电成本外包材料费”作为指标,“生产大修”纳入作业维度,“输电线路”纳入资产维度。
·内容重组:在传统报表管理中,由于辅助核算的管理对象数量比较多,变化比较频繁,给报表管理工作带来很大困难。例如,工程施工项目比较多,相关报表的报表项目相应的也会比较多;由于工程施工项目经常增加,而每增加一个工程项目,相关报表就要增加一行,取数公式就要增加一个,给报表维护增加了难度,给指标维护增加了难度;而且,在业务系统增加工程施工项目时,报表管理系统的维护人员未必能及时知道,造成相关报表的项目遗漏,数据错误;转化为指标体系后可做到辅助核算免维护,业务系统的辅助核算增加或变更时,系统可同步实时更新,各辅助核算的数据可实时分析。
步骤(4):建立指标体系中指标关联关系;
值类型如财务报表中的贷方发生额、借方发生额、期末余额、本年累计数、本月数等,通过引入值类型并建立值类型转化层次,将值类型分为源生、通用、派生三类,并进行层层转化:
·源生值类型:是业务发生时指标直接引用的值类型,例如期初余额为会计科目的源生值类型、本期借方发生额为会计科目的源生值类型、本期贷方发生额为会计科目的源生值类型、期末余额为会计科目的源生值类型、发生数为核算指标的源生值类型、编制数为预算指标的源生值类型。
·通用值类型:核算科目、核算指标、预算指标三者之间,源生值类型各有不同,通过“本期数”,三者可统一值类型,从而建立共同的计算平台,即通用值类型为“本期数”,不同类型指标的“本期数”含义不同。对于时点类会计科目,包括资产、负债、权益、共同类科目,本期数指向所选期间最后一月的期末余额;时期类会计科目中收入(利得)类科目,本期数指向所选期间各月的贷方发生额之和;成本费用(损失)类科目的本期数指向所选期间各月的借方发生额之和;对于非公式计算的指标,时点类指标的本期数指向所选期间最后一月的发生数、时期类指标的本期数指向所选期间各月的发生数之和;预算指标本期数指向所选期间当年的编制数(或下达数)。
·派生值类型:是在通用值类型“本期数”基础上派生出的值类型,如年初数为所选期间上年的本期数、上期数为所选期间上期的本期数、上年同期数为所选期间上年同期的本期数、本年累计数为所选期间当年1月至最后一月的本期数、上年同期累计数为所选期间上年同期的本年累计数、本年数为所选期间当年的本年累计数、上年数为所选期间上年的本年数、本年预算数为所选期间当年的本期数。
值类型及值类型转换关系是指标公式及指标关联的根基,所有指标的计算公式,通过时间挪动,都可转化为本期数。例如指标“人均利润”3月的本年累计数,时间挪动为1至3月,计算“人均利润”的本期数;再如指标“人均利润”3月的上期数,时间挪动为2月,计算“人均利润”的本期数,即对于任何指标,只需计算本期数,这样就简化指标公式的定义并保证公式的唯一性,指标公式是逐层定义的,指标分析可逐层关联,例如:
流动比率=流动资产合计/流动负债合计*100
流动资产合计=货币资金+应收票据+应收账款+...+其他流动资产
流动负债合计=短期借款+应付票据+应付账款+...+其他流动负债
货币资金=库存现金+...+其他货币资金
短期借款=短期借款
步骤(5):应用信息化技术,基于指标体系从企业报表中抽取、转换及加载指标数据,构建指标数据仓库DW(Data Warehouse)。
·抽取数据,由于企业报表数据通常是由多个异构数据库组成,通过数据收集组件收集数据;
·转换数据,检测数据重复、缺失、不一致等问题,可能的话进行修正;通过指标取数关系提取数据,通过指标计算公式计算逐层计算数据,将报表数据由源格式转换为统一的指标数据仓库格式。
·加载数据,将数据排序、汇总、合并,检查数据完整性并存储到数据仓库。
指标数据仓库为自助式数据分析及多维报表展示提供联机分析处理OLAP(On-Line Analytical Processing)的数据服务。
将企业中单列式报表与矩阵式报表进行结构拆解,单列式报表穷尽报表的所有项目、矩阵式报表穷尽报表所有行与所有列的有效组合形成报表项;将拆解后的报表项通过系统自动化剖析清理进行内容重组,消除来源于不同报表相互重复的数据,实现报表项向指标及维度的转换,建立企业关键指标体系;引入源生、通用、派生值类型概念,厘清指标公式与关联,通过公式逐层定义,建立由计算、取数等方式组成的层级计算和网状关联体系;通过系统ETL从报表获取量子化的指标数据,建立维度表及事实表的关键指标信息资源池,达到企业报表数据提取、转换、关联、扩展、应用的目标。
如图1所示,首先将企业二维报表按行列进行结构拆解成报表项,将报表按逻辑进行去重并按编码体系进行编码,编码完成后对同一类的报表项进行维度抽取及内容重组,把二维的报表项量子化为多维的指标体系,同时引入值类型实现指标唯一公式定义并建立指标关联,最终通过报表数据ETL,实现指标数据资源池。
一、报表结构拆解:如图2将传统报表分为单列表和矩阵表,单列表取列表头,矩阵表取行+列表头组合,转化为报表项数据指标,比如成本费用表列表头有购入电力费、输电费等费用项目,行表头区分了发电成本、购电成本、输配电成本等成本项,行和列均有具体意义,则将行和列进行组合,形成发电成本_购入电力费、购电成本_购入电力费、发电成本_输电费、输配电成本_输电费等指标。
二、值类型创新应用:引入值类型概念明确完整定位指标数据的四个基本维度,解决传统报表在不同计算情景下需定义不同计算公式,数据结构冗余,应用方式复杂等问题;如图3引建立值类型转化层次,将值类型分为源生、通用、派生三层,从源生到通用,从通用到派生通过转换公式进行层层转化;同时固化值类型计算规则,明确“本期数”、“本年累计数”等转换计算规则,简化计算路径,支撑指标通过唯一公式建立数据关联。
三、体系优化:在原来报表结构化基础上,进一步实现模型化。例如,对于“生产成本输配电成本外包材料费生产大修输电线路检修”,将其中“生产成本输配电成本外包材料费”作为指标,“生产大修”纳入作业维度,“输电线路”纳入资产维度,通过维度抽取方式,实现指标数据的无限扩展。
四、形式再造:基于数据模型,实现展现形式由二维向多维的转变。例如,可查询资产、作业、电压等级等多个维度组合的成本费用;通过报表项目的量子化,可实现指标的一次定义和反复使用,而不是根据千变万化的需求和不同报表的披露对象,对同一指标反复定义;通过报表项目的量子化,实现了不同维度,如不同企业、不同时间的数据集成,可在同一界面查询不同企业不同月份的同一指标的数据,为对标管理、关联分析(如图4)、趋势分析创造了条件;通过报表项目的量子化,简化了报表维护工作。如维度变化时,基于原有的报表管理,需要对报表新增行,并定义新的取数公式,而实时分析系统可对维度变化做到实时同步更新,报表格式和各维度取数公式免于维护。
集团企业是现代企业的高级组织形式,是以一个或多个实力强大、具有投资中心功能的大型企业为核心,以若干个在资产、资本、技术上有密切联系的企业、单位为外围层,通过产权安排、人事控制、商务协作等纽带所形成的一个稳定的多层次经济组织。集团企业的整体权益主要是通过明确的产权关系和集团内部的契约关系来维系;核心是实力雄厚的大企业。按照总部经营方针和统一管理的进行重大业务活动的经济实体,或者虽无产权控制与被控制关系,但在经济上有一定联系的企业群体。集团企业报表是以会计准则为规范编制的,向所有者、债权人、政府及其他有关各方及社会公众等外部反映会计主体财务状况和经营的会计报表。集团企业报表包括资产负债表、损益表、现金流量表或财务状况变动表、附表和附注。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
机译: 报表数据管理服务器,报表数据管理程序和报表数据管理设备
机译: 报表数据管理服务器,报表数据管理程序和报表数据管理设备
机译: 使用电子分配的纳税申报表数据准备纳税申报表的系统和方法