首页> 中国专利> 一种基于XBRL技术从非结构化财务报告抓取数据的方法

一种基于XBRL技术从非结构化财务报告抓取数据的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于XBRL技术从非结构化财务报告抓取数据的方法，其具体实现过程为：以XBRL分类标准为财务报告模型，对分类标准元素和扩展链接角色ELR进行扩展标识；使用Word或Excel的非结构化格式的财务报告，预置对采用表格方式表示财务报表进行解析的规则，实现表格数据到XBRL分类标准报告模型的对应关系映射；针对报告主体、时间两个特殊的维度，通过特殊关键字匹配财务报告，在对应关系的基础之上实现表格数据到XBRL数据的自动转换。该一种基于XBRL技术从非结构化财务报告抓取数据的方法与现有技术相比，实现快速的把现有大量的非结构化财务报告转化为XBRL格式进行存储，为企业分析应用提供数据支撑，推动XBRL技术在企业的应用。

著录项

公开/公告号CN104731941A

专利类型发明专利
公开/公告日2015-06-24

原文格式PDF
申请/专利权人浪潮集团有限公司;
展开▼

申请/专利号CN201510146654.X
发明设计人国文峰;
展开▼

申请日2015-03-31
分类号G06F17/30(20060101);
代理机构37100 济南信达专利事务所有限公司;
代理人姜明
地址 250101 山东省济南市高新区浪潮路1036号
入库时间 2023-12-18 09:23:37

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-21

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20150331

专利权人的姓名或者名称、地址的变更
2018-08-24

专利权的转移 IPC(主分类):G06F17/30 登记生效日:20180807 变更前: 变更后: 申请日:20150331

专利申请权、专利权的转移
2018-02-23

授权

授权
2015-07-22

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150331

实质审查的生效
2015-06-24

公开

公开

说明书

技术领域

本发明涉及计算机应用技术领域，具体地说是一种实用性强、基于XBRL技术从非结构化财务报告抓取数据的方法。

背景技术

随着计算机及网络技术的发展，信息以爆炸式的速度飞速增长，数据的存储形式也更加多样化，除了传统的关系数据库结构化存储之外，还有大量的数据以非结构化的方式存储，比如普通文本文件、Office文档、电子邮件或其他格式的电子文档，这些数据一般受限于不同应用软件，必须采用特定软件打开，不同系统之间很难交换数据，据国际知名调研机构Forrest Research的统计资料表明，其中只有15%左右的信息存储在结构化数据库中，更多的85%的信息还是非结构化方式存储，因受限于格式，无法进行有效的利用；在财务报告领域更是如此，由于缺少标准，财务报告不同应用主体之间信息的交换和传输主要采用Office文档等非结构化格式。

XBRL可扩展商业报告语言是基于互联网、跨平台操作，专门用于财务报告编制、披露和使用的计算机语言，是一种可公开的、完全免费的国际标准，其最大特点是对每一个报告数据进行标识，并采用一套标准模型描述数据之间的关系，使得计算机能够读懂财务报告，加快了信息处理的效率和数据的利用率。

XBRL作为一种新兴的财务报告编制技术标准，在全球范围内还处于一个快速发展期，我们国家非常重视XBRL技术的应用，由财政部签头，2010年发布了XBRL相关国家标准，从2011年开始在部分大中型企业开始试点，目前虽然已经试点了四年，但企业应用热情不高，其中一个主要原因是当前社会积累的XBRL企业数据较少，企业应用XBRL一般看重基于XBRL数据分析能力，能够最大化的利用数据，挖掘数据的价值，如何把现有的大量的非结构化的财务报告转化为XBRL格式的，为企业分析应用提供数据支撑，是当前迫切需要解决的。基于此，现提出了一种基于XBRL技术从非结构化财务报告抓取数据的方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、基于XBRL技术从非结构化财务报告抓取数据的方法。

一种基于XBRL技术从非结构化财务报告抓取数据的方法，其具体实现过程为：

一、以XBRL分类标准为财务报告模型，对分类标准元素和扩展链接角色ELR进行扩展标识；

二、使用Word或Excel的非结构化格式的财务报告，预置对采用表格方式表示财务报表进行解析的规则，实现表格数据到XBRL分类标准报告模型的对应关系映射；

三、针对报告主体、时间两个特殊的维度，通过特殊关键字匹配财务报告，在对应关系的基础之上实现表格数据到XBRL数据的自动转换。

所述对分类标准元素和ELR进行扩展标识，是指通过设置多种类型的元素与财务报告具体数据对应，通过ELR设置关键字实现与财务报告具体报表的对应，其中：

对分类标准元素进行扩展标识的具体过程为，同一元素可以设置多种类型的标签，参照元素不同种类的标签对表格数据进行多种类型的匹配，根据匹配的相似度高低选择最优匹配结果，从而提高表格数据到分类标准报告模型对应关系映射的准确性；

对ELR进行扩展标识的具体过程为，将关键字分为标题关键字、内容关键字两类，每类包括若干个，标题关键字根据内嵌表格对象表示的报表标题名称来定义，标题关键字支持多个优先级设置；内容关键字根据内嵌表格对象具体的表格数据的特征来设置，支持多个关键字设置。

所述使用Word或Excel的非结构化格式的财务报告是指采用表格方式表示一张财务报表，对表格展现形式进行归类，按照非维度与维度建模方式划分为2大类，其中非维度的建模对应的报表只包含时间维和财务概念；维度建模对应的报表包括时间维、财务概念。

所述非维度的建模方式中包括双期间双项目列、单期间单项目列、双期间单项目列、单期间双项目列；维度建模方式包括单期间行项目列维度、单期间行维度列项目、双期间行项目列维度、双期间行维度列项目；然后对该表格数据解析抽取出维度、量度，实现与分类标准模型的对应。

所述步骤三中，财务报告中具体报表数据中的时间维度通过强标识的关建字进行标识，关键字包括：期末*余额、期初*余额、本期*金额、上期*金额、期末数、期初数、上年同期金额、年初*余额、年末*余额，其中*表示通配。

本发明的一种基于XBRL技术从非结构化财务报告抓取数据的方法，具有以下优点：

本发明提出的一种基于XBRL技术从非结构化财务报告抓取数据的方法，可以最大程度的保证数据自动标识转换的适用性，能够实现快速的从现有的大量的非结构化的财务报告转化为XBRL格式的，为企业分析应用提供数据支撑，推动XBRL技术在企业的应用，实用性强，易于推广。

附图说明

附图1为本发明的非结构化格式的财务报告表格示意图。

附图2为本发明的实施例实现流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供一种基于XBRL技术从非结构化财务报告抓取数据的方法，以XBRL分类标准为财务报告模型，利用Word、Excel等非结构化格式的财务报告一般采用表格方式表示一张财务报表的特点，通过预置一定的规则对采用表格方式表示财务报表进行解析，实现表格数据到XBRL分类标准报告模型的对应关系映射，在对应关系的基础之上实现表格数据到XBRL数据的自动转换，如附图1所示，其具体实现过程为：

以XBRL分类标准为财务报告模型，该模型主要特点是对财务报告按照维度建模的方式进行抽象，分为非维度、维度两种建模方式，其中报告主体、时间作为特殊维度处理，因此排除报告主体、时间维度外划分建模方式，非维度建模对应只包含时间维和财务概念的报表，如财务主表中的资产负债表，维度建模对应除了时间维和财务概念之外的还有其他维度的报表，如财务附注中的应收账款账龄分析表，按照这种建模方式，对财务报告上除了具体数据外几乎所有文本项目都抽象了元素，并根据文本项目表示具体财务概念利用标签进行标记。

利用Word、Excel等非结构化格式的财务报告一般采用表格方式表示一张财务报表的特点，对表格展现形式进行归类，按照非维度与维度建模方式具体可以划分为2大类共8种展现形式，如附图1所示，按照8种展现形式和维度建模的原则，通过对表格数据进行解析，可以区分出维度和量度，维度对应XBRL抽象元素，量度对应XBRL非抽象元素，进一步根据XBRL分类标准定义链接库维度模型可以分析出具体的维度，从而实现表格数据中的维度和量度到XBRL分类标准报告模型的对应关系映射。

根据Word、Excel等非结构化格式的财务报告展现特点，一张报表在Word文档里用一个内嵌表格对象表示，在分类标准里用扩展链接角色（ELR）标识，通过在ELR上设置报表的关键字来识别Word文档里内嵌表格对象与分类标准ELR的对应关系，关键字分为标题关键字、内容关键字两类，每类可以有多个，标题关键字根据内嵌表格对象表示的报表标题名称来定义，标题关键字支持多个及优先级设置，内容关键字根据内嵌表格对象具体的表格数据的特征来设置，支持多个关键字设置。

利用分类标准中元素标签的扩展标记，对表格数据进行解析时，可以参照元素不同种类的标签对表格数据进行多种类型的匹配，根据匹配的相似度高低选择最优匹配结果，提高表格数据到分类标准报告模型对应关系映射的准确性。

针对报告主体、时间两个特殊的维度，根据财务报告特点，一般在企业报告的页眉或首页包含报告主体的名称和具体时间，通过相关的特殊关键字进行匹配。

财务报告中具体报表数据中的时间维度，通过强标识的关建字进行标识，关键字包括：期末*余额、期初*余额、本期*金额、上期*金额、期末数、期初数、上年同期金额、年初*余额、年末*余额，其中*表示通配。

根据表格方式表示一张财务报表的特点，区分出表格数据上的维度和量度后，根据财务报告一般采用千分位形式表示具体数据的特征，进一步区分出表格数据上的具体金额数据，对于非金额数据，可以按照表格展现的8种形式进行区分。

优选地，根据具体财务报表对应的XBRL分类标准的建模方式，可以按照维度、非维度两种不同建模方式来进一步筛选表格展现形式，更准确的识别具体数据。

在表格数据上区分出的维度、量度和具体数据基础之上，根据表格数据的行列坐标，对具体数据按照所在行列位置由右向左、由下到上的顺序逐个推算对应的维度和量度，形成具体数据与维度、量度的对应关系。

根据表格数据中的维度、量度到XBRL分类标准报告模型的对应关系和具体数据与维度、量度的对应关系，按照XBRL分类标准形成XBRL事实值，实现到XBRL数据的自动转换。

本发明的方法是基于对财务报告按照XBRL技术标准进行建模的基础之上进行的，对于我们国家的企业财务报告来讲，一般都是按照企业会计准则编制，因此收集我国企业的非结构化财务报告，必须选择由我国财政部制定的企业会计准则通用分类标准作为基础，可以最大程度的保证数据自动标识转换的适用性，能够实现快速的从现有的大量的非结构化的财务报告转化为XBRL格式的，为企业分析应用提供数据支撑，推动XBRL技术在企业的应用。

本发明以我国现行企业会计准则通用分类标准为基础，按照本发明所述方法对企业财务报告进行收集，具体实施步骤如附图2所示，具体如下：

1）准备工作：准备企业会计准则通用分类标准、企业财务报告。

2）模型配置：设置分类标准元素标签、ELR关键字、报告主体、时间维度关键字，形成基于分类标准的报告数据采集模型配置文件。

3）确定采集范围：选择要收集的报表范围，根据依赖的分类标准选择要收集的报表范围，先选择分类标准，再选择要收集的报表对应的ELR；选择收集的企业财务报告，财务报告支持多选，对一批财务报告进行批量处理，此处选择指定企业Word格式的财务报告。

4）报告采集过程：根据上述的内容开始报告采集，具体细化为如下过程：

根据报告页眉或首页识别报告主体和时间；

根据分类标准ELR设置的关键字确定财务报告中具体表格；

根据分类标准ELR建模方式和表格展现形式识别维度、量度；

根据财务报告表格数据获取具体数据和与维度、量度的关系；

根据上述关系形成XBRL事实值。

5）数据校验：根据分类标准计算、公式链接库校验数据的正确性，根据校验结果确定进入步骤6），还是返回步骤2）进行模型的调整，调整后进行重新采集。

6）数据存储：利用XBRL数据结构化存储的特点，采用数据仓库的存储收集的XBRL数据，方便基于XBRL财务数据库进行数据的分析。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种基于XBRL技术从非结构化财务报告抓取数据的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于XBRL技术从非结构化财务报告抓取数据的方法 [P] . 中国专利： CN104731941B . 2018.02.23
2. 一种基于XBRL技术从非结构化财务报告抓取数据的方法 [P] . 中国专利： CN104731941A . 2015-06-24
3. Knowledge Extraction Methodology for Unstructured Data Using Ontology-Based Text Mining [P] . 美国专利： US2012011073A1 . 2012-01-12

机译：基于本体的文本挖掘技术在非结构化数据中的知识提取方法
4. SYSTEM FOR GRASPING KEYWORD EXTRACTION BASED SPEECH CONTENT ON RECORDED VOICE DATA, INDEXING METHOD USING THE SYSTEM, AND METHOD FOR GRASPING SPEECH CONTENT [P] . 美国专利： US2016284345A1 . 2016-09-29

机译：基于记录的语音数据的基于关键词的语音内容抓取系统，使用该系统的索引方法以及基于语音内容的抓取方法
5. Method for Controlling a Catch mechanism based on single Power, because the catch mechanism based on single Power comprises a Drive Roller, a drive motor, a driven Roller and a tape, wherein the method comprises: 1) detect the moment of inertia of the Rodi I1 Llo Drive, the radius R of the Drive Roller.The R of the driven Roller and the moment of inertia (2, 2) control a Braking torque M1 of the drive motor; System. [P] . CL2014001268A1 . 2014-09-22

机译：一种基于单动力的抓取机构的控制方法，因为基于单动力的抓取机构包括驱动辊，驱动电机，从动辊和带，其中，该方法包括：1）检测罗迪惯性矩I1 Llo驱动器，驱动辊的半径R。从动辊的R和惯性矩（2，2）控制驱动电机的制动转矩M1;系统。