首页> 中国专利> 一种基于excel数据表质量校验方法及系统

一种基于excel数据表质量校验方法及系统

摘要

本发明适用于excel数据表质量校验领域,提供了一种基于excel数据表质量校验方法及系统,所述方法包括:基于excel数据表质量校验过程配置校验规则;获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验;若所述excel数据表质量校验出现异常数据则预警通知。通过所述基于excel数据表质量校验方法进行excel表格规则定义质量校验,把规则和程序关联起来,实现了一种简单、成本低、可配置的通用数据表质量校验预警通知目的。

著录项

  • 公开/公告号CN112989778A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 深圳市思迪信息技术股份有限公司;

    申请/专利号CN202110283701.0

  • 发明设计人 罗大锋;

    申请日2021-03-16

  • 分类号G06F40/18(20200101);

  • 代理机构44621 深圳市欣亚知识产权代理事务所(普通合伙);

  • 代理人葛勤;程光慧

  • 地址 518000 广东省深圳市南山区粤海街道深圳湾科技生态园二区9栋B座14层08-14室

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明属于数据表质量校验领域,尤其涉及一种基于excel数据表质量校验方法及系统。

背景技术

证券金融市场每天都会产生海量、繁杂的数据,比如市场行情数据、上市公司的财务数据、各研究机构的研报评级数据、市场新闻数据等。有结构化的也有非结构化的,我们通过程序和人工相结合的方式,把不同来源的、异构的的数据,汇集,整理成标准的、结构化的金融市场数据;为金融数据分析和研究,提供数据基础。

在海量、繁杂的数据处理和发布过程中,由于很多不可预料的原因(如网络异常、数据源结构调整、程序崩溃、录入误差等),很有可能对部分数据表造成数据表质量的影响。如何及时发现错误数据,当前一般做法是数据产品经理根据数据业务特殊定义校验规则,程序员具体开发对应具体校验程序脚本。该做法数据产品经理无法自主做数据校验规则实现,必须通过程序员来做开发;规则文件和程序文件没有系统层面的关联,缺乏有效的手段让数据校验规则的经验持续进行积累及迭代;校验程序脚本运行也无法做到统一管理。因此为了解决上述问题,需要一种通过基于excel表格定义,把规则和程序关联起来,实现一种简单、成本低、可配置的通用数据表质量校验方法。

发明内容

有鉴于此,本发明实施例提供了一种基于excel数据表质量校验方法及系统,以解决现有技术中无法自主做数据校验规则实现统一管理,缺乏有效的手段让数据校验规则的经验持续进行积累及迭代。

本发明实施例的第一方面提供了一种基于excel数据表质量校验方法,所述方法包括:基于excel数据表质量校验过程配置校验规则;

获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验;

若所述excel数据表质量校验出现异常数据则预警通知。

本发明实施例的第二方面提供了一种基于excel数据表质量校验系统包括:配置校验规则模块,获取质量校验模块,异常数据预警模块;

所述配置校验规则模块用于基于excel数据表质量校验过程配置校验规则;

所述获取质量校验模块用于获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验;

所述异常数据预警模块用于若所述excel数据表质量校验出现异常数据则预警通知。

本发明实施例与现有技术相比存在的有益效果是:

本发明首先基于excel数据表质量校验过程配置校验规则;获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验;若所述excel数据表质量校验出现异常数据则预警通知。通过所述基于excel数据表质量校验方法进行excel表格定义,把规则和程序关联起来,实现了一种简单、成本低、可配置的通用数据表质量校验预警通知目的,自主做到让数据校验规则的经验持续进行积累及迭代,使得数据校验过程更加高效。

附图说明

图1为本发明实施例一提供的一种基于excel数据表质量校验方法实现流程示意图;

图2为本发明实施例二提供的一种基于excel数据表质量校验系统示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。

在后续的描述中,发明实施例序号仅仅为了描述,不代表实施例的优劣。

如图1所示,本发明实施例提供了一种基于excel数据表质量校验方法,包括:

步骤S1:基于excel数据表质量校验过程配置校验规则;

如数据产品经理按照定义的规则,进行具体数据表的校验规则配置,像通用匹配规则和外部数据对比规则及复杂的自定义定制规则,在对基金经理信息表,邮件格式通过通用规则实现函数,实现类包进行自定义配置校验规示意如下:

规则校验器是校验数据表的python具体实现类;不同的数据校验规则,定义不同的校验器实现。根据校验方法,我们这里定义了3类的规则校验器;体现到excel配置表这中的字段为rule_type_id和rule_exp,rule_type_id为校验器id;rule_exp为数据校验方法规则描述内容;rule_exp表达式采用类json数据格式定义,规则如下:

步骤S2:获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验,获取预提取校验数据,采用步骤S1中预先编制好的规则程序校验类包进行质量校验,如对数据表字段标识、表达式、数据格式进行配置质量校验管理。

步骤S3:若所述excel数据表质量校验出现异常数据则预警通知,在excel数据表质量校验出现异常数据,如格式错误,则发送短信,邮件至用户进行提醒,高效进行数据表质量校验,提升了工作人员的效率。

所述方法还包括如下细化步骤:

进一步地,所述基于excel数据表质量校验过程配置校验规则包括:设置通用匹配规则、外部数据对比规则、自定义规则。

进一步地,所述基于excel数据表质量校验过程配置校验规则包括:基于配置校验规则设计excel配置表,对数据表字段标识、表达式、数据格式进行配置管理,实现对不同字表规则配置。

进一步地,所述基于excel数据表质量校验过程配置校验规则包括:采用python具体实现类包设计基于excel数据表质量校验过程规则校验器,使得python具体实现类包设计基于excel数据表质量校验过程规则校验器得到用于步骤S1中预先编制好的规则程序校验类包来进行质量校验,如对数据表字段标识、表达式、数据格式进行配置质量校验管理。

本发明第二方面提供一种基于excel数据表质量校验系统,如图2所示,包括:配置校验规则模块,获取质量校验模块,异常数据预警模块;

所述配置校验规则模块用于基于excel数据表质量校验过程配置校验规则;

所述获取质量校验模块用于获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验;

所述异常数据预警模块用于若所述excel数据表质量校验出现异常数据则预警通知。

本发明第三方面提供一种储存介质,用于储存程序,用于执行基于excel数据表质量校验过程配置校验的实现方法或模块。

本发明第四方面提供一种电子装置,用于执行基于excel数据表质量校验过程配置校验实现方法或模块,以上实施例已在方法实施例中说明这里不再一一重复说明。

本发明实施例提供的一种基于excel数据表质量校验方法及系统,所述方法包括:基于excel数据表质量校验过程配置校验规则;获取excel数据表中的预提取校验数据,基于所述excel数据表进行质量校验;若所述excel数据表质量校验出现异常数据则预警通知。通过所述基于excel数据表质量校验方法进行excel表格定义,把规则和程序关联起来,实现了一种简单、成本低、可配置的通用数据表质量校验预警通知目的。自主做到让数据校验规则的经验持续进行积累及迭代,使得数据校验过程更加高效。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号