首页> 中国专利> 一种数据快速清洗导入Hive的方法

一种数据快速清洗导入Hive的方法

摘要

本发明公开了一种数据快速清洗导入Hive的方法,在数据序列化和反序列化过程中按行读取原始数据,并按照“数据校验规则”判断该条数据是否合法,对于不合法数据需要在该条数据后加上新的分隔符“^|”和错误标记“EE”,这样通过对错误数据打标记“EE”的方式实现了正确数据和错误数据的区分。根据区分出的正确和错误数据进行再次归类,把原始数据先按照日期进行归类,然后再在日期下进行接口ID区分归类,组成最终对外提供的清洗好的数据。本发明通过对原始数据进行快速自动标记清洗,省去了后续数据使用时的检验步骤,提高了数据处理效率。

著录项

  • 公开/公告号CN114218207A

    专利类型发明专利

  • 公开/公告日2022-03-22

    原文格式PDF

  • 申请/专利权人 四川启睿克科技有限公司;

    申请/专利号CN202111581591.2

  • 发明设计人 任治州;

    申请日2021-12-22

  • 分类号G06F16/215(20190101);G06F16/22(20190101);G06F16/2458(20190101);G06F16/27(20190101);G06F16/28(20190101);

  • 代理机构51213 四川省成都市天策商标专利事务所(有限合伙);

  • 代理人刘兴亮

  • 地址 610000 四川省成都市中国(四川)自由贸易试验区成都高新区天府四街199号1栋33层

  • 入库时间 2023-06-19 14:36:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-22

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号