首页> 中文期刊> 《河南农业科学》 >基于工作流的统计年鉴数据清洗模型构建

基于工作流的统计年鉴数据清洗模型构建

         

摘要

为实现统计年鉴数据集成整合和综合快速查询,以2000-2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型.结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集.构建的数据清洗建模方法具有高效、可溯源的优势.

著录项

  • 来源
    《河南农业科学》 |2021年第10期|172-180|共9页
  • 作者单位

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

    河南省农业科学院农业经济与信息研究所 河南郑州450002;

    河南省智慧农业工程技术研究中心 河南郑州450002;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    工作流; 统计年鉴; 数据清洗; Alteryx; 质量控制;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号