首页> 中文期刊> 《计算机科学与实践》 >一个面向大规模数据仓库的数据清洗策略的研究和实现

一个面向大规模数据仓库的数据清洗策略的研究和实现

         

摘要

随着数据仓库和数据挖掘等商务智能技术在企业的逐步应用,这些技术都需要由原始的生产数据集成并产生新的面向主题的、集成的、时变的、稳定的数据集合.但企业的数据往往存在着大量的质量问题,数据的质量将直接影响基于这些数据的信息服务的质量.数据清洗的目标是通过各种措施从准确性、一致性、无冗余、符合应用的需求等方面提高数据的质量.本文针对ETL过程中的数据清洗任务,提出了结合改进的N-gram文法纠错算法和GDBR泛化算法的数据清洗策略,并根据COBRA和CWM标准开发应用工具,实践表明,该策略是可行并且有效的.

著录项

  • 来源
    《计算机科学与实践》 |2004年第9期|123-126,138|共5页
  • 作者

    汪恒杰; 胡大斌; 嵇晓;

  • 作者单位

    上海宝信软件股份有限公司数据分析部,上海,201900;

    上海交通大学,计算机科学与工程系博士后流动站,上海,200030;

    上海宝信软件股份有限公司数据分析部,上海,201900;

    上海宝信软件股份有限公司数据分析部,上海,201900;

    上海交通大学,计算机科学与工程系博士后流动站,上海,200030;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 程序设计、软件工程;
  • 关键词

    数据仓库,数据清洗; ETL,N-Gram,GDBR;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号