首页> 中国专利> 一种数据仓库中ETL任务离线和数据清理的方法及装置

一种数据仓库中ETL任务离线和数据清理的方法及装置

摘要

本发明提供了一种数据仓库中ETL任务离线和数据清理的方法及装置。所述方法包括:获取数据仓库中各数据库对象的调用信息;根据所述数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的操作。本发明可以提高数据仓库中ETL任务离线和数据清理的效率和准确率。

著录项

  • 公开/公告号CN102999528A

    专利类型发明专利

  • 公开/公告日2013-03-27

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201110276287.7

  • 申请日2011-09-16

  • 分类号G06F17/30(20060101);

  • 代理机构11319 北京润泽恒知识产权代理有限公司;

  • 代理人苏培华

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2024-02-19 18:23:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-14

    授权

    授权

  • 2013-04-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110916

    实质审查的生效

  • 2013-03-27

    公开

    公开

说明书

技术领域

本申请涉及数据仓库分析的技术领域,特别是涉及一种数据仓库中 ETL任务离线和数据清理的方法,以及,一种数据仓库中ETL任务离线 和数据清理的装置。

背景技术

数据仓库是一个独立的数据环境,通过抽取过程将数据从联机事务 处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中。它的 目的是建立结构化的数据存储空间,将不同数据源的数据分离出来,形 成统一、有效的数据集,并最终加工、整合成所需要的数据。

ETL(Extraction-Transformation-Loading)是数据抽取、清洗、转换 和装载的过程。是构建数据仓库的重要一环,用户从数据库抽取出所需 的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据 加载到数据仓库中去。

随着成熟的数据仓库技术不断发展,当数据仓库投入使用以后,各 业务部门的需求会越来越多,使用数据仓库中数据量的增长速度也会越 来越快,历史数据的大量聚集给数据查询和存储成本带来极大的冲击, 许多已经衰亡不再使用的应用所对应的ETL任务和数据由于没有合理的 下线策略,导致ETL任务一直在执行,数据仍然存储在系统中并不断在 增长,极大的浪费了数据仓库中有限的计算和存储资源,因此对于数据 仓库的ETL任务离线管理和数据仓库数据清理日渐成为一个现实的技术 问题亟待解决。

目前对ETL任务的离线和数据清理工作大多数情况是通过人为判断 的,由数据仓库的开发人员与业务方沟通,由业务方确定哪些应用不再 使用和关注,由数据仓库开发人员将应用对应的ETL任务和清理数据存 储,以完成ETL任务离线和数据清理工作。

以上现有技术存在的问题是:由于是与业务方确认,当业务方人员 众多时,对每个应用进行复查,效率极低,同时可能会无法覆盖所有人 员,在做ETL任务下线和数据清理时不可避免的会存在遗漏,也可能会 存在将正在使用的应用错误下线,人工的感性判断没有理性数据支持, 下线时准确性不高,人为误判断可能会导致不可预知错误。

因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如 何提供一种高效的数据仓库中ETL任务离线和数据清理的方法及装置。

发明内容

本申请所要解决的技术问题是提供一种数据仓库中ETL任务离线和 数据清理的方法,用以提高数据仓库中ETL任务离线和数据清理的效率 和准确率。

相应的,本申请还提供了数据仓库中ETL任务离线和数据清理的装 置,用以保证上述方法在实际中的实现及应用。

为了解决上述问题,本申请公开了一种数据仓库中ETL任务离线和 数据清理的方法,包括:

获取数据仓库中各数据库对象的调用信息;

根据所述数据库对象的调用信息,进行离线对应的ETL任务,和/或, 清理对应的数据的操作。

优选的,所述数据库对象的调用信息为,数据仓库中访问所述数据库 对象的SQL语句的信息。

优选的,所述获取数据仓库中各数据库对象的调用信息,包括:

提取数据仓库中运行的SQL语句;

从数据仓库的SQL语句中解析出数据库对象的信息;

提取所述各数据库对象所对应的SQL语句的信息。

优选的,所述提取数据仓库中运行的SQL语句的步骤包括:

提取调度系统中的ETL任务记录日志中记录的SQL语句;

和/或,提取数据查询系统中的query日志中记录的SQL语句;

和/或,利用数据库系统中的捕获SQL运行功能获取数据仓库中运行 的SQL语句。

优选的,所述从数据仓库的SQL语句中解析出数据库对象的信息的步 骤包括:

解析数据仓库的SQL语句,获得数据库对象和数据库系统对象;

去除所述数据库系统对象,和/或,保留所述数据库对象。

优选的,所述数据库对象的SQL语句的信息包括调用对象和调用程 序,所述根据数据库对象的调用信息,进行离线对应的ETL任务,和/或, 清理对应的数据的操作的步骤包括:

若所述数据库对象的调用对象为非目标对象,且对应的调用程序为 目标程序,则将所述数据库对象添加到预置的备选清单;

对预置的备选清单中的数据库对象,进行离线对应的ETL任务,和/ 或清理对应的数据的操作。

优选的,所述数据库对象的SQL语句的信息包括调用次数,所述根据 数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的 数据的操作的步骤包括:

若数据库对象在预设时间段内的使用次数为零,则针对该数据库对 象,进行离线对应的ETL任务,和/或清理对应的数据的操作。

优选的,所述数据库对象的SQL语句的信息包括调用次数、调用对象 和调用程序,所述根据数据库对象的调用信息,进行离线对应的ETL任务, 和/或,清理对应的数据的操作的步骤包括:

若所述数据库对象的调用对象包括目标对象和非目标对象,且目标 对象在预设时间段内对数据库库对象的调用次数小于预设阀值,且非目 标对象对应的调用程序为目标程序,则将所述数据库对象添加到预置的 备选清单;

对预置的备选清单数据库对象,进行离线对应的ETL任务,和/或清 理对应的数据的操作。

优选的,所述目标对象为外部系统,所述非目标对象为数据仓库内 部的调度系统,所述目标程序为数据库对象的生成程序。

优选的,所述对预置的备选清单数据库对象,进行离线对应的ETL 任务,和/或清理对应的数据的操作的步骤包括:

确定所述备选清单中需要清除的数据库对象;

将所述需要清除的数据库对象进行离线对应的ETL任务,和/或清理 对应的数据的操作。

本申请还提供了一种数据仓库中ETL任务离线和数据清理的装置, 包括:

调用信息获取模块,用于获取数据仓库中各数据库对象的调用信息;

处理模块,用于根据所述数据库对象的调用信息,进行离线对应的 ETL任务,和/或,清理对应的数据的操作。

与现有技术相比,本申请包括以下优点:

本申请通过解析访问数据仓库中数据库对象的SQL语句,获知数据 库对象的调用信息,调用信息包括了数据库对象的调用次数和调用对象, 以此为依据为庞大的数据仓库系统合理“瘦身”,去除掉没有使用价值的 ETL任务和数据,从而节省了系统计算和存储资源,提高了系统性能, 节约了数据仓库成本。

同时以数据库对象的调用情况为依据对相应的应用进行清理使得数 据仓库ETL任务离线和数据清理工作变得有据可依,降低了人为因素, 用数据说话,极大提高了数据仓库“瘦身”工作的准确性。此外,在对调用 信息进行分析后,将备选的清理对象与业务方进行沟通,降低了需要与 业务方沟通、确认的应用数量,提高了工作效率。

附图说明

图1是本申请的一种数据仓库中ETL任务离线和数据清理的方法实 施例的流程图;

图2是本申请的一种数据仓库中ETL任务离线和数据清理的装置实 施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合 附图和具体实施方式对本申请作进一步详细的说明。

ETL是数据仓库对数据库对象进行抽取、清洗、转换和装载的过程, 数据仓库中数据量快速增长使得数据查询和存储成本不断增长,许多已 经衰亡不再使用的应用所对应的ETL任务和数据由于没有合理的下线策 略,极大的浪费了数据仓库中有限的计算和存储资源。现有技术中采用 人工进行ETL任务离线和数据清理工作,存在效率和准确率低下的问题。

本申请实施例的核心构思之一在于,获取数据仓库中各数据库对象 的调用信息,并依据所述数据库对象的调用信息,进行离线对应的ETL 任务,和/或,清理对应的数据的操作。

参考图1,示出了本申请的一种数据仓库中ETL任务离线和数据清 理的方法实施例的流程图,具体可以包括以下步骤:

步骤101、获取数据仓库中各数据库对象的调用信息。

数据仓库中的数据是对原有分散的数据库数据进行加工得到的,其中 的数据库对象包括了最基本的表和视图,以及约束、序列、函数、存储 过程、包、触发器等。

在本申请的一种优选的实施例中,所述数据库对象的调用信息可以 为,数据仓库中访问所述数据库对象的SQL语句的信息。SQL(Structured  Query Language)即结构化查询语言,是一种数据库查询和程序设计语言, 用于存取数据以及查询、更新和管理关系数据库系统,通过SQL语句可 以获知数据库对象的被访问的信息。

在具体的实现中,所述步骤101可以包括:

子步骤S11、提取数据仓库中运行的SQL语句;

在具体的实现中,通过对调度系统中的ETL任务记录日志、记录即席 查询系统的Query日志,打开数据库系统中的捕获SQL运行功能方法收集 在数据仓库中所有运行的SQL语句,在此之前可以先整理出数据仓库中所 有能够调用到数据库中对象的系统,如调度系统、报表系统、即席查询 系统、数据输出系统等。

在本申请的一种优选的实施例中,所述子步骤S11可以包括:

子步骤S11-1、提取调度系统中的ETL任务记录日志中记录的SQL语 句。ETL任务记录日志通过在ETL代码中设置变量参数,将代码中每段执 行的SQL语句都存储在变量中,待SQL语句执行成功后,将此变量的值写 到数据库中,这样以来ETL代码中每段成功执行的SQL就能被记录下来。

和/或,子步骤S11-2、提取数据查询系统中的Query日志中记录的SQL 语句。

例如,用户所有的Query命令都必须在类似Oracle的SQL*PLUS客户 端执行,利用客户端的自带功能将用户的所有Query命令都进行记录。

和/或,子步骤S11-3、利用数据库系统中的捕获SQL运行功能获取数 据仓库中运行的SQL语句。

打开数据库系统中的捕获SQL运行功能,如开启Oracle数据库中的审 计功能,监控所有的select、delete、insert语句,同时将控制触发审计动 作选项设置为by access,这样对每个Session中发生的每次操作都能被记 录。

以上三种收集SQL语句的方法可以依据实际系统情况灵活搭配,可以 选择同时进行收集,也可以通过几种方法组合收集。如若选用了开启数 据库审计功能,就足够记录所有在数据库中运行的所有SQL,那么就可以 只选择方法三即可;若开启数据库审计功能对系统性能消耗较大,那么 可以采用方法一和方法二配合进行SQL收集工作。收集完成后,将收集到 的所有SQL都存储在数据库中,以供后续分析所用。

子步骤S12、从数据仓库的SQL语句中解析出数据库对象的信息。

在本申请的一种优选的实施例中,所述子步骤S12可以包括:

子步骤S12-1、解析数据仓库的SQL语句,获得数据库对象和数据库 系统对象。

在具体的实现中,可以采用SQL解析程序对SQL语句进行解析,如下 例:

提取的SQL语句为:

INSERT INTO adl.cn_kms_offer_subject_split_fdt0

(stat_date,offer_id,offer_subject,member_id,split_kw_type,offer_spli t_kw)

SELECT b.stat_date,b.offer_id,b.offer_subject,b.member_id, b.split_kw_type,b.offer_split_kw,e.rowid

from idl.cn_offer_basic_fdt0 b

INNER JOIN idl.cn_member_tp_udt0 c

ON(b.member_id=c.member_id AND c.is_tp=′Y′)

LEFT OUTER JOIN tdl.cn_kms_offer_subject_split_fdt0_tmp0 d

ON(b.offer_id=d.offer_id)

LEFT OUTER JOIN(SELECT to_char(sysdate,′yyyymmdd′)AS stat_date,rowid FROM DUAL)e

ON a.stat_date=e.stat_date

WHERE b.stat_date=CAST(′20110615′AS DATE)-1 AND d.offer_id IS NULL

经过解析程序解析后可以得到如下数据库对象:

adl.cn_kms_offer_subject_split_fdt0

adl.cn_offer_basic_fdt0

tdl.cn_kms_offer_subject_split_fdt0_tmp0

数据库系统对象为:DUAL。

子步骤S12-2、去除所述数据库系统对象,和/或,保留所述数据库对 象。

SQL语句的访问对象包括了数据库对象和数据库系统对象,数据库系 统对象不是任务离线的对象,即使某个系统对象被访问频率低,为保证 数据库正常运行不可能将其离线并做数据清理,因此在解析SQL的过程中 需要排除数据库系统对象,从而减少后续的分析结果集,并且使得分析 结果更精准,如上例中,可以去除数据库系统对象DUAL,和/或,保留 解析出来的三个数据库对象。

子步骤S13、提取所述各数据库对象所对应的SQL语句的信息。

通过SQL解析程序获得出数据库对象后,同时需记录访问各个数据库 对象的SQL语句,根据这些SQL语句可以获知数据库对象在什么时间,被 哪些系统和程序访问过等信息。

例如,由上例SQL语句的解析结果可知,数据库对象 tdl.cn_kms_offer_subject_split_fdt0_tmp0表在2011年1月1日被数据仓库内 部调度系统的cn_kms_offer_subject_split_fdt0.pl程序调用过,操作类型为 fromClause。数据库对象adl.cn_kms_offer_subject_split_fdt0表在2011年1 月2日被数据仓库内部调度系统的cn_kms_offer_subject_split_fdt0.pl程序 调用过,操作类型为insertClause。

步骤102、根据所述数据库对象的调用信息,进行离线对应的ETL任 务,和/或,清理对应的数据的操作。

在本申请的一种优选的实施例中,所述数据库对象的SQL语句的信息 可以包括调用对象和调用程序,所述步骤102可以包括:

子步骤S21、若所述数据库对象的调用对象为非目标对象,且对应的 调用程序为目标程序,则将所述数据库对象添加到预置的备选清单。

在上面的步骤中,通过各个数据库对象分别对应的SQL语句,已得知 数据库对象被调用的系统,若该系统为非目标对象,则将其添加到备选 清单。

在具体的实现中,所述非目标对象可以为数据仓库内部的调度系统, 所述目标程序可以为数据库对象的生成程序,生成程序可以理解为该程 序对数据库对象只有insert操作,没有from操作。

数据仓库对象仅被数据仓库内部的ETL调度系统调用,没有数据输出 系统、报表系统、数据查询系统等后续系统调用。这种情况下,并且调 用程序为其对应的生成程序,在这种情况下可以认为该数据库对象可以 认为是调度系统中的叶子节点,。可以添加到预置的备选清单,接下来考 虑对其对应的ETL任务和数据进行清理。

例如,在上面的SQL语句解析后,提取数据库对象 adl.cn_kms_offer_subject_split_fdt0表的调用信息后,得知该数据库的调用 系统只有数据仓库内部的调度系统,调用程序只有 cn_kms_offer_subject_split_fdt0.pl。该程序对该表的操作只有insert操作, 没有from操作,因此调用程序为其生成程序,因此可以认为该表为调度系 统的叶子及节点,可以填加到备选清单。

子步骤S22、对预置的备选清单中的数据库对象,进行离线对应的ETL 任务,和/或清理对应的数据的操作。

数据仓库中的各个数据库对象有相应的ETL任务和相应的数据,若该 数据库对象的调用信息符合以上条件,就需要清理其所对应的ETL任务和 数据。对应上述步骤中作为调度系统的叶子节点的数据库对象,ETL任务 离线是指从数据仓库调度系统中将此数据库对象的刷新程序删除。同时 还需清理该数据库对象所对应的数据,释放此数据库对象在数据库中占 用的存储空间。

在本申请的一种优选的实施例中,所述数据库对象的SQL语句的信息 可以包括调用次数,所述步骤102可以包括:

子步骤S31、若数据库对象在预设时间段内的使用次数为零,则针对 该数据库对象,进行离线对应的ETL任务,和/或清理对应的数据的操作。

根据要统计的时间段选择需要进行统计的起始和截止日期,若在该 时间段内数据库对象的调用次数为零,即没有被调度系统(内部系统)、 数据输出系统、报表系统(外部系统)、数据查询系统(外部系统)等任 意一个系统调用过的,这类数据仓库对象就是不再使用,可以添加到预 置的备选清单中,然后进行离线对应的ETL任务,和/或清理对应的数据 的操作。由于没有被调度系统调用,因此该数据库对象没有对应的ETL 任务,可以直接将其对应数据清理。

在本申请的一种优选的实施例中,所述数据库对象的SQL语句的信息 可以包括调用次数、调用对象和调用程序,所述步骤102可以包括:

子步骤S41、若所述数据库对象的调用对象包括目标对象和非目标对 象,且目标对象在预设时间段内对数据库库对象的调用次数小于预设阀 值,且非目标对象对应的调用程序为目标程序,则将所述数据库对象添 加到预置的备选清单。

子步骤S42、对预置的备选清单数据库对象,进行离线对应的ETL任 务,和/或清理对应的数据的操作。

在具体的实现中,所述目标对象可以为外部系统,所述外部系统可 以包括数据仓库外部数据输出系统、报表系统和数据查询系统。在本优 选实施例中,若数据库对象的调用对象包括了外部系统,并且,外部系 统在预设时间段内对该数据库对象的调用次数小于预设阀值,并且,调 度系统对应的调用的程序为对应的生成程序,则可以添加到备选清单中。

例如,预设时间段为2011年1月1日至2011年6月30日,预设阀值为5 次,原SQL语句为:

insert into bdl.ast_cn_p4p_plan_offer

(plan_offer_id,b2b_offer_id,b2b_offer_flag,plan_id,title,expire_time )

select a.planofferid,b.b2bofferid,a.b2bofferflag,b.planid,a.title,a.expiretime

from odl.c05_q_planoffer a

left outer join tdl.ast_cn_p4p_plan_offer_tmp0 b

on a.planofferid=b.plan_offer_id

where b.plan_offer_id is null

select plan_offer_id,b2b_offer_id,b2b_offer_flag,plan_id,title,expire_time    from bdl.ast_cn_p4p_plan_offer

利用解析程序对其进行解析后,由bdl.ast_cn_p4p_plan_offer表对应的 SQL语句的信息可知,在此时间段内,数据仓库内部的调度系统调用过该 表,并且对应的调用程序为生成程序,即调用程序对该表的操作只有insert 操作,没有from操作;同时,数据库外部报表系统对该表的调用次数为1 次,小于预设阀值5次,由此可以判断该表满足以上条件,可以将其添加 到备选清单中。在备选清单中可以对数据库对象按照调用次数的多少进 行排序,如按照调用次数的升序排序。

在具体的实现中,所述对预置的备选清单数据库对象,进行离线对 应的ETL任务,和/或清理对应的数据的操作的步骤可以通过以下步骤实 现:

确定所述备选清单中需要清除的数据库对象;

将所述需要清除的数据库对象进行离线对应的ETL任务,和/或清理 对应的数据的操作。

以上将备选的数据库对象加入清单后,需要再仔细分析下各个数据 库对象的调用情况,同时与业务方进行沟通,从而确认需要下线的数据 库对象,然后对该对象所对应的ETL任务和数据进行清理。

本申请的方案可以包括三个层次,提取数据仓库中的SQL语句处于整 个方案框架里的基础数据层;从数据仓库的SQL语句中解析出数据库对象 的信息以及提取访问所述数据库对象的SQL语句的信息处于整个方案框 架的算法层;将符合条件的数据库对象添加到预置的备选清单,并对相 应的ETL任务和数据进行清理处于整个方案框架的应用层。

综上所述,本申请提供了一种数据仓库中ETL任务离线和数据清理 的方法,通过解析访问数据仓库中数据库对象的SQL语句,获知数据库 对象的调用信息,调用信息包括了数据库对象的调用次数和调用对象, 以此为依据为庞大的数据仓库系统合理“瘦身”,去除掉没有使用价值的 ETL任务和数据,从而节省了系统计算和存储资源,提高了系统性能, 节约了数据仓库成本。

同时以数据库对象的调用情况为依据对相应的应用进行清理使得数 据仓库ETL任务离线和数据清理工作变得有据可依,降低了人为因素, 用数据说话,极大提高了数据仓库“瘦身”工作的准确性。此外,在对调用 信息进行分析后,将备选的清理对象与业务方进行沟通,降低了需要与 业务方沟通、确认的应用数量,提高了工作效率。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组 合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的 限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其 次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选 实施例,所涉及的动作和模块并不一定是本申请所必须的。

参考图2,示出了本申请的一种数据仓库中ETL任务离线和数据清 理的装置实施例的结构框图,具体可以包括以下模块:

调用信息获取模块201,用于获取数据仓库中各数据库对象的调用信 息;

处理模块202,用于根据所述数据库对象的调用信息,进行离线对应 的ETL任务,和/或,清理对应的数据的操作。

在本申请的一种优选的实施例中,所述数据库对象的调用信息可以 为,数据仓库中访问所述数据库对象的SQL语句的信息。

在本申请的一种优选的实施例中,所述调用信息获取模块201可以包 括:

SQL语句提取子模块,用于提取数据仓库中运行的SQL语句;

SQL语句解析子模块,用于从数据仓库的SQL语句中解析出数据库对 象的信息;

信息提取子模块,用于提取所述各数据库对象所对应的SQL语句的信 息。

在本申请的一种优选的实施例中,所述SQL语句提取子模块可以包 括:

调度系统提取子模块,用于提取调度系统中的ETL任务记录日志中记 录的SQL语句;

和/或,数据查询系统提取子模块,用于提取数据查询系统中的query 日志中记录的SQL语句;

和/或,SQL语句捕获子模块,用于利用数据库系统中的捕获SQL运 行功能获取数据仓库中运行的SQL语句。

在本申请的一种优选的实施例中,所述SQL语句解析子模块可以包 括:

解析结果获取子模块,用于解析数据仓库的SQL语句,获得数据库对 象和数据库系统对象;

数据库对象获取子模块,用于去除所述数据库系统对象,和/或,保 留所述数据库对象。

在本申请的一种优选的实施例中,所述数据库对象的SQL语句的信息 可以包括调用对象和调用程序,所述处理模块202可以包括:

第一添加子模块,用于若所述数据库对象的调用对象为非目标对象, 且对应的调用程序为目标程序,则将所述数据库对象添加到预置的备选 清单;

第一处理子模块,用于对预置的备选清单中的数据库对象,进行离 线对应的ETL任务,和/或清理对应的数据的操作。

在本申请的一种优选的实施例中,所述数据库对象的SQL语句的信息 还可以包括调用次数,所述处理模块202还可以包括:

第二处理子模块,用于若数据库对象在预设时间段内的使用次数为 零,则针对该数据库对象,进行离线对应的ETL任务,和/或清理对应的 数据的操作。

在本申请的一种优选的实施例中,所述数据库对象的SQL语句的信息 可以包括调用次数、调用对象和调用程序,所述处理模块可以包括:

第二添加子模块,用于若所述数据库对象的调用对象包括目标对象 和非目标对象,且目标对象在预设时间段内对数据库库对象的调用次数 小于预设阀值,且非目标对象对应的调用程序为目标程序,则将所述数 据库对象添加到预置的备选清单;

第三处理子模块,用于对预置的备选清单数据库对象,进行离线对 应的ETL任务,和/或清理对应的数据的操作。

在具体的实现中,所述目标对象可以为外部系统,所述非目标对象 可以为数据仓库内部的调度系统,所述目标程序可以为数据库对象的生 成程序。

由于所述装置实施例基本相应于前述图1所示的方法实施例,故本 实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此 就不赘述了。

本申请可用于众多通用或专用的计算系统环境或配置中。例如:个 人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处 理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网 络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计 算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描 述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布 式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络 而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块 可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为 这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况 下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、 方法、物品或者设备中还存在另外的相同要素。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系 术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不 一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺 序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的 包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种 过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下, 由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方 法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种数据仓库中ETL任务离线和数据清理的 方法,以及,一种数据仓库中ETL任务离线和数据清理的装置进行了详 细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述, 以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时, 对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应 用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申 请的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号