首页> 中国专利> 基于TDS过渡数据存储技术的动态数据仓库的方法与系统

基于TDS过渡数据存储技术的动态数据仓库的方法与系统

摘要

本发明提供了一种TDS动态数据仓库子系统,包括明细数据仓库子系统,用于把ETL提供的业务数据经过再加工,以事务数据格式存储,通过频繁执行更新,以保持仓库与业务系统数据的一致或同步,达到实时性,通过简化频繁更新环节的处理数据的复杂度和工作量,把数据处理的负担向后转移到多维数据仓库,简化系统结构,降低系统设备档次;访问子系统,用于挖掘终端对明细仓库的访问;处理子系统,用于管理调度批量处理多维数据的处理生成存储过程。本发明提供了一个完整的TDS动态数据仓库子系统,来满足数据分析挖掘终端用户对详细、实时数据的需求,特别适合需要自主创建中等规模动态数据仓库的场合。

著录项

  • 公开/公告号CN101477572A

    专利类型发明专利

  • 公开/公告日2009-07-08

    原文格式PDF

  • 申请/专利权人 深圳市里王智通软件有限公司;

    申请/专利号CN200910104812.X

  • 发明设计人 辛俊义;杨峰;钟柯辉;

    申请日2009-01-12

  • 分类号G06F17/30;

  • 代理机构

  • 代理人

  • 地址 518054 广东省深圳市南山区科技园科发路9号维用综合楼510

  • 入库时间 2023-12-17 22:18:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-05-13

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20101208 终止日期:20140112 申请日:20090112

    专利权的终止

  • 2014-12-17

    文件的公告送达 IPC(主分类):G06F17/30 收件人:深圳市里王智通软件有限公司 文件名称:专利权终止通知书 申请日:20090112

    文件的公告送达

  • 2014-06-18

    文件的公告送达 IPC(主分类):G06F17/30 收件人:深圳市里王智通软件有限公司 文件名称:缴费通知书 申请日:20090112

    文件的公告送达

  • 2010-12-08

    授权

    授权

  • 2009-09-16

    实质审查的生效

    实质审查的生效

  • 2009-07-08

    公开

    公开

查看全部

说明书

技术领域

本发明涉及商业智能、数据仓库领域,特别是涉及一种基于TDS过渡数据存储技术的动态数据仓库系统。

背景技术

商业智能是一种从业务数据中挖掘出反映在数据中的规律特征的手段,这些规律、特征同时也反映了数据产生主体的内部特征、运行发展规律,掌握这些规律可以作为当前或以后的决策的依据,所以也叫决策支持系统,因为数据是客观的,所以挖掘出的规律是真实的、客观的,以此作出的决策一般是正确的,所以也叫科学决策系统,因为面临的数据是复杂的、庞大的、规律是隐藏的,所以实现这一手段是非常困难的,需要建立一套完整的理论技术体系,这套技术不但要充分利用数据库、计算机、数学技术,还涉及模糊数学、神经网络、人工智能等众多学科,这些手段为决策人员提供了一整套规律挖掘、知识发现的环境,所以称为商业智能(Business Intelligence)系统,也叫数据分析挖掘系统、知识学习系统。

商业智能系统大体由数据抽取转换(ETL)、数据仓库(DW)、数据挖掘(DM)三部分组成,参阅图1,ETL(102)负责从各种业务系统(101)中把有分析价值的数据经过抽取、清洗、转换、整合到数据仓库(103)中,数据仓库负责把ETL转换来的数据经技术处理,形成有利于分析的多维数据、并存储,数据挖掘(104)负责利用数据仓库提供的数据,经各种分析挖掘手段,把规律、特征挖掘出来,变成分析人员的知识,或通过分析报告等形式进行传播,变成其他人的知识,以作为决策之用,其中数据仓库是数据挖掘的数据源泉,数据从业务系统到数据仓库,数据的含义和组织结构发生了质的飞跃,在业务系统中,数据旨在描述事务的过程,是一种记录数据,称事务数据,其结构呈关系数据,到了数据仓库,数据旨在描述事务的关系、依存程度、变化规律等,在于为分析决策者最大程度的提供数据提取的自由度,这种数据结构称为多维数据结构,数据仓库不但满足数据挖掘对数据量的需求(所以称为仓库),更重要的是满足数据挖掘对数据内容、形式、结构的需求(所以称为多维数据仓库)。

在数据挖掘对数据的需求中,有一种特殊需求就是明细数据和实时数据.

明细性,在分析挖掘过程中,有时为了验证结论等原因,需要访问明细数据,而仓库数据由事务数据按照一定的粒度(所谓粒度是指数据的详细程度)、规则,经过聚合处理生成的,按照粒度从下到上呈金字塔形排放,在塔底详细程度最高、数据量最多,但处于塔底的详细粒度还往往达不到实际需求,实际需求有时是一种事务级别程度的需求。

实时性,从分析挖掘角度考虑,仓库数据越新越好,最理想境地是与业务系统同步,仓库数据的生成是一个对海量数据进行复杂处理的过程,要消耗较大的系统资源和时间,从而影响挖掘终端对仓库的访问,所以仓库不允许进行频繁的处理更新,要求有计划的、间隔性的追加后续数据。

具有明细数据、一定实时性的数据仓库称为动态数据仓库,目前国际上动态数据仓库大多采用ODS(Operation Data Store)技术来实现,其基本原理是(如图2),事务数据经过ETL抽取、转换、预处理,先生成一种准多维数据存储到明细数据仓库中,准多维数据经过再处理最终形成多维数据,(<United StatesPatent;Nesamoney,et al,“Method for performing real-time analytics using a business rules engine onreal-time heterogeneous materialized data views”;719/318;707/8;May 27,2003;November 4,2008;7,448,048);<U.S.Patent,Fischer,et al.,“Value chain management”705/7;705/28;August 28,2001;March 25,2008;7,349,861>;<On-Time Data Warehousing with Oracle 10g Information at the Speed of yourBusiness.An Oracle White Paper.August 2003.Available athttp://www.oracle.com/technology/products/bi/pdf/10grl_twp_bi_ontime_etl.pdf>;<”基于数据仓库的主动实时决策支持系统的实现”姜震,黄霞-现代计算机:下半月版2008年第1期>;<”基于ODS的数据仓库模型研究”冯健文,林璇-微计算机应用,2006-万方数据资源系统>;<”基于DB-ODS-DW的CRM动态数据仓库”朱鹏翔,刘文煌-计算机工程与应用,tsinghua.edu.cn[PDF]2002-cqvip.com>;<”基于数据仓库的决策支持系统结构分析”李贺王平-情报学报2000年第19卷第5期>),这种方案以NCR Teradata的技术为多,(<”Teradata为企业提供动态数据仓库”网络报道>;<”动态数据仓库让一线人员动起来”网络报道;>;<”Teradata:满足客户部动态数据仓库及商业智能需求”,www.TheThirdMedia.com日期:2008-1-2>),ODS技术是针对大型用户对象、建立特大型动态数据仓库场合的需求而设计的,系统复杂、负载重,对于一般规模的数据仓库应用场合具有如下缺陷:

数据仓库实时性的实质是频繁执行抽取转换、处理过程,处理是一个复杂的、聚合、计算、转换、存储的过程,非常复杂费时,所以实时性在传统的数据仓库结构中很难实现,ODS把多维数据的处理生成过程一分为二,分为预处理、再处理两步,降低了数据前期处理的负担,实现了实时性,但预处理还是一个聚合计算过程,只是聚合的程度变低了(ODS明细仓库存储的是准多维数据),所以ODS负担过重、效率不高,真正实现起来相当困难,目前在中国大陆只有在电信总局等几个案例中获得成功。

为了提高效率、追求实时性,一般ODS动态仓库大多采用EAI(企业应用集成)、报文服务等技术手段和高等级的硬件设备做支持,所以ODS方案只适合建立大型数据仓库的场合。

ODS在明细数据满足方面并不是很理想,ODS明细数据中存储的初始聚合数据,这些数据具有一定的生命周期,到一定时间就会通过再处理过程变成聚合数据转移到多维仓库中,所以挖掘终端只能访问最近时期的详细数据,而远期的已经无可访问。

ODS只适合一次性成功建立仓库的场合,因为在仓库建立的整个过程中,只是阶段性保持原数据,在创建、运行过程中,一旦出现失败意味着要从业务数据源开始,重新创建,所以要求实施单位和使用单位具有较高的技术水平。

发明内容

本发明要解决的技术问题是提供一种新的动态数据仓库技术,用于克服ODS动态数据仓库效率低下、系统复杂、设备要求高、成本投入大、不能重建、要求实施能力高的缺陷,这种技术特别适合建立中小型动态数据仓库。

为了解决上述问题,本发明公开了一种动态数据仓库系统技术,本发明人把它命名为TDS(TransitionData Store过渡数据存储),包括TDS明细数据仓库子系统(403)、数据处理子系统(404)、明细数据访问子系统(407),所属的TDS动态数据仓库包括:

TDS明细数据仓库子系统(403),用于存储明细数据、业务数据经过ETL(501)抽取转换后,通过计算(502)单元完成记录间计算和段间计算等,不经过聚合直接以事务关系格式存储到仓库中,通过触发、频繁执行ETL,保持仓库数据与业务数据一定程度的一致或同步,包括:

计算单元(502),用于完成业务数据的记录间、字段间等计算。

传输存储单元(503),用于把计算过的明细数据按关系格式存储到明细数据仓库中。

明细数据仓库单元(504),用于以事务格式存储明细数据。

明细数据访问子系统(407),当数据挖掘终端有访问明细数据的需求时,提供关系方式和多维方式两种访问明细仓库的途径,如果采用多维方式,先把多维访问语句翻译成关系访问语句,在数据访问回来以后,经转换单元转换为多维数据,再传给挖掘终端(406),包括:

关系语句单元(607),用于执行以关系方式访问明细数据仓库。

关系数据单元(608),用于把以关系访问方式访问仓库回来的数据传输给挖掘终端。

多维语句单元(604),用于接收数据终端以多维方式访问明细仓库的请求。

翻译单元(603),用于把多维语句单元响应的访问请求,翻译成关系语句请求。

关系访问单元(602),用于执行经过翻译的多维访问请求。

转换单元(609),用于转换以多维方式访问回来的关系数据,转为多维数据。

多维数据单元(606),用于把经转换单元转换的多维明细数据传输给挖掘终端。

处理子系统(404),用于聚合处理、生成多维数据,当TDS明细仓库(701)中的新数据增加到一定数量时或自从上次处理经过一段时间后,成批处理TDS数据、生成多维数据,存储到多维数据仓库(706)中,包括:

任务调度单元(702),用于按一定的数量规则或时间规则编制任务表。

调度单元(703),用于根据任务表,逐一启动执行任务表中的主题处理任务,管理各个处理任务进程。

处理单元(704),用于根据主题处理任务,调用仓库元数据,取得源数据定义、主题定义、任务定义数据,形成一个处理进程包。

处理进程包单元(705),用于使多维数据仓库执行一个完整的处理进程,包括多维数据生成与存储。

本发明与现有技术相比,本发明具有以下优点:

本发明TDS过渡数据存储动态数据仓库,有效的降低了明细数据预处理的复杂度,简化了系统结构,提高了系统效率、降低了设备成本投入,为建立简单、高效、低成本、可重建的动态数据仓库开辟了一条新路,具体表现为:

TDS明细数据导入转换机制不需要复杂的预处理,大幅度降低了导入转换的复杂度和工作量,使需要在频繁执行的这个节点上效率大为提高。

复杂度、工作量的廋身使得不需要高性能的设备、专门的系统软件做支持,大幅度降低了系统造价,而性能保持良好,这对于中低端用户对象建立中小型动态数据仓库特别有意义。

TDS更好地满足了挖掘终端对明细数据的需求,ODS仓库的明细数据具有一定的生命周期,TDS明细数据长期存在,挖掘终端不但可以访问近期的详细数据,还可以访问早期的数据。

TDS明细数据长期保存,使得多维数据仓库可以重建,这对于实施水平较低、特别是自行实施数据仓库的用户对象特别有意义。

TDS明细数据的导入、存储的简单化,是以明细数据的访问作为代价,在终端访问特别以多维方式访问明细数据时,需要访问语句的翻译、访问结果的转换,这比ODS略为复杂,但挖掘终端对数据库的访问特性是稀疏而庞大(访问频率小、单次访问数据量大),所以并不影响系统性能。

TDS明细数据的访问,可以采用多维方式和关系方式进行,而ODS只能采取多维方式。

本发明已在发明申请人的lawadataware数据仓库得到了运用。

附图说明

图1是商业智能系统的一般结构图

图2是ODS动态数据仓库的结构图

图3是TDS动态数据仓库的详细结构图

图4是TDS动态数据仓库的系统结构模块图

图5是TDS动态数据仓库明细数据仓库子系统结构图

图6是TDS动态数据仓库访问子系统结构图

图7是TDS动态数据仓库处理子系统结构图

图8是利用TDS动态数据仓库实现完整BI系统实例物理拓扑图

具体实施方式

本发明可用于众多通用和专用计算机服务器环境,包括各种大中小型服务器设备、以太网、Web网,特别适合分布式处理结构系统,本发明涉及之技术可在window、unix、mvs系统,众多oracle、informix、sql server等数据库环境中实现,本发明可在shell、unix c、MFC、vc、bc、delphi、vb、xml组合环境下完成,本发明适合于各种开放式的ETL、数据仓库、数据挖掘系统环境联合完成一个完整的BI系统,本发明多处具有任务、指令特征,最好采用例程、组件、对象、结构、包为程序组织方式,系统具有较强的灵活性、伸缩性,适合更广泛的业务应用场合。

为使本发明上述目的、特征和优点能够更明确易懂,下面结合利用TDS动态数据仓库技术实现一个完整的商业智能系统案例加以详细说明:

一般的,按照本发明的技术,实施一个具有动态数据仓库的BI系统,可以由ETL服务器802、明细数据仓库服务器803、多维数据仓库服务器804、在线访问服务器805组成,由ETL连接业务系统801,各个数据挖掘终端806通过在线访问服务器访问数据仓库,ETL可以采用通常的数据转换工具产品,多维数据仓库可在众多流行的数据仓库组件产品中选择,明细数据仓库之计算转换传输单元可以安装在ETL服务器上,也可安装在明细仓库服务器上,之处理子系统,可以安装在明细数据仓库服务器或多维数据仓库服务器上,之访问子系统之各单元安装在在线访问服务器上,系统物理连接、软件连接配置完成后,就可进入系统建模阶段,步骤如下:

第一步,先根据业务系统信息、数据特点和最终数据挖掘目标,确定系统级元数据定义。

第二步,根据应用目标需求、系统级元数据,设计多维数据仓库和明细数据仓库元数据定义结构。

第三步,根据业务系统信息数据与明细仓库数据定义,设计ETL各抽取清洗转换任务,根据抽取转换任务设计计算转换传输任务。

第四步,根据数据挖掘应用对数据实时程度的需求,确定抽取转换计算传输频率,配置任务执行事务。

第五步,进行多维数据仓库数据粒度、各主题、维度的元数据创建。

第六步,根据多维数据仓库元数据定义,设计处理子系统之各调度处理任务,确定处理更新规则,配置调度单元。

第七步,启动抽取转换传输调度事务,明细数据仓库开始运转,后启动处理调度事务,多维数据仓库开始运转。

第八步,开启访问服务器,各终端开始访问仓库,整个系统进入生产作业。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号