首页> 中文学位 >网格环境中数据挖掘执行过程模型的研究
【6h】

网格环境中数据挖掘执行过程模型的研究

代理获取

目录

声明

致谢

摘要

插图索引

表格索引

1 引言

1.1 选题背景

1.2 研究目标及方法

1.3 研究内容及主要工作

1.4 实例

1.5 研究创新点

1.6 论文结构

2 研究背景及问题提出

2.1 引言

2.2 中国铁路货运网格系统

2.2.1 铁路货运信息系统现状

2.2.2 铁路货运网格系统体系结构

2.2.3 铁路货运数据网格平台

2.2.4 铁路货运应用中间件

2.3 欧洲高级数据挖掘和集成研究系统

2.3.1 体系结构

2.3.2 用例场景

2.3.3 ADMIRE平台

2.4 研究问题的提出

2.5 小结

3 本论文的相关研究及概念

3.1 引言

3.2 数据挖掘技术

3.2.1 数据挖掘研究方法

3.2.2 数据挖掘任务

3.3 数据挖掘的标准化

3.3.1 数据挖掘过程标准

3.3.2 数据挖掘模型描述标准

3.3.3 API接口标准

3.3.4 研究现状及存在的问题

3.4 大规模分布式数据环境:网格

3.4.1 网格体系结构

3.4.2 网格软件/中间件

3.4.3 网格工作流

3.5 分布式数据挖掘

3.5.1 分布式与并行数据挖掘

3.5.2 数据挖掘网格

3.6 小结

4 数据挖掘执行过程模型

4.1 引言

4.2 相关研究

4.3 数据挖掘操作

4.3.1 数据挖掘操作代数

4.3.2 数据挖掘操作产生的中间结果分析

4.4 数据挖掘执行过程模型

4.4.1 关联规则挖掘

4.4.2 序列模式挖掘

4.4.3 决策树分类器

4.4.4 朴素贝叶斯分类器

4.5 基于数据挖掘操作的实验及评估

4.5.1 关联规则挖掘

4.5.2 序列模式挖掘GSP算法

4.5.3 CART决策树分类器

4.6 小结

5 基于网格对数据挖掘执行过程模型的优化

5.1 引言

5.2 相关工作

5.3 问题描述

5.4 优化器的设计

5.4.1 解决方案

5.4.2 操作分类

5.4.3 算法详述

5.4.4 理论分析

5.5 优化实例及实验评估

5.5.1 关联规则挖掘-Apriori

5.5.2 序列模式挖掘-GSP

5.5.3 决策树分类器-CART

5.6 小结

6 数据挖掘执行过程模型引擎(DMEP引擎)

6.1 引言

6.2 相关工作

6.3 DMEP引擎的体系结构

6.4 DMEP引擎内部组件

6.4.1 模型解析组件

6.4.2 模型调度组件

6.4.3 模型执行组件与流程控制组件

6.5 分布式数据挖掘执行过程模型实验分析

6.5.1 分布式Apriori执行过程模型

6.5.2 分布式GSP执行过程模型

6.5.3 分布式CART执行过程模型

6.6 基于网格的铁路货运系统重点客户预测

6.6.1 货票数据预处理

6.6.2 环境描述

6.6.3 性能分析

6.6.4 分类结果

6.7 小结

7 访问网格环境中数据挖掘服务的接口规范(WS-DAI-DM)

7.1 引言

7.2 背景及相关工作

7.3 WS-DAI-DM:WS-DAI核心规范的数据挖掘实现

7.3.1 网格环境中数据挖掘访问模式讨论

7.3.2 概念定义

7.3.3 属性

7.3.4 访问数据挖掘服务的接口

7.3.5 接口的使用过程

7.4 实现方式

7.5 实际用例

7.6 小结

8 总结及展望

8.1 论文总结

8.2 研究工作展望

A 数据挖掘执行过程模型内部表示的schema定义

B 流程链资源属性定义与活动资源属性定义

B.1 流程链资源属性定义

B.2 活动资源属性定义

C WS-DAI-DM Interface Specification(Version 1.1)

C.1 Introduction

C.1.1 Specification Scope

C.1.2 Specification Organization

C.1.3 Interface Composition

C.2 Notational Conventions

C.3 Terminology

C.3.1 DM

C.3.2 DM Data Access Service

C.3.3 DM Query

C.3.4 DM Model

C.4 Concepts

C.4.1 DM interfaces

C.4.2 Relationships to other specifications

C.5 DMAccess

C.5.1 Static DMAccess Description

C.5.2 Configurable DMAccess Description

C.5.3 Example of DMAccessPropertyDocument

C.5.4 DMAccess

C.5.5 DMAccessFactory

C.6 DMResponse

C.6.1 Static DM Rresponse Description

C.6.2 Configurable DMResponse Description

C.6.3 Example DMResponsePropertyDocument

C.6.4 DMResponseAccess

C.7 Mapping to WSDL

C.8 Security Considerations

C.9 Conclusion

参考文献

作者简历

攻读博士学位期间发表的学术论文

学位论文数据集

展开▼

摘要

随着信息技术的发展,大量数据在各种应用中被产生出来,并被分布的存储和积累在不同地点,如何从这些大量积累的、分布的数据中发现有用的、潜在的知识模式是一个极具挑战性的问题。网格技术用于在分布异构的资源间实现协作和共享,将数据挖掘技术运用于网格平台之上,为从大量分布的数据中获取有用的知识模式提供了有效的解决方案。但数据挖掘过程是一个涉及大量操作和数据的复杂过程,与网格平台相结合,无疑又增加了挖掘过程的复杂性。目前在数据挖掘技术的研究中,数据挖掘算法被作为一个独立的整体,以黑盒的方式出现在应用中,在这种情况下,数据挖掘执行过程对用户和执行环境是不可见的,这使得集中式环境中的数据挖掘算法不能根据分布式环境的特点动态的转化为分布式的数据挖掘过程,用户不能灵活的对数据挖掘执行过程进行控制。此外,访问数据挖掘服务与访问网格服务的接口相互独立给用户访问网格中的数据挖掘服务带来不便。这些因素都导致了数据挖掘技术在网格平台上不能有效的发挥其作用。正如实际的铁路货运应用系统中需要解决的问题:在铁路货运网格平台的基础上,如何充分利用分布的计算资源,对分布在各个铁路局的货运数据进行有效的深层次的挖掘以辅助决策。
  在本文提出的方法中,数据挖掘算法被分解成由细粒度数据挖掘操作组成的执行过程模型;在此基础之上,结合网格环境中数据资源和计算资源的分布情况,对模型进行优化,得到可以在网格中执行的分布式数据挖掘执行过程模型;然后,执行引擎将模型调度到各个网格节点执行;最后通过统一的、与网格平台相兼容的接口将数据挖掘结果提供给用户。本文在网格平台上,使用提出的方法实现了关联规则、序列模式、决策树分类器和朴素贝叶斯分类器等典型的数据挖掘执行过程模型的分解、优化与执行。
  本文的主要工作及创新点包括:
  提出了由细粒度的数据挖掘操作组成的数据挖掘执行过程模型,用于描述数据挖掘算法的执行过程,将数据挖掘算法白盒化。通过该模型,用户、应用程序和执行环境能清晰的理解整个数据挖掘算法执行经过的中间步骤及各步骤产生的中间结果的信息。本文在集中式环境中,基于仿真数据对数据挖掘执行过程模型中的各个操作进行了实验评估,证明了数据挖掘执行过程模型能够将数据挖掘算法白盒化,将算法中各个步骤的执行情况展现出来。
  设计了基于网格环境的数据挖掘执行过程模型的优化算法,用于将集中式执行过程模型转化为可在多个网格节点上并行执行的分布式执行过程模型,该优化算法采用从部分到整体逐层处理的方式,将整个优化过程分为数据具体化、全局优化和局部优化三个子过程,在每个子过程中,根据数据挖掘操作的类型和数据分布的特征对操作依次进行优化。本文基于网格平台,使用仿真数据对分布式数据挖掘执行过程模型进行了实验,验证了分布式数据挖掘执行过程模型在响应时间和资源使用平衡方面优于集中式的处理方式。
  设计了数据挖掘执行过程模型引擎,为分布式数据挖掘执行过程模型在网格平台上执行提供了运行环境,其中,设计了(a)基于网格环境的调度算法,用于将分布式数据挖掘执行过程模型以流程链为单位调度到各个网格节点执行;(b)基于WSRF规范实现的执行服务和控制服务。本文在网格平台上,使用仿真数据进行实验,分析了分布式数据挖掘执行过程模型在网格环境中使用引擎调度执行时,各个流程链调度执行的响应时间;并基于铁路货运网格实验平台和实际的货票数据,使用CART决策树分类器实现了铁路重点客户的预测。
  设计了在网格环境中访问数据挖掘服务的接口规范WS-DAI-DM,其目的是使数据挖掘服务与基于OGSA体系架构的网格平台无缝融合,使用户能够像使用网格平台提供的其他服务一样来使用网格环境中的数据挖掘服务。本文通过实例说明了如何使用WS-DAI-DM接口规范,该规范已提交开放网格社区(Open Grid Forum)。
  最后,对全文做了总结,并对下一步研究工作做了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号