首页> 中文学位 >数据仓库与数据挖掘若干理论研究及在CIPS中的应用
【6h】

数据仓库与数据挖掘若干理论研究及在CIPS中的应用

代理获取

目录

文摘

英文文摘

声明

第一章 引言

1.1概述

1.2数据仓库的概念与内容

1.2.1数据仓库的特征

1.2.2数据仓库与传统数据库的区别

1.2.3数据仓库的体系结构

1.2.4数据仓库的关键技术

1.3数据挖掘理论与技术

1.3.1数据挖掘的步骤

1.3.2数据挖掘的主要功能

1.3.3实现数据挖掘的具体算法

1.3.4数据挖掘的主要应用与发展趋势

1.4论文背景

1.4.1流程企业生产特点

1.4.2 CIMS技术内容

1.4.3 CIPS体系结构

1.4.4基于CIPS的管控一体化系统

1.4.5项目的具体实施

1.5论文的研究内容框架和主要贡献

1.5.1论文的主要内容

1.5.2论文的主要贡献和创新点

第二章 数据清洗与集成框架

2.1前言

2.2数据质量概述

2.2.1数据质量衡量指标

2.2.2脏数据分类

2.3 ETL集成框架及具体实施

2.3.1数据仓库的数据来源

2.3.2 ETL集成框架及具体实施过程

2.4小结

第三章 数据仓库模型设计与应用

3.1多维模型与OLAP

3.1.1内容与概念

3.1.2 OLAP基本操作

3.2常用数据仓库的概念模型

3.2.1星型模型与雪花模型

3.2.1其他概念模型

3.3 DWER模型研究与应用

3.3.1 DWER模型概念与表示

3.3.2应用实例

3.3.3 DWER模型的评价

3.4星链ER模型与应用

3.4.1模型概念内容

3.4.2星链ER模型表示方法

3.4.3星链ER模型的性质

3.4.4应用实例

3.5数据仓库建立过程和结果显示

3.5.1数据仓库建立过程

3.5.2各数据仓库基于BI Beans的OLAP展示

3.6小结

第四章 关联规则理论研究及应用

4.1关联规则基本概念与算法

4.1.1 Apriori算法内容简介

4.1.2 FP-growth算法内容简介

4.2加权关联规则算法研究与应用

4.2.1原始数据预处理

4.2.2加权关联规则算法内容

4.2.3加权的关联规则算法实现

4.3模糊关联规则算法研究与应用

4.3.1理论准备

4.3.2模糊关联规则的实现

4.3.3模糊关联规则的具体应用

4.4模糊加权关联规则算法研究与应用

4.4.1把模糊数综合为权值

4.4.2模糊加权的关联规则

4.5小结

第五章 时间序列模式的研究及应用

5.1具有时间间隔的时间序列分析与应用

5.1.1基于TimeSeq_Apriori算法的时间序列分析

5.1.2基于TimeSeq_PrefixSpan算法的时间序列分析

5.2时间序列拓扑理论研究与应用

5.2.1 FTP-图的基本概念和定义

5.2.2理论分析

5.2.3原始数据处理过程与算法实现

5.2.4具体应用

5.3小结

第六章 聚类分析理论研究与应用

6.1聚类分析的理论基础

6.1.1相似度量方法

6.1.2常用的聚类方法

6.2加权聚类算法研究与应用

6.2.1原始数据预处理

6.2.2加权的聚类算法

6.2.3加权的聚类算法在流程企业中的具体应用

6.3基于蚁群算法的聚类分析研究

6.3.1蚁群算法理论分析

6.3.2基于蚁群的聚类算法

6.4基于蚁群算法的离群数据挖掘与应用

6.4.1离群数据挖掘的概念

6.4.2基于蚁群算法的离群指数的理论基础

6.4.3具体算法流程

6.4.4具体应用

6.5小结

第七章 结论与展望

7.1论文总结

7.2进一步展望

致谢

参考文献

附录A TJMiner1.0部分界面

个人简历 在读期间发表的学术论文与研究成果

展开▼

摘要

随着信息技术的不断推广应用,大量的先进制造企业采用了计算机及相应的信息技术进行管理和运营,收集、存贮了海量的生产经营记录,但同时,大量的信息也带来了真假信息难以识别,很难提取出企业真正需要的知识的问题,企业普遍面临数据爆炸却有效的信息和知识相对短缺的状态,因此,如何对数据进行有针对性的开采,发掘出有价值的信息和知识,形成企业的know-how,指导企业的技术决策和经营决策,对于企业的发展,将发挥出举足轻重的作用。数据仓库和数据挖掘就是解决上述问题的关键技术之一。本文以某流程企业为背景,对数据仓库和数据挖掘若干理论进行研究并针对企业的实际情况顺利地实施,为企业生产经营活动的协调与整体优化和设备的正常运行、故障预警提供了丰富的决策依据,主要内容如下。无论实施数据仓库还是数据挖掘,都要首先进行数据预处理。针对流程企业数据源中存在的质量问题,提出了数据清洗的ETL的具体框架,采用不同算法和技术对数据进行了有效的清洗、转换和装载,为数据仓库提供了可靠的数据来源,在此基础上,分别采用DWER模型分析了具有复杂维结构和聚集的生产计划和实际费用的数据仓库,星链ER模型(StarChainER)分析具有链式事实主题的副产品库存和销售的数据仓库。最终建立起来以生产费用、油气生产、干气和副产品库存和销售为主题的数据仓库。根据流程企业中参数点的重要性不同和用连续数据表示的特点,分别研究加权关联规则理论和模糊关联规则理论及在流程企业中的应用,针对数据的不同特点,采用不同的模糊隶属函数处理了连续数据;然后把加权和模糊结合起来,提出了两种新的方法实现了模糊加权关联规则:把项集的模糊数综合为权值的方法和Fuzzy WedApriori算法,并在流程企业中有效应用。鉴于实时数据库中数据点有时间戳的优势,在现有的研究基础上,从两个角度发展了时间序列模式发现,首先采用两种算法:TimeSeq- Apriori算法和TimeSeq PrefixSpan算法分析了具有时间间隔的时间序列分析;然后提出了时间序列拓扑的思想,并根据时序数据库构造了FTP-图,采用FFP-图连接、候选TP图剪枝和采用哈希树的候选TP-图计数方法,编制了FrequentTimePattem Graph算法有效地挖掘出频繁模式图的时间序列,为企业设备运行时决策过程提供了理论依据。采用加权聚类方法对关键设备的大量历史数据进行分析,建立了设备正常情况的聚类模型,提出了紧密(离核)指数、离群指数和综合指数的计算方法,实现了对设备有效的实时监控。蚁群算法是一种比较先进的模拟进化算法,采用蚁群算法改进了聚类分析。并根据蚁群算法中的pij(t)综合考虑了簇团内数据点个数和到簇团内中心点距离的特点,创造性提出一种新的离群数据挖掘的方法,得到较好的效果。关键词:数据仓库,数据挖掘,ETL框架,概念模型,模糊加权关联规则,时间序列分析,时间序列拓扑,加权聚类分析,蚁群算法,离群数据挖掘,CIPS

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号