首页> 中文学位 >基于Hadoop的海洋信息OLAP与数据挖掘系统的研究与实现
【6h】

基于Hadoop的海洋信息OLAP与数据挖掘系统的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究目的与意义

1.3 本文主要工作

1.4 本文组织结构

第2章 相关技术与研究

2.1 相关技术

2.1.1 Hadoop与MapReduce

2.1.2 Hive

2.1.3 Mahout

2.1.4 Mondrian与MDX

2.2 相关研究

2.2.1 OLAP与数据挖掘工具

2.2.2 ELM与OS-ELM

2.2.3 集成分类

2.3 本章小结

第3章 基于Hadoop的海洋信息OLAP与数据挖掘系统的设计与实现

3.1 系统概述

3.2 系统需求分析

3.2.1 系统功能需求分析

3.2.2 系统性能需求分析

3.3 系统设计与实现

3.3.1 海洋信息OLAP的设计与实现

3.3.2 数据挖掘工具的设计与实现

3.4 系统测试

3.4.1 系统功能测试

3.4.2 系统性能测试

3.5 本章小结

第4章 基于随机子空间与MapReduce的OS-ELM集成分类算法

4.1 随机子空间的OS-ELM集成分类算法

4.1.1 问题的提出及算法基本思想

4.1.2 算法设计

4.1.3 算法分析

4.2 基于MapReduce的随机子空间OS-ELM集成分类算法

4.2.1 问题的提出

4.2.2 算法基本思想

4.2.3 算法设计

4.2.4 算法分析

4.3 实验与性能分析

4.3.1 实验环境配置

4.3.2 实验数据集

4.3.3 实验结果及分析

4.4 本章小结

第5章 结束语

5.1 内容总结

5.2 未来展望

参考文献

致谢

攻读硕士学位期间主要成果

展开▼

摘要

21世纪是海洋世纪,世界各沿海国家均将维护国家海洋权益、发展海洋经济及保护海洋生态环境列为本国的重大发展战略,我国国家海洋信息中心于1999年即提出了“数字海洋”的发展构想。作为“数字海洋”的一部分,海洋信息OLAP与数据挖掘技术能发现潜藏于数据背后的海洋规律与知识,对我国海洋生态环境的保护、海洋气象的观测预报以及海洋的防灾减灾等都具有重大的意义。随着信息技术的革新,海洋数据的获取越来越便捷,我国积累了规模庞大的海洋数据,如何对这些海量数据进行高效地分析挖掘是“数字海洋”在新时代所面临的挑战之一。在此背景下,本文针对国家海洋局“海洋云计算与云服务体系框架的应用与研究”项目需求,借助Hadoop云计算技术,设计实现了基于Hadoop的海洋信息OLAP与数据挖掘系统,并对系统中的OS-ELM分类算法进行优化改进。
  海洋信息OLAP分析与在线数据挖掘系统采用B/S架构,包含海洋信息OLAP分析和在线数据挖掘工具两部分功能。对于海洋信息OLAP分析功能,系统采用了分布式数据仓库Hive作为其底层存储,通过对开源的OLAP引擎Mondrian添加Hive的方言HiveDialect,使MDX多维查询语句可以被解析为HiveQL语句,并被提交到云平台上并行执行,提高了OLAP查询分析的效率;对于在线数据挖掘工具,系统一方面包装改造了Mahout的数据挖掘算法库,使得用户得以通过Web页面方便快捷地进行相关的数据挖掘分析,另一方面新增加了并行化的在线序贯极限学习机(POS-ELM)分类算法,为用户提供了一个更加高效、快速的分类挖掘算法。通过海洋信息OLAP分析功能,用户能够对存储在云平台中的海洋数据进行如多维查询、下钻/上卷、切片/切块以及转轴等OLAP操作;通过在线数据挖掘工具,用户可以方便快捷地使用工具中常用的数据挖掘算法对海洋数据进行并行的挖掘分析。
  数据挖掘工具中的OS-ELM分类算法对高维、含噪音的数据集,常常存在着分类精度不高的问题,针对该问题,本文提出了一种基于随机子空间的OS-ELM集成分类算法(RSEOS-ELM),并通过分析RSEOS-ELM在矩阵运算过程中存在的依赖关系,找出能进行并行化计算的矩阵,利用MapReduee编程框架实现了对RSEOS-ELM并行优化的集成分类算法(PRSEOS-ELM)。相比RSEOS-ELM算法,PRSEOS-ELM算法在保证同样高分类精度的前提下,提高了集成分类的速度,对大规模数据具备良好的扩展性。如对于具有40960维度(属性)64万个训练样例的数据集和具有64维度40960万个训练样例的数据集,若为每个基分类器划分的训练子集包含64万个训练样例64个维度,在构造相同数目基分类器的情况下,PRSEOS-ELM的训练时间比RSEOS-ELM的训练时间要低2个数量级,随着内核数的增加,PRSEOS-ELM的加速比也在提高,且当内核数为80时,具有高达40倍的加速比。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号