首页> 中文学位 >基于Spark的数据挖掘技术在ERP系统上的研究与应用
【6h】

基于Spark的数据挖掘技术在ERP系统上的研究与应用

代理获取

目录

声明

1绪论

1.1研究背景

1.2国内外研究现状

1.3课题的研究内容

1.4本文的组织结构

2相关技术及理论

2.1.1 数据挖掘概述

2.1.2数据挖掘框架

2.2.1 Hadoop概述

2.2.2 Hadoop核心架构

2.2.3 Spark核心架构

2.3 ERP系统概述

2.4.1回归学习

2.4.2分类学习

2.5本章小结

3数据挖掘关键技术优化

3.1特征选择技术

3.2遗传算法概述

3.3特征选择改进算法

3.3.1种群个体的编码

3.3.2 适应性函数

3.3.3遗传算子的设计

3.4实验与分析

3.4.1实验结果

3.5本章小结

4 大数据分析平台搭建与融合算法的实现

4.1 Spark平台搭建

4.1.1 配置Hadoop

4.1.2 配置Spark

4.2 Stacking融合技术

4.3 Spark数据挖掘框架

4.4实验与分析

4.4.1实验结果

4.5本章小结

5.1数据挖掘平台整体框架

5.2数据采集

5.3数据处理与分析

5.4本章小结

6.1总结

6.2展望

参考文献

攻读学位期间取得的研究成果

致谢

展开▼

摘要

在信息爆炸、不断完善普及的今天,应用机器学习对海量数据进行高效分析对数据挖掘来说已成为必然趋势。对于机械零件加工企业来说,其ERP系统中同样蕴含着大量的数据,如果没有相应的数据挖掘技术加以支撑,这些对企业决策有帮助的信息则会白白流失,导致企业决策方案的延时和失准,同时随着系统长期的交互运行,使得传统的数据分析方法面对如此庞大的数据上显得吃力,导致挖掘出的信息量不足和信息缺乏实时性。  基于以上背景,本文主要利用大数据下的数据挖掘技术来实现决策支持所需的分析功能。研究阐述了不同数据挖掘技术的使用场景与ERP系统的整体架构,分析了基于机械零件加工企业的业务逻辑和业务需求,利用Hadoop搭建了Spark大数据分析平台并通过ERP系统内现存的零件订单数据构建测试数据集实现了Stacking融合框架,通过对比分析表明Spark大数据平台能够在海量数据下提高预测速度同时Stacking融合算法能够大幅度提高预测精度。针对不同特征选择问题提出了一种优化的遗传算法用以筛选最优特征,通过在多份数据集上的预测对比表明该算法能够筛选出关键特征从而提高预测精度,最后介绍了ERP系统内数据的类型与存储方式,搭建了从数据处理、数据存储到任务预测整体的ERP数据挖掘框架,介绍了如何利用优化遗传算法与Spark大数据平台进行企业ERP的数据挖掘任务。  本文通过大数据工具Hadoop与Spark搭建数据挖掘平台对传统制造型企业ERP系统实施数据分析与研究,引入遗传算法与Stacking融合框架提高数据分析精度,解决企业运营过程中出现的信息流问题,减少信息孤岛行为。将企业所产生的数据转换为有价值的信息,为企业人员做出更正确的决策。

著录项

  • 作者

    辛宇;

  • 作者单位

    浙江农林大学;

  • 授予单位 浙江农林大学;
  • 学科 农业信息化
  • 授予学位 硕士
  • 导师姓名 童孟军;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    数据挖掘,ERP系统,Spark平台;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号