首页> 外文学位 >Performance evaluation of big data placement structures in MapReduce-based data warehouse systems.
【24h】

Performance evaluation of big data placement structures in MapReduce-based data warehouse systems.

机译:基于MapReduce的数据仓库系统中大数据放置结构的性能评估。

获取原文
获取原文并翻译 | 示例

摘要

The size of data sets is growing rapidly, which requires fundamentally innovative techniques and technology to capture, store, distribute, and process promptly and cost effectively. Hadoop software framework with high-performance execution engines (MapReduce) is capable of processing large data sets across clusters that provide scalable and fault-tolerant capability on distributed systems. MapReduce-based warehouse system with data storage format is very useful for data summarization and query analysis. The warehouse system can contain millions of row column value and therefore, data placement structure plays a significant role that can influence the warehouse performance. In this research, we examined the performances of Hive's data file formats, the RCFile and ORCFile on top of Hadoop. For this experiment, we design and implement a distributed cluster by three nodes master-slave architecture, where we store and organize the data according to the above files' format structure. We investigate the file format efficiency in terms of data loading, data storage and query processing using MapReduce. The experimental results can lead to choosing the perfect and useful file format for a data warehouse system for Big Data processing.
机译:数据集的规模正在迅速增长,这需要从根本上进行创新的技术和技术,以快速,经济高效地捕获,存储,分发和处理数据。具有高性能执行引擎(MapReduce)的Hadoop软件框架能够处理跨集群的大型数据集,从而在分布式系统上提供可扩展的容错功能。具有数据存储格式的基于MapReduce的仓库系统对于数据汇总和查询分析非常有用。仓库系统可以包含数百万行的列值,因此,数据放置结构起着重要的作用,可以影响仓库的性能。在这项研究中,我们检查了Hive数据文件格式,RCFile和Hadoop之上的ORCFile的性能。在本实验中,我们设计和实现了一个由三个节点的主从架构组成的分布式集群,其中我们根据上述文件的格式结构来存储和组织数据。我们使用MapReduce在数据加载,数据存储和查询处理方面研究文件格式效率。实验结果可以为大数据处理的数据仓库系统选择完美而有用的文件格式。

著录项

  • 作者

    Hasan, Mohammad Rakibul.;

  • 作者单位

    Lamar University - Beaumont.;

  • 授予单位 Lamar University - Beaumont.;
  • 学科 Computer science.;Information technology.
  • 学位 M.S.
  • 年度 2016
  • 页码 81 p.
  • 总页数 81
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

  • 入库时间 2022-08-17 11:48:49

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号