首页> 外文会议>International Conference on Intelligent Computing and Control Systems >Efficient time compression earthquake database using hadoop Hive ORC format
【24h】

Efficient time compression earthquake database using hadoop Hive ORC format

机译:使用hadoop Hive ORC格式的高效时间压缩地震数据库

获取原文

摘要

Today is an age of Big data. Big data is the normally unstructured data. Apache Hive is largely used for analysis in process of huge data. Because it is like SQL so easy to get analytical report. The main problem is that unstructured data loading and storage as well as Fast and timely analysis of large amount of data. There are data Compression columnar format like ORC(Optimized Row And Columnar) and Parquet columnar format. In this paper we used USGS (United States Geological Survey) Earthquake dataset. USGS provides the multi-Dimension dataset of earthquake of every day, week and month. We applied hadoop Hive's ORC format On monthly USGS earthquake dataset. ORC format Stored dataset efficiently without lose so that the most important data without losing stored on HDFS. We compare result of ORC Sorted and Unsorted dataset on the basses of time required to load the dataset on HDFS.
机译:今天是大数据时代。大数据是通常非结构化的数据。 Apache Hive主要用于海量数据的分析。因为它像SQL,所以很容易获得分析报告。主要问题是非结构化数据的加载和存储以及对大量数据的快速及时分析。有数据压缩列格式,例如ORC(优化行和列)和Parquet列格式。在本文中,我们使用了USGS(美国地质调查局)地震数据集。 USGS提供了每天,每周和每月的多维地震数据集。我们在每月的USGS地震数据集上应用了hadoop Hive的ORC格式。 ORC格式有效地存储数据集而不会丢失,从而将最重要的数据存储在HDFS上而不会丢失。我们将ORC Sorted和Unsorted数据集的结果与将数据集加载到HDFS所需的时间进行比较。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号