PortHadoop: Support direct HPC data processing in Hadoop

机译：PortHadoop：支持Hadoop中的直接HPC数据处理

获取原文

获取外文期刊封面目录资料

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

The success of the Hadoop MapReduce programming model has greatly propelled research in big data analytics. In recent years, there is a growing interest in the High Performance Computing (HPC) community to use Hadoop-based tools for processing scientific data. This interest is due to the facts that data movement becomes prohibitively expensive, highperformance data analytic becomes an important part of HPC, and Hadoop-based tools can perform large-scale data processing in a time and budget efficient manner. In this study, we propose PortHadoop, an enhanced Hadoop architecture that enables MapReduce applications reading data directly from HPC parallel file systems (PFS). PortHadoop saves HDFS storage space, and, more importantly, avoids the otherwise costly data copying. PortHadoop keeps all the semantics in the original Hadoop system and PFS. Therefore, Hadoop MapReduce applications can run on PortHadoop without code change except that the input file location is in PFS rather than HDFS. Our experimental results show that PortHadoop can operate effectively and efficiently with the PVFS2 and Ceph file systems.

机译：Hadoop MapReduce编程模型的成功在大数据分析中大大推进了研究。近年来，对高性能计算（HPC）社区的兴趣日益增长，以使用基于Hadoop的工具来处理科学数据。这种兴趣是由于数据移动变得过昂贵的事实，高性能数据分析成为HPC的重要组成部分，基于Hadoop的工具可以一次执行大规模的数据处理和预算有效的方式。在本研究中，我们提出了PortHadoop，这是一个增强的Hadoop架构，使MapReduce应用程序能够直接从HPC并行文件系统（PFS）读取数据。 PortHadoop节省了HDFS存储空间，更重要的是，避免否则昂贵的数据复制。 PortHadoop保留原始Hadoop系统和PFS中的所有语义。因此，Hadoop MapReduce应用程序可以在没有代码更改的情况下在PortHadoop上运行，除了输入文件位置位于PFS而不是HDFS之外。我们的实验结果表明，Porthadoop可以使用PVFS2和Ceph文件系统有效且有效地运行。

著录项

来源
《IEEE International Congress on Big Data》|2015年||共10页
会议地点
作者
Yang Xi; Liu Ning; Feng Bo; Sun Xian-He; Zhou Shujia;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类程序设计、软件工程;
关键词
Data Analysis; Hadoop; I/O; MapReduce;

机译：数据分析;Hadoop;I / O;MapReduce;

相似文献

外文文献
中文文献
专利

1. HadoopTrajectory: a Hadoop spatiotemporal data processing extension [J] . Bakli Mohamed, Sakr Mahmoud, Soliman Taysir Hassan A. Journal of geographical systems . 2019,第2期

机译：Hadooptrajectory：Hadoop时空数据处理扩展
2. Processing Real World Datasets using Big Data Hadoop Tools [J] . N Deshai, B V D S Sekhar, P V G D Prasad Reddy, Journal of Scientific & Industrial Research . 2020,第7期

机译：使用大数据Hadoop工具处理现实数据集
3. An Enhanced Apriori Algorithm Using Hybrid Data Layout Based on Hadoop for Big Data Processing [J] . Yassir ROCHD, Imad HAFIDI International journal of computer science and network security . 2018,第6期

机译：一种基于Hadoop的混合数据布局改进Apriori算法，用于大数据处理
4. PortHadoop: Support direct HPC data processing in Hadoop [C] . Yang Xi, Liu Ning, Feng Bo, IEEE International Congress on Big Data . 2015

机译：PortHadoop：支持在Hadoop中直接进行HPC数据处理
5. Data intensive query processing for Semantic Web data using Hadoop and MapReduce. [D] . Husain, Mohammad Farhan. 2011

机译：使用Hadoop和MapReduce对语义Web数据进行数据密集型查询处理。
6. Cloudwave: Distributed Processing of Big Data from Electrophysiological Recordings for Epilepsy Clinical Research Using Hadoop [O] . Catherine P. Jayapandian, Chien-Hung Chen, Alireza Bozorgi, 2013

机译：Cloudwave：使用Hadoop进行癫痫临床研究的电生理记录中的大数据分布式处理
7. Spatial Big Data Query Processing System Supporting SQL-based Query Language in Hadoop [O] . In-Hak Joo 2017

机译：支持Hadoop中基于SQL的查询语言的空间大数据查询处理系统

PortHadoop: Support direct HPC data processing in Hadoop

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅