首页> 中文学位 >Hadoopmy:基于数据库支持的Hadoop计算环境的研究
【6h】

Hadoopmy:基于数据库支持的Hadoop计算环境的研究

代理获取

摘要

试验或实际生产所用的数据量越来越大。单次应用的大数据量导致了对高性能计算的需求。但本文并不讨论基于MPP的高成本的解决高性能计算的方案。本文着重讨论基于集群的高性价比的解决高性能计算的方案。其中Hadoop是当今流行的基于集群的高性价比的用于处理高性能计算的平台。用于支持Hadoop-MapReduce计算的存储的性能是影响Hadoop计算性能的重要因素。因此研究Hadoop-MapReduce计算的存储有重要意义。
   Hadoop是由Apache开发的一款用于解决高性能计算的采用主从分布的集群。Hadoop擅长单个大数据量(至少64M以上的数据量)任务的高性能计算。虽然单次应用的数据量越来越大,但是大部分应用的数据集依旧无法达到64M。相对小数据量的应用计算效率在Hadoop上显得比较慢。这和Hadoop采用分布式文件系统HDFS有关系。为了在更广泛的应用中提高Hadoop的计算效率。寻找更好的Hadoop-MapReduce计算的存储取代HDFS,将进一步提升Hadoop的计算效率。
   本文首先具体介绍了Hadoop分布式平台的核心组件HDFS和MapReduce。并详细叙述了分布式文件系统HDFS的优势和劣势。详细叙述了MapReduce的流程,并指出存在的一些问题。分析总结了前人对Hadoop-MapReduce计算的存储的改进的成功和存在的问题。提出本文为了进一步提高Hadoop的计算效率而采用的方案。
   基于以上研究结论,本文提出了Hadoopmy。分模块具体介绍了Hadoopmv的组成和结构。详细描述了Hadoopmy的应用流程。Hadoopmy不同于以前的任何一种数据库与Hadoop结合的方式。Map函数的过程完全在数据库中进行,不再依赖HDFS,通过数据库的索引减少查询范围,Map函数被推入到数据库实例执行减少了启动任务和清除任务的时间花费。最后在3台虚拟机上本系统和Hadoop做相同试验。在分析试验数据的基础上,证明本文的提出的方案是正确并可行的。最终指出Hadoopmy今后需要完善的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号