Hadoopmy:基于数据库支持的Hadoop计算环境的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

试验或实际生产所用的数据量越来越大。单次应用的大数据量导致了对高性能计算的需求。但本文并不讨论基于MPP的高成本的解决高性能计算的方案。本文着重讨论基于集群的高性价比的解决高性能计算的方案。其中Hadoop是当今流行的基于集群的高性价比的用于处理高性能计算的平台。用于支持Hadoop-MapReduce计算的存储的性能是影响Hadoop计算性能的重要因素。因此研究Hadoop-MapReduce计算的存储有重要意义。
　　 Hadoop是由Apache开发的一款用于解决高性能计算的采用主从分布的集群。Hadoop擅长单个大数据量(至少64M以上的数据量)任务的高性能计算。虽然单次应用的数据量越来越大,但是大部分应用的数据集依旧无法达到64M。相对小数据量的应用计算效率在Hadoop上显得比较慢。这和Hadoop采用分布式文件系统HDFS有关系。为了在更广泛的应用中提高Hadoop的计算效率。寻找更好的Hadoop-MapReduce计算的存储取代HDFS,将进一步提升Hadoop的计算效率。
　　本文首先具体介绍了Hadoop分布式平台的核心组件HDFS和MapReduce。并详细叙述了分布式文件系统HDFS的优势和劣势。详细叙述了MapReduce的流程,并指出存在的一些问题。分析总结了前人对Hadoop-MapReduce计算的存储的改进的成功和存在的问题。提出本文为了进一步提高Hadoop的计算效率而采用的方案。
　　基于以上研究结论,本文提出了Hadoopmy。分模块具体介绍了Hadoopmv的组成和结构。详细描述了Hadoopmy的应用流程。Hadoopmy不同于以前的任何一种数据库与Hadoop结合的方式。Map函数的过程完全在数据库中进行,不再依赖HDFS,通过数据库的索引减少查询范围,Map函数被推入到数据库实例执行减少了启动任务和清除任务的时间花费。最后在3台虚拟机上本系统和Hadoop做相同试验。在分析试验数据的基础上,证明本文的提出的方案是正确并可行的。最终指出Hadoopmy今后需要完善的问题。

著录项

作者
刘思成;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科软件工程
授予学位硕士
导师姓名程仁洪;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
高性能计算; 分布式文件系统; 虚拟机; 数据库;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop云计算环境下人脸识别系统的研究与实现 [J] . 任静 . 电子设计工程 . 2019,第005期
2. 基于hadoop的分布式数据库测试方法研究 [J] . 厉文婕 ,李叶飞 ,赵芮 . 信息技术与信息化 . 2018,第012期
3. 基于Hadoop的NoSQL非关系型数据库安全研究 [J] . 杨晓雁 ,甘琳梅 . 微型电脑应用 . 2018,第012期
4. 基于 Hadoop 的心电数据库存储研究 [J] . 熊艳 ,陈宇 ,蒋文涛 . 生物医学工程研究 . 2016,第003期
5. 基于Hadoop的非关系型数据库安全技术研究 [J] . 李珣 . 电子世界 . 2014,第008期
6. 支持并行数据库系统的计算机机群并行计算环境Hcluster的系统结构 [C] . 李建中 ,李金宝 . 第十五届全国数据库学术会议 . 1998
7. 云计算环境下基于优先级与可靠度的Hadoop作业调度研究 [A] . 谷连军 . 2013

Hadoopmy:基于数据库支持的Hadoop计算环境的研究

摘要

著录项

相似文献

相关主题

期刊订阅