首页> 中文学位 >面向HDFS的批量文件存储性能的研究与优化
【6h】

面向HDFS的批量文件存储性能的研究与优化

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景和意义

1.2 研究现状

1.3 本文主要工作及结构安排

第二章 HDFS系统的介绍和性能相关因素分析

2.1 HDFS系统中的元数据分析

2.1.1 文件和目录的元数据信息

2.1.2 数据块及副本的元数据信息

2.1.3 文件、数据块、数据节点之间的映射关系

2.1.4 NameNode节点集中统一管理的元数据信息

2.2 HDFS系统中的通信机制分析

2.3 HDFS系统中典型操作解析

2.3.1 文件写入操作

2.3.2 文件读取操作

2.3.3 数据块复制操作

2.4 HDFS系统中主要后台管理工作

2.5 HDFS系统性能相关因素分析与面临的问题

第三章 HDFS中批量文件存储的优化

3.1 批量文件存储的优化策略

3.1.1 文件数据部署原则

3.1.2 用户文件合并操作

3.1.3 数据片段的关联性分析

3.1.4 数据片段的组装

3.1.5 “先伪删除,后真删除”策略

3.2 相关的元数据类型与结构

3.3 相关算法

3.3.1 文件数据部署算法

3.3.2 用户文件合并算法

3.3.3 数据片段关联性分析算法

3.3.4 数据片段的组装算法

3.4 批量文件的操作流程与接口

3.4.1 批量文件的写入操作

3.4.2 批量文件的读取操作

3.4.3 以组文件方式写入的文件的删除操作

3.5 程序功能实现

3.6 实验

3.6.1 实验环境

3.6.2 时间性能测试结果与数据分析

3.6.3 NameNode元数据大小测试结果与数据分析

第四章 HDFS系统架构优化方案

4.1 NoSQL概述

4.2 NoSQL数据库产品简介

4.3 Redis数据库介绍

4.3.1 Redis是什么

4.3.2 Redis的数据类型

4.3.3 Redis的客户端库

4.3.4 Redis的事务、持久化与主从复制

4.4 HDFS系统架构的优化策略

4.5 程序功能实现

4.6 实验

4.6.1 实验环境

4.6.2 时间性能测试结果与数据分析

4.6.3 NameNode元数据大小测试结果与数据分析

第五章 总结和展望

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

随着经济、社会和科技的发展,个人电脑、智能手机等设备大规模普及,互联网应用越来越广泛和深入,人们进入了大数据的时代。云计算、大数据、云存储共同组成了学术界和商业界研究的前沿课题。Hadoop是目前主流的开源大数据平台,已经成为处理大数据问题事实上的标准,它涵盖一个能够实现云计算、云存储功能的生态系统;其中HDFS作为Hadoop最底层的基础设施,为其提供了高可靠性、高可扩展性的数据存储管理服务,HDFS的工作效率直接决定了Hadoop其他上层工具的性能,也极大地影响了基于HDFS的应用系统的工作效率。 HDFS尽管具有很多优点,但是依旧处于不断发展成熟的过程中,特别是当处理大规模数据集时会出现很多问题,具体表现在NameNode节点单点失效、NameNode节点内存瓶颈和负载过大、大量文件访问时DataNode节点磁盘I/O寻址频繁、HDFS集群后台管理工作负载过大等等,这些都极大地制约了HDFS作为一个分布式文件存储系统的应用。为此,本文在对HDFS进行详细介绍和相关性能因素分析的基础上,从访问性能和系统架构两方面对HDFS进行了优化,进一步提高HDFS的工作效率。本文的主要工作及创新点如下: 1,在研读HDFS系统源代码的基础上,介绍了HDFS典型操作流程和后台管理工作,剖析了HDFS中元数据架构体系和通信机制,讨论了HDFS系统在批量文件处理时面临的一些问题和缺陷。 2,针对批量文件存储时存在的问题,重构了批量文件存储的机制和读写流程。在写入批量用户文件时,Client客户端将批量文件合并成一个组文件,并且创建用户文件、数据片段、组文件、数据块之间的映射元数据,然后将组文件和相关元数据都存储到HDFS中;在读取批量用户文件时,Client客户端首先获取用户文件的元数据,其次按照存储位置对数据片段进行分类,然后按类向DataNode发出数据读取请求,获得所有数据片断,最后将数据片段组装成用户所求的文件。 3,在批量文件存储优化的基础上,提出了将NameNode节点中容易分离的元数据迁移存储到Redis服务器节点的方法,实现“元数据分布,访问分布”,以此来进一步降低NameNode节点的内存消耗和访问负载。 4,对于以上的优化方案,在HDFS开源系统上做了编程实现,并进行了实验测试,实验结果验证了优化策略的有效性。

著录项

  • 作者

    苏义超;

  • 作者单位

    南京师范大学;

  • 授予单位 南京师范大学;
  • 学科 计算机科学与技术;计算机应用技术
  • 授予学位 硕士
  • 导师姓名 鲍培明;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TQ5;TM9;
  • 关键词

    批量; 文件; 存储性能;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号