首页> 中文学位 >基于纠删码的分布式文件系统数据块管理技术研究
【6h】

基于纠删码的分布式文件系统数据块管理技术研究

代理获取

目录

第一个书签之前

绪论

研究工作的背景与意义

研究对象及其发展现状

本文的主要贡献与创新

本文的组织结构

关键技术理论

分布式文件系统概览

HDFS架构与块管理方式

纠删码技术原理

纠删码的理论基础

有限域上的代数运算

Reed-Solomon 编码

应用方案与价值

HDFS-RAID 设计分析

其它系统的解决方案与不足

本章小结

相关方案、算法的研究

设计原则与目标

数据块的连续式布局与条带式布局

在线编码与离线编码

跨文件分组与文件内分组

数据块状态抽象

数据块状态定义

数据块状态迁移

纠删码对数据块分布的要求

基于二分匹配的块分布算法

小规模集群的分布策略

动态副本策略

数据实时热度的衡量

副本调节方法

本章小结

原型系统的设计与实现

纠删码分组抽象与管理

创建新分组

加载已有分组

序列化与反序列化

修复处理单元

处理单元并行读取

分布式修复任务

触发式编组

分组扫描例程

状态迁移回调

已编码块重分布

二分图模型构建

匹配算法实现

数据热度感知

副本实时调节

本章小结

系统分析与测试

测试环境简述

存储效率分析与验证

动态副本策略效果测试

进一步性能测试

TestDFSIO基准测试

计算密集型作业测试

本章小结

总结与展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

为了应对持续增长的数据存储需求,大规模分布式存储系统逐渐开始采用纠删码技术,以求在保证数据可靠性的前提下减少存储开销。现阶段,多数研究以退化读问题为主题,试图解决纠删码在数据恢复过程中所带来的大量网络开销。然而,如何调整传统副本方式下的数据块管理模式以更好的适配纠删码对块组织的特殊需求,这一问题并未引起足够的重视。
  这促使本文研究并提出一种基于纠删码的数据块管理模式—Ecobm,它综合考虑了副本与纠删码两种数据冗余技术的优势,分析了它们对块管理的要求,能够将纠删码技术平滑地集成到传统基于副本的系统中。在对典型分布式存储系统的文件存储规律和数据访问模式进行深入分析后,本文决定采用离线编码和连续式块布局方案;在编组策略上允许从全局选取数据块进行跨文件编组,并尽最大努力降低一个分组关联的文件数,以平衡管理成本和存储开销。为了形式化描述数据块的管理过程,本文对数据块生命期进行抽象建模,通过构建状态机指导数据块管理;对于纠删码分组中的块分布问题,则是将其映射到二分匹配模型中,应用匈牙利算法检测分布可靠性并给出具有最小数据传输量的重分布方案。在这一管理模式下,只有那些需要长期存储的不可变块才会被编码;此外系统还将通过一种名为RRA的结构对被编码块的实时热度进行追踪,并动态调整其副本数以使上层应用能获得更好的数据本地化程度。
  系统原型在HDFS基础上开发实现,对原型系统的测试结果表明,该数据块管理模式能有效降低系统存储开销,同时提高热点数据的本地化程度。实验环境下,相对于三副本方式200%的存储开销,原型系统即使在有大量小文件的存储场景中仍能将开销控制在87.1%以内;动态副本策略效果同样明显,它将PageRank、TF-IDF作业的运行时间降低到仅采用纠删码时的67%左右。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号