首页> 中文学位 >面向小文件的云存储系统关键技术研究与实现
【6h】

面向小文件的云存储系统关键技术研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.1.1 云存储的概念

1.1.2 云存储的背景和意义

1.1.3 小文件研究的意义

1.2 本文主要研究问题

1.2.1 基于P2P架构的云存储模型

1.2.2 系统的可用性优化问题

1.2.3 主从架构中心服务器扩展性问题

1.3 本文主要贡献

1.4 本文组织结构

1.5 本章小结

第2章 存储相关技术研究进展

2.1 单机文件系统

2.1.1 目录索引机制的改进

2.1.2 提高磁盘的单次访问效率

2.2 分布式文件系统

2.2.1 Lustre文件系统

2.2.2 PVFS文件系统

2.2.3 MogileFS文件系统

2.2.4 MooseFS文件系统

2.2.5 GlusterFS文件系统

2.2.6 用户空间文件系统FUSE

2.3 云存储系统

2.3.1 云存储系统的分类

2.3.2 Google的GFS分布式文件系统

2.3.3 Facebook的Haystack Blob存储系统

2.4 CDN网络

2.4.1 CDN网络介绍

2.4.2 CDN网络的发展

2.5 P2P相关技术

2.5.1 P2P的概念

2.5.2 P2P的架构

2.6 本章小结

第3章 基于P2P的云存储模型

3.1 相关研究

3.1.1 主从架构系统缺点

3.1.2 主从架构中小文件的研究进展

3.2 基于P2P的小文件云存储模型

3.2.1 基于P2P的系统架构图

3.2.2 虚拟节点技术

3.2.3 路由信息预取算法

3.2.4 文件一致性维护

3.2.5 解决单点故障问题

3.2.6 解决系统性能瓶颈

3.2.7 节点平均故障率与系统可用性的关系

3.3 文件分布和IO操作

3.3.1 文件组织

3.3.2 基于分布式哈希表协议(DHT)的文件分布

3.3.3 节点加入退出对备份影响

3.3.4 基于有限状态机的迁移策略

3.3.5 基本操作

3.4 小文件的优化策略

3.4.1 虚拟节点小文件合并

3.4.2 小文件合并数量对系统读写的影响

3.5 实验及分析

3.5.1 测试基准Benchmark及性能指标

3.5.2 Microbenchmark测试

3.5.3 Hadoop HDFS系统时间对比

3.5.4 文件大小对系统性能影响

3.5.5 存储节点数量对系统可用性影响

3.5.6 副本数对系统可用性的影响

3.5.7 与Taobao FS的比较

3.5.8 虚拟节点迁移时间

3.5 本章小结

第4章 云存储模型中的索引构造算法研究

4.1 相关研究

4.1.1 索引构造的相关研究

4.1.2 Trie介绍

4.1.3 DAT介绍

4.1.4 串行Trie树构造算法

4.2 索引字符频率及预处理

4.2.1 索引字符频率

4.2.2 磁盘排序文件的预处理算法

4.3 索引快速构造算法

4.3.1 快速构造算法

4.3.2 磁盘存放表的插入

4.3.3 磁盘存放表的删除

4.3.4 磁盘存放表的更新

4.3.5 快速算法评估

4.4 实验与分析

4.4.1 等长串磁盘空间压缩对比

4.4.2 等长串建立索引时间对比

4.4.3 非等长串磁盘空间对比

4.4.4 非等长串建立索引时间对比

4.5 本章小结

第5章 云存储模型中心服务器扩展性研究

5.1 引言

5.2 去中心化架构设计

5.2.1 架构设计

5.2.2 文件描述符

5.2.3 备份及分块大小

5.3 Master节点设计

5.3.1 Master节点功能

5.3.2 Master节点内存数据结构

5.4 数据节点设计

5.4.1 磁盘存储优化

5.4.2 内存索引结构

5.4.3 主节点选择协议

5.5 数据操作

5.5.1 读文件

5.5.2 写文件

5.5.3 删除文件和修改文件

5.5.4 元数据操作

5.6 实验分析

5.6.1 Master节点比较

5.6.2 数据节点的存储比较

5.6.3 文件操作时间比较

5.6.4 Master节点扩展性比较

5.7 本章小结

第6章 总结与展望

6.1 研究总结

6.2 研究展望

参考文献

作者简历及博士期间成果

致谢

展开▼

摘要

存储是云计算的一块基石。云计算环境下,存储面临着诸多挑战,如海量数据要求系统容量足够大、数据增加快要求系统有非常强的扩展性、高可用性要求系统低延迟、热点数据现象要求处理高并发请求等。特别是存储小文件时,元数据请求数量将是存储大文件时的成千上万倍。主从架构系统中元数据服务器将成为系统扩展的瓶颈。本文针对海量小文件的存储,主要取得以下几项研究成果:
  (1)提出了一个基于P2P的面向小文件的云存储架构。创新地引进了一个中心路由节点,中心路由节点保存资源与节点的映射关系,使资源查询平均跳数从0(log(n))降到0(1)。客户端通过预取中心路由节点数据得到文件与机器的映射关系表,进一步减少了一个网络来回的时间开销。实验表明新架构下,文件尺寸为1K~20K时读取时间约是HadoopHDFS系统的1/(500~200);文件尺寸为160K~1M时读取时间约是HadoopHDFS系统的1/(110~22);实验证明本系统读写吞吐量峰值约为是TFS的1.5倍,系统扩展性远优于TFS。
  (2)由于系统的中心路由服务器存在单点故障问题,为了增加系统的可用性,本文提出了一种基于Trie树索引的快速构造算法,该算法利用索引字符串的统计信息,跳过了串行构造算法中的重复比较,实验表明快速算法时间优于串行算法和Aoe的DAT算法;
  (3)本文对类GFS(GFS-like)架构中元数据服务器进行了“去中心化”的研究,将元数据从元数据服务器移动到数据节点上,针对元数据和数据的一致性问题,提出利用主数据节点维护数据一致性的方法,同时提出了主节点选择协议;本文提出并实现了数据节点上小文件存储优化方案,将所有小文件合并为一个大文件,利用B+数对小文件进行索引,这样提高了数据节点的存储效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号