首页> 中文学位 >云计算基础软件平台的研究和实践
【6h】

云计算基础软件平台的研究和实践

代理获取

目录

声明

摘要

表格

插图

第一章 绪论

1.1 云计算的基本概念

1.2 研究背景和意义

1.2.1 云计算软件平台的配置部署

1.2.2 分布式存储系统的发展和新的需求

1.2.3 分布式计算模型的发展和新的需求

1.3 本文的研究内容

1.4 论文结构

第二章 基于模糊逻辑的异构Hadoop集群配置优化

2.1 引言

2.2 相关背景介绍

2.2.1 模糊逻辑

2.2.2 Hadoop参数分析

2.2.3 Hadoop参数加载流程

2.3 基于模糊逻辑的配置算法

2.3.1 运行时数据搜集

2.3.2 模糊控制器的实现

2.4 实验和分析

2.4.1 Matlab仿真

2.4.2 Hadoop集群实验

2.5 小结

第三章 基于内存的分布式键值存储系统

3.1 引言

3.2 相关工作简介

3.2.1 相关分布式存储系统介绍

3.2.2 内存存储的可行性和相关系统介绍

3.2.3 前人工作的不足

3.3 基于内存的分布式键值存储系统

3.3.1 Sedna总体架构

3.3.2 数据分割

3.3.3 数据备份

3.3.4 节点管理

3.3.5 ZooKeeper子机群

3.3.6 基本数据访问API

3.3.7 持久化策略

3.3.8 Sedna实时数据访问接口

3.4 实验和性能分析

3.4.1 单客户端性能

3.4.2 多客户端性能

3.4.3 ZooKeeper性能分析

3.5 小结

第四章 基于触发器的计算模型

4.1 引言

4.2 相关工作介绍

4.2.1 MapReduce模型及其问题

4.2.2 迭代处理模型

4.2.3 递增计算模型

4.2.4 实时处理模型

4.2.5 前人工作的不足及新的方案

4.3 基于触发器的编程模型

4.3.1 触发器模型

4.3.2 Domino的编程模型

4.3.3 同步模型

4.4 设计和实现

4.4.1 执行流程

4.4.2 事件感知组件(Event Detector)

4.4.3 延迟写组件(Gathered I/O)

4.4.4 容错和恢复组件

4.4.5 优化

4.5 应用实例

4.5.1 PageRank算法

4.5.2 协同过滤算法

4.5.3 K-means算法

4.6 实验分析

4.6.1 实验环境设置

4.6.2 HBase性能比较

4.6.3 与MapReduce比较

4.6.4 递增计算性能

4.7 小结

第五章 结束语

5.1 研究工作总结

5.2 对未来工作的展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

过去的十年里,云计算相关领域得到了长足的发展。随着云计算对人们生活的影响越来越深入,其将最终使得计算和存储成为一种资源,像水、电一样渗透到人们生活的各个方面。与此同时,新的应用需求不断出现,比如实时搜索,在线推荐系统,社交网络分析等,给云计算领域带来了新的挑战。这些挑战主要包括以下几个方面:1)新型的应用对数据存储量的要求更大;2)应用对数据随机访问的速度越来越高;3)应用的复杂度和实时性要求越来越高。比如典型的推荐系统,搜索引擎,社交分析等应用所处理的数据往往是无结构的原始数据,这使得大部分的访问模式是随机的。应用需要在较快的时间内产生处理结果,因此对访问速度要求较高。除此之外,这些应用的计算过程中通常包括大量的迭代计算过程,并且这些迭代过程中的多轮之间通常有强依赖性,使得计算过程越来越复杂。有效的编写这样的应用需要计算模型的支持,而提高这类应用的执行速度则需要运行时系统的支持。在这些挑战的驱动下,近年来出现了不少新型的存储系统和计算模型,但是依旧存在许多问题亟待解决。
   本文基于在云计算平台中出现的新型应用的需求,对云计算的基础软件架构进行了深入的研究,主要工作包括对现有架构的优化配置以提高其性能,针对海量数据的高速随机写需求设计并实现了完全基于内存的数据持久的分布式存储系统,针对复杂的实时应用设计并实现了一个基于触发器的通用计算模型。具体来说,本文的主要工作和贡献如下:
   1.研究了大规模Hadoop集群的配置方法,提出了一种基于模糊逻辑的Hadoop集群异构配置工具。
   该工具使用模糊逻辑算法,将正在异构集群中服务器的各种硬件参数以及历史运行数据作为模糊输入,根据模糊规则自动生成参数配置最终提高Hadoop集群本身中任务的执行速度。通过将传统的Hadoop集群配置中优化参数的方法转变成了优化规则的方法,极大的降低了配置集群的成本。实验表明,该模糊规则工具根据异构集群的多项指标生成的参数配置能够有效的提高应用的执行速度。
   2.针对海量数据的高速随机写需求设计并实现了完全基于内存的数据持久的分布式存储系统Sedna。
   在Sedna中,我们提出了一种基于层次化的集群管理方案,通过和分布式哈希算法的结合,提高了集群的可扩展性以及进行动态负载均衡的灵活性。除此之外,我们还在传统的存储系统API的基础上,设计并且实现了专用于实时应用的实时访问API来进一步提高存储系统对实时应用的支持。实验证明,Sedna存储系统具有和内存缓存系统相近的速度却能够保证数据的可靠性,与此同时,实时API也明显的提高了应用对数据更新的响应速度。
   3.针对复杂的实时应用设计并实现了一个基于触发器的通用计算模型Domino。
   在Domino的设计和实现中,针对递增模型下触发器执行过程中的同步需求,我们提出了聚合模式来进行同步操作。并且引入了最终同步模型,很好的解决了分布式的纯异步的触发器模型如何进行数据同步的问题;通过引入多种同步模型(完全异步、最终同步、严格同步),我们为开发人员提供了灵活的选择方案。在Domino中,我们提出了基于多版本数据管理的容错以及恢复的策略,对于执行过程中的错误可以实现实时恢复进一步提高了Domino的可用性。通过将多个典型的复杂应用在Domino上进行实现并进行比较,证明了Domino具备非常好的扩放性并且在复杂的计算应用中,其性能优于传统MapReduce模型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号