首页> 中文学位 >基于作业运行特征的大数据处理系统性能优化研究
【6h】

基于作业运行特征的大数据处理系统性能优化研究

代理获取

目录

第一个书签之前

展开▼

摘要

为满足日益增长的海量数据分析处理需求;学术界和工业界设计开发了多种大数据处理系统来解耦数据分析应用的业务逻辑和底层作业执行环境;使得用户可以高效地在数据中心、云计算等并行分布式计算环境下开发、部署和运行分析作业。这些系统通常使用以MapReduce为代表的数据并行编程模型;为用户提供直观、面向应用领域的编程原语;简化应用开发。同时;系统底层实现为用户屏蔽作业的并行分布式执行细节;包括任务划分、负载均衡调度、数据分发和容错执行机制等。随着大数据处理的应用范围从最初的离线ETL批处理扩展到交互式查询、流计算和复杂迭代计算等实时、准实时计算场景;用户对作业的性能指标愈加重视;大数据处理系统的效率问题也显得越来越重要。 纵观目前的大数据处理系统;其系统结构大体包括三个层面的核心组件:分布式硬件计算资源、数据处理软件引擎以及应用支撑环境。目前国内外针对大数据处理系统性能优化也多围绕这三个层面展开。本论文针对以上三个层面;分析其对作业运行的影响给出相应的优化措施。首先;在分布式硬件层面;当前的分布式计算环境中硬件计算资源往往是地理分散、异构且高度动态变化的;针对资源同构、稳定计算平台的任务调度机制难以充分保证作业执行时的硬件资源利用率;其次;在软件处理引擎层面;当前流行的大数据处理系统通常采用Java等高级面向对象语言开发;这些语言的托管型软件执行环境在实现抽象隔离、对象封装和自动内存管理等高级特性的同时;也引入了显著的额外开销、严重降低了作业执行效率;最后;在应用支撑层面;目前大数据应用呈现稀疏特性;导致数据处理效率低下;比如图数据处理中由于访存不均、通信复杂等原因导致计算效率不高。稀疏矩阵、图结构数据的分布式划分组织方式对于机器学习、图挖掘等迭代计算的通信开销具有显著影响;但传统的启发式静态划分算法仅能实现作业的静态负载均衡;难以适应大规模分布式计算平台下的动态负载均衡调度需求。针对上述背景;选取了三个场景;从三个层面探讨大数据处理系统性能优化问题。 首先;针对分布式硬件计算平台资源动态性;本文提出了一种基于资源动态性特征的任务调度机制。该机制采用基于数据亲和性的任务调度算法;同时容忍短时间的数据传输/通信故障;从而避免不必要的任务重执行;并对拖慢任务采取激进的投机性执行来加快作业完成。为了验证方法的有效性;本文以桌面网格作为典型场景;设计实现了基于Grid5000平台的广域分布仿真实验框架;通过仿真节点抖动、节点瞬时故障、节点硬件异构和网络隔离等资源特征;对比了该机制和Hadoop的可扩展性、调度公平性和容错能力。 第二;针对典型大数据处理用户程序的数据对象创建和访问特征;本文提出了一种基于生命周期的对象内存管理机制。在充分利用硬件资源的基础上;该机制基于对象拆解设计思想;采用运行时程序转换技术来降低作业执行时对象的内存占用和垃圾收集开销;从而让硬件计算资源消耗更多转化为应用的有效计算。针对转换的安全性;该机制利用静态程序分析技术提取创建对象的生命周期和内存占用特征信息;确保不改变程序的原有语义。而且;通过将同一数据集的对象内存布局调整为按字段连续存储;该机制还可以提升内存数据的压缩比率;进一步降低作业的内存占用。 最后;针对分布式图数据划分与通信开销、负载均衡调度的关系特征;本文提出了一种基于顶点副本的两级图划分机制。启发式图划分算法能够降低分布式图计算的消息通信开销;对于避免拖慢作业有效计算十分关键。该机制对输入图数据首先按照计算节点粒度进行划分;在几个子图分片中划分出一个工作节点级别的分片作为原子迁移单元;并保证每个计算节点都有与另一个节点的“迁移亲和性”。基于这一划分机制;本文设计实现了一种动态负载均衡调度方法;在保证划分质量的同时避免频繁使用开销较大的全局图划分算法。另外;利用划分后部分顶点已经存在远端副本的性质;本文还实现了一种差异化备份的检查点机制;缩短作业进度的恢复时间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号