首页> 中文学位 >分布式存储系统HBase性能调优方法的研究与实现

【6h】

分布式存储系统HBase性能调优方法的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

目录

第一个书签之前

展开▼

摘要

随着大数据时代的到来，数据库中数据量急剧增长，同时数据访问量也逐渐增大，导致系统功能的响应时间越来越慢。在实际系统中，一些功能的响应时间随着数据规模的增大而变大，数据插入、检索的响应时间也越来越大。因此如何通过优化HBase的性能降低系统功能的响应时间成为该系统的一个重要问题，同时也是工业界以及学术界亟待解决的一个重要问题。针对上述提出的数据库性能优化问题，本文通过调研并总结与非关系型数据库性能优化相关的国内外研究现状，选择当前主流的分布式存储系统HBase作为研究对象，实现了一种HBase性能调优方法。在大量实验样本数据的基础上，采用随机森林算法分析HBase性能与参数之间的关系，从而构建HBase吞吐量和延迟预测模型。基于预测模型，提出改进的遗传算法对HBase性能进行优化，最终实现HBase性能调优方法。本文的研究内容主要包含以下几个方面：（1）特征筛选与训练样本生成。根据HBase官方文档中的描述，对HBase特征进行两次筛选，得到影响HBase性能的参数集合。接着进行训练样本的生成，采用正交试验设计方法来选择具有代表性的特征样本进行实验，获取吞吐量和延迟的实验值。（2）预测模型的构建。通过对比多种机器学习算法，选择随机森林算法训练样本数据，并根据HBase参数对预测模型的重要程度，基于随机森林模型再次进行特征选择，得到最终的预测模型。（3）基于预测模型的性能优化算法的设计与实现。根据吞吐量和延迟预测模型，设计适应度函数，改进交叉步骤，并使用基于切断的轮盘赌选择操作和自适应变异操作，从而实现了改进的遗传算法。采用改进的遗传算法对HBase的性能进行优化，获得了HBase性能的最优解以及相应的最优参数配置。通过实验验证预测模型和改进遗传算法的高效性和正确性。本文首先采用YCSB工具中典型的四种工作负载进行实验获取实验结果，并基于此实验采用随机森林算法和3种机器学习方法分别构建预测模型，利用150组测试样本对模型的误差率进行对比分析，验证本文给出的模型的准确性。采用本文提出的改进遗传算法与3种优化算法分别对HBase性能进行优化，比较其优化结果，验证优化算法的高效性。最终将本文提出的HBase性能调优方法应用在实际系统中，并对其优化前后的功能响应时间进行对比分析，给出优化后的HBase参数配置并分析其性能提高的具体原因，最终证明本文提出的HBase性能调优方法是高效的，并且能够优化实际系统的HBase性能。

著录项

作者
张妮;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机技术
授予学位硕士
导师姓名鲍亮,王峰;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
分布式存储系统; 性能;

相似文献

中文文献
外文文献
专利

1. HOS:一种基于HBase的分布式存储系统设计与实现 [J] . 季一木 ,张宁 ,尧海昌 . 南京邮电大学学报（自然科学版） . 2019,第005期
2. 基于分布式存储系统的Hive与Hbase的研究 [J] . 高金标 ,何利力 ,邹云阳 . 工业控制计算机 . 2015,第012期
3. 基于HBase的气象地面分钟数据分布式存储系统 [J] . 陈东辉 ,曾乐 ,梁中军 . 计算机应用 . 2014,第009期
4. 分布式存储系统HBase关键技术研究 [J] . 张智 ,龚宇 . 现代计算机（普及版） . 2014,第011期
5. 基于HBase的农作物病虫害数据存储系统的研究与实现 [J] . 董萌萍 ,牟少敏 ,曹旨昊 . 山东农业大学学报（自然科学版） . 2019,第002期
6. 一种中央空调系统的连续复性能调优节能控制系统及方法 [C] . 董世运 ,刘瑞河 . 中国自动化学会智能建筑与楼宇自动化专业委员会2018年年会 . -1
7. HBase性能预测与资源配置优化技术的研究与实现 [A] . 台恩 . 2019

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号