首页> 中文学位 >大规模日志数据存储查询优化及应用
【6h】

大规模日志数据存储查询优化及应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§1.1研究背景

§1.2 国内外研究现状

§1.3 主要研究内容

§1.4 本文结构

第二章 相关技术与理论

§2.1 HDFS分布式文件系统

§2.2 MapReduce编程模型

§2.3 HBase分布式数据库

§2.4 Hive数据仓库概述

§2.5 Zookeeper协调框架

§2.6 并行化数据聚类理论

§2.7 本章小结

第三章 基于HBase的大规模日志数据加载优化

§3.1 HBase对海量数据的支持

§3.2 HBase数据存储

§3.3 数据加载算法研究

§3.4 实验环境与数据

§3.5 实验与结果分析

§3.6 本章小结

第四章 融合HBase与Hive的大规模日志数据查询优化

§4.1 基于HBase的大规模日志查询算法

§4.2 基于HIVE的大规模日志数据查询算法

§4.3 HBaseQA与HIVEQA对比分析

§4.4 融合HBaseQA与HIVEQA算法的查询优化

§4.5 实验与结果分析

§4.6 本章小结

第五章 大规模日志数据典型应用的算法研究

§5.1 传统KMeans聚类算法

§5.2 改进型KMeans并行聚类算法

§5.3 实验与结果分析

§5.4 本章小结

第六章 总结与展望

§6.1 研究总结

§6.2 展望

参考文献

致谢

作者在攻读硕士期间主要研究成果

展开▼

摘要

随着互联网技术的发展,人们的上网行为越来越频繁,网络中不同类型的服务器为用户提供了丰富多样的服务,服务器在运行中会通过日志文件来记录其运行参数以及用户访问记录等信息。伴随着智能终端的普及,极大地方便了用户对网络的访问,服务器将承载巨大的访问需求,这样会生成海量的日志数据和用户访问记录数据。面对海量的数据,传统的数据技术无法有效处理。 Apache软件基金会下 HBase分布式数据库以其独特的优势在海量数据领域应用非常广泛,但HBase在数据加载和查询中也存在不足之处。HBase数据库提供的数据加载方式,表格RowKey行键只能对应于数据中的一列,使得行键单一;无法对原数据中包含的无用数据进行过滤;需要对数据创建强大的索引机制,数据规模急剧膨胀引起系统I/O量上升,导致加载效率下降。HBase在数据查询中,由于只支持简单的随机查询,导致用户无法方便地对数据进行复杂统计与分析。研究重点如下: (1)基于HBase的大规模日志数据加载优化。针对HBase数据加载行键单一、无效数据和数据膨胀的问题,设计并实现了自定义MapReduce并行数据加载优化算法。该算法实现了加载过程中无效数据的清理、自定义表格行键和通过对数据采用压缩算法减小数据占用的空间;同时,对表格的相关信息进行优化。实验结果表明,自定义MapReduce并行数据加载优化算法能够很好的解决数据加载过程中的行键、无效数据和数据膨胀的问题,同时也很大程度提高了数据加载的效率,其加速比约为1.2。 (2)融合HBase与Hive的大规模日志数据查询优化。针对HBase数据库不支持复杂查询的问题,设计并实现了融合Hive和HBase的大规模日志数据查询算法。该算法充分发挥了Hive仓库提供对海量数据类SQL查询的优势,通过两种框架融合以及表格数据关联的实现,最终实现Hive对存储在HBase表格中的数据进行统计与分析。实验结果表明,该算法实现了类SQL方式查询HBase表格数据,具有较好的效率和稳定性。 (3)大规模日志数据典型应用的算法研究。针对KMeans算法在初始聚类中心点选取和海量数据处理效率低下的问题,设计了改进型KMeans并行聚类算法。该算法通过使用 Canopy算法对数据进行粗略聚簇,将得到划分中心点作为KMeans算法的初始点;同时,通过MapReduce编程框架实现KMeans算法的并行化。实验结果表明,改进型KMeans并行聚类算法完善了聚类初值的选取并实现了聚类的并行处理,能够高效的完成大规模日志数据聚类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号