首页> 中文学位 >基于Hadoop的日志统计分析系统的设计与实现
【6h】

基于Hadoop的日志统计分析系统的设计与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题来源及研究意义

1.2 与本课题相关的国内外研究状况

1.3 本课题研究的主要内容

1.4 本文组织结构

第2章 日志统计分析系统需求及相关技术

2.1 基于Hadoop的日志统计分析系统的需求

2.2 日志统计分析系统的相关技术

2.3 本章小结

第3章 日志统计分析系统的设计

3.1 Hadoop分析大数据设计要解决的问题

3.2 日志统计分析系统的结构设计

3.3 日志统计分析系统的数据流程

3.4 集群环境部署设计

3.5 日志同步模块的设计

3.6 统计分析作业定制模块的设计

3.7 统计分析任务调度模块的设计

3.8 数据查询模块的设计

3.9 本章小结

第4章 基于Hadoop的日志统计分析系统的实现

4.1 集群环境的部署

4.2 日志同步模块的实现

4.3 统计分析作业定制模块的实现

4.4 统计分析任务调度模块的实现

4.5 数据查询模块的实现

4.6 本章小结

第5章 基于Hadoop的日志统计分析系统的的测试

5.1 Hadoop系统的测试介绍

5.2 功能测试

5.3 MapReduce程序测试

5.4 性能测试

5.5 结果分析

5.6 本章小结

结论

参考文献

声明

致谢

个人简历

展开▼

摘要

随着互联网的发展,网络数据呈现指数级的增长,IDC数据表明,全球企业数据正以55%的速度逐年增长,大数据中蕴含着巨大的商业价值,引起了企业的广泛关注,然而,大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难,现有的工具逐渐无法有效的处理这些问题。Google首先推出了MapReduce用来应对其对大数据处理的需求。Hadoop是开源版本的MapReduce,并逐渐成为许多互联网公司基础计算平台的一个核心部分。本文旨在实现基于Hadoop的日志统计分析系统。
  本文在对此系统进行需求分析的基础上,设计了以Hadoop、HBase集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志同步、统计分析作业定制、任务调度、数据查询四大功能。
  日志同步提供数据从不同数据源到Hadoop集群的数据收集、聚合和移动,以便数据的分布式存储;统计分析作业的定制支持MapReduce、Streaming、Hive三种不同类型的作业,满足对统计分析多样性的需求;任务调度对所有用户提交的作业进行统一管理和调度。数据查询对存储在集群中的数据提供多种查询方式。
  本文综合使用了Hadoop生态圈的各种开源技术,包括FlumeNG、Sqoop、HDFS、MapReduce、Hive、HBase,从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用Hadoop进行日志统计分析的典型流程和技术。
  本文使用开发语言Java和shell,开发工具为EclipseIDE,VIM,Hadoopeclipse-plugin。在多台CentOS机器之上搭建Hadoop集群,进行分布式存储和计算。用户通过统计分析系统进行日志同步、统计分析任务提交和调度、结果查询等操作。

著录项

  • 作者

    朱斌;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 王宇颖,刘晓飞;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.12;
  • 关键词

    网络数据; Hadoop集群; 分布式存储; 日志统计分析;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号