基于Hadoop的日志统计分析系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展,网络数据呈现指数级的增长,IDC数据表明,全球企业数据正以55％的速度逐年增长,大数据中蕴含着巨大的商业价值,引起了企业的广泛关注,然而,大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难,现有的工具逐渐无法有效的处理这些问题。Google首先推出了MapReduce用来应对其对大数据处理的需求。Hadoop是开源版本的MapReduce,并逐渐成为许多互联网公司基础计算平台的一个核心部分。本文旨在实现基于Hadoop的日志统计分析系统。
　　本文在对此系统进行需求分析的基础上,设计了以Hadoop、HBase集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志同步、统计分析作业定制、任务调度、数据查询四大功能。
　　日志同步提供数据从不同数据源到Hadoop集群的数据收集、聚合和移动,以便数据的分布式存储;统计分析作业的定制支持MapReduce、Streaming、Hive三种不同类型的作业,满足对统计分析多样性的需求;任务调度对所有用户提交的作业进行统一管理和调度。数据查询对存储在集群中的数据提供多种查询方式。
　　本文综合使用了Hadoop生态圈的各种开源技术,包括FlumeNG、Sqoop、HDFS、MapReduce、Hive、HBase,从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用Hadoop进行日志统计分析的典型流程和技术。
　　本文使用开发语言Java和shell,开发工具为EclipseIDE,VIM,Hadoopeclipse-plugin。在多台CentOS机器之上搭建Hadoop集群,进行分布式存储和计算。用户通过统计分析系统进行日志同步、统计分析任务提交和调度、结果查询等操作。

著录项

作者
朱斌;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科软件工程
授予学位硕士
导师姓名王宇颖,刘晓飞;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.12;
关键词
网络数据; Hadoop集群; 分布式存储; 日志统计分析;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop的校园网站日志系统的设计与实现 [J] . 姜开达 ,章思宇 ,孙强 . 华东师范大学学报（自然科学版） . 2015 ,第0z1期
2. 基于Mahout框架的Hadoop平台作业日志分析平台设计与实现 [J] . 曹政 . 软件 . 2015 ,第011期
3. 基于Hadoop集群的日志分析系统的设计与实现 [J] . 陈森博 ,陈张杰 . 电脑知识与技术 . 2013 ,第034期
4. 基于Hadoop的Web日志预处理的设计与实现 [J] . 宋莹 ,沈奇威 ,王晶 . 电信工程技术与标准化 . 2011 ,第011期
5. Web日志统计分析系统的设计与实现 [J] . 姜良华 ,陈超泉 . 福建电脑 . 2008 ,第011期
6. 基于Hadoop的校园网站日志系统的设计与实现 [C] . JIANG Kai-da ,姜开达 ,ZHANG Si-yu . 中国高等教育学会教育信息化分会第十二次学术年会 . 2014
7. 基于Hadoop的海量日志数据准实时查询系统的设计与实现 [A] . 孙亚龙 . 2020

基于Hadoop的日志统计分析系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅