首页> 中文学位 >基于Hive的海量Web日志数据系统的设计与实现
【6h】

基于Hive的海量Web日志数据系统的设计与实现

代理获取

目录

1 绪论

1.1 本文研究背景与意义

1.2 国内外相关研究

1.3论文主要内容和各章安排

2 关键技术和概念介绍

2.1 Hadoop生态系统

2.2 Hive数据仓库

2.3 本章小节

3 海量Web日志数据的存储和处理

3.1 传统方式的数据存储

3.2 传统方式的数据处理

3.3 分布式设计的优势

3.4 本章小节

4 基于Hive的Web日志数据系统构建

4.1 数据存储模型设计

4.2 分布式集群的搭建

4.3 数据采集

4.4 数据存储

4.5 数据处理

4.6 相关参数设置优化

4.7 本章小节

5 系统分析与测试

5.1 Web日志数据处理测试

5.2日志数据处理的高效性

5.3本章小节

6 总结与展望

6.1 论文工作总结

6.2 工作展望

参考文献

致谢

作者从事科学研究和学习经历简介

攻读硕士学位期间主要成果

展开▼

摘要

随着互联网经济时代的快速发展以及上网设备的迅速普及,互联网用户数量呈现指数级别地增长,使得互联网信息产生的速度越来越快。毋庸置疑, Web已经成为世界上最大的信息产生体。作为Web信息中重要的组成部分之一,Web日志数据记录了上网用户在进行网络请求时的相关信息,其对优化Web服务器和提供精准Web服务具有重要的指导意义。对于Web日志的存储和处理是人们在提取相关信息前无法避免且必须要解决的问题。曾几何时,基于文件和数据库的传统方式似乎为这些问题提供了完美的解决方案。但是近年来,计算机技术的发展和行业规模的不断扩大,使得Web日志的数据量呈现爆炸性增长,导致传统方式在存储和处理方面出现各种问题,造成性能和效率的大幅度下降。然而,随着大数据相关技术的出现,为解决这些问题提供了新的思路。
  本文在海量Web日志数据的基础上,采用大数据技术及相关设计思想,提出了一种基于 Hive的海量 Web日志数据系统的构建方案,集成了数据采集、数据存储、数据处理等相关功能。本文主要进行了以下几个方面的工作
  首先,对Web日志数据的存储和处理进行了探究与分析。从文件和数据库的传统方式出发,研究和分析了两者在面对海量 Web日志数据的问题和不足,提出了用分布式大数据的设计思想解决问题的思路。
  第二,提出了基于Hive的海量Web日志数据系统构建方案,针对该方案,结合具体场景和Web日志数据做出了系统的总体架构设计。
  第三,对系统的分布式集群进行了搭建,对 Web日志的数据采集、数据存储和数据处理功能进行了具体的代码实现,并对系统进行了展示。
  最后,系统针对海量Web日志数据使用Hive与MapReduce相结合的方式完成数据预处理和数据挖掘相关工作。在性能和效率方面与相关方式进行了对比测试,验证了系统在海量Web日志数据方面的可用性与高效性。

著录项

  • 作者

    师庆培;

  • 作者单位

    山东科技大学;

  • 授予单位 山东科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 曾庆田;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;TP393.09;
  • 关键词

    海量Web日志; 分布式集群; 数据挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号