基于Hive的海量Web日志数据系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网经济时代的快速发展以及上网设备的迅速普及，互联网用户数量呈现指数级别地增长，使得互联网信息产生的速度越来越快。毋庸置疑， Web已经成为世界上最大的信息产生体。作为Web信息中重要的组成部分之一，Web日志数据记录了上网用户在进行网络请求时的相关信息，其对优化Web服务器和提供精准Web服务具有重要的指导意义。对于Web日志的存储和处理是人们在提取相关信息前无法避免且必须要解决的问题。曾几何时，基于文件和数据库的传统方式似乎为这些问题提供了完美的解决方案。但是近年来，计算机技术的发展和行业规模的不断扩大，使得Web日志的数据量呈现爆炸性增长，导致传统方式在存储和处理方面出现各种问题，造成性能和效率的大幅度下降。然而，随着大数据相关技术的出现，为解决这些问题提供了新的思路。
　　本文在海量Web日志数据的基础上，采用大数据技术及相关设计思想，提出了一种基于 Hive的海量 Web日志数据系统的构建方案，集成了数据采集、数据存储、数据处理等相关功能。本文主要进行了以下几个方面的工作
　　首先，对Web日志数据的存储和处理进行了探究与分析。从文件和数据库的传统方式出发，研究和分析了两者在面对海量 Web日志数据的问题和不足，提出了用分布式大数据的设计思想解决问题的思路。
　　第二，提出了基于Hive的海量Web日志数据系统构建方案，针对该方案，结合具体场景和Web日志数据做出了系统的总体架构设计。
　　第三，对系统的分布式集群进行了搭建，对 Web日志的数据采集、数据存储和数据处理功能进行了具体的代码实现，并对系统进行了展示。
　　最后，系统针对海量Web日志数据使用Hive与MapReduce相结合的方式完成数据预处理和数据挖掘相关工作。在性能和效率方面与相关方式进行了对比测试，验证了系统在海量Web日志数据方面的可用性与高效性。

著录项

作者
师庆培;
展开▼
作者单位

山东科技大学;

展开▼
授予单位山东科技大学;
学科计算机技术
授予学位硕士
导师姓名曾庆田;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;TP393.09;
关键词
海量Web日志; 分布式集群; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于Hive的海量web日志分析系统设计研究 [J] . 江三锋 ,王元亮 . 软件 . 2015,第004期
2. 基于Hive的Web日志分析 [J] . 周洪斌 . 沙洲职业工学院学报 . 2018,第001期
3. 基于Hadoop/Hive的web日志分析系统的设计 [J] . 刘永增 ,张晓景 ,李先毅 . 广西大学学报（自然科学版） . 2011,第0z1期
4. 基于Hadoop／Hive的web日志分析系统的设计 [J] . 刘永增 ,张晓景 ,李先毅 . 广西大学学报：自然科学版 . 2011,第A01期
5. 基于Hive的高寒草地海量数据高效分析系统设计研究 [J] . 李亮丹 ,晔沙 ,谢夏 . 农业资源与环境学报 . 2021,第006期
6. 基于Hadoop/Hive的web日志分析系统的设计 [C] . 刘永增 ,张晓景 ,李先毅 . 中国教育和科研计算机网CERNET第十八届学术年会 . 2011
7. 基于Hive的高寒草地海量数据分析系统设计与实现 [A] . 晔沙 . 2018

基于Hive的海量Web日志数据系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅