首页> 中文学位 >基于云计算的WEB日志分析系统的设计与实现
【6h】

基于云计算的WEB日志分析系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景

1.2 研究现状

1.3 本文主要工作

1.4 本论文的结构安排

第二章 相关理论和技术

2.1 WEB日志概述

2.2 分布式系统

2.3 云计算

2.4 Hadoop核心技术

2.5 本章小结

第三章 WEB日志分析系统需求分析

3.1 需求分析概述

3.2 日志分析系统存在的问题

3.3 WEB日志分析系统功能分析

3.4 日志分析系统性能需求

3.5 本章小结

第四章 WEB日志分析系统设计

4.1 系统设计总体思路

4.2 日志收集模块设计

4.3 日志预处理模块

4.4 日志存储模块

4.5算法管理模块设计

4.6 日志统计模块设计

4.7 日志查询模块设计

4.8 本章小结

第五章 WEB日志分析系统实现

5.1 日志收集模块实现

5.2 日志预处理模块实现

5.3 日志预存储模块实现

5.4 日志统计模块实现

5.5 日志查询模块实现

5.6 本章小结

第六章 系统配置与测试

6.1 测试介绍

6.2 测试规划

6.3 系统测试环境配置

6.4 WEB日志分析系统的运行界面

6.5 日志收集与预处理模块测试结果

6.6 日志统计模块测试结果

6.7 日志查询模块测试结果

6.8 本章小结

第七章 结论与展望

7.1 结论

7.2 展望

致谢

参考文献

展开▼

摘要

随着网络技术与电子商务技术的迅猛发展,运行在互联网之上的各种应用和服务也随之大量涌现。WEB已成为当今世界上最大的信息系统。作为WEB系统的重要组成部分,WEB日志用于保存人们浏览的网页记录。随着使用WEB系统的人数的急剧增加,WEB日志数量也在飞速的增长。如何通过数据分析技术以及数据挖掘技术,快速的从海量的 WEB日志中提取有意义的信息,成为商业界和学术界关注的重要研究课题。
  为了能够对WEB日志进行有效的分析和挖掘,人们设计并实现了很多WEB日志分析系统。这些WEB日志分析系统主要是基于单机服务器的,单机服务器无论是CPU的性能、I/O性能还是存储方面的性能,都是非常有限的。对于海量的WEB日志数据而言,仅仅依靠于单机系统进行分析与挖掘已经远远不能满足WEB日志分析的实时性要求。
  针对这个问题,本文设计并实现了一套基于云计算的海量 WEB日志分析系统,作为典型的云计算应用框架,Hadoop可以利用多个机器实现分布式计算功能,提高WEB日志分析的实时性;同时Hadoop支持分布式存储与并行访问技术,能够加快 WEB日志访问的效率。因此本文研究并实现基于 Hadoop框架的分布式WEB日志分析系统,利用分布式计算和分布式存储,实现对云计算集群中海量数据的分析。
  具体的说本文主要研究工作包括以下几点:
  首先,深入学习并掌握 Hadoop的核心技术以及整体框架,包括 HDFS(分布式文件系统)和Map/Reduce(分布式计算框架),理解分布式集群的整体构架。
  其次,研究如何将传统的串行算法进行并行化设计,使之能够运行在云计算平台之上,加快算法的运行速度,提升系统处理海量数据的能力。本文主要实现WEB日志统计工作的并行化、查询算法的并行化设计。利用MapReduce编程框架实现这些并行算法。
  最后,设计并实现了一套基于云计算的 WEB日志分析系统,系统主要实现了日志收集模块、日志预处理模块、日志存储模块、日志统计模块和日志查询模块。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号