首页> 中文学位 >基于Hadoop框架网络用户浏览器使用行为分析系统研究及实现
【6h】

基于Hadoop框架网络用户浏览器使用行为分析系统研究及实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 Web日志挖掘研究

1.2.2 Hadoop分布式系统研究

1.2.3 浏览器兼容性问题及其解决方案研究

1.3 主要研究内容

1.4 组织结构

第二章 Hadoop技术框架及Web日志挖掘理论基础

2.1 Hadoop技术架构理论基础

2.1.1 Hadoop整体介绍

2.1.2 Hadoop分布式文件系统

2.1.3 MapReduce

2.2 Web日志挖掘

2.2.1 Web日志挖掘定义

2.2.2 Web日志挖掘流程

2.2.3 Web日志挖掘的主要方法

2.3 本章小结

第三章 网络用户浏览器使用行为分析系统需求分析

3.1 存在问题分析

3.1.1 Web日志挖掘问题

3.1.2 浏览器兼容问题

3.2 系统需求分析

3.3 网络用户浏览器使用行为分析系统功能概述

3.4 本章小结

第四章 网络用户浏览器使用行为分析系统的实现

4.1 数据存储模块的实现

4.1.1 日志收集

4.1.2 数据预处理

4.1.3 导入DFS

4.2 数据分析模块的实现

4.2.1 统计指标

4.2.2 分析计算

4.2.3 导出HDFS

4.3 数据展示模块的实现

4.4 本章小结

第五章 网络用户浏览器使用行为分析系统的部署与测试

5.1 分布式平台的搭建

5.1.1 硬件环境

5.1.2 软件环境

5.1.3 Hadoop平台的安装部署

5.2 系统运行过程及结果分析

5.2.1 系统运行前准备工作

5.2.2 系统运行

5.2.3 系统运行结果分析

5.3 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

互联网的快速发展和网络用户的急剧增加使得Web日志飞速增长。如何从海量Web日志数据中挖掘出有用的信息不仅成为了当前数据挖掘的热点,而且也是摆在多数企业面前的难题。传统基于单一节点的Web挖掘系统的存储和计算能力早已不能有效处理规模庞大的Web日志数据。因此采用分布式存储和计算已经成为当前Web日志挖掘发展的必然趋势。Hadoop是当前使用较为广泛的分布式存储和计算框架。Hadoop分布式计算框架的高可靠性、高扩展性、高容错性等优点使其成为当前海量数据处理的利器,在多个领域中得到了大规模应用。
  本论文运用Hadoop分布式架构和Web日志挖掘技术实现了一个网络用户浏览器使用行为分析系统。系统通过挖掘海量Web日志数据研究用户浏览器使用行为,从而为网站开发者提供支持,辅助其处理浏览器兼容问题。论文的主要工作和工作成果如下:
  (1)实现系统整体架构设计。论文从目前课题研究的现实问题出发,结合Hadoop分布式架构和Web日志挖掘技术,按照Web日志数据挖掘的流程,设计了分布式数据存储、分布式数据分析和数据展示三大功能模块。
  (2)实现Web日志数据的收集和预处理。Web日志数据是系统处理分析的数据源。本文主要通过页面植入代码的技术实现Web日志数据的收集,同时完成Web日志的预处理,确保日志中记录的完整性。
  (3)实现了并行编程模型的开发。论文根据收集上来Web日志数据的特点,编写了Map和Reduce函数,使系统能聚焦到每条日志记录中浏览器信息并且识别出浏览器类型。
  (4)完成了Hadoop分布式平台的搭建。在配置好硬件和软件环境的基础上,论文完成了Hadoop环境配置和配置文件的编辑,成功搭建起了Hadoop分布式平台。
  (5)完成了系统性能测试和计算结果分析应用。论文测试系统处理每M数据所用时间和集群加速两大性能指标,并且对系统测试得到的计算结果进行了分析应用,辅助网站开发者处理浏览器兼容问题。
  系统性能测试结果表明论文中搭建起Hadoop分布式系统能够有效处理海量Web日志数据,能够有效研究网络用户浏览器使用行为习惯。系统计算得到的结果具有较高的应用价值,能够为网站开发者处理浏览器兼容问题提供有力支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号