首页> 中文学位 >基于大数据平台的电信用户行为日志分析研究
【6h】

基于大数据平台的电信用户行为日志分析研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.2 日志挖掘研究现状

1.2.3 Web日志分析现状

1.3 研究内容和组织结构

第2章 分布式技术与Web日志挖掘的研究

2.1 分布式技术的研究

2.1.1 Hadoop生态系统

2.1.2 HDFS的架构

2.1.3 MapReduce编程模型

2.1.4 HBase数据库

2.2 日志挖掘技术的研究

2.2.1 数据挖掘的研究

2.2.2 Web挖掘的分类

2.2.3 Web日志挖掘的流程

2.3 本章小结

第3章 电信系统Web日志采集预处理模块的设计

3.1 电信系统Web日志结构分析

3.2 Web日志数据采集的设计

3.3 Web日志数据预处理的设计

3.4 本章小结

第4章 电信系统Web日志存储模块的设计

4.1 Web日志存储目标

4.2 Web日志存储模块结构设计

4.3 Web日志存储的具体实现

4.4 本章小结

第5章 电信系统Web日志挖掘及聚类算法的设计

5.1 电信系统Web日志挖掘模块的流程

5.2 基于电信系统Web日志的用户建模

5.3 改进的K-means算法的并行化设计与实现

5.3.1 K-means聚类算法的研究

5.3.2 Canopy算法的研究

5.3.3 FCM算法的研究

5.3.4 K-means算法的改进与优化

5.3.5 改进的K-means算法并行化设计与实现

5.4 本章小结

第6章 电信系统日志分析平台实现与结果分析

6.1 实验环境的搭建与配置

6.1.1 测试环境的部暑

6.1.2 软件安装及配置

6.1.3 系统运行过程及注意事项

6.2 系统运行结果分析

6.2.1 Hadoop平台并行处理高效性

6.2.2 改进K-means算法的优越性

6.3 本章小结

结论

致谢

参考文献

攻读学位期间取得学术成果

展开▼

摘要

随着互联网技术不断快速深入发展,许多大型企业、机构及政府部门持续获得了各种海量Web日志数据,而Web日志中记录了用户的行为及具体的消费情况,对网站的建设及特定商品的推广并提供精确的服务具有非常重要的指导意义。当今对Web日志分析的要求是持续变化和增加的,同时在分析Web日志时也要求具有一定的快捷性和准确性,然而如何预处理海量日志,如何存储海量数据,如何获取有效的信息成为学术界和商业界重点研究的内容。
  现今,人们的生活离不开网络,而生活中的各种需求基本上都是通过访问网站来实现,因此各个企业为了获得用户的显性需求和隐性需求,深入挖掘用户的网络行为习惯已形成一门重点关注的学科。因为访问网站的用户越来越多,所产生的数据也迅速增长,如何预处理和存储海量数据,并从中获取有效的数据成为了另一个挑战。根据人们的研究成果,目前基于Hadoop的相关技术是解决大数据问题最适合的方法和工具。原始Web日志中的数据是不一致的、缺陷的、含有大量脏数据和噪声,假如不通过数据采集和预处理过程对其进行过滤和筛选,会使数据分析阶段的工作量增大,甚至可能造成错误的结果。所以,在对数据进行分析之前应先对Web日志实行采集和预处理操作。每天电信系统都会产生海量的Web日志数据,单节点数据处理和传统的关系型数据库已不能满足其需求,对于怎样存储海量电信数据成为必要的研究课题。Web日志的挖掘需要通过算法来实现,因此算法的选取和设计也是关键之处。
  本文对基于电信系统的Web日志进行研究,其内容主要包含以下几点:
  1) Web日志的采集预处理
  Web日志采集和预处理是Web日志挖掘的前提条件,其作用是为后续数据分析提供准确的日志文件。而原有的Web日志中存在大量噪声和不一致的信息,因此对其进行采集和预处理操作是很有必要的。然而,随着用户访问数量的急剧增长,大量高并发的数据给Web预处理操作带来了巨大的挑战。本文提出了一种基于MapReduce的Web日志预处理机制,能更好的提高日志数据采集预处理阶段的效率,并最大限度的利用计算机硬件资源,从而降低不必要的资源浪费。
  2) Web日志的数据存储
  由于电信用户和网站的访问量在不断增加,Web日志也在每日剧增,传统的数据存储技术存在成本高、运行繁杂、扩展性极低等诸多不足。本文将采用HDFS和Hbase的组合来实现,并充分利用Hadoop集群的分布式存储优势。
  3)电信系统日志挖掘及聚类算法的改进
  数据挖掘作为大数据技术的核心问题之一,面临着计算复杂度高和计算能力不足等问题,本系统中应用了一种基于Hadoop的分布式改进聚类算法即CFK-means聚类算法。本算法是对K-means聚类算法的一种改进,本文通过实验结果阐明该聚类算法具有良好的可移植性和准确性。
  本文通过搭建一个模拟电信系统日志分析大数据平台,验证MapReduce并行化在Web日志采集和预处理阶段的高效性,HDFS和Hbase组合在数据存储中的高扩展性,通过多次对比实验结果分析,验证本文中CFK-means聚类算法的准确性和快捷性。本文通过对电信系统的日志分析,挖掘出用户的行为信息,通过分析用户访问网站的行为特点,帮助电信运营商制定合理的套餐和推荐信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号