基于大数据平台的电信用户行为日志分析研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术不断快速深入发展，许多大型企业、机构及政府部门持续获得了各种海量Web日志数据，而Web日志中记录了用户的行为及具体的消费情况，对网站的建设及特定商品的推广并提供精确的服务具有非常重要的指导意义。当今对Web日志分析的要求是持续变化和增加的，同时在分析Web日志时也要求具有一定的快捷性和准确性，然而如何预处理海量日志，如何存储海量数据，如何获取有效的信息成为学术界和商业界重点研究的内容。
　　现今，人们的生活离不开网络，而生活中的各种需求基本上都是通过访问网站来实现，因此各个企业为了获得用户的显性需求和隐性需求，深入挖掘用户的网络行为习惯已形成一门重点关注的学科。因为访问网站的用户越来越多，所产生的数据也迅速增长，如何预处理和存储海量数据，并从中获取有效的数据成为了另一个挑战。根据人们的研究成果，目前基于Hadoop的相关技术是解决大数据问题最适合的方法和工具。原始Web日志中的数据是不一致的、缺陷的、含有大量脏数据和噪声，假如不通过数据采集和预处理过程对其进行过滤和筛选，会使数据分析阶段的工作量增大，甚至可能造成错误的结果。所以，在对数据进行分析之前应先对Web日志实行采集和预处理操作。每天电信系统都会产生海量的Web日志数据，单节点数据处理和传统的关系型数据库已不能满足其需求，对于怎样存储海量电信数据成为必要的研究课题。Web日志的挖掘需要通过算法来实现，因此算法的选取和设计也是关键之处。
　　本文对基于电信系统的Web日志进行研究，其内容主要包含以下几点:
　　1) Web日志的采集预处理
　　Web日志采集和预处理是Web日志挖掘的前提条件，其作用是为后续数据分析提供准确的日志文件。而原有的Web日志中存在大量噪声和不一致的信息，因此对其进行采集和预处理操作是很有必要的。然而，随着用户访问数量的急剧增长，大量高并发的数据给Web预处理操作带来了巨大的挑战。本文提出了一种基于MapReduce的Web日志预处理机制，能更好的提高日志数据采集预处理阶段的效率，并最大限度的利用计算机硬件资源，从而降低不必要的资源浪费。
　　2) Web日志的数据存储
　　由于电信用户和网站的访问量在不断增加，Web日志也在每日剧增，传统的数据存储技术存在成本高、运行繁杂、扩展性极低等诸多不足。本文将采用HDFS和Hbase的组合来实现，并充分利用Hadoop集群的分布式存储优势。
　　3)电信系统日志挖掘及聚类算法的改进
　　数据挖掘作为大数据技术的核心问题之一，面临着计算复杂度高和计算能力不足等问题，本系统中应用了一种基于Hadoop的分布式改进聚类算法即CFK-means聚类算法。本算法是对K-means聚类算法的一种改进，本文通过实验结果阐明该聚类算法具有良好的可移植性和准确性。
　　本文通过搭建一个模拟电信系统日志分析大数据平台，验证MapReduce并行化在Web日志采集和预处理阶段的高效性，HDFS和Hbase组合在数据存储中的高扩展性，通过多次对比实验结果分析，验证本文中CFK-means聚类算法的准确性和快捷性。本文通过对电信系统的日志分析，挖掘出用户的行为信息，通过分析用户访问网站的行为特点，帮助电信运营商制定合理的套餐和推荐信息。

著录项

作者
袁丹;
展开▼
作者单位

成都理工大学;

展开▼
授予单位成都理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名孙淑霞,王华军;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 F626-39;TP393.09;
关键词
Hadoop数据挖掘; 改进的K-means算法; 电信系统; K-means算法;

相似文献

中文文献
外文文献
专利

1. 基于大数据平台的用户行为分析研究 [J] . 李嘉彬 ,施勇 ,薛质 . 信息安全与通信保密 . 2016,第004期
2. 基于Spark大数据平台日志审计系统的设计与实现 [J] . 孔庆春 . 电脑知识与技术 . 2016,第015期
3. 基于大数据平台的日志分析预警技术研究 [J] . 周平 ,马斌 ,韩冰 . 电脑知识与技术 . 2016,第032期
4. 基于遗传算法的模糊C-均值聚类在电信用户行为上的研究 [J] . 唐海亮 ,石磊 . 信息技术与信息化 . 2017,第003期
5. 基于K-means算法的电信用户行为特征聚类分析 [J] . 赵凯 ,蒋朝惠 . 贵州大学学报（自然科学版） . 2015,第002期
6. 基于医院自助设备日志的用户行为学研究 [C] . GUO Wei ,郭薇 ,PU Ting-zhi . 2019中华医院信息网络大会 . 2019
7. 基于大数据平台的云端应用行为分析研究 [A] . 陈雷鸣 . 2017

基于大数据平台的电信用户行为日志分析研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅