首页> 中文学位 >大数据背景下基于Web日志的用户访问模式挖掘研究
【6h】

大数据背景下基于Web日志的用户访问模式挖掘研究

代理获取

目录

声明

第一章 绪论

第一节 选题背景及研究意义

第二节 国内外相关研究动态

一、Web日志挖掘的研究现状

二、大数据背景下数据挖掘研究现状

三、个性化推荐的研究现状

四、研究中存在的一些缺陷和不足之处

第三节 论文的研究内容

第四节 论文结构安排

第二章 相关理论与技术研究

第一节 Web用户行为理论

一、Web用户行为概念与特征

二、Web用户行为的分类

第二节 Web日志挖掘

第三节 相关算法研究

一、聚类

二、分类

三、序列挖掘

四、推荐算法

第四节 大数据处理框架Hadoop

一、Hadoop 体系结构

二、MapReduce计算框架

三、HDFS分布式文件存储

第五节 Hadoop平台日志数据处理优势

第六节 本章小结

第三章 数据处理及用户行为识别

第一节 数据源介绍

第二节 数据预处理

一、数据清洗

二、数据衍生

第三节 用户行为识别

一、用户及会话识别

二、事务识别

三、模块标记识别

第四节 本章小结

第四章 基于大数据平台的数据挖掘算法改进

第一节 大数据背景下算法并行化的必要性

第二节 基于改进的PrefixSpan的并行模式挖掘算法

一、介绍及定义

二、PrefixSpan算法描述

三、PrefixSpan 算法优化

四、实验结果及分析

第三节 基于样本密度的的FCM模糊聚类算法

一、FCM介绍

二、基于样本密度的FCM聚类算法

三、并行化处理

四、算法实验

第四节 本章小结

第五章 基于标签共享的用户兴趣模型迁移推荐

第一节 传统协同过滤推荐及面临问题

第二节 迁移学习与跨域

第三节 基于标签共享的用户兴趣模型迁移推荐

第四节 模型算法

一、矩阵奇异值分解算法

二、皮尔逊(Pearson)相关系数

三、Xgboost集成分类

第五节 实验数据及预处理

第六节 实验设计

一、用户兴趣度模型构建

二、迁移源领域兴趣度模型至目标领域

三、实验评测及结果

第七节 本章小结

第六章 Web用户访问模式挖掘系统

第一节 需求分析

第二节 用户访问模式挖掘系统原型设计与实现

一、用户访问兴趣分类

二、用户访问习惯挖掘

三、站点访问分析

四、用户综合推荐

第三节 本章小结

第七章 总结与展望

第一节 总结

第二节 展望

参考文献

致谢

在读期间的研究成果

展开▼

摘要

随着互联网的快速发展,网络用户规模不断扩大,网络用户比例不断增加,网络用户行为也变得越来越复杂。尽管许多学者对Web挖掘技术和用户行为挖掘进行了深入研究,但仍存在一些问题。传统的数据挖掘算法在大数据处理效率方面并不令人满意。与此同时,对于电子商务领域,随着网购越来越流行,网民的不断增加以及新的商品出现,大量的商品和用户没有发生交互数据,系统更倾向于给用户推荐热门商品,导致大多数电子商务平台中都存在重复推荐的情况,无法提供更精准的个性化服务,以及长尾物品的发现和物品的权重调整。同时大量的中小型企业想完成数据驱动服务的升级,包括用户行为挖掘、个性化推荐等。这些问题迫切需要解决。因此,本文选择电子商务领域,基于电子商务后台日志的数据特征,重点分析和研究电子商务用户行为,构建用户行为挖掘的基本模式。本文研究内容主要包括以下几点: 首先,在深入了解Web用户行为理论的基础上,基于交互的内容对用户的行为进行分类,同时基于大数据背景,在介绍了传统的一些数据挖掘算法的基础上,做了进一步的优化,以符合现实的商业化需求,对于Web日志来说,在大数据环境以及多样的用户行为的影响下,其采集方法与处理方法变得更加的复杂,本文在此基础上深入研究和理解Web用户的行为特征以及Web日志的数据表示并总结出了互联网用户行为所具有的特征。 其次,基于上述研究成果,针对大数据时代的应用场景,在对传统算法改进的基础上进行并行化处理,大幅提高算法的运行效率,同时采用分布式的文件存储结构,提高了系统数据处理的容错性。 同时,深入研究了协同过滤推荐算法的优缺点。协同过滤当前有着非常广泛的应用,在不改变协同过滤算法的基础上,引入迁移学习,提出了基于标签共享和用户兴趣的跨域迁移的推荐。实验结果表明,与现有的协同过滤推荐算法相比,基于迁移学习的推荐模型的准确率有一定程度的提高,也有助于解决数据稀疏性引起的冷启动问题。同时对原来系统中已存在的推荐算法,对其算法本身的侵入性非常的小。 最后,基于上述研究内容和结果,本文构建的Web用户行为挖掘系统,可进行多维度高效率的挖掘。它通过精准的营销和准确的建议,帮助电子商务商家、内容提供商等了解他们的用户并实现更好的商业价值,完成数据驱动服务的升级。

著录项

  • 作者

    夏烈阳;

  • 作者单位

    云南财经大学;

  • 授予单位 云南财经大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 曾志勇;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 微电子学、集成电路(IC);
  • 关键词

    数据背景; Web日志;

  • 入库时间 2022-08-17 11:20:03

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号