首页> 中文学位 >基于Web访问日志的用户聚类研究
【6h】

基于Web访问日志的用户聚类研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文主要工作

第二章 Web数据挖掘理论与技术

2.1 Web数据挖掘

2.1.1 Web数据挖掘特点

2.1.2 Web数据挖掘分类

2.2 Web日志挖掘

2.2.1 Web日志挖掘数据来源

2.2.2 Web日志格式

2.2.3 Web日志挖掘过程

2.3 本章小结

第三章 基于UBPC的Web用户聚类挖掘

3.1 聚类概述

3.2 相似度计算

3.3 聚类算法

3.3.1 划分聚类算法

3.3.2 层次聚类算法

3.3.3 模型聚类算法

3.3.4 密度聚类算法

3.3.5 网格聚类算法

3.4 基于UBPC的Web用户聚类挖掘

3.4.1 UBPC概述

3.4.2 UBPC算法

第四章 Web用户聚类挖掘系统实现及结果分析

4.1 Web用户聚类挖掘系统实现

4.1.1 系统开发平台

4.1.2 系统设计

4.1.3 关键代码

4.2 用户浏览路径的提取

4.2.1 数据净化

4.2.2 格式转化

4.2.3 用户识别

4.2.4 会话识别

4.3 相似度计算

4.3.1 会话相似度计算

4.3.2 用户相似度计算

4.4 采用UBPC算法进行用户聚类

第五章 结论

5.1 总结

5.2 进一步研究展望

参考文献

致谢

展开▼

摘要

随着网络技术的飞速发展,囤积在互联网上的数据越来越多。利用Web数据挖掘技术从中提取有用的信息,已成为近期国内外数据挖掘研究方向的热点。其中,Web用户聚类技术利用Web日志记录对用户行为进行分析归类,发现隐藏的用户兴趣和访问规律,从而为互联网企业提供有效的信息,为用户提供更优质的服务。
  Web用户聚类基于Web日志进行挖掘。该方法首先进行Web日志预处理,选择和抽取用户特征;然后依据提取的特征值衡量用户之间的相似度;最后通过聚类算法得到聚类结果。
  本文针对基于用户浏览路径的Web用户聚类方法进行分析,深入研究了用户浏览路径聚类算法(UBPC算法)。首先以事务识别提取到的路径作为用户特征,结合雅可比系数与CM系数计算用户相似度,使用路径相似度矩阵表示对象间相似度,给定一个阈值构造相似类,构造相似类后,再删除其中重复的类以及各类间的相交项,最终得到聚类结果。
  在理论研究的基础上设计开发了基于用户浏览路径的Web用户聚类挖掘系统。该系统包括日志数据的预处理(数据格式转换、数据净化、用户识别、会话识别)、会话相似度计算、用户相似度计算和基于UBPC的Web用户聚类四个主要功能模块。系统选取某所大学的招生办网站日志作为样本开展实验,实验结果表明,系统功能基本达到了设计要求,所用的聚类算法可以得到比较精确的用户聚类效果,不足之处是当挖掘的Web日志数据较多时,系统运行时间较长。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号