首页> 中文学位 >基于web日志挖掘的用户会话聚类算法的研究与应用
【6h】

基于web日志挖掘的用户会话聚类算法的研究与应用

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景

1.2国内外研究现状

1.3本文研究内容及结构

第2章Web日志预处理技术研究

2.1 Web日志挖掘概述

2.2 Web日志预处理技术

2.2.1数据清理

2.2.2用户识别

2.2.3会话识别

2.2.4路径补充

2.2.5事务识别

2.3实验分析

2.4本章小结

第3章聚类分析原理和方法

3.1聚类分析概述

3.2常用数据结构

3.3聚类算法分类

3.4本章小结

第4章一种改进的ROCK聚类算法-HROCK

4.1 ROCK聚类算法

4.1.1数据类型

4.1.2问题提出

4.1.3相关概念

4.1.4聚类方法

4.1.5算法分析

4.2已有的ROCK改进算法QRCOK

4.2.1算法思想

4.2.2算法描述

4.2.3算法分析

4.3本文的ROCK改进算法HRCOK

4.3.1改进思想

4.3.2算法描述

4.3.3算法分析

4.4实验分析

4.4.1参数影响分析

4.4.2执行效率分析

4.4.3聚类质量分析

4.5本章小结

第5章基于HROCK算法的网页推荐系统原型设计

5.1系统总体设计

5.2系统数据库设计

5.3系统主要模块设计

5.3.1日志预处理模块

5.3.2用户会话聚类模块

5.3.3网页推荐模块

5.4系统工作流程

5.5本章小结

结论

参考文献

致谢

展开▼

摘要

随着万维网的不断发展,用户从海量数据中提取有效信息变得越来越困难。聚类分析作为web数据挖掘的重要方法,对降低数据规模,过滤无效信息起着至关重要的重用。本文以基于web日志挖掘技术的用户会话聚类算法为研究对象,详细剖析了聚类分析技术的原理和应用。 本文首先探讨了web日志挖掘的日志预处理技术的流程和实现方法,它是用户会话聚类重要基础步骤。本文对日志采集,日志清洗,用户识别,路径补充,会话识别和事务识别各个日志处理阶段的任务和实现算法进行了细致的分析,并通过实验模拟和演示了日志预处理的整个过程,并给出了每一阶段的预处理算法运行的结果,实验结果表明了日志预处理算法的有效性和噪声去除能力。 然后,本文深入地研究了聚类分析技术的理论基础,对聚类分析处理的数据类型,所使用的数据结构和分类方法进行了总结和阐述。本文的重点部分放在对典型层次聚类算法ROCK的改进上,ROCK聚类算法利用共享邻居数,即连接的概念,来建立新的相似度量方法,以处理一些高维稀疏数据,但算法具有较高的时间复杂度和空间复杂度,以及过多的参的缺点。QROCK算法是已有的对ROCK算法的改进版,它利用连通子图的概念来改进ROCK算法,提高了执行效率,消除了参数期望聚类数。QROCK算法虽然一定程度了提高了算法效率,但依然有O(n2)的时间复杂度,对此,本文提出了一种适用于大规模用户会话聚类的算法-HROCK,算法以原子簇聚类为第一聚类阶段,进一步降低了聚类规模,第二聚类阶段在原子簇的基础上运行传统的ROCK聚类算法,这种两阶段混合聚类算法,具有近似线性的时间复杂度和很好的聚类效果,而且,HROCK算法通过引入图的孤立点的概念消除了算法对聚类数目参数的依赖。 其次,本文给出了一个基于本文所提出的大规模用户会话聚类算法HROCK的网页推荐系统原型设计,系统基于B/S架构,符合J2EE规范,由日志解析模块,日志预处理模块,用户会话聚类模块和网页推荐模块这几个重要模块构成,整体上分为离线聚类部分和在线推荐部分。 最后,本文总结了所做的工作,给出了聚类算法HROCK今后的改进方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号