首页> 中文学位 >XML及关联规则在Web日志挖掘中的应用研究
【6h】

XML及关联规则在Web日志挖掘中的应用研究

代理获取

目录

声明

东华大学学位论文版权使用授权书

摘要

第1章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 全文组织结构

第2章 Web数据挖掘及相关概念综述

2.1 数据挖掘概述

2.2 Web数据挖掘概述

2.2.1 Web数据挖掘的分类

2.2.2 Web日志挖掘的步骤

2.3 XML与Web日志挖掘

2.3.1 XML概述

2.3.2 XML在Web日志挖掘中的应用

2.4 本章小结

第3章 Web日志挖掘的数据预处理

3.1 Web日志文件格式介绍

3.2 Web日志挖掘预处理流程

3.2.1 数据清理

3.2.2 站点拓扑识别

3.2.3 页面过滤

3.2.4 用户识别

3.2.5 会话识别

3.2.6 路径补充

3.2.7 事务识别

3.3 实验结果

3.4 本章小结

第4章 用户频繁访问序列模式挖掘

4.1 频繁模式及关联规则概述

4.2 常用关联规则挖掘算法分析

4.2.1 Apriori算法

4.2.2 FP-growth算法

4.3 基于FP-growth改进算法的用户频繁访问序列挖掘

4.3.1 用户访问序列概述

4.3.2 FP-growth改进算法设计

4.3.3 FP-growth改进算法示例

4.4 同类算法比较及实验分析

4.4.1 同类算法比较

4.4.2 实验环境

4.4.3 实验对比分析

4.5 本章小结

第5章 基于多重评价因素的Web用户聚类

5.1 聚类分析概述

5.2 Web用户聚类

5.3 Web用户模糊聚类

5.3.1 传统用户相似度计算

5.3.2 基于多重评价因素的用户相似度计算

5.4 模糊聚类算法

5.5 聚类实验及结果分析

5.5.1 聚类有效性指标

5.5.2 调节参数确定

5.5.3 算法比较分析

5.6 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

Web挖掘是数据挖掘领域中一个新兴的研究方向,而Web日志挖掘是其中的一个重要的研究内容。Web日志挖掘是通过将数据挖掘技术应用于Web服务器日志文件,以得到Web用户的访问模式。网站设计人员可以据此来改善站点结构,改进站点性能,从而提高站点的服务质量。
   本文首先介绍了数据挖掘及Web数据挖掘等的基本概念,然后针对Web日志挖掘,重点研究了Web日志数据预处理技术,关联规则算法在Web日志挖掘领域的应用及一种基于多重评价因素的用户相似度计算方法。
   本文的工作主要有以下几个方面:
   1.详细研究和探讨了Web日志数据预处理的整个过程。其中包括:数据清理、站点拓扑识别、页面过滤、用户识别、会话识别、路径补充和事务识别。针对实验数据缺乏引用属性域,提出一种基于站点拓扑结构的路径补充算法;针对日志文件的半结构化特征,提出使用XML存储预处理结果,并给出其详细结构。
   2.提出了一种FP-growth改进算法,用于挖掘用户频繁访问序列模式。该算法首先构建FS-tree,然后在其上执行挖掘算法,得到所有的用户频繁访问序列。通过实验同现有的其他挖掘算法进行比对,证明了该改进算法的有效性。
   3.针对Web用户模糊聚类,提出一种基于多重评价因素的用户相似度计算方法,该方法综合考虑了页面次数,页面次序及访问时间等因素来计算用户之间的相似程度,并通过实验计算出各个因素所占的比重,实验结果显示使用该用户相似度计算方法的聚类算法具有更好的聚类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号