首页> 中文学位 >基于XML和关联规则的Web日志挖掘研究
【6h】

基于XML和关联规则的Web日志挖掘研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景及意义

1.2国内外研究现状和存在的问题

1.3论文的工作和结构

1.3.1论文的工作

1.3.2论文的组织结构

第二章Web日志挖掘的相关技术

2.1 Web数据挖掘

2.1.1 Web数据挖掘的定义

2.1.2 Web数据挖掘的分类

2.2 Web日志挖掘

2.2.1 Web同志挖掘的定义和过程

2.2.2 Web日志挖掘的应用范围

2.3 XML及相关技术

2.3.1 XML和DTD

2.3.2 XML的特点和应用范围

2.3.3 XML的数据处理

2.3.4 XML在Web数据挖掘中的应用

2.4关联规则挖掘基础

2.4.1关联规则的有关术语和性质

2.4.2关联规则的挖掘方法

2.4.3关联规则挖掘的研究重点

2.5本章小结

第三章基于XML文档存储的Web日志挖掘模型

3.1 Web日志挖掘原型

3.1.1实现原理

3.1.2 Web日志挖掘系统逻辑架构

3.2 Web日志数据预处理

3.2.1数据清理

3.2.2用户识别

3.2.3会话识别

3.2.4事务识别

3.2.5路径补充

3.2.6数据转换

3.3 XML格式的日志文档在关系数据库中的存储

3.3.1 XML模式和关系模式

3.3.2 XML到关系模式的映射方法

3.3.3 XML文档到关系数据库的存储实现

3.4本章小结

第四章关联规则挖掘的经典算法Apriori

4.1经典Apriori算法

4.1.1算法描述

4.1.2算法举例

4.1.3算法特点及其局限性

4.2 Apriori算法的几种优化

4.3本章小结

第五章Apriori的改进算法

5.1相关工作

5.2有关定义和定理

5.3算法的过程解释

5.4算法的代码描述

5.5算法的应用

5.5.1实验环境和过程

5.5.2算法的性能分析

5.6本章小结

第六章总结及展望

6.1本文研究工作总结

6.2今后工作展望

参考文献

致谢

攻读学位期间的研究成果

展开▼

摘要

随着信息技术的迅速发展和Internet的普及,Web日志资源越来越丰富。如何充分利用这些资源,从中提取出用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘,其研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及提供在电子商务中的决策支持。 本文主要从以下五个方面对Web日志挖掘进行了系统研究。第一,对Web挖掘、Web日志挖掘的定义、分类和过程进行了概述,阐述了本文的研究背景、Web日志挖掘的研究现状和面临的问题;第二,介绍了XML技术及其在Web日志挖掘中的应用;第三,结合XML的优势和Web日志数据的半结构化特点,提出了一种基于XML文档存储的Web日志挖掘系统模型,并具体地分析了Web日志挖掘预处理过程;第四,详细介绍了XML模式与关系模式映射方法,并用代码具体实现了其中的一种XML格式的文档在关系数据库中的存储方法;第五,对关联规则挖掘理论特别是关联规则挖掘算法进行了研究。 关联规则挖掘算法中,很多算法都基于Apnori算法进行计算。本文对Apriori算法进行了分析研究,针对该算法的不足提出了一种优化改进算法Apriori_SQLBit,从三个方面考虑对算法进行改进:(1)根据用户浏览页面的时间,构建了用户浏览兴趣度权值。在产生频繁项集时,采用了加权的支持度和可信度,这样挖掘出的关联规则将更符合用户兴趣;(2)降低候选项集中Gk候选项的数量。利用频繁(k-1)-项集Lk-1产生Gk之前先对Lk-1进行一次裁剪,从而减少候选项集,裁剪的依据是,在Lk-1中,如果某子项的加权支持度小于最小加权支持度,则该项不可能是频繁k-项集Lk的项;(3)采用位图权值格式来存储事务数据项集,能方便地进行支持度的计算。 为了验证改进的算法是行之有效的,本文选择了两个数据库作为试验:酷秀网(http://www.kuxiu.com)的用户访问日志和浙江理工大学校庆网(http://xq110.zstu.edu.cn/)的日志数据。基于这两组数据,本文针对各种不同的最小支持度对优化改进算法进行了测试,然后对多种算法下的实验结果进行了比较,其结果充分说明了Apriori_SQLBit优化改进算法能有效地提高关联规则挖掘的效率。

著录项

  • 作者

    钟保辉;

  • 作者单位

    浙江理工大学;

  • 授予单位 浙江理工大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 刘建平;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 国际互联网;
  • 关键词

    Web日志; 数据挖掘; XML; 关联规则;

  • 入库时间 2022-08-17 11:20:37

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号