首页> 中文学位 >基于XML及关联规则的WEB日志挖掘技术研究
【6h】

基于XML及关联规则的WEB日志挖掘技术研究

代理获取

目录

文摘

英文文摘

第1章 引言

1.1 本文研究背景

1.2 本文研究工作

第2章 WEB 日志挖掘和日志文件

2.1 WEB 日志挖掘

2.1.1 WEB 日志挖掘的提出

2.1.2 WEB 日志挖掘的作用

2.1.3 WEB 日志挖掘的现状

2.2 WEB 日志的相关概念

2.2.1 HTML

2.2.2 HTTP/FTP

2.2.3 URL

2.2.4 WEB 服务器

2.2.5 日志文件

2.2.6 WEB 服务器的工作模式

2.2.7 WEB 服务器的缓冲存储器

2.3 WEB 日志文件

2.3.1 访问日志

2.3.2 错误日志

2.4 WEB 日志文件中的相关信息

第3章 WEB 日志挖掘的相关技术

3.1 数据挖掘

3.1.1 数据挖掘和知识发现的定义和步骤

3.1.2 数据挖掘的分类

3.2 关联规则

3.2.1 关联规则的研究现状

3.2.2 关联规则

3.3 XML 与 XML 数据库存储

3.3.1 XML的产生与发展

3.3.2 XML 的主要特点

3.3.3 XML 在 WEB 数据挖掘中的应用

3.3.4 XML 数据库的定义和分类

3.3.5 XML 数据库的组成及特点

3.3.6 使用 XML 数据库存储的优势及存在的问题

第4章 基于 XML 存储的 WEB 日志挖掘模型

4.1 WEB 日志挖掘模型

4.1.1 数据的分析与清理

4.1.2 数据预处理

4.1.3 数据转换

4.2 XML 形式的 WEB 日志文档在数据库中的存储方法及实现的研究

4.2.1 以 XML 形式结合数据库存储WEB日志文档的优势

4.2.2 XML形式的 WEB 日志文档存储到数据库中的方法

4.2.3 中粒度方法实现的模式和代码

第5章 基于关联规则的 UFAPA 算法

5.1 问题描述:

5.2 UFAPA(USER FREQUENT ACCESS PATHS) 算法与 APRI0RI 算法的异同

5.3 UFAPA 挖掘算法

5.3.1 算法实现

5.3.2 UFAPA 算法的有效性

5.3.3 实例说明

5.4 算法评价

5.5 挖掘结果分析

结束语

参考文献

致谢

展开▼

摘要

该文研究了Web日志挖掘中的相关技术,在以下几方面进行改进:(1)在Web日志挖掘模型的基础上,对Web日志数据的清洗和转换提出了相应的解决方法;(2)结合XML的优势和Web日志数据的结构化特点,提出用XML存储日志数据并探讨了XML形式的日志数据如何以中粒度方法实现在数据库中存储的方案;(3)结合用户访问路径的特点以Apriori算法为基础提出了一种改进的挖掘频繁访问路径的UFAFA算法,介绍了算法思想及算法描述.该算法利用频繁路径的有序性,根据长度为0和长度为1的候选频繁路径集来产生长度为k(k≥2)的候选频繁路径集,并在计算候选路径支持度时采用对候选频繁路径集以首节点为关键字分类的算法,减少了产生候选路径集的代价,减少了对数据库的遍历,节省了系统的时间开销.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号