首页> 中文学位 >基于XML的WEB日志挖掘研究
【6h】

基于XML的WEB日志挖掘研究

代理获取

目录

文摘

英文文摘

论文说明:图目录

声明

致谢

第一章 绪论

1.1 引言

1.2 选题背景与研究意义

1.3 国内外的研究现状

1.4 日志挖掘技术现状及存在的问题

1.5 论文的工作与组织结构

第二章 WEB日志挖掘技术简介

2.1 数据挖掘概论

2.1.1 数据挖掘的功能

2.1.2 数据挖掘系统分类及WEB数据挖掘分类

2.1.3 数据挖掘工具

2.1.4 数据挖掘的未来发展趋势

2.2 WEB日志挖掘

2.3 XML

2.3.1 XML技术概述

2.3.2 XML数据模型

2.3.3 基于XML的日志挖掘

第三章 WEB日志挖掘的预处理

3.1 WEB日志文件

3.2 数据预处理

3.2.1 数据收集

3.2.2 数据清洗

3.2.3 用户识别

3.2.4 会话识别

3.2.5 路径补充

3.3 WEB日志挖掘的预处理实现

3.4 小结

第四章 兴趣度选择算法及路径挖掘算法改进

4.1 关联规则

4.1.1 关联规则概述

4.1.2 Apriori算法

4.2 WEB日志中关联规则的兴趣度

4.3 兴趣度选择算法

4.3.1 兴趣度选择算法概念定义

4.3.2 算法的主要思想及描述

4.4 改进的基于WEB的频繁访问路径挖掘算法

4.4.1 定义

4.4.2 频繁访问路径的结构表示

4.4.3 IWAP算法及描述

4.5 基于频繁路径的关联规则算法的改进

第五章 基于XML的WEB日志挖掘系统设计和实现

5.1 实验环境及开发平台

5.2 日志挖掘系统WLDMS的设计及实现

5.2.1 具体设计实现

5.3 实验及结果分析

5.4 小结

第六章 论文总结与展望

参考文献

攻读硕士学位期间发表的论文

展开▼

摘要

WEB日志挖掘的主要目标是从WEB的访问记录中抽取感兴趣的模式,通过分析这些挖掘结果可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化的服务。
   在WEB数据挖掘领域中WEB日志挖掘技术对于网站的结构优化和页面内容的重新组合都起到了重要作用。目前检索WEB的信息主要采用搜索引擎来完成,但是大多数搜索引擎都缺少主动性,没有考虑访问用户的兴趣偏好和访问者的不同,无法有效地解决信息迷失和信息过载的问题。而解决这个问题的途径之一就是将数据挖掘技术应用于WEB服务器日志的挖掘,通过日志挖掘,从用户在WEB网站上浏览行为的数据中获取用户的浏览模式。根据用户的行为模式,改进网站的设计和服务,开展个性化服务和构建智能WEB站点。
   本论文详述了在研究个性化信息推荐服务中必须要着重解决的以下几个方面的问题:WEB日志的预处理、WEB日志挖掘算法、个性化推荐方法。详细讨论了WEB日志挖掘预处理的各个步骤,并且给出了每一步的关键算法。WEB日志挖掘预处理过程主要包括:数据清理、用户识别、会话识别、路径补充和用户事务模式识别。
   本文分别以关联规则和聚类两种方式完成对用户的个性化服务,即为用户提供推荐页面集。本论文提出一种改进的关联规则Apriori算法,该算法为关联规则APriori算法的改进,通过引入分辨矩阵实现只需扫描一次数据库,避免不必要的多次扫描,从而提高Apriori算法的效率,减少了扫描事务数据库的次数,并提高项集的支持计数速度。
   最后,本文初步设计了一个具有独创性的日志预处理系统,以产生日志挖掘所需的数据。本文初步建立了一个用户访问模式挖掘系统,系统的建立有助于查询、分析访问者的操作、了解用户的访问信息。通过监测用户的访问行为,根据对用户的访问情况进行日志挖掘,并以图例方式描述挖掘后的数据,了解用户的喜好加以改进,以提供个性化服务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号