基于XML和关联规则的Web日志挖掘研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的迅速发展和Internet的普及，Web日志资源越来越丰富。如何充分利用这些资源，从中提取出用户所感兴趣的信息数据，是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘，其研究目的在于发现用户浏览网站的行为规律，改善站点的结构和页面间超链接结构，提高站点服务质量以及提供在电子商务中的决策支持。本文主要从以下五个方面对Web日志挖掘进行了系统研究。第一，对Web挖掘、Web日志挖掘的定义、分类和过程进行了概述，阐述了本文的研究背景、Web日志挖掘的研究现状和面临的问题；第二，介绍了XML技术及其在Web日志挖掘中的应用；第三，结合XML的优势和Web日志数据的半结构化特点，提出了一种基于XML文档存储的Web日志挖掘系统模型，并具体地分析了Web日志挖掘预处理过程；第四，详细介绍了XML模式与关系模式映射方法，并用代码具体实现了其中的一种XML格式的文档在关系数据库中的存储方法；第五，对关联规则挖掘理论特别是关联规则挖掘算法进行了研究。关联规则挖掘算法中，很多算法都基于Apnori算法进行计算。本文对Apriori算法进行了分析研究，针对该算法的不足提出了一种优化改进算法Apriori_SQLBit，从三个方面考虑对算法进行改进：(1)根据用户浏览页面的时间，构建了用户浏览兴趣度权值。在产生频繁项集时，采用了加权的支持度和可信度，这样挖掘出的关联规则将更符合用户兴趣；(2)降低候选项集中Gk候选项的数量。利用频繁(k-1)-项集Lk-1产生Gk之前先对Lk-1进行一次裁剪，从而减少候选项集，裁剪的依据是，在Lk-1中，如果某子项的加权支持度小于最小加权支持度，则该项不可能是频繁k-项集Lk的项；(3)采用位图权值格式来存储事务数据项集，能方便地进行支持度的计算。为了验证改进的算法是行之有效的，本文选择了两个数据库作为试验：酷秀网(http://www.kuxiu.com)的用户访问日志和浙江理工大学校庆网(http://xq110.zstu.edu.cn/)的日志数据。基于这两组数据，本文针对各种不同的最小支持度对优化改进算法进行了测试，然后对多种算法下的实验结果进行了比较，其结果充分说明了Apriori_SQLBit优化改进算法能有效地提高关联规则挖掘的效率。

著录项

作者
钟保辉;
展开▼
作者单位

浙江理工大学;

展开▼
授予单位浙江理工大学;
学科计算机应用技术
授予学位硕士
导师姓名刘建平;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
Web日志; 数据挖掘; XML; 关联规则;
入库时间 2022-08-17 11:20:37

相似文献

中文文献
外文文献
专利

1. 基于关联规则的Web日志挖掘算法研究 [J] . 张丽伟 ,张晶 . 电脑编程技巧与维护 . 2011,第016期
2. 基于关联规则Web日志挖掘算法的研究 [J] . 孟庆川 ,陈晓明 . 信息技术 . 2010,第003期
3. 基于Web日志挖掘的关联规则算法研究 [J] . 郑玮 . 软件导刊 . 2008,第10期
4. 基于关联规则web日志挖掘方法的研究 [J] . 张友志 ,钱萌 ,程玉胜 . 安庆师范学院学报（自然科学版） . 2006,第001期
5. 基于XML的Web日志挖掘研究 [J] . 潘有能 . 现代图书情报技术 . 2006,第005期
6. 一种对XML数据进行关联规则挖掘的方法研究 [C] . 杨晓雪 ,衡红军 . 第二十二届中国数据库学术会议 . 2005
7. 基于XML及关联规则的WEB日志挖掘技术研究 [A] . 蒋晓静 . 2003

基于XML和关联规则的Web日志挖掘研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅