基于WAP树栈Web用户浏览模式挖掘

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web用户浏览模式挖掘是Web挖掘的一个重要研究方向。Web用户浏览模式挖掘是通过对Web站点服务器日志进行分析,挖掘其中隐藏的频繁模式,为用户提供个性化服务、信息导航,并为网站结构的改进和优化提供依据。本文基于WAP树和栈进行Web用户浏览模式挖掘,克服了传统算法需要创建大量子树的缺陷,时间效率有了很大地提高。
　　本文的研究内容主要有Web数据源采集和预处理、Web用户聚类和Web用户频繁浏览模式的发现与分析。首先,数据预处理包括数据清理、用户识别、会话识别、路径补充、事务识别五个阶段。其次,Web用户聚类是把浏览路径相似的用户聚成一类,在聚类的相似度量上,不再单纯地以访问次数或相同路径浏览时间来度量,而是考虑用户之间相同路径部分相似性和非相同路径部分相似性,从而引出相似兴趣度和非相似兴趣度两个度量值,并把这种相似度计算方法称为PIS相似度,再结合该相似度进行基于传递闭包的模糊聚类。最后,Web用户频繁浏览模式的发现与分析是根据Web用户聚类的结果,挖掘用户类的所有频繁浏览模式,再进行模式分析。传统频繁模式挖掘算法普遍有一个缺点:大量候选项的产生或频繁地创建树结构,因此大大降低了算法效率。为此,本文提出一种WSF-Mine算法,该算法结合了不连续但可重复页面序列挖掘的WAP算法和连续但不可重复页面序列挖掘的CAP算法,可以挖掘连续且可重复页面序列的频繁模式,克服了WAP算法和CAP算法的不足之处,而且除了WAP树以外,不需要创建任何一棵子树,只利用栈和频繁模式挖掘的性质即可挖掘出用户的所有频繁浏览路径。
　　通过实验分析,基于PIS相似度的模糊聚类结果质量有很大提高,从而提高了在聚类结果质量基础上进行模式挖掘的WSF-Mine算法效率。另外,理论和实验证明,WSF-Mine算法比CAP和OB-Mine算法的效率均有一定的提高。本文在相似度计算和频繁模式挖掘上均有提出改进算法,因此在Web用户浏览模式挖掘研究领域具有一定的参考价值。

著录项

作者
饶丽丽;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机软件与理论
授予学位硕士
导师姓名张东站;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
PIS相似度; WAP树栈; 数据挖掘; 网络用户浏览模式挖掘; 个性化服务; 模糊聚类;

相似文献

中文文献
外文文献
专利

1. 基于频繁链表-存取树的Web用户浏览模式挖掘算法 [J] . 邱奕飞 ,马力 . 电子设计工程 . 2014,第023期
2. 一种改进的Web用户浏览偏爱模式挖掘算法 [J] . 宁建飞 . 计算机时代 . 2021,第008期
3. 基于最大正向引用序列的Web浏览模式挖掘算法与应用 [J] . 孙金华 ,朱顺痣 ,翁伟 . 湖北理工学院学报 . 2010,第005期
4. 基于不同客户群的Web频繁浏览模式挖掘算法 [J] . 陈旭辉 ,陆军 ,王志 . 兰州理工大学学报 . 2007,第006期
5. 一种基于用户浏览路径的Web用户聚类方法 [J] . 马晓艳 ,唐雁 . 西南师范大学学报（自然科学版） . 2009,第003期
6. 基于解析树的WAP浏览器的实现技术 [C] . 钟遥 ,罗克露 . 中国西部嵌入式系统与单片机技术论坛2005学术年会 . 2005
7. 基于WAP1.x和WAP2.0双栈协议微浏览器的研究与设计 [A] . 朱宇宁 . 2007

基于WAP树栈Web用户浏览模式挖掘

摘要

著录项

相似文献

相关主题

期刊订阅