首页> 中文学位 >基于WAP树栈Web用户浏览模式挖掘
【6h】

基于WAP树栈Web用户浏览模式挖掘

代理获取

摘要

随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web用户浏览模式挖掘是Web挖掘的一个重要研究方向。Web用户浏览模式挖掘是通过对Web站点服务器日志进行分析,挖掘其中隐藏的频繁模式,为用户提供个性化服务、信息导航,并为网站结构的改进和优化提供依据。本文基于WAP树和栈进行Web用户浏览模式挖掘,克服了传统算法需要创建大量子树的缺陷,时间效率有了很大地提高。
   本文的研究内容主要有Web数据源采集和预处理、Web用户聚类和Web用户频繁浏览模式的发现与分析。首先,数据预处理包括数据清理、用户识别、会话识别、路径补充、事务识别五个阶段。其次,Web用户聚类是把浏览路径相似的用户聚成一类,在聚类的相似度量上,不再单纯地以访问次数或相同路径浏览时间来度量,而是考虑用户之间相同路径部分相似性和非相同路径部分相似性,从而引出相似兴趣度和非相似兴趣度两个度量值,并把这种相似度计算方法称为PIS相似度,再结合该相似度进行基于传递闭包的模糊聚类。最后,Web用户频繁浏览模式的发现与分析是根据Web用户聚类的结果,挖掘用户类的所有频繁浏览模式,再进行模式分析。传统频繁模式挖掘算法普遍有一个缺点:大量候选项的产生或频繁地创建树结构,因此大大降低了算法效率。为此,本文提出一种WSF-Mine算法,该算法结合了不连续但可重复页面序列挖掘的WAP算法和连续但不可重复页面序列挖掘的CAP算法,可以挖掘连续且可重复页面序列的频繁模式,克服了WAP算法和CAP算法的不足之处,而且除了WAP树以外,不需要创建任何一棵子树,只利用栈和频繁模式挖掘的性质即可挖掘出用户的所有频繁浏览路径。
   通过实验分析,基于PIS相似度的模糊聚类结果质量有很大提高,从而提高了在聚类结果质量基础上进行模式挖掘的WSF-Mine算法效率。另外,理论和实验证明,WSF-Mine算法比CAP和OB-Mine算法的效率均有一定的提高。本文在相似度计算和频繁模式挖掘上均有提出改进算法,因此在Web用户浏览模式挖掘研究领域具有一定的参考价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号