首页> 中文学位 >基于Hadoop改进聚类算法在Web日志聚类中的应用
【6h】

基于Hadoop改进聚类算法在Web日志聚类中的应用

代理获取

目录

第一个书签之前

展开▼

摘要

随着网络技术的发展,互联网用户量日益增加,Web日志量也随之变大。如何高效准确的从这些Web日志中挖掘出隐藏的商业信息,为用户提供更高质量的服务,成为了一个重要的研究方向。基于此,本文研究内容有以下几方面: 1)基于模拟退火机制和轮盘赌策略的PSO-KMeans算法。针对PSO算法容易收敛于局部最优的问题,引入模拟退火机制和轮盘赌策略,优化传统的PSO算法,用优化后的PSO算法对K-Means算法的初始聚类中心选取进行选取,提高算法的稳定性和准确率。 2)BAS-FCM算法。传统的FCM算法容易受初始聚类中心的影响,收敛于局部最优。针对这个问题,将天牛须算法(BAS)引入到FCM算法中。首先,采用一种基于logistic模型的方式对BAS算法的步长进行优化。最后,利用BAS全局寻优的能力对FCM算法中聚类中心的更新进行控制,从而达到优化的目的。 3)基于Hadoop的Web日志聚类系统研究。包括基于Hadoop的Web日志预处理模块和Web日志聚类模块。Web日志聚类是将改进后的算法运用到Web日志聚类中,分为两部分,一是将改进后的PSO-KMeans算法与Hadoop相结合;二是将BAS-FCM算法与Hadoop相结合。 本文对Web日志预处理、PSO-KMeans算法和FCM算法做出优化,通过实验对比,优化后的Web日志聚类算法在效率和稳定性方面都有很大的提升。优化后的PSO-KMeans 算法在效率上高于 BAS-FCM 算法,但 BAS-FCM 算法准确率优于改进的PSO-KMeans算法的,因此,用户可以根据需求选择使用哪种算法。

著录项

  • 作者

    宁艳;

  • 作者单位

    华中科技大学;

  • 授予单位 华中科技大学;
  • 学科 系统分析与集成
  • 授予学位 硕士
  • 导师姓名 付必涛;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    改进; 聚类算法; Web日志;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号