首页> 中文学位 >基于粗糙集和模糊聚类的Web日志增量式挖掘研究
【6h】

基于粗糙集和模糊聚类的Web日志增量式挖掘研究

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景和选题意义

1.1.1 研究背景

1.1.2 选题意义

1.2 研究现状

1.2.1 Web挖掘的研究现状

1.2.2 Web增量式挖掘的研究现状

1.3 论文的主要内容

1.4 本文的组织结构

第2章 Web挖掘与Web使用挖掘

2.1 Web挖掘

2.1.1 Web挖掘

2.1.2 Web挖掘的特点

2.1.3 Web挖掘的分类

2.2 Web使用挖掘

2.2.1 Web日志挖掘的定义

2.2.2 Web日志挖掘中常用的概念

2.2.3 Web日志挖掘的步骤

2.2.4 Web日志数据的预处理

第3章 粗糙集和模糊聚类的基本理论

3.1 粗糙集理论

3.1.1 粗糙集

3.1.2 粗糙集的基本特点

3.2 模糊聚类理论

3.2.1 模糊关系

3.2.2 可能性测度

3.2.3 常用的聚类算法

3.2.4 聚类分析算法的选择

第4章 基于粗糙集的属性约简和SOFM网络

4.1 基于粗糙集的属性约简研究

4.2 增量式的聚类思想和SOFM网络

4.2.1 增量式聚类

4.2.2 SOFM(Self-Organization Feature Mapping)网络

第5章 Web日志增量式挖掘模型

5.1 Web日志增量式挖掘模型的设计

5.2 基于模糊SOFM网络的增量式聚类算法

5.3 Web日志数据的预处理

5.4 Web用户的兴趣度矩阵

5.5 Web用户的兴趣模式

5.6 Web用户访问的兴趣模式相似度系数

5.7 Web日志挖掘具体步骤

第6章 实验验证及分析

6.1 数据的准备

6.1.1 数据的选取

6.1.2 数据的预处理

6.2 Web日志增量式挖掘的实现

6.2.1 数据样本训练阶段

6.2.2 应用阶段

6.3 改进后的算法与传统SOFM网络对比

6.3.1 训练误差对比

6.3.2 聚类结果的对比

第7章 总结与展望

7.1 论文的总结

7.2 展望

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

目前随着互联网的蓬勃发展,尤其是电子商务的发展为越来越多的用户提供了Web服务。网民的选择增多,对网络服务的需求趋于理性和多样化,这为Web挖掘的发展提供了现实基础。对客户的群体行为进行分析,以获取在用户行为中反映出来的用户兴趣。对用户兴趣进行分析,改进Web站点结构,在竞争中占据有利地位,成为众多Web服务供应商急需解决的问题。
   所谓Web日志挖掘,是从存储在Web服务器中的日志数据中发现人们感兴趣的知识的过程。目前许多研究都集中在Web使用模式的挖掘上,旨在通过分析Web用户的行为模式,来发现用户的兴趣度,从而通过改进站点结构的方法来提高站点的吸引力。这种挖掘模式具有模糊性,传统的数学理论不足以完成这一任务,因此采用了模糊聚类和粗糙集的相关知识。
   本文将基于密度的DBSCAN算法与传统的SOFM网络相结合,提出了一种基于SOFM网络的增量式聚类算法。SOFM网络的特点就是适用于高维数据的聚类、自组织学习和训练能力强等,非常适合用于Web日志的挖掘。然而由于Web站点的访问需要表现出用户的多兴趣,而且随着用户兴趣的漂移,理应对聚类结果做出相应的改变,这一点是传统的SOFM网络无法解决的。针对这些问题,把DBSCAN算法与SOFM网络相结合,DBSCAN算法的特点在于可以用于发现任何形状的簇,对聚类的变化敏感,因此随着数据集规模的增量变化,这种算法可以发现用户兴趣的漂移。通过大量的样本数据对改进后的SOFM网络进行训练,使得参数和权值趋于稳定,为网络应用阶段做好准备。
   在网络应用阶段,把各参数和输出神经元的权值设置为训练之后的值,不再变化。对输入模式进行聚类,然后通过隶属函数更新输入模式的隶属度。对于大于隶属度阈值的神经元,进行输出。
   最后,本文设计了仿真实验。对某新闻网站的服务器日志数据进行了聚类,并进行了分析。这个模型与传统的聚类方法不同,具有增量式聚类的能力。首先用样本数据进行网络的训练,然后再对测试数据进行聚类。最后的实验结果从训练误差和聚类结果两方面进行了对比,实验结果表明本文所提出的算法在增量变化的数据集的聚类方面不管在效率还是准确性上都比传统的聚类算法优越,而且反映出了用户在Web访问上的多兴趣。

著录项

  • 作者

    杨航;

  • 作者单位

    南昌大学;

  • 授予单位 南昌大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 段隆振;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    Web挖掘; 模糊聚类; 粗糙集; 日志数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号