首页> 中文学位 >基于Web用途数据预处理的聚类挖掘研究
【6h】

基于Web用途数据预处理的聚类挖掘研究

代理获取

目录

文摘

英文文摘

第一章绪论

1.1提出问题

1.2国内外研究动态

1.3论文主要内容

1.4现实意义

1.5论文的组织安排

第二章从数据挖掘到Web挖掘

2.1什么是数据挖掘

2.1.1三种不同角度的定义

2.1.2KDD和数据挖掘

2.2数据仓库和数据挖掘的OLAP

2.2.1数据仓库

2.2.2OLAP

2.2.3数据挖掘功能

2.2.4数据挖掘的应用

2.3网络上数据的特点和难点

2.3.1特点

2.3.2难点

2.4 Web挖掘定义

2.5 Web挖掘分类

2.6 Web挖掘国内外动态

2.7聚类和数据预处理

第三章用途数据预处理

3.1用途数据挖掘的意义

3.2用途数据挖掘

3.2.1术语和相关概念

3.2.2用途数据挖掘过程

3.3数据预处理工作的意义

3.3.1明确挖掘粒度

3.3.2降低挖掘空间维数

3.3.3对挖掘对象进行规范化

3.4服务器日志格式—扩展公共日志格式(ECLF)

3.5预处理过程一般步骤介绍

3.5.1数据净化

3.5.2用户识别/会话识别

3.5.3事务识别

3.5.4路径完善

3.6页面视图识别

3.6.1问题的提出

3.6.2一个改进了的用途数据预处理模型

3.6.3网站结构的框架(Frame)表示

3.6.4网页视图识别算法

3.7实验

3.7.1环境设定

3.7.2可行性分析

3.7.3实验内容

3.7.4实验结果分析

3.7.5评价

第四章点击流的聚类

4.1聚类

4.1.1什么是聚类

4.1.2聚类分析的意义

4.1.3聚类算法简介

4.2点击流聚类

4.2.1分析

4.2.2最长共同子序列(Longest Common Subsequence,LCS)

4.2.3LCS相似度

4.2.4相似图的生成

4.2.5图形分割

第五章结论

5.1总结

5.2目前工作中出现的几个问题

5.3下一步工作

参考文献

附录A:实验运行结果

附录B:主要函数代码

致谢

在学期间发表的论文

展开▼

摘要

超级链接,作为一种连接万维网上分散信息的媒介,正以惊人的速度被大量使用.它在为我们提供丰富资讯的同时,也对如何详细的分析上网用户的行为以及网上资源的特点提出了挑战.随着网站的容量和复杂度的增加,只是对服务器日志简单地统计是远远不够的;通过采用各种数据挖掘的手段对用户的访问记录(日志)进行处理加工从而发现隐含的有价值信息(知识)正是网络用途挖掘(Web Usage Mining)的目标所在.该文在概述了数据挖掘和数据仓库等有关知识的基础上,介绍了Web挖掘的基本概念,分类和发展现状.在分析了数据预处理工作的意义后,详细分析了面对海量的用途数据,如何去粗取精,去伪存真,如何将原始的日志文件归整加工成不同挖掘粒度,即用途数据预处理的整个过程;提出了完全拟合W3C提供的若干用途数据结构的预处理模型,并通过实验验证了算法的合理性.继而,又从数据预处理的角度,分析了聚类--这种数据挖掘功能的意义;介绍了各种适用于聚类操作的研究方法;针对由预处理阶段得到的点击流,采用寻找最长共同子序列(LCS)的方法定义了点击流之间的相似度,并由此生成了加权无向图;最后简述了如何利用图形分割技术实现点击流聚类的方法.最后总结全文的内容,并对下一步的工作做出合理预见.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号