文摘
英文文摘
声明
第一章绪论
1.1论文的研究背景和意义
1.2相关内容的研究情况
1.3论文的研究内容和组织结构
第二章数据挖掘与聚类分析
2.1数据挖掘
2.1.1数据挖掘的产生
2.1.2数据挖掘的定义
2.1.3数据挖掘的功能
2.1.4数据挖掘的应用和研究方向
2.2聚类分析
2.2.1聚类分析的定义
2.2.2数据挖掘对聚类分析的要求
2.2.3主要聚类方法及其研究进展评述
2.3WEB挖掘
2.3.1Web挖掘
2.3.2Web文本挖掘的定义
2.3.3Web文本挖掘的研究方法和关键技术
第三章WEB文档聚类系统的总体架构及各模块介绍
3.1系统的总体架构图
3.2网络爬虫模块
3.2.1网络爬虫模块的原理
3.2.2网络爬虫模块的研究与实现
3.3数据清理与分词模块
3.3.1数据清理
3.3.2中文分词技术
3.3.3英文stemming 技术
3.4特征项的选择模块
3.4.1向量空间模型(VSM:vector space model)
3.4.2特征项的选择
3.5权重计算模块
3.6基于改进K-MEANS聚类分析模块的简介
第四章K-MEANS算法和改进的K-MEANS聚类算法
4.1原始的K-MEANS算法
4.2相似性度量的改进
4.3初始聚类中心选择的改进
4.4新聚类中心计算方法的改进
第五章基于改进K-MEANS算法的WEB文档聚类系统的实验及聚类效果评价
5.1聚类效果的评价方法
5.2基于改进K-MEANS算法的WEB文档聚类系统的实验及聚类效果评价
5.3实验小结
第六章结束语
6.1论文总结
6.2下一步研究的方向
参考文献
攻读硕士期间参与的科研项目和撰写的论文
致谢