首页> 中文学位 >基于改进K-means算法的Web文档聚类系统的研究与实现
【6h】

基于改进K-means算法的Web文档聚类系统的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1论文的研究背景和意义

1.2相关内容的研究情况

1.3论文的研究内容和组织结构

第二章数据挖掘与聚类分析

2.1数据挖掘

2.1.1数据挖掘的产生

2.1.2数据挖掘的定义

2.1.3数据挖掘的功能

2.1.4数据挖掘的应用和研究方向

2.2聚类分析

2.2.1聚类分析的定义

2.2.2数据挖掘对聚类分析的要求

2.2.3主要聚类方法及其研究进展评述

2.3WEB挖掘

2.3.1Web挖掘

2.3.2Web文本挖掘的定义

2.3.3Web文本挖掘的研究方法和关键技术

第三章WEB文档聚类系统的总体架构及各模块介绍

3.1系统的总体架构图

3.2网络爬虫模块

3.2.1网络爬虫模块的原理

3.2.2网络爬虫模块的研究与实现

3.3数据清理与分词模块

3.3.1数据清理

3.3.2中文分词技术

3.3.3英文stemming 技术

3.4特征项的选择模块

3.4.1向量空间模型(VSM:vector space model)

3.4.2特征项的选择

3.5权重计算模块

3.6基于改进K-MEANS聚类分析模块的简介

第四章K-MEANS算法和改进的K-MEANS聚类算法

4.1原始的K-MEANS算法

4.2相似性度量的改进

4.3初始聚类中心选择的改进

4.4新聚类中心计算方法的改进

第五章基于改进K-MEANS算法的WEB文档聚类系统的实验及聚类效果评价

5.1聚类效果的评价方法

5.2基于改进K-MEANS算法的WEB文档聚类系统的实验及聚类效果评价

5.3实验小结

第六章结束语

6.1论文总结

6.2下一步研究的方向

参考文献

攻读硕士期间参与的科研项目和撰写的论文

致谢

展开▼

摘要

本文研究了一种基于改进K-means 算法的Web文档聚类系统,并开发出了一套由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统。同时,针对K-means算法的主要缺点和不足,本文对K-means 算法中的关键环节如相似度计算公式,初始聚类中心的选择和新聚类中心的计算方法进行了改进。并且使用F-measure 评价方法对K-means 算法整体改进后的聚类效果进行评价,通过实验性能对比说明了改进算法的优越性。 文章对数据挖掘、聚类分析和Web挖掘进行了概述和总结,介绍了整个系统的架构。并对网络爬虫、中文分词、英文词干提取、特征提取,权重计算和聚类分析等模块进行了深入的研究。最后,通过开发的由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统进行了对比实验,验证了基于改进K-means算法的Web文档聚类系统在准确性和稳定性方面都有所提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号