基于改进K-means算法的Web文档聚类系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文研究了一种基于改进K-means 算法的Web文档聚类系统，并开发出了一套由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统。同时，针对K-means算法的主要缺点和不足，本文对K-means 算法中的关键环节如相似度计算公式，初始聚类中心的选择和新聚类中心的计算方法进行了改进。并且使用F-measure 评价方法对K-means 算法整体改进后的聚类效果进行评价，通过实验性能对比说明了改进算法的优越性。文章对数据挖掘、聚类分析和Web挖掘进行了概述和总结，介绍了整个系统的架构。并对网络爬虫、中文分词、英文词干提取、特征提取，权重计算和聚类分析等模块进行了深入的研究。最后，通过开发的由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统进行了对比实验，验证了基于改进K-means算法的Web文档聚类系统在准确性和稳定性方面都有所提高。

著录项

作者
王钦平;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科通信与信息系统
授予学位硕士
导师姓名张世永;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;TP393.09;
关键词
数据挖掘; 聚类; Web挖掘; K-means聚类算法; 向量空间模型; 网络爬虫;

相似文献

中文文献
外文文献
专利

1. Web文档聚类中k-means算法的一种改进算法 [J] . 王子兴 ,冯志勇 . 微型电脑应用 . 2007,第008期
2. Web文档聚类中k-means算法的改进 [J] . 王子兴 ,冯志勇 . 微型机与应用 . 2004,第004期
3. 一种基于改进K-means的文档聚类算法的实现研究 [J] . 岑咏华 ,王晓蓉 ,吉雍慧 . 现代图书情报技术 . 2008,第012期
4. 文档聚类中k-means算法的一种改进算法 [J] . 万小军 ,杨建武 ,陈晓鸥 . 计算机工程 . 2003,第002期
5. 一种改进的k-means文档聚类初值选择算法 [J] . 刘远超 ,王晓龙 ,刘秉权 . 高技术通讯 . 2006,第001期
6. 一种基于LDA的潜在语义区划分及Web文档聚类算法 [C] . 刘振鹿 ,王大玲 ,冯时 . 第六届全国信息检索学术会议 . 2010
7. 改进K-Means聚类算法在基于Hadoop平台的图像检索系统中的研究与实现 [A] . 黎光谱 . 2014

基于改进K-means算法的Web文档聚类系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅