首页> 中文学位 >模糊谱聚类分割策略在文本聚类中的应用研究
【6h】

模糊谱聚类分割策略在文本聚类中的应用研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第1章绪论

1.1研究背景及意义

1.2国内外研究现状

1.3论文主要研究工作

1.4论文组织结构

第2章文本聚类概述

2.1文本聚类概念

2.2文本聚类过程

2.3文本聚类常用算法

2.4文本聚类效果评价

2.5本章小结

第3章 相关理论介绍

3.1谱聚类算法概述

3.2模糊聚类算法概述

3.3本章小结

第4章 模糊谱聚类分割算法及改进

4.1模糊谱聚类分割算法FSC

4.2改进隶属度的FSC算法IMD-FSC

4.3自适应的IMD-FSC算法AIMD-FSC

4.4本章小结

第5章 实验及结果分析

5.1实验语料库选择

5.2实验环境

5.3实验过程

5.4实验结果及分析

5.5本章小结

第6章 总结与展望

6.1本文工作总结

6.2展望

致谢

参考文献

附录

图版

展开▼

摘要

文本聚类作为一种无监督的机器学习方法,近年来已成为自然语言处理领域中研究的热点,传统的聚类算法只能将一个样本点划分到一个聚类中,但现实生活中,很多事物的归属并没有特别明确,模糊聚类(Fuzzy Clustering, FC)算法的出现为解决这些问题提供了新的思路,实现了对样本集合的模糊划分,模糊聚类中使用的最广泛的是FCM(Fuzzy C-means)算法。FCM属于分割聚类算法的一种,它存在着分割聚类算法普遍存在的缺点,如算法易陷入局部最优、对噪声数据敏感、需要事先指定聚类个数等问题。
  谱聚类算法(Spectral Clustering,SC)可以实现对任意形状的样本空间聚类,且得到全局最优解,本文通过将SC算法和FCM算法相结合,给出一种模糊谱聚类分割策略,即模糊谱聚类分割算法(Fuzzy Spectral Clustering,FSC),该算法实现了对任意形状样本空间的聚类;通过分析FSC中噪声点的隶属度,发现隶属度归一化约束条件存在的问题,并提出对该隶属度约束条件进行改进的方法,对FSC算法进行改进,进而得出改进隶属度的模糊谱聚类分割算法(Improved Membership Degree FSC,IMD-FSC),解决了噪声数据问题;根据拉普拉斯矩阵的特征值差异和聚类数目之间的关系,提出了一种自动确定聚类数目的方法,将其用于IMD-FSC算法中,得出了自适应的模糊谱聚类算法(Adaptive IMD-FSC, AIMD-FSC),实现了聚类数目的自动确定。
  本文给出了详细的实验步骤,将以上三种方法分别应用于文本聚类中,实现了对文本集合的模糊划分,使用准确率、召回率对实验的结果进行分析。实验结果表明,本文提出的AIMD-FSC算法的聚类效果得到了很大的提升,具备一定的应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号