首页> 中文学位 >基于文本聚类的特征选择算法研究
【6h】

基于文本聚类的特征选择算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 引言

1.2 文本聚类研究概述

1.3 本文的研究目的

1.4 本文的研究目标

1.5 本文的结构

第二章 文本聚类预处理相关技术

2.1 文本挖掘

2.2 文本预处理

2.3 相似度度量

2.4 基于特征相似度的特征选择方法

2.5 本章小结

第三章 文本挖掘算法及模糊点处理

3.1 聚类算法的分类

3.2 常用的文本挖掘算法

3.3 聚类算法的改进

3.4 小结

第四章 比较实验

4.1 文本聚类算法的比较标准

4.2 实验验证

第五章 总结展望

参考文献

致谢

硕士期间发表论文

展开▼

摘要

近年来,我们可以从电子出版物,Email,Web页面获得数目惊人的文档。与此同时,大量的文档也导致了人们搜寻、过滤和管理信息的困难,因此,管理和分析海量文本数据就非常重要了。
  目前,研究文本聚类技术已经成为文本数据挖掘的一个非常重要的方向。但是为了达到提高识别率的目的,通常会造成原始特征的数量巨大,原始特征可能达到几千维,甚至更高。其中存在着大量的冗余特征,造成维度灾难。同时现有的聚类算法片面强调了效率的提高,忽略了对边界类别模糊样本的处理而导致了聚类结果的正确率不高。
  本文针对文本聚类面临的维度灾难问题和现有的文本聚类算法进行了分析和研究,主要做了以下工作:
  首先,总结了现有的特征选择方法和相似度度量,提出一种基于词共现的特征选择方法,提高了文本聚类的正确率,降低了特征选择的冗余度,从而提高聚类算法的整体性能,达到了降维的目的。
  其次,研究几种比较流行的文本挖掘算法,对这些算法进行了详细的介绍,分析了各自的优缺点,进而提出一种改进算法,针对边界类别模糊点进行了处理,改善了聚类结果。
  第三,通过选取大量的数据进行了一系列的对比试验,并对实验结果进行了分析,从而证明了改进算法的有效性。
  最后,对本文所做的工作进行了归纳、总结,并讨论了将来进一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号