首页> 中文学位 >基于TFIDF-GA特征选择的文本模糊聚类方法研究
【6h】

基于TFIDF-GA特征选择的文本模糊聚类方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 选题背景与研究意义

1.2 文本聚类研究概况

1.3 本文的研究工作

1.4 本文的组织结构

第2章 文本聚类理论基础

2.1 文本聚类的概述

2.2 文本聚类的过程

2.3 文本聚类算法的分类

2.4 文本聚类的评价

2.5 本章小结

第3章 基于TFIDF-GA的特征选择方法

3.1 特征选择

3.2 常用的无监督特征选择方法

3.3 TFIDF特征选择方法

3.4 遗传算法

3.5 基于TFIDF-GA的特征选择方法

3.6 本章小结

第4章 改进的模糊C均值聚类算法

4.1 模糊C均值算法

4.2 初始聚类中心的选取

4.3 聚类目标函数

4.4 改进的模糊C均值算法

4.5 本章小结

第5章 基于TFIDF-GA与FCM的文本模糊聚类研究

5.1 实验环境

5.2 体系结构

5.3 实验结果与分析

5.4 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

文本聚类是在没有文本类别标记的情况下对文本进行分类,使同类别的文本间相似度尽可能大,不同类别的文本间相似度尽可能小。而今,随着信息的爆炸式增长以及学科类别间的交叉渗透,文本日益大量化和多样化,文本的类别隶属度界限越来越不明确。于是,文本模糊聚类渐渐成为文本聚类的另一个研究方向。
  本文从特征选择和模糊C均值算法两个方面对文本模糊聚类进行研究:
  1、无监督特征选择方法。特征选择方法主要有过滤式、封装式和嵌入式三种,本文结合过滤式和封装式方法,即词频-反文档频率(Term Frequency-Inverse Document Frequency,TFIDF)算法和遗传算法(Genetic Algorithm,GA)相结合,提出基于 TFIDF-GA的无监督特征选择方法。该方法通过改进后的 TFIDF公式计算特征权重,然后根据选择规则得到初始特征子集,将该特征子集作为遗传算法的初始种群进行迭代搜索。初始特征子集能够为遗传算法提供较好的搜索起点,加快搜索速度,同时遗传算法的自适应全局搜索能力能够启发式搜索到具有很强分类能力却没有包含在初始特征子集中的特征。
  2、模糊C均值聚类算法。模糊C均值聚类算法(Fuzzy C-Means,FCM)在基于目标的模糊聚类算法中应用最为广泛。本文对FCM算法进行改进,使用密度参数初始化聚类中心,能在一定程度上降低由于初始聚类中心选取的随机性对算法产生的误差;在FCM算法的约束条件中引入信息熵,更好地描述数据的实际分布情况。
  本文从特征选择和FCM算法出发,提出基于TFIDF-GA和改进的FCM算法的模糊聚类算法,实验结果表明该算法可以得到较高质量的聚类结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号