首页> 中文学位 >基于遗传算法与模糊聚类的文本分类研究
【6h】

基于遗传算法与模糊聚类的文本分类研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1选题的研究背景和意义

1.2文本分类与文本聚类

1.2.1文本分类的定义

1.2.2文本聚类的定义

1.3国内外研究现状

1.4文本分类和聚类存在的问题

1.5本文的主要研究工作及结构

第2章主要聚类算法分析方法

2.1聚类分析简介

2.2主要聚类算法分类

2.2.1主要划分方法

2.2.2层次聚类算法

2.2.3基于密度的聚类算法

2.2.4基于模型的聚类算法

2.2.5基于网格的聚类算法

2.3划分方法的分析

2.3.1 K-平均算法的分析

2.3.2 K-中心点算法的分析

2.4聚类质量的评价

2.4.1内部评价标准

2.4.2外部评价标准

2.5本章小结

第3章模糊理论与模糊聚类

3.1模糊数学基础

3.2模糊聚类分析

3.3 FCM算法的相关问题

3.4 FCM的一种改进

3.4.1 ReliefF算法

3.4.2基于特征加权的FCM聚类算法

3.4.3 WFCM与FCM算法的实验结果比较

3.4.4结论

3.5本章小结

第4章基于遗传算法的模糊聚类分析

4.1遗传算法概述

4.2遗传算法流程

4.3遗传算法的设计

4.4遗传算法优化初始聚类中心算法

4.4.1适应度函数

4.4.2非线性排序选择

4.4.3个体的基因平均差异度

4.4.4群体的更新方式

4.5本章小结

第5章实验与结果分析

5.1实验设计方案

5.1.1语料库

5.1.2预处理

5.1.3评价指标

5.1.4性能分析

5.2系统模型

5.3实验过程及结论

5.4本章小结

结论

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

随着数据的爆炸式增长,信息处理已经成为人们获取有用信息不可缺少的工具,文本分类也已成为重要研究方向。作为非监督学习方法的模糊聚类分析已成为文本分类研究的热点,对基于模糊聚类的文本分类研究具有重大的理论和现实意义。然而,模糊聚类算法存在初始值敏感问题。因此,本文提出了一种遗传算法优化模糊聚类的文本分类算法。 本文对模糊C-均值(FCM)聚类算法的一种改进算法-特征加权的FCM(WFCM)聚类算法,与FCM算法进行了测试比较。结果表明,WFCM聚类算法提高聚类的正确率。遗传算法是一种高效率的随机全局优化搜索算法,本文将遗传算法与FCM结合产生基于遗传算法的特征加权的FCM(WFCM)聚类算法(GWFCM),充分发挥FCM的局部搜索和遗传算法的全局搜索能力。本文在研究现有聚类类别数目自动学习的基础上,对聚类的有效性判断加以改进,在算法中动态改变聚类类别数目,以提高聚类的有效性和精确性。 针对编码特征的问题,本文引入一个基因平均差异度的概念,算法的执行过程中,交叉和变异算子,动态地计算基因平均差异度值,使用该值以限制适应度差的个体产生,从而优化了遗传算法的执行性能。这种聚类方法在性能上比经典的聚类算法有较大的改进,它通过非线性映射能够较好地分辨、提取并放大有用的特征。 由于在遗传算法的应用中,采用了比例选择算子,会产生进化早期的早熟收敛和进化后期的搜索效率下降等问题。为此,本文提出一种非线性排序选择机制。在群体进化过程中,本文实施精英基因引入策略确保了遗传进化的稳定性,避免无效解的扩散,从而保证了算法的收敛性,确保了遗传进化的稳定性,提高了对聚类中心的搜索效率。 为了验证本文所提算法的高效性和可行性,我们将GWFCM与FCM、WFCM进行,抽取大量文本进行实验。通过实验可以看出GWFCM较WFCM的查准率、查全率和F1值分别提高了0.030、0.022、0.026,GWFCM算法相对于其它方法在文本分类和聚类中具有很好的表现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号