首页> 中文学位 >改进的密度峰值算法应用于文本聚类问题研究
【6h】

改进的密度峰值算法应用于文本聚类问题研究

代理获取

目录

声明

摘要

1.1课题研究的背景及意义

1.2国内外研究现状

1.2.1聚类分析算法国内外研究现状

1.2.2基于粒子群优化的聚类算法国内外研究现状

1.2.3文本聚类问题国内外研究现状

1.3本文研究内容

1.4本文内容安排

第2章相关理论和方法

2.1文本聚类预处理技术

2.1.1文本分词与去停用词

2.1.2文本特征提取

2.1.3文本表示模型

2.2聚类算法概述

2.2.1常用聚类算法

2.2.2相似性度量

2.2.3聚类结果评价指标

2.3粒子群优化算法

2.3.1基本概念

2.3.2 PSO算法步骤

2.3.3 PSO算法分析

2.4本章小结

第3章基于自适应调整惯性权重的粒子群算法

3.1基于惯性权重的PSO算法思想

3.2基于自适应惯性权重的粒子群优化算法

3.2.1自适应惯性权重策略

3.2.2加入柯西算子扰动的AEW-PSO算法

3.2.3 AEW-PSO算法整体步骤

3.3实验验证与结果分析

3.3.1实验设计

3.3.2算法性能分析

3.3.3实验小结

3.4本章小结

第4章基于粒子群优化的密度峰值聚类算法应用

4.1基于AEW-PSO优化的密度峰值聚类算法

4.2基于AEW-DP算法文本聚类应用

4.2.1算法整体思想

4.2.2基于AEW-DP文本聚类算法框架

4.3实验验证及分析

4.3.1实验设计

4.3.2实验结果与分析

4.3.3实验小结

4.4本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

在当今大数据的时代中,信息技术也已经渗透到各行各业。随着对信息需求的增多,如何帮助用户将繁多的数据处理成逻辑化的形式就成了亟待解决的问题。目前最核心信息载体就是中文文本,文本聚类也成为快速组织和分析用户感兴趣的文本信息的重要途径之一。通过预处理和聚类分析操作,对原本无结构的文本数据形式化描述,最终按照相似度的大小聚成不同类簇,对信息检索、新闻话题发现等具有重要的理论意义。
  在深入研究的基础上,本文选取了具有参数少、原理简单、易于实现等优点的密度峰值算法用于文本聚类。针对密度峰值算法聚类中心点选择问题,对粒子群算法作出改进,并与之结合,应用在文本聚类中,旨在提高聚类效果。主要做了以下两部分的研究工作:
  (1)在对标准粒子群算法的各个参数尤其是惯性权重的深入研究上,提出了一种动态调节惯性权重策略,综合考虑粒子适应度值赋予不同的惯性权重,平衡算法在不同迭代时期的全局搜索和局部搜索能力;研究分析了粒子在高维多峰函数寻优时易陷入局部最优的问题,提出了一种由柯西算子构成的扰动因子策略增强种群变异性,拓宽最优粒子搜索空间,帮助逃离局部最优。综合以上两点,提出一种自适应指数惯性权重粒子群优化算法;最后在不同测试函数上进行对比实验,实验结果表明:算法精度和稳定性有所提高。
  (2)提出了一种新的适应度函数构造方法作为结合AEW-PSO和密度峰值算法的桥梁,综合考虑了局部密度、距离参数以及类内离散度等,更科学的指导聚类中心的选择,提高了算法效果。将基于AEW-PSO优化的密度峰值算法应用在文本聚类中,采用更符合文本距离计算的余弦距离代替原本的欧式距离度量,并提出了算法的整体框架。最后通过对比实验验证了本文提出的算法在准确率、召回率、F1值等三个评价指标上整体取得了最优值,有效实现了文本聚类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号