改进的密度峰值算法应用于文本聚类问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在当今大数据的时代中，信息技术也已经渗透到各行各业。随着对信息需求的增多，如何帮助用户将繁多的数据处理成逻辑化的形式就成了亟待解决的问题。目前最核心信息载体就是中文文本，文本聚类也成为快速组织和分析用户感兴趣的文本信息的重要途径之一。通过预处理和聚类分析操作，对原本无结构的文本数据形式化描述，最终按照相似度的大小聚成不同类簇，对信息检索、新闻话题发现等具有重要的理论意义。
　　在深入研究的基础上，本文选取了具有参数少、原理简单、易于实现等优点的密度峰值算法用于文本聚类。针对密度峰值算法聚类中心点选择问题，对粒子群算法作出改进，并与之结合，应用在文本聚类中，旨在提高聚类效果。主要做了以下两部分的研究工作:
　　(1)在对标准粒子群算法的各个参数尤其是惯性权重的深入研究上，提出了一种动态调节惯性权重策略，综合考虑粒子适应度值赋予不同的惯性权重，平衡算法在不同迭代时期的全局搜索和局部搜索能力;研究分析了粒子在高维多峰函数寻优时易陷入局部最优的问题，提出了一种由柯西算子构成的扰动因子策略增强种群变异性，拓宽最优粒子搜索空间，帮助逃离局部最优。综合以上两点，提出一种自适应指数惯性权重粒子群优化算法;最后在不同测试函数上进行对比实验，实验结果表明:算法精度和稳定性有所提高。
　　(2)提出了一种新的适应度函数构造方法作为结合AEW-PSO和密度峰值算法的桥梁，综合考虑了局部密度、距离参数以及类内离散度等，更科学的指导聚类中心的选择，提高了算法效果。将基于AEW-PSO优化的密度峰值算法应用在文本聚类中，采用更符合文本距离计算的余弦距离代替原本的欧式距离度量，并提出了算法的整体框架。最后通过对比实验验证了本文提出的算法在准确率、召回率、F1值等三个评价指标上整体取得了最优值，有效实现了文本聚类。

著录项

作者
余陈;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机技术
授予学位硕士
导师姓名董红斌,潘悦;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本聚类; 改进密度峰值算法; 惯性权重; 适应度函数;

相似文献

中文文献
外文文献
专利

1. 基于LSA模型的改进密度峰值算法的微学习单元文本聚类研究 [J] . 武国胜 ,张月琴 . 计算机工程与科学 . 2020,第004期
2. 改进粒子群算法和蚁群算法混合应用于文本聚类 [J] . 周丽娟 . 长春工业大学学报（自然科学版） . 2009,第003期
3. 一种基于词嵌入与密度峰值策略的大数据文本聚类算法 [J] . 田晓艳 . 科技创新与应用 . 2017,第006期
4. 基于密度峰值优化的K-means文本聚类算法 [J] . 田诗宵 ,丁立新 ,郑金秋 . 计算机工程与设计 . 2017,第004期
5. 结合蝙蝠算法改进的密度峰值聚类算法 [J] . WU Chenwen ,LIU Xiaoguang ,WEI Lixin . 西北大学学报（自然科学版） . 2019,第004期
6. 基于语义特征选取与改进k均值算法的文本聚类研究 [C] . HE Xiao-liang ,何晓亮 ,SONG Wei . 第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议 . 2012
7. 基于密度峰值的聚类算法研究及其在文本聚类中的应用 [A] . 卜秋瑾 . 2019

改进的密度峰值算法应用于文本聚类问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅