基于增量式模糊聚类算法的文本挖掘

耿新青; 王正欧

首页> 中文期刊>南京理工大学学报 >基于增量式模糊聚类算法的文本挖掘

基于增量式模糊聚类算法的文本挖掘

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm,FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。

著录项

来源
《南京理工大学学报》|2022年第5期|579-585|共8页
作者
耿新青; 王正欧;
展开▼
作者单位

鞍山师范学院数学与信息科学学院;

天津大学系统工程研究所;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
狄利克雷分布主题模型; 模糊聚类; 聚类数; 模糊信息熵; 文本聚类;
入库时间 2022-11-24 05:36:55

相似文献

中文文献
外文文献
专利

1. 基于自适应模糊C-均值的增量式聚类算法 [J] . 张忠平 ,陈丽萍 ,王爱杰 . 计算机工程 . 2009,第6期
2. 基于模糊C-均值的增量式聚类算法 [J] . 王洪春 ,彭宏 . 微电子学与计算机 . 2007,第6期
3. 基于模糊相似系数的增量式聚类算法 [J] . 黄文芝 ,倪国元 . 微型机与应用 . 2004,第010期
4. 嵌入式模糊集数据库的FCM增量式聚类算法研究 [J] . 斯亚民 . 中国电子科学研究院学报 . 2019,第6期
5. 多中心点增量式模糊聚类算法 [J] . 胡本固 ,戴牡红 . 应用科学学报 . 2019,第6期
6. 基于相似序列的增量式K均值聚类算法 [C] . . 第四届全国信息检索与内容安全学术会议 . 2008
7. 大数据集增量式模糊聚类算法 [A] . 胡本固 . 2018

基于增量式模糊聚类算法的文本挖掘

摘要

著录项

相似文献

相关主题

期刊订阅