中文文本聚类关键技术研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网的迅速发展，文本信息呈爆炸式增长。如何从这些海量的文本信息中获得隐含的有价值的信息成为当今重要的研究课题之一。文本聚类技术作为文本信息挖掘的重要手段，受到了国内外学者的高度关注。
　　本文首先介绍了文本聚类分析关键技术的国内外研究现状，紧接着介绍了文本聚类分析中的中文文本预处理、文本特征提取、文本建模、文本相似度计算、聚类算法等关键技术。其中，文本相似度计算是文本检索中最核心的问题，而聚类算法的好坏直接影响着文本最终的聚类效果。鉴于此，本文重点研究了文本聚类中文本相似度计算方法和聚类算法两个关键技术。
　　通过研究潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)主题模型及词共现的相关理论，将基于词共现的主题特征词之间的文本语义相似性度量方法融入到LDA主题模型中，提出了一种基于LDA主题模型和词共现的文本相似度计算方法。实验结果表明，该相似性度量方法在文本聚类的查准率、查全率等方面均有所提升。
　　经典的Lumer-Faieta(LF)蚁群算法存在着缺乏严密的数学依据，以及在聚类过程中根据先验知识随意设定蚂蚁放下或者拾起目标对象概率等缺陷。为了解决这些缺陷，提出了一种集粒度计算、蚁群算法和模糊思想的模糊聚类算法GAFCM。该算法引入了模糊粒度计算的思想，通过相似度隶属函数决定蚂蚁对该对象是拾起或放下;针对模糊C均值算法（FuzzyC-Means，FCM)聚类结果受初始聚簇中心的影响及对离群点较敏感等缺点，用改进的蚁群算法对文本先进行初始聚类，再以其聚类中心作为FCM算法的初始聚类中心，进行FCM聚类。该方法在一定程度上克服了FCM算法对离群点比较敏感及其聚类结果易受初始聚类中心影响等缺点。仿真实验研究表明，该算法具有较好的综合性能和较好的聚类效果。

著录项

作者
邵明来;
展开▼
作者单位

广西大学;

展开▼
授予单位广西大学;
学科计算机应用技术
授予学位硕士
导师姓名秦亮曦;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文文本; 相似度计算; 聚类算法; 信息处理;

相似文献

中文文献
外文文献
专利

1. 面向测试用例的中文文本聚类分析 [J] . 李敬炜 . 数字技术与应用 . 2020,第012期
2. 基于语义簇的中文文本聚类算法 [J] . 齐向明 ,孙煦骄 . 吉林大学学报（理学版） . 2019,第005期
3. 基于特征词典构建和BIRCH算法的中文百科文本聚类研究 [J] . 杨秀璋 ,夏换 ,于小民 . 计算机时代 . 2019,第011期
4. 基于Canopy+K-means的中文文本聚类算法 [J] . 张琳 ,牟向伟 . 图书馆论坛 . 2018,第006期
5. DMK算法在中文文本聚类中的应用 [J] . 季圣洁 ,葛万成 . 信息通信 . 2018,第007期
6. 基于WEKA的中文文本聚类研究 [C] . 韩普 ,刘艳云 . 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIBOSS2011)学术研讨会 . 2011
7. 基于语义簇的中文文本聚类算法研究 [A] . 孙煦骄 . 2019

中文文本聚类关键技术研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅