首页> 中文学位 >中文文本聚类关键技术研究
【6h】

中文文本聚类关键技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 本课题的研究背景和意义

1.2 国内外研究现状

1.2.1 文本相似度计算研究现状

1.2.2 模糊聚类算法研究现状

1.3 本文的主要工作

1.4 论文的组织结构

第二章 相关理论和关键技术

2.1 文档预处理

2.1.1 中文分词

2.1.2 停用词过滤

2.2 文本特征提取

2.2.1 文档频率

2.2.2 互信息

2.2.3 X2统计法

2.2.4 信息增益

2.2.5 期望交叉熵

2.3 文本建模

2.3.1 布尔模型

2.3.2 语言模型

2.3.3 向量空间模型

2.3.4 一元混合模型

2.3.5 隐含语义分析模型

2.3.6 概率潜在语义分析模型

2.4 文本相似度计算

2.4.1 基于语义分析的文本相似度计算

2.4.2 基于统计学的文本相似度计算

2.5 文本聚类算法

2.5.1 基于模型的聚类算法

2.5.2 基于密度的聚类算法

2.5.3 基于网格的聚类算法

2.5.4 基于划分的聚类算法

2.5.5 基于层次的聚类算法

2.5.6 模糊聚类算法

2.5.7 常见聚类算法比较

2.6 本章小结

第三章 基于LDA主题模型和词共现的文本相似度计算

3.1 LDA主题模型

3.1.1 LDA主题模型简介

3.1.2 Gibbs抽样求解

3.2 词共现分析

3.3 基于LDA主题模型和词共现的文本相似度计算

3.4 实验设计与结果分析

3.4.1 评价标准

2.6.1 语料选择

2.6.2 实验步骤及主要参数选取

2.6.3 实验结果分析

3.5 本章小结

第四章 集粒度计算、蚁群算法和模糊思想的聚类算法

4.1 粒度计算

4.1.1 粒度计算简介

4.1.2 粒度计算模型

4.2 蚁群算法

4.2.1 蚁群算法产生背景

4.2.2 蚁群算法的发展

4.2.3 基于蚁群算法的聚类模型

4.3 模糊思想

4.3.1 模糊集合及模糊运算

4.3.2 模糊C均值算法

4.4 集粒度计算、蚁群算法和模糊思想的算法

4.4.1 改进的蚁群聚类算法

4.4.2 改进的FCM聚类算法

4.4.3 实验设计与结果分析

4.5 基于GAFCM算法的文本聚类

4.5.1 文本聚类的实现

4.5.2 实验结果分析

4.6 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

随着互联网的迅速发展,文本信息呈爆炸式增长。如何从这些海量的文本信息中获得隐含的有价值的信息成为当今重要的研究课题之一。文本聚类技术作为文本信息挖掘的重要手段,受到了国内外学者的高度关注。
  本文首先介绍了文本聚类分析关键技术的国内外研究现状,紧接着介绍了文本聚类分析中的中文文本预处理、文本特征提取、文本建模、文本相似度计算、聚类算法等关键技术。其中,文本相似度计算是文本检索中最核心的问题,而聚类算法的好坏直接影响着文本最终的聚类效果。鉴于此,本文重点研究了文本聚类中文本相似度计算方法和聚类算法两个关键技术。
  通过研究潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型及词共现的相关理论,将基于词共现的主题特征词之间的文本语义相似性度量方法融入到LDA主题模型中,提出了一种基于LDA主题模型和词共现的文本相似度计算方法。实验结果表明,该相似性度量方法在文本聚类的查准率、查全率等方面均有所提升。
  经典的Lumer-Faieta(LF)蚁群算法存在着缺乏严密的数学依据,以及在聚类过程中根据先验知识随意设定蚂蚁放下或者拾起目标对象概率等缺陷。为了解决这些缺陷,提出了一种集粒度计算、蚁群算法和模糊思想的模糊聚类算法GAFCM。该算法引入了模糊粒度计算的思想,通过相似度隶属函数决定蚂蚁对该对象是拾起或放下;针对模糊C均值算法(FuzzyC-Means,FCM)聚类结果受初始聚簇中心的影响及对离群点较敏感等缺点,用改进的蚁群算法对文本先进行初始聚类,再以其聚类中心作为FCM算法的初始聚类中心,进行FCM聚类。该方法在一定程度上克服了FCM算法对离群点比较敏感及其聚类结果易受初始聚类中心影响等缺点。仿真实验研究表明,该算法具有较好的综合性能和较好的聚类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号