1 绪论
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 本文主要工作
1.4 本文的组织结构
1.5 本章小结
2 相关技术介绍
2.1 文本聚类通用流程
2.2 文本预处理
2.2.1 文本分词处理
2.2.2 过滤停用词
2.3 文本特征词提取
2.3.1 基于TF-IDF的特征词提取
2.3.2 基于TextRank的特征词提取
2.3.3 基于卡方检验的特征词提取
2.3.4 基于信息增益的特征词提取
2.3.5 基于互信息的特征词提取
2.4 文本表示模型
2.4.1 基于向量空间模型的文本表示
2.4.2 基于主题模型的文本表示
2.4.3 基于词嵌入与深度学习模型的文本表示
2.5 文本相似度计算方法
2.5.1 余弦相似度
2.5.2 欧氏距离
2.5.3 Jaccard距离
2.5.4 曼哈顿距离
2.6 传统的文本聚类方法
2.6.1 基于k-means的文本聚类
2.6.2 基于DBSCAN的文本聚类
2.6.3 基于LDA的文本聚类
2.7 基于频繁词集的文本聚类
2.7.1 频繁词集挖掘相关理论
2.7.2 频繁词集挖掘相关算法
2.7.3 基于频繁词集的文本聚类
2.8 传统的社区发现算法
2.8.1 GN算法
2.8.2 Newman快速算法
2.8.3 K-L(Kernighan-Lin)算法
2.9 聚类评价指标
2.10 本章小结
3 一种基于频繁词集和复杂网络的文本聚类算法
3.1 基于频繁词集和复杂网络的文本聚类流程
3.2 文本预处理及特征选取
① 文本分词及停用词处理
② 文本的特征词选取
3.3 基于频繁词集的文本表示模型
3.3.1 文本相似性计算
3.4 构建文本网络
3.5.1 文本网络中节点间距离的定义
3.5.2 基于k-means算法的社区发现
3.5.3 基于DPCA改进的k-means算法用于社区发现
3.6 本章小结
4 实验分析
4.1 实验数据集
4.2 聚类评价指标
4.3 实验结果与实验分析
4.4 实验中所涉及到的阈值
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
附录
A. 作者在攻读学位期间申请的专利与标准
B. 学位论文数据集
致谢
重庆大学;