声明
致谢
摘要
1 绪论
1.1 课题的研究背景
1.2 课题研究的目的及意义
1.3 国内外研究现状
1.4 课题的研究内容
1.5 论文结构
1.6 小结
2 相关技术介绍
2.1 文本聚类概述
2.2 文本建模及相似度计算
2.2.1 空间向量模型
2.2.2 基于空间向量模型的文本相似度计算
2.2.3 基于概率统计的LDA模型
2.2.4 基于LDA模型的文本相似度计算
2.3 基于知网的中文语义相似度计算
2.4 频繁项集挖掘算法
2.4.1 关联规则
2.4.2 串行Aprior关联规则挖掘算法
2.4.3 串行Fp-growth关联规则挖掘算法
2.5 聚类效果评价
2.6 本章小结
3 基于语义的短文本聚类算法
3.1 短文本表示
3.2 短文本之间的语义相似度
3.2.1 词语语义相似度计算
3.2.2 短文本之间语义相似度计算
3.3 基于频繁项集挖掘短文集主题分布
3.3.1 基于频繁项集的挖掘潜在主题
3.3.2 基于频繁项集挖掘聚类中心
3.4 并行频繁项集挖掘
3.4.1 MapReduce编程框架
3.4.2 基于MapReduce编程框架改进的并行频繁项集挖掘
3.4.3 并行频繁项集挖掘算法复杂度分析
3.5 短文本聚类方法的总体实现流程
3.6 本章小结
4 试验效果及评价
4.1 短文本聚类实验
4.1.1 数据准备
4.1.2 评价标准
4.1.3 参数选取
4.1.4 聚类中心对比试验
4.1.5 文本聚类对比试验分析
4.2 频繁项集挖掘效率试验
4.2.1 单机对比试验
4.2.2 集群试验环境
4.2.3 集群扩展性和加速比实验
4.3 本章小结
结论
参考文献
作者简历
学位论文数据集