声明
1绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 话题检测与跟踪技术的研究现状
1.2.2 微博热点主题发现的研究现状
1.3 主要研究内容
1.4 内容结构
2相关技术概述
2.1 中文分词技术
2.1.1 基于字符串匹配的分词方法
2.1.2 基于理解的分词方法
2.1.3 基于统计的分词方法
2.2 文本表示模型
2.2.1 向量空间模型
2.2.2 布尔模型
2.2.3 概率模型
2.3 文本相似度的度量
2.4 常用的文本聚类方法
2.4.1 基于层次的聚类算法
2.4.2 基于密度的聚类算法
2.4.3 基于网格的聚类算法
2.4.4 基于模型的聚类算法
2.4.5 基于划分的聚类算法
2.5 HADOOP系统架构
2.5.1 HDFS
2.5.2 MapReduce分布式计算
2.5.3 HBase数据库
2.6 本章小结
3微博文本采集及预处理
3.1 微博热点主题发现
3.2 微博数据采集
3.3 文本预处理
3.3.1 中文分词
3.3.2 去停用词
3.4 文本向量化
3.5 本章小结
4微博热点主题发现的算法设计
4.1 聚类算法的提出
4.1.1 聚类算法的选择
4.1.2 本文算法的提出
4.2 混合的聚类算法
4.2.1 Canopy算法的基本思想
4.2.2 K-means算法的基本思想
4.2.3 改进的K-means算法
4.3 算法复杂度
4.4 话题热度计算
4.5 本章小结
5实验及结果分析
5.1 系统部署
5.1.1 硬件配置
5.1.2 软件配置
5.1.3 环境配置
5.2 实验结果分析
5.2.1 微博数据获取
5.2.2 微博数据预处理
5.2.3 微博热点主题发现及趋势分析
5.3 评价指标
5.4 本章小结
6 总结与展望
6.1 论文工作总结
6.2 研究展望
致谢
参考文献
攻读硕士学位期间主要研究成果
西安理工大学;