声明
摘要
1 引言
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 微博用户研究的概述
1.2.1 关于微博用户特征研究的概述
1.2.2 关于聚类算法研究的概述
1.3 本文的主要工作
1.4 本文的结构安排
1.5 本章小结
2 聚类分析的理论介绍
2.1 聚类基本概念
2.1.1 聚类的概述
2.1.2 不同的聚类类型
2.2 主要聚类算法
2.2.1 基于划分的方法
2.2.2 基于层次的方法
2.2.3 基于模型的方法
2.2.4 基于网格的方法
2.2.5 基于密度的方法
2.3 聚类的评价比较
2.3.1 聚类过程评价
2.3.2 聚类结果评价
2.4 本章小结
3 数据分析的准备工作
3.1 样本数据的收集
3.2 样本数据的描述性统计分析
3.2.1 离散型数据的描述性统计分析
3.2.2 连续型数据的描述性统计分析
3.2.3 所有数据的描述性统计分析
3.3 本章小结
4 微博用户特征样本数据的聚类分析
4.1 样本数据的预处理以及特点介绍
4.1.1 样本数据的预处理
4.1.2 样本数据的预处理
4.2 基于划分的方法
4.2.1 传统K-Means算法的在在实际应用中的不足
4.2.2 改进后K-Means算法的理论介绍
4.2.3 改进后K-Means算法的应用过程
4.2.4 改进后K-Means算法的聚类结果分析
4.3 基于层次的方法
4.3.1 传统层次聚类算法在实际应用中的不足
4.3.2 TwoSep算法的理论介绍
4.3.3 TwoStep算法的应用过程
4.3.4 Two-Sep算法的聚类结果分析
4.4 本章小结
5 聚类结果的评估
5.1 聚类评价方法
5.2 非监督的聚类评价方法
5.2.1 Dunn指数(The Dunn index)
5.2.2 轮廓指数(The Silhouette index)
5.2.3 Davies-Bouldin指数(The Davies-Bouldin index,DBI)
5.3 对聚类评价方法的应用
5.4 对聚类评价结果的分析
5.5 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
附录
致谢
攻读硕士学位期间发表的论文
首都经济贸易大学;