首页> 中文学位 >基于两种改进的聚类算法对新浪微博用户信息的研究
【6h】

基于两种改进的聚类算法对新浪微博用户信息的研究

代理获取

目录

声明

摘要

1 引言

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 微博用户研究的概述

1.2.1 关于微博用户特征研究的概述

1.2.2 关于聚类算法研究的概述

1.3 本文的主要工作

1.4 本文的结构安排

1.5 本章小结

2 聚类分析的理论介绍

2.1 聚类基本概念

2.1.1 聚类的概述

2.1.2 不同的聚类类型

2.2 主要聚类算法

2.2.1 基于划分的方法

2.2.2 基于层次的方法

2.2.3 基于模型的方法

2.2.4 基于网格的方法

2.2.5 基于密度的方法

2.3 聚类的评价比较

2.3.1 聚类过程评价

2.3.2 聚类结果评价

2.4 本章小结

3 数据分析的准备工作

3.1 样本数据的收集

3.2 样本数据的描述性统计分析

3.2.1 离散型数据的描述性统计分析

3.2.2 连续型数据的描述性统计分析

3.2.3 所有数据的描述性统计分析

3.3 本章小结

4 微博用户特征样本数据的聚类分析

4.1 样本数据的预处理以及特点介绍

4.1.1 样本数据的预处理

4.1.2 样本数据的预处理

4.2 基于划分的方法

4.2.1 传统K-Means算法的在在实际应用中的不足

4.2.2 改进后K-Means算法的理论介绍

4.2.3 改进后K-Means算法的应用过程

4.2.4 改进后K-Means算法的聚类结果分析

4.3 基于层次的方法

4.3.1 传统层次聚类算法在实际应用中的不足

4.3.2 TwoSep算法的理论介绍

4.3.3 TwoStep算法的应用过程

4.3.4 Two-Sep算法的聚类结果分析

4.4 本章小结

5 聚类结果的评估

5.1 聚类评价方法

5.2 非监督的聚类评价方法

5.2.1 Dunn指数(The Dunn index)

5.2.2 轮廓指数(The Silhouette index)

5.2.3 Davies-Bouldin指数(The Davies-Bouldin index,DBI)

5.3 对聚类评价方法的应用

5.4 对聚类评价结果的分析

5.5 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

附录

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

近几年来新浪微博迅猛发展,已经逐渐成为人们生活中不可或缺的一部分。新浪微博作为一个信息传播平台,它使得人们能够及时的获取第一手信息,同时作为一个社交平台,它让人们可以通过一种崭新的方式与他人交往。在新浪微博中,用户具有核心地位,无论是为了在微博平台上进行广告营销,还是对微博信息进行舆情监测,对不同微博用户群体的信息进行提炼都是至关重要的一步
  本文以微博用户信息数据作为研究对象,以用户的粉丝数、微博数、关注数、互粉数以及博龄数的取值作为依据,对微博用户群体进行聚类划分。首先将数据可视化从而全面了解了数据的分布特征,然后应用标准化方法对数据进行了预处理。由于数据量很大(21481条用户信息),且由于大于三的维度从而难以对数据的聚类趋势进行直观的评估。对此,本文采用了改进后的K-Means算法和TwoStep算法对数据进行聚类分析。改进的K-Mea ns算法是将传统的K-Means算法与C-H指数相结合,从而可以自行的选择最终聚类个数,TwoStep算法则将传统的系统聚类算法与Birch算法相结合,进而解决了传统系统聚类算法扩展性较差的问题,但在计算过程中需要人为的选取阀值T。通过这两种改进后的方法最终得到了两种不同的聚类结果,在对各个类别进行分析后本文对不同的类别予以命名
  最后,本文应用三种不同的度量指数来对聚类结果质量进行评价,结果显示改进后K-Means算法的聚类结果质量较好。其原因可能是TwoStep算法中的预聚类造成了样本信息量的损失以及人为选取的阀值T不是最佳值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号