基于两种改进的聚类算法对新浪微博用户信息的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近几年来新浪微博迅猛发展，已经逐渐成为人们生活中不可或缺的一部分。新浪微博作为一个信息传播平台，它使得人们能够及时的获取第一手信息，同时作为一个社交平台，它让人们可以通过一种崭新的方式与他人交往。在新浪微博中，用户具有核心地位，无论是为了在微博平台上进行广告营销，还是对微博信息进行舆情监测，对不同微博用户群体的信息进行提炼都是至关重要的一步
　　本文以微博用户信息数据作为研究对象，以用户的粉丝数、微博数、关注数、互粉数以及博龄数的取值作为依据，对微博用户群体进行聚类划分。首先将数据可视化从而全面了解了数据的分布特征，然后应用标准化方法对数据进行了预处理。由于数据量很大（21481条用户信息），且由于大于三的维度从而难以对数据的聚类趋势进行直观的评估。对此，本文采用了改进后的K-Means算法和TwoStep算法对数据进行聚类分析。改进的K-Mea ns算法是将传统的K-Means算法与C-H指数相结合，从而可以自行的选择最终聚类个数，TwoStep算法则将传统的系统聚类算法与Birch算法相结合，进而解决了传统系统聚类算法扩展性较差的问题，但在计算过程中需要人为的选取阀值T。通过这两种改进后的方法最终得到了两种不同的聚类结果，在对各个类别进行分析后本文对不同的类别予以命名
　　最后，本文应用三种不同的度量指数来对聚类结果质量进行评价，结果显示改进后K-Means算法的聚类结果质量较好。其原因可能是TwoStep算法中的预聚类造成了样本信息量的损失以及人为选取的阀值T不是最佳值。

著录项

作者
赵峥;
展开▼
作者单位

首都经济贸易大学;

展开▼
授予单位首都经济贸易大学;
学科应用统计
授予学位硕士
导师姓名陈江荣;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
新浪微博; 用户信息; 聚类分析; Two-Step算法;

相似文献

中文文献
外文文献
专利

1. 基于Python的新浪微博用户信息爬取与分析 [J] . 邓文萍 . 数字技术与应用 . 2019,第007期
2. 基于Python的新浪微博用户信息爬取与分析 [J] . 邓文萍 . 数字技术与应用 . 2019,第007期
3. 我国大陆地区新浪微博用户信息过载感知程度影响因素的实证研究 [J] . 刘雪琪 ,廖秉宜 . 信息资源管理学报 . 2017,第003期
4. 基于粒子群改进FCM聚类算法优化管网压力监测点布置研究 [J] . 王彤 ,杨军 ,张浩祥 . 给水排水 . 2021,第002期
5. 基于SVD和改进系统聚类算法的工商业用户用电行为分类研究 [C] . 李琮琮 ,王清 ,吴悠 . 新能源为主体的新型电力系统研讨会 . 2020
6. 基于新浪微博的复杂网络社团发现聚类算法研究 [A] . 关现国 . 2017

基于两种改进的聚类算法对新浪微博用户信息的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅