基于Hadoop的微博用户影响力分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网民数量的增加和社交媒体的影响力日益扩大，新浪微博作为影响力较大的社交平台吸引了越来越多的公众参与，尤其是业界知名人士、人气明星的加入，更加增强了新浪微博的社会影响的力度和广度。在当今网民数量的不断增加、网络流量激增的互联网时代，应用大数据获取数据、分析数据、挖掘隐含信息已成为当下的热点之一。新浪微博的原始数据量较大，分析原始数据，发现其潜在价值已经成为深入了解用户的基础，为企业的精准营销、商业推广等方面提供了有力的技术支持。项目通过采集微博数据，基于影响力对用户进行分类，为个性化服务等方面提供了理论依据。
　　项目主要包括三个模块，即数据采集模块、数据导入模块和数据分析模块。数据采集模块设计分布式采集架构，采集用户数据和微博数据。数据导入模块设计多种格式的数据源到Hadoop集群的接入方式，提高数据接入的鲁棒性。数据分析模块首先提取微博用户特征，设计用户影响力模型，实现K-MEANS接口，在博文魅力指数因子、用户行为因子、转发层次因子三个维度下对用户影响力进行聚类。
　　数据采集模块基于Scrapy框架，设计代理IP子模块，提高了数据采集器抵抗反爬取的能力。数据导入模块设计异构数据源的接入方式，使用Sqoop组件、Shell脚本、Apache Flume等方式实现关系型数据库、非关系型数据库、文件系统到HDFS、Hive的数据接入。数据分析模块提取用户、微博特征，例如粉丝数、关注数、点赞数、评论数、转发数、转发深度等，首先得到聚类个数K，再实现Spark机器学习框架MLlib的K-MEANS接口，得到聚类结果。
　　论文基于Hadoop开发了一个数据采集、数据分析平台。针对异构数据源格式，采用合适的数据接入工具，提高了数据接入的兼容性。设计并实现了用户聚类子模块，提供了离线数据的聚类分析能力。本文为数据采集、接入提供了思路，为基于用户影响力分析的商业营销等提供了理论依据。

著录项

作者
王颖;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机科学与技术
授予学位硕士
导师姓名李巍;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
社交平台; 用户影响力; 软件设计; 功能模块; 分布式系统基础架构;

相似文献

中文文献
外文文献
专利

1. 基于用户行为的微博用户社会影响力分析 [J] . 毛佳昕 ,刘奕群 ,张敏 . 计算机学报 . 2014,第004期
2. 基于活动网络的微博用户影响力分析 [J] . 张凤娟 ,王濛 ,周刚 . 计算机技术与发展 . 2018,第009期
3. 基于行为和社团的微博用户传播影响力分析 [J] . 陈振春 ,刘学军 ,李斌 . 计算机应用研究 . 2018,第007期
4. 基于R-C模型的微博社区用户影响力分析 [J] . 王振飞 ,朱静阳 ,郑志蕴 . 计算机科学 . 2017,第003期
5. 基于领域划分的微博用户影响力分析 [J] . 刘金龙 ,吴斌 ,陈震 . 计算机科学 . 2015,第005期
6. 基于PageRank算法的微博用户影响力分析 [C] . Wang Meng ,王濛 ,Fu Bin . 2012河南省计算机大会暨学术年会 . 2012
7. 基于Hadoop的微博用户及微博影响力排名研究 [A] . 关文斌 . 2015

基于Hadoop的微博用户影响力分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅