首页> 中文学位 >基于Hadoop的微博用户影响力分析
【6h】

基于Hadoop的微博用户影响力分析

代理获取

目录

声明

摘要

1.1 研究背景及意义

1.2 国内外研究现状

1.3 相关技术

1.4 主要工作

1.5 论文组织结构

第2章 系统概要设计

2.1 平台整体设计

2.2 数据采集模块

2.3 数据接入模块

2.4 数据分析模块

2.4.1 数据预处理

2.4.2 用户聚类

2.5 本章小结

第3章 系统详细设计

3.1.1 数据结构

3.1.2 采集器设计

3.2 数据接入模块

3.2.1 非关系型数据库的数据接入

3.2.2 关系型数据库的数据接入

3.2.3 文件系统的数据接入

3.3 数据分析模块

3.3.2 数据结构

3.3.3 用户影响力评价模型

3.3.4 用户聚类算法

3.4 本章小结

第4章 系统实现

4.1.1 Spider模块

4.1.2 IP代理模块

4.1.3 模拟登陆模块

4.2 数据接入模块

4.3 数据分析模块

4.3.1 生成基本表

4.3.2 表去重连接

4.3.3 合并相关表

4.3.4 用户聚类

4.4 本章小结

5.1 CM平台搭建

5.1.1 集群分配

5.1.2 离线部署准备

5.1.3 部署CM Server

5.1.4 分发CDH

5.1.5 部署CDH服务

5.2 本章小结

第6章 总结和展望

参考文献

致谢

展开▼

摘要

随着网民数量的增加和社交媒体的影响力日益扩大,新浪微博作为影响力较大的社交平台吸引了越来越多的公众参与,尤其是业界知名人士、人气明星的加入,更加增强了新浪微博的社会影响的力度和广度。在当今网民数量的不断增加、网络流量激增的互联网时代,应用大数据获取数据、分析数据、挖掘隐含信息已成为当下的热点之一。新浪微博的原始数据量较大,分析原始数据,发现其潜在价值已经成为深入了解用户的基础,为企业的精准营销、商业推广等方面提供了有力的技术支持。项目通过采集微博数据,基于影响力对用户进行分类,为个性化服务等方面提供了理论依据。
  项目主要包括三个模块,即数据采集模块、数据导入模块和数据分析模块。数据采集模块设计分布式采集架构,采集用户数据和微博数据。数据导入模块设计多种格式的数据源到Hadoop集群的接入方式,提高数据接入的鲁棒性。数据分析模块首先提取微博用户特征,设计用户影响力模型,实现K-MEANS接口,在博文魅力指数因子、用户行为因子、转发层次因子三个维度下对用户影响力进行聚类。
  数据采集模块基于Scrapy框架,设计代理IP子模块,提高了数据采集器抵抗反爬取的能力。数据导入模块设计异构数据源的接入方式,使用Sqoop组件、Shell脚本、Apache Flume等方式实现关系型数据库、非关系型数据库、文件系统到HDFS、Hive的数据接入。数据分析模块提取用户、微博特征,例如粉丝数、关注数、点赞数、评论数、转发数、转发深度等,首先得到聚类个数K,再实现Spark机器学习框架MLlib的K-MEANS接口,得到聚类结果。
  论文基于Hadoop开发了一个数据采集、数据分析平台。针对异构数据源格式,采用合适的数据接入工具,提高了数据接入的兼容性。设计并实现了用户聚类子模块,提供了离线数据的聚类分析能力。本文为数据采集、接入提供了思路,为基于用户影响力分析的商业营销等提供了理论依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号