首页> 中文学位 >基于大数据的微博社交网络舆情分析与研究
【6h】

基于大数据的微博社交网络舆情分析与研究

代理获取

目录

声明

第一章 绪 论

1.1 选题背景及意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 论文的研究内容

1.4 论文的组织结构

第二章 相关理论研究

2.1 大数据处理平台及技术

2.1.1 Hadoop 平台

2.1.2 分布式文件存储系统HDFS

2.2.3 分布式处理系统MapReduce

2.2.4 资源管理系统YARN

2.2.5 Hadoop生态系统

2.2 微博社交网络舆情分析技术

2.2.1 微博数据采集技术

2.2.2 微博信息的预处理技术

2.2.3 文本聚类分析技术

2.2.4 微博舆情分析技术

2.3 本章小节

第三章 基于Hadoop的微博舆情分析的并行化研究

3.1 文本分布式预处理

3.2 特征选择的分布式计算

3.3 Mahout向量化计算

3.4 Mahout聚类算法

3.5 本章小节

第四章 基于MapReduce的K-means聚类算法的实现与改进

4.1 K-means算法思想

4.2 K-means算法步骤

4.3 基于MapReduce的K-means算法的并行化研究

4.4 基于MapReduce的K-means算法的改进与优化

4.4.1 MapReduce算法的优化

4.4.2 基于MapReduce算法的改进

4.5 本章小节

第五章 实验与分析

5.1 实验环境与配置

5.1.1 实验环境

5.1.2 Hadoop平台的搭建

5.1.3 Mahout的安装和配置

5.2 实验数据与评价指标

5.2.1 实验数据

5.2.2 聚类算法的评价指标

5.3 数据预处理

5.4 测试结果与分析

5.4.1 聚类质量的比较

5.4.2 算法串行和并行比较

5.4.3 热点生成

5.4.4 正负情感分析

5.5 本章小结

第六章 展望与总结

6.1 论文总结

6.2 研究展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

随着科技的快速发展,网络媒体已全面地渗透到人们生活的各个方面,并成为信息发布和传播的重要平台。微博作为一种新型社交网络媒体,由于其具有篇幅较小、方便传播等特点,逐步发展成为人们了解舆情的重要渠道之一,但是由于微博信息的来源良莠不齐和民众的盲从性,利用微博散布谣言、危害社会的事情时有发生,特别是在大数据时代,随着微博数据日益激增,对数据的高速处理也面临着巨大的挑战。因此,如何较快的从海量微博信息中高速有效地挖掘出重要的信息,并且及时了解民众的舆情动态,具有重要的现实意义。 面对海量微博数据给舆情分析带来的巨大挑战,本文把Hadoop技术引入到舆情分析中来,将大数据处理技术与舆情分析技术相结合,对微博社交网络进行舆情分析和研究。主要研究内容如下: 首先,研究了大数据和微博社交网络舆情分析的来源、发展以及相关处理技术,分析了Hadoop2.0的三大核心组成部分:分布式文件系统HDFS、分布式计算模型MapReduce和资源管理系统YARN,深入研究了舆情分析各个阶段的处理技术和实现方法,包括微博数据的获取、数据预处理、文本向量化、文本聚类和舆情分析等阶段。 其次,将大数据处理技术与微博舆情分析技术相结合,基于Hadoop平台对舆情分析各个阶段进行并行化研究和实现,基于MapReduce编程模型对K-means并行算法提出一种优化机制,并在此基础上提出了一种新的聚类算法,这是一种基于余弦距离的K-means聚类算法,该算法通过对不同区间的余弦距离进行判断和调整,改善聚类结果,提高聚类质量。 最后,在实验的对比分析中,利用工作站搭建Hadoop集群,在Hadoop/Mahout平台上实现了微博数据的预处理,并基于MapReduce编程模型将传统的K-means算法和改进后的K-means算法进行对比,实验结果表明,改进后的聚类算法提高了准确率和召回率,具有较高的聚类质量和良好的扩展性,实验的最后完成了微博热点话题发现和情感倾向性分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号