首页> 中文学位 >基于Hadoop的微博热点话题情感分类系统的研究与实现
【6h】

基于Hadoop的微博热点话题情感分类系统的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 课题研究内容

1.4 本文结构安排

第二章 研究平台及相关技术

2.1 Hadoop大数据计算平台

2.2 朴素贝叶斯分类算法

2.3 本章小结

第三章 基于Hadoop的微博话题评论情感分类

3.1 微博话题评论情感特征分析

3.2 朴素贝叶斯分类算法在Hadoop平台的实现

3.3 本章小结

第四章 INBC并行化测试与分析

4.1 实验环境搭建

4.2 实验测试及结果分析

4.3 本章小结

第五章 微博热点话题情感分类系统的设计与实现

5.1 系统总体设计

5.2 系统功能模块介绍

5.3 系统数据库设计

5.4 系统功能测试

5.5 本章小结

第六章 总结与展望

6.1 论文总结

6.2 研究展望

参考文献

在学校期间发表论文清单

致谢

展开▼

摘要

随着互联网技术的迅速发展,社交网络逐渐成为一种快速便捷的信息分享和交互平台。作为当前国内社交网络巨头之一,新浪微博热门话题的讨论提升了微博用户的参与感和活跃程度,形成了一个和用户关系密切相关的传播网络,这个网络在一定程度上反映了微博信息的传播方式和情感倾向。因此,对该网络的调研和对某话题的情感分类是一个很有意义的研究课题。然而,由于数据量巨大,分析处理通常需要较长的时间开销,现有传统技术和方法难以有效完成大规模微博数据的处理,而本文讨论的Hadoop平台可以为大规模微博数据处理提供有效的技术手段,实现较快的微博热点话题情感分类。
  首先,本文对Hadoop平台及其两大核心组件MapReduce并行计算框架和HDFS分布式文件存储系统予以研究讨论,并阐述了朴素贝叶斯分类算法的原理和工作流程。在计算特征词的概率矩阵时,经典的TFIDF方法将数据集作为一个整体来考虑,影响了情感分类结果。故本文中研究了训练集中的数据在类中和类间的分布偏差,提出了针对TFIDF的改进方案,给出朴素贝叶斯分类并行化的总体流程以及具体算法。其次,为观察集群负载能力和改进算法的分类准确率情况,文中使用测试数据集设计多组实验对其进行情感分类,在分类过程中的不同阶段分别观察了系统各节点在不同数据集情况下的负载能力,证实了Hadoop集群处理大数据的可扩展性和优越性。同时也测试了贝叶斯分类器并行化之后的准确性,实验表明,改进后的贝叶斯分类器分类准确率相比较经典朴素贝叶斯分类器有明显改善,且在一定范围内,随着数据集容量的不断增大,算法的分类准确率会逐渐平稳升高并最终稳定在90%左右。最后,基于上述理论和实验研究,讨论了基于Hadoop的微博热点话题情感分类系统的架构与实现,在层次设计上包括表现层、业务逻辑层、DAO层和数据层,具体实现时采用JavaEE编程思想和B/S模式搭建完整的系统,系统包含本地数据加载、情感分析分类、用户管理和集群信息监督四大模块。最后使用新浪微博真实数据验证了系统具有较高的分类准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号