首页> 中文期刊>辽宁科技学院学报 >基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

     

摘要

近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要.云计算为解决这一问题提出了一种新方法.本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计.本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA 模型训练和K -means 聚类过程进行MapReduce 的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA 建模的分布式算法对中文微博数据聚类效果较好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号