声明
第1章 绪 论
1.1 背景与意义
1.2 国内外研究现状
1.3 研究目标与研究内容
1.4 论文结构
第2章 网络自媒体位置数据抓取策略研究
2.1 基于微博开放平台API的微博数据获取
2.2 网络爬虫技术简介
2.3 Scrapy爬虫框架
2.4 NoSQL数据库
2.5 基于Scrapy框架的微博爬虫实现——以新浪微博为例
第3章 分布式平台Hadoop简介
3.1 hadoop概述
3.2 HDFS分布式文件系统
3.3 MapReduce并行机制研究
第4章 Mahout与K-means算法
4.1 k-means算法研究
4.2 K-means算法优化与Canopy
4.3 基于Mahout的k-means聚类研究——以文本为例
第5章 面向微博位置数据的空间聚类分析
5.1 数据预处理
5.2 执行mahout下的K-means中文聚类
5.3 结合空间位置信息的用户相似性评价
5.4 基于聚类结果的热点分析——以商圈主题类簇为例
5.5 实验总结
第6章 总结与展望
6.1 论文总结
6.2 展望
参考文献
致谢
江西理工大学;