首页> 中文学位 >面向网络自媒体的空间数据挖掘研究
【6h】

面向网络自媒体的空间数据挖掘研究

代理获取

目录

声明

第1章 绪 论

1.1 背景与意义

1.2 国内外研究现状

1.3 研究目标与研究内容

1.4 论文结构

第2章 网络自媒体位置数据抓取策略研究

2.1 基于微博开放平台API的微博数据获取

2.2 网络爬虫技术简介

2.3 Scrapy爬虫框架

2.4 NoSQL数据库

2.5 基于Scrapy框架的微博爬虫实现——以新浪微博为例

第3章 分布式平台Hadoop简介

3.1 hadoop概述

3.2 HDFS分布式文件系统

3.3 MapReduce并行机制研究

第4章 Mahout与K-means算法

4.1 k-means算法研究

4.2 K-means算法优化与Canopy

4.3 基于Mahout的k-means聚类研究——以文本为例

第5章 面向微博位置数据的空间聚类分析

5.1 数据预处理

5.2 执行mahout下的K-means中文聚类

5.3 结合空间位置信息的用户相似性评价

5.4 基于聚类结果的热点分析——以商圈主题类簇为例

5.5 实验总结

第6章 总结与展望

6.1 论文总结

6.2 展望

参考文献

致谢

展开▼

摘要

空间数据挖掘(SDM,Spatial Data Mining)是发掘空间数据库或者是空间实体中蕴含的消息以及实体间的空间关系的学科。在空间数据挖掘中包含着聚类分析法、空间分析法、数据可视化方法等主要方法。其中聚类分析法是指将数据集中的样本按其相似性划分到类簇中,同一类簇中样本间的相似性较高。 微博平台每天发布着TB级的数据,这些数据当中隐含着关于社会和生活方方面面的信息。本文将每一个微博用户看做一个空间实体,使用聚类分析方法对微博中带有位置属性的数据进行数据挖掘,以发现微博数据中蕴含的与当下社会和生活相关的热点词,并通过可视化的手段将聚类结果中的样本呈现在地图上,以研究其空间分布状况。其中聚类分析法用到的主要算法是k-means算法;算法的实现上使用hadoop加mahout的分布式计算平台。并在该平台基础上对比了k-means算法与Canopy算法优化后的k-means算法在文本聚类中的区别,以及两个算法在不同输入参数的环境下,收敛速度、迭代次数、簇间距离的变化情况;最终得到经过Canopy算法优化的k-means比普通的k-means聚类质量要明显提高,但是在文本类簇的主题方面,并没有产生很大的影响,只是降低了类簇间的相似性,防止了一个主题多个类别的情况;在聚类的基础上,针对类簇中样本,依据文本的相似性和地理位置上临近性做了用户相似性评价。 可视化分析使用ArcGIS以及WebGIS来实现,对类簇进行核密度分析,再做渔网栅格化分析可以使离散的类簇样本具备邻接性,也能够让我们直观的看到类簇主题的主要分布情况。

著录项

  • 作者

    钟宇;

  • 作者单位

    江西理工大学;

  • 授予单位 江西理工大学;
  • 学科 地图学与地理信息系统
  • 授予学位 硕士
  • 导师姓名 兰小机;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 计算技术、计算机技术;
  • 关键词

    面向网络; 自媒体;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号