首页> 中文学位 >基于Spatial-Spark海量网络空间数据分析与应用
【6h】

基于Spatial-Spark海量网络空间数据分析与应用

代理获取

目录

声明

致谢

变量注释表

1 绪论

1.1 研究背景和意义(Background and Research Significance)

1.2 国内外研究现状(Research Progress at Home and Abroad)

1.3 研究内容和技术路线(Contents of Research and Technology Route)

1.4 论文结构安排(Contents and Structure of This Thesis)

2 相关技术

2.1 Hadoop 技术(Hadoop Technology)

2.2 Spark计算框架(Spark Framework)

2.3 空间数据挖掘(Spatial Data Mining)

2 . 4 新浪微博数据接口(Weibo API)

2.5 本章小结(Chapter Summary)

3 Spatial-Spark计算框架

3.1 空间数据分析处理(Procession of Spatial Data)

3.2 RDD 空间扩展(Spatial Extension of RDD)

3.3 Spatial-Spark 实 验 分 析 (Experiments and Analysises of Spatial-Spark)

3.4 本章小结(Chapter Summary)

4 PO I空间数据分析

4.1 P O I 数据获取(POI Data Fetch)

4.2 统计分析(Statistical Analysis)

4.3 同位模式(Co-Location Pattern)

4.4 微博 P O I 同位模式(Co-Location Patterns in Weibo POIs)

4.5 本章小结(Chapter Summary)

5 人口空间流动网络分析

5.1 数据获取(User Data Fetch)

5.2 人口流动统计(Statistic of Floating Population)

5.3 人口流向分析(Analysis of Floating Population Route)

5.4 人 口流动网络社群挖掘(Community Mining of Floating Population Network)

5.5 本章小结(Chapter Summary)

6 结论和展望

6.1 结论(Conclusion)

6.2 展望(Perspective)

参考文献

作者简历

学位论文数据集

展开▼

摘要

数字城市是智慧城市重要的组成部分,也同时面临着海量空间数据获取、管理、分析和挖掘等挑战。移动互联网的发展使得网络空间数据呈现爆炸式增长,其中蕴含的信息对智慧城市建设有着重要的参考建议,然而这些数据存在着异质性、不规则性和海量性等特点,使得空间数据查询、空间数据挖掘和空间知识提取愈发难以处理。
  传统的空间分析工具面对上述需求往往捉襟见肘,本文对当前流行的并行计算框架Spark进行空间扩展,构建Spatial-Spark并行空间计算框架。以此为基础,对海量新浪微博POI进行同位模式挖掘,对全国新浪微博用户空间位置进行人口网络图分析,本文所作的工作和结论如下:
  (1)对Spark RDD((Resilient Distributed Datasets)进行空间维度上扩展,对点、线和面构建了相应的Spatial RDD,支持海量空间数据读写、空间坐标转换和分区空间数据索引。提供空间拓扑查询、空间K邻居查询和空间连接查询三个常用的空间查询模块,通过搭建Hadoop/Spark计算集群,验证了Spatial-Spark在处理海量空间数据方面的优势。
  (2)使用新浪微博API获取全国范围内微博POI数据,对其进行同位模式挖掘。首先分析同位模式挖掘算法的关键,使用Spatial-Spark对全连接算法进行并行化设计。对上海、武汉和重庆三市二阶模式进行比较,不同城市呈现不同模式;选择距离阈值d=500m和空间参与度阈值0.6,对北京市微博POI类别进行同位模式挖掘,结果显示阶数越高越呈现商业聚集模式,其中最高六阶模式为(KTV,中餐厅,咖啡厅,甜品店,美容美发店,酒吧)。
  (3)根据全国新浪微博用户在2016年春节期间的空间位置数据,使用Spatial-Spark构建全国城市之间人口流动网络图。首先计算每个城市人口流入量、流出量和流入流出比,发现全国城市在春节期间人口流动呈现多样性;然后采用PageRank算法计算城市在人口流动网络图中的权重,发现城市权重与城市GDP发展的存在相关性,并根据权重将中心城市划分四个层次;最后对社群挖掘算法进行并行化改进,对人口流动网络图进行社群挖掘,发现城市联系紧密性与省份有关,地理位置对其影响很大,但也存在突破地理空间位置限制的城市。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号