首页> 中文学位 >基于Hadoop的空间矢量数据的分布式存储与查询研究
【6h】

基于Hadoop的空间矢量数据的分布式存储与查询研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的主要工作和结构安排

第二章 分布式存储与并行处理技术概述

2.1 空间数据以及非结构化数据概述

2.2 并行计算框架MapReduce概述

2.3 分布式数据库HBase概述

2.4 HBase与MapReduce集成

2.5 本章小结

第三章 空间数据的存储与查询关键技术研究

3.1 空间数据的分布式存储研究

3.2 空间数据的查询关键技术研究

3.3 空间数据的存储表行健的设计

3.4 空间数据存储表的列族的设计

3.5本章小结

第四章 基于HBase的空间数据的分布式存储

4.1 矢量空间数据处理

4.2 空间数据导入HBase算法研究

4.3 空间数据分布式存储实验

4.4 本章小结

第五章 空间数据的区域查询的算法并行化

5.1 窗口区域查询算法

5.2 多边形区域查询算法

5.3 本章小结

第六章 空间数据的K近邻查询的算法并行化

6.1 面向点的K近邻的查询算法

6.2 基于Geohash索引表的K近邻查询算法

6.3 实验结果和分析

6.4 本章小结

第七章 总结与展望

7.1 总结

7.2 展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

目前空间数据的规模不断增长,使得处理和分析空间数据技术的难度不断增加,同时 GIS在各个行业的广泛应用,海量空间数据进行高效管理和处理的难度不断加大,多数领域也对空间数据的精度提出了越来越高的要求,迫切需要新的技术和方法来管理和处理海量的空间数据。目前的开源的分布式大数据处理平台利用分布式存储和并行计算的方法能为解决上述问题提供一种新的方法。
  本文基于Hadoop开源大数据处理平台,利用HBase在空间数据并发访问和数据处理方面的优势来高效、合理存储和管理空间数据,主要在空间数据的存储和查询两个方面作了比较深入的研究。首先,研究了空间数据存储与并行处理的国内外现状,分析对比了当前空间数据的几种存储方式,深入研究了MapReduce并行计算框架的整个原理和运行的机制以及 HBase的存储模型,并设计了空间数据复合行键拼接加入分隔符的行键存储模式,取消了过滤列族的设计。接着使用GeoTools工具将Shapefile文件导入HBase表,通过GeoTools工具构建出空间数据对象,分析了GeoTools工具整合到 MapReduce并行计算框架下空间数据处理的流程。最后,在此基础上,提出了空间数据的窗口查询、多边形区域查询的MapReduce并行化解决方案以及基于Geohash的空间数据的K近邻查询算法,并在Hadoop的分布式环境中进行了空间数据导入和多种空间查询和并行处理实验,验证了HBase存储和处理空间数据的优势以及查询算法有更高的效率和更好的准确性。
  主要取得了以下研究成果:
  (1)通过一种在HBase中新的空间数据的存储表模式设计,来获得HBase在海量空间数据分布式存储方面性能的优越性。
  (2)提出将 GeoTools工具整合到 MapReduce并行计算框架下空间数据处理的流程,通过这个方式来完成空间数据的导入导出。
  (3)采用 MapReduce2.0并行程序设计框架来完成空间数据的窗口查询、多边形区域查询,经实验证明,该并行化算法对比与传统查询算法有明显的优势。
  (4)提出了基于Geohash的空间数据的K近邻查询算法,利用地理散列的前缀匹配串作为行键存储的空间数据表模式,完成区域内的K近邻空间对象的检索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号