Hadoop环境下基于SparkSQL海量自动站数据查询统计初探

黄志; 詹利群; 任晓炜; 李涛

首页> 中文期刊> 《气象科技》 >Hadoop环境下基于SparkSQL海量自动站数据查询统计初探

Hadoop环境下基于SparkSQL海量自动站数据查询统计初探

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:在Hadoop分布式计算和存储架构下,自定义ETL数据清洗规则将海量自动站小时单站文件按所属年和站号合并为大文件流转存储至HDFS中,并运用SparkSQL并行计算框架进行统计处理生成常用气象要素日统计值。结果表明,数据处理和获取时效较关系型数据库方式有显著提升。采用SparkSQL并行计算框架对多气象要素多站点和长时间序列进行数据统计处理查询均能达到秒级别响应,并随着统计站点数的不断增加和时间跨度的延长其优势更为明显,能更高效地支撑此类气象数据服务,为海量气象数据处理从关系型数据库到大数据分布式架构的转换处理提供了新思路。

著录项

来源
《气象科技》 |2019年第5期|768-772871|共6页
作者
黄志; 詹利群; 任晓炜; 李涛;
展开▼
作者单位

广西区气象信息中心南宁530022;

展开▼
原文格式 PDF
正文语种 chi
中图分类电子计算机在大气科学上的应用;
关键词
Hadoop; HDFS; SparkSQL; ETL;

相似文献

中文文献
外文文献
专利

1. 海量数据下基于Hadoop的分布式FP-Growth算法 [J] . 朱颢东 ,薛校博 ,李红婵 . 郑州轻工业学院学报（自然科学版） . 2018,第005期
2. 海量数据下基于Hadoop的分布式FP-Growth算法 [J] . 朱颢东 ,薛校博 ,李红婵 . 轻工学报 . 2018,第005期
3. 大数据环境下基于Hadoop平台的医学数据挖掘算法研究 [J] . Guang-kun JIANG . 机床与液压 . 2018,第018期
4. 大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现 [J] . 洪波 ,吕燕霞 ,黄磊 . 电子设计工程 . 2017,第007期
5. 大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现 [J] . 周佩 ,朱娴睿 ,何汉 . 电脑知识与技术 . 2017,第029期
6. 基于SparkSQL的海量数据仓库设计与实践 [C] . 李振炜 . 2017中国数据库技术大会 . 2018
7. 基于Hadoop云的数据库营销海量数据处理与挖掘的研究 [A] . 王海飞 . 2013

Hadoop环境下基于SparkSQL海量自动站数据查询统计初探

摘要

著录项

相似文献

相关主题

期刊订阅