首页> 中文会议>第32届中国气象学会年会 >基于Hadoop的气象数据平台设计与研究

基于Hadoop的气象数据平台设计与研究

摘要

随着气象业务高速发展,新的观测仪器和观测方法层出不穷,气象数据呈现爆炸式增长的势头,除了原有的常规地面观测数据,卫星、雷达等大数据量的观测数据在业务中得到越来越重要的应用.过去对于气象资料的使用方式主要是针对单个或多个数据文件进行处理和访问,目前本省气象信息中心还有相当大一部分的历史资料按月压缩存储于各类介质上,使用时需要经过拷贝、解压才能进行数据文件的查看和操作,效率低下,极其不便.据不完全统计,信息中心存储的各类历史数据和业务资料已超过40TB,随着数据量的快速增长,原有数据归档和使用方法的效率将会越来越低.实时数据业务也存在一定问题,特别是由于目前国家局通过CMACast下发至省级的数据由新一代数据服务器多路分发至各业务服务器上供不同业务部门使用,没有统一的存储和数据访问接口,不同的数据分散存储在各个服务器上,冗余量大,服务、管理效率低下,预报员分析一次天气过程可能需要同时访问多个服务器,耗时费力.一旦出现问题涉及节点过多,不便于排查和及时解决问题.不同类型数据文件的特点和使用方式也决定了其访问效率,某些数据文件量大,例如自动站数据单个文件夹下日文件个数过万,应用访问时响应很慢,如果需要在短时间内查找调用某个文件,几乎不可能实现.由于不同业务部门数据需求多样,权限配置和网络结构也相对复杂,这给数据的安全性带来了一定的隐患.对于气象资料的存储,各级气象部门都做了大量的工作,例如中国气象局气象信息中心建立了国家级气象资料存储检索系统,目前使用的新一代通信系统也有相应的后台数据库.但是ORACLE、MySQL等常见的关系型数据库并不适用于所有业务场景,特别是当需要高并发、大数据量的高效率读写的时候,效率会非常低;其扩展和升级的灵活性受到很大的限制,绝大部分关系型数据库是不支持在线升级或者增加硬件节点;遇到复杂查询特别是多表关联查询,查询效率将会大幅下降.Hadoop是目前比较流行的、面向大数据运算、开源的大数据处理系统,其高吞吐量、高容错性、易扩展的特点使它在各行各业都得到了广泛的应用.Hadoop的核心在于HDFS分布式文件系统和MapReduce分布式运算模型,其优势在于可以利用相对低端的硬件配置,实现高吞吐量的文件访问,尤其适合气象部门这种拥有海量气象数据集的业务应用.本文在Linux集群基础上,基于Hadoop分布式技术,对省级气象部门海量气象数据高效处理后存储到分布式文件库中,设计并研究了基于Hadoop的省级海量数据管理和服务平台,并进行文件读写测试,为下一步建立历史实时一体化数据环境打下坚实的基础.测试结果表明,海量小文件使用MapFile进行文件合并,按块方式读写后,100万文件的list时间可以缩短至3分钟,并且读取文件的时间可以达到秒级.以上测试时间受限于测试服务器的硬件配置,提升硬件配置正式业务部署后,将会进一步缩短数据访问和读取时间.数据存储和服务都基于linux平台,从根源上远离泛滥的微软系统病毒,支持海量数据存储,保证新数据的顺利接入.改变现有气象资料传统的文件共享方式,数据可以通过网络安全,高效的共享和访问,提供集约化的数据服务接口,缩短资料查找和访问需要时间,极大的提高预报和科研业务的效率;拥有健全的安全访问管理,多种数据备份方式,消除数据安全隐患,具有较强的容错纠错能力,便于故障恢复.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号