首页> 中国专利> 一种基于Hadoop的大数据遥感卫星数据处理系统

一种基于Hadoop的大数据遥感卫星数据处理系统

摘要

本发明提供了一种基于Hadoop的大数据遥感卫星数据处理系统,该系统包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,其中,Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元;该系统以数据在线化为基础,支持面向应用的分布式存储和处理,可以同时支持横向跨行业和纵向跨历史的数据分析。该系统具有灵活的可扩展性,支持未来新发射的遥感卫星地面系统的快速建设和在线接入。

著录项

  • 公开/公告号CN105045856A

    专利类型发明专利

  • 公开/公告日2015-11-11

    原文格式PDF

  • 申请/专利权人 中国资源卫星应用中心;

    申请/专利号CN201510400968.8

  • 发明设计人 邵俊;徐文;喻文勇;徐大琦;冯春;

    申请日2015-07-09

  • 分类号G06F17/30(20060101);

  • 代理机构11009 中国航天科技专利中心;

  • 代理人范晓毅

  • 地址 100094 北京市海淀区永丰产业基地丰贤东路5号

  • 入库时间 2023-12-18 12:02:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-10

    授权

    授权

  • 2015-12-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150709

    实质审查的生效

  • 2015-11-11

    公开

    公开

说明书

技术领域

本发明涉及计算机技术在遥感卫星数据处理系统中的应用领域,特别涉及 一种基于Hadoop的大数据遥感卫星数据处理系统。

背景技术

随着卫星遥感的快速发展,遥感卫星数据在国土、林业等领域逐渐呈现出 业务化应用的趋势,而目前遥感卫星数据处理系统的体系架构,基于现有技术 发展水平,以满足用户需求为导向,尚未对具有“3V(Volume;Variety;Velocity)” 特征且不能用常规手段处理的遥感卫星大数据进行适应性分析与设计。随着硬 件成本的降低,网络带宽的提升,分布式计算的兴起,网络技术的发展、智能 终端及物联网等的兴起与应用,遥感卫星数据的时空尺度和要素类型全面拓展, 其种类和数据量急剧膨胀,逐渐呈现出多源、多维、大量、多态和高速的大数 据特征,且用户在大数据时代对于数据信息的需求呈现多元化趋势,有效处理、 存储、分析和应用这些大数据,满足用户的多元化需求已经成为未来遥感卫星 数据处理系统设计的关键。

当前,为满足多星地面处理系统功能和性能的要求,根据计算机、存储、 网络和信息技术的发展,遥感卫星数据处理系统采用集中存储管理、集中处理 的体系架构,分为数据获取层、数据存储层、数据处理与分析层及数据应用层, 其架构如图1所示。现有的多个系统之间有独立的计算、存储、软件及算法资 源,这些资源尚未得到很好的统筹利用。

然而,随着遥感卫星发射越来越密集,其载荷数据及应用多样性越来越显 著,同时遥感卫星数据存储规模急速增长,用户对数据处理及应用的高时效性 需求越来越强烈,系统还面临着高可扩展性需求及系统资源整合的紧迫性需求。 当前遥感卫星数据处理系统架构无法满足大数据时代面临的新的挑战,必须结 合当前大数据技术的发展,解决目前系统面临的挑战。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于Hadoop的大数据 遥感卫星数据处理系统,该系统采用基于Hadoop的数据平台实现数据分布式 存储和管理,适用于大数据处理和分析。

本发明的上述目的通过以下方案实现:

一种基于Hadoop的大数据遥感卫星数据处理系统,包括数据获取子系统、 Hadoop数据平台、计算处理子系统和应用子系统,所述Hadoop数据平台包 括分布式文件子系统、资源管理子系统、数据库和物理存储单元,其中:

数据获取子系统:接收外部采集系统发送的源数据,对所述源数据进行解 压缩或格式转换,然后将数据发送到Hadoop数据平台的分布式文件子系统;

分布式文件子系统:接收数据获取子系统发送的数据,以及计算处理子系 统发送的数据处理结果,将所述数据和数据处理结果按照分布式存储策略存储 在物理存储单元中,并将所述存储数据和数据处理结果的元信息存储在数据库 中;

资源管理子系统:接收应用子系统发送的指令,对所述指令进行解析,按 照指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数 据元信息发送到计算处理子系统;

计算处理子系统:接收资源管理子系统发送的数据元信息和指令解析结果, 根据所述数据元信息在Hadoop数据平台的物理存储单元中读取相应数据,然 后按照所述指令解析结果对数据进行相应处理,并将数据处理结果发送到分布 式文件子系统进行存储;

应用子系统:发送指令到资源管理子系统,并通过分布文件子系统读取数 据处理结果进行显示。

在上述的基于Hadoop的大数据遥感卫星数据处理系统中,Hadoop数据 平台的存储物理单元为在线盘阵。

在上述的基于Hadoop的大数据遥感卫星数据处理系统中,计算处理子系 统包括多个分布式物理计算单元,并且所述分布式物理计算单元和资源管理子 系统通过光纤网络实现互连。

在上述的基于Hadoop的大数据遥感卫星数据处理系统中,资源管理子系 统包括MapReduce计算框架,所述计算框架实现数据划分、计算调度和数据 归约整合控制,具体控制实现方法如下:

(1)、MapReduce计算框架根据指令解析结果对数据处理任务进行划分, 按照任务划分结果将各分任务对应的数据元信息和指令分发到计算处理子系统 的各分布式物理计算单元;

(2)、各分布式物理计算单元根据接收到的数据元信息读取相应数据,并 按照接收到的指令进行数据处理;

(3)、MapReduce计算框架根据步骤(1)的任务划分结果,对各分布式 物理计算单元的数据处理结果进行归约整合,即各分布式物理计算单元按照 MapReduce计算框架给出的归约整合指令将数据处理结果发送到分布式文件 子系统进行存储。

在上述的基于Hadoop的大数据遥感卫星数据处理系统中,应用子系统包 括多个应用服务器,所述应用服务器通过如下方法实现数据查询和下载处理:

应用服务器接收外部输入的数据查询或下载命令,对所述命令进行解析后, 按照命令解析结果在Hadoop数据平台的数据库中查找数据元信息,然后按照 所述数据元信息从物理存储单元中读取数据,并在用户计算机上对所述数据进 行显示或下载。

本发明与现有技术相比,具有以下优点:

(1)、本发明采用的Hadoop数据平台采用分布式存储策略实现大数据的 存储,相对于现有技术中采用的集中存储方式,这种分布存储策略可以避免存 储单元物理损坏造成大片数据丢失的问题,提高了数据存储的安全性,而且这 种分布存储策略支持存储物理单元的规模扩展,从而实现存储容量的灵活扩充;

(2)、本发明采用的Hadoop数据平台采用在线盘阵作为物理存储单元, 数据完全采用在线化存储,提高了数据存储和提取效率;

(3)、本发明的计算处理子系统由多个分布式计算单元组成,每个计算单 元处理的数据类型和算法类型互补,各单元之间可以共享计算资源后可以实现 多类型数据的多种处理实现。

附图说明

图1为现有技术中遥感卫星数据处理系统组成框图;

图2为本发明的基于Hadoop的大数据遥感卫星数据处理系统组成框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述:

如图2所示的系统组成框图,本发明的基于Hadoop的大数据遥感卫星数 据处理系统包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用 子系统,其中,Hadoop数据平台包括分布式文件子系统、资源管理子系统、 数据库和物理存储单元。

(一)、数据获取子系统

数据获取子系统处于大数据获取层,用于接收外部采集系统发送的源数据。 该源数据包括卫星遥感数据、定标数据、基础地理信息数据等。数据获取子系 统需要根据源数据的类型进行数据整理,如果源数据为压缩数据,则需要按照 设定的压缩格式对该数据进行解压缩,而且需要将各源数据的数据格式统一为 适应Hadoop数据平台的格式。完成数据整理后,将适应于Hadoop数据平台 的数据发送到Hadoop数据平台的分布式文件子系统。

(二)、Hadoop数据平台

本发明的Hadoop数据平台为基于Hadoop的大数据平台,该平台基于分 布式文件系统HDFS建立遥感卫星数据存储策略,可以满足不同时效性数据存 储和读取需求,而且该平台采用YARN架构,如同平台的资源管理器,控制整 个集群并管理应用程序向基础计算资源的分配,允许多个应用程序同时、高效 地运行在一个集群上。而且该平台具有MapReduce分布式计算框架,该计算 框架可以进行数据划分、计算调度和数据归约整合,从而完成数据信息快速分 布式处理。该平台的数据库采用HBase列式数据库系统,可以用来存储大量的 数据元信息。该平台还具有spark、storm等计算框架,其中,spark计算框架 为数据分析工具,storm用来处理流式数据。该平台通过ZooKeeper分布式协 调系统对整个平台的资源进行协同服务。

在以上的Hadoop应用环境中,本发明的Hadoop数据平台可以划分为分 布式文件子系统、资源管理子系统、数据库和物理存储单元。本发明在工程实 现中采用在线盘阵作为数据平台的物理存储单元,从而实现了数据完全在线化 存储。

分布式文件子系统接收数据获取子系统发送的数据,以及计算处理子系统 发送的数据处理结果,将所述数据和数据处理结果按照分布式存储策略存储在 物理存储单元中,并将所述存储数据和数据处理结果的元信息存储在数据库中。 该子系统基于Hadoop系统的HDFS分布式文件系统,按照该系统的分布策略 进行数据分布存储,这种分布策略的效率高,而且允许对数据平台的在线盘阵 进行灵活扩充,即本发明处理系统的存储物理单元为可扩展的在线盘阵。而且 由于采用了数据分布式存储,可以避免存储单元物理损坏而引起的整组数据的 丢失,提高了数据处理系统的安全性。

资源管理子系统接收应用子系统发送的指令,对所述指令进行解析,按照 指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数据 元信息发送到计算处理子系统。资源管理子系统包括MapReduce计算框架, 所述计算框架实现数据划分、计算调度和数据归约整合,具体实现方法如下:

(1)、MapReduce计算框架根据指令解析结果对数据处理任务进行划分, 按照任务划分结果将各分任务对应的数据元信息和指令分发到计算处理子系统 的各分布式物理计算单元;

(2)、各分布式物理计算单元根据接收到的数据元信息读取相应数据,并 按照接收到的指令进行数据处理;

(3)、MapReduce计算框架根据步骤(1)的任务划分结果,对各分布式 物理计算单元的数据处理结果进行归约整合,即各分布式物理计算单元按照 MapReduce计算框架给出的归约整合指令将数据处理结果发送到分布式文件 子系统进行存储。

(三)、计算处理子系统

位于数据计算及分析层的计算处理子系统,接收资源管理子系统发送的数 据元信息和指令解析结果,根据所述数据元信息在Hadoop数据平台的物理存 储单元中读取相应数据,然后按照所述指令解析结果对数据进行相应处理,并 将数据处理结果发送到分布式文件子系统进行存储。在本发明中,为了提高整 个系统的资源利用率和计算效率,将多个分布式物理计算单元通过光纤网络连 接后组成计算处理子系统。这些计算单元都可以与资源管理子系统进行通信, 可以根据资源管理子系统划分的任务进行数据块的处理,然后再经资源管理子 系统将处理结果进行归约整合。在实际工程应用中,单个的计算单元可以处理 的数据类型以及可以实现的算法类型可能不同,采用这种分布式计算处理子系 统进行组合处理,可以适应于多种类型数据的处理,因此本发明的数据处理系 统可以同时支持跨行业的数据分析。

(四)、应用子系统

位于应用层的应用子系统发送指令到资源管理子系统,并通过分布文件子 系统读取数据处理结果进行显示。在进行数据查询和下载过程中,应用子系统 的应用服务器可以直接对查询和下载命令进行解析,并按照解析结果从分布文 件子系统中读取数据进行显示和下载。但如果用户需要对数据进行分析处理时, 就会发送指令到资源管理子系统。其中应用服务器通过如下方法实现数据查询 和下载处理:

应用服务器接收外部输入的数据查询或下载命令,对所述命令进行解析后, 按照命令解析结果在Hadoop数据平台的数据库中查找数据元信息,然后按照 所述数据元信息从物理存储单元中读取数据,并在用户计算机上对所述数据进 行显示或下载。

以上所述,仅为本发明一个具体实施方式,但本发明的保护范围并不局限 于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想 到的变化或替换,都应涵盖在本发明的保护范围之内。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技 术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号