首页> 中国专利> 面向全球变化研究的空间科学数据元数据自动汇聚方法

面向全球变化研究的空间科学数据元数据自动汇聚方法

摘要

本发明公开一种面向全球变化研究的空间科学数据元数据自动汇聚方法,属于信息技术领域。本方法为:1)选定数据源,服务器定期对数据源进行访问,生成下载列表和下载任务;2)根据当前下载列表和下载任务,访问数据源服务器,进行元数据文件下载,并将其保存到服务器;3)对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取、计算和转换;4)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;5)通过文件路径、元数据项数据库的id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。本方法可一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-12-19

    授权

    授权

  • 2012-02-08

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110802

    实质审查的生效

  • 2011-12-21

    公开

    公开

说明书

技术领域

本发明属于信息技术、全球变化研究领域,尤其涉及在面向全球变化研究领域中采用信 息技术对分布、多源、异构空间科学数据元数据进行自动汇聚方法。

背景技术

随着全球变化的负面影响越来越严重、全球环境问题的日益突出,全球变化的研究正在 受到空前的重视。这一点可从国际科学联合会理事会(ICSU)等国际科学组织陆续发起的四大 全球环境变化研究计划表现出来:1980年发起世界气候研究计划(WCRP)、1987年发起国际地 圈生物圈计划(IGBP)、1991年发起生物多样性计划(DIVERSITAS)、1996年发起国际全球环境 变化的人文因素计划(IHDP)。并且,这四大科学计划于2001年联合组建了地球系统科学联盟 (ESSP),联盟的目的在于推动对地球系统的综合集成研究、促进地球系统各研究计划之间的合 作、加强人类对地球系统的深入认识。

目前全球变化研究主要采用的手段和方法包括发展全球分析、模拟、数据挖掘等。在 当前的大科学时代,无论上述的哪一种研究手段,都需要大量的科学数据作为研究的基础和 支持。观测技术,特别是卫星遥感技术的快速发展,提供了对整个地球系统行为进行监测 的能力,而基于此的空间科学数据则为全球变化的研究提供了直接的基础。

在全球变化研究领域中,不同层次、角度的研究模型众多,而这通常需要各种来源的科 学数据作为基础。即使针对一个研究模型,也常常需要汇聚多个数据源的遥感空间科学数据 来支持,而这些遥感科学数据源一般情况下处于分布、异构状态。比如遥感数据由于气象等 自然条件影响,单一数据源的遥感影像无法覆盖整个研究区域,通常需要使用其他数据源进 行替补。在无法快速、准确定位、汇聚分布、异构遥感空间科学数据的情况下,这些遥感空 间科学数据的空间分布、结构多样性在很大程度上限制了科学研究的计算尺度范围。此问题 需要一个功能完善的空间科学数据自动汇聚平台去解决。

考虑到空间科学数据自动汇聚的前提是元数据的自动汇聚,全球变化的研究计划和科学 家迫切需要一种能对分布式、多源、异构空间科学数据元数据进行自动汇聚的平台。它能方 便科学数据元数据的查询、定位,最终使得科学家可以方便地、一站式地查询分布在全球各 地的海量全球变化空间科学数据元数据资源。经过查询文献,目前尚未发现能解决上述问题 的方法和平台。

发明内容

针对上述需要对全球变化空间科学数据元数据资源自动汇聚的问题,本发明的目的在于 提供一种面向全球变化研究的空间科学数据元数据自动汇聚方法。本发明提出结合空间科学 数据的特点,根据系统工程分而治之的思路,通过元数据资源动态发现、元数据动态汇聚、 元数据一致化表达及转换、元数据统一快速准确检索等步骤实现空间科学数据元数据资源的 自动汇聚。

本发明包括以下步骤(如图1所示):

(1)元数据资源动态发现

考虑到全球变化科学数据海量膨胀,涌现出了大量的优质数据资源,且多数数据资源的 元数据资源都采用友好的数据共享政策。不断扩展新的元数据资源,并实现元数据资源的动 态发现是元数据资源自动汇聚的一个关键。为此需要建立兼容性强的数据源汇聚接口,通过 透明、快捷的方式对元数据资源进行动态发现和确认,以更好地整合分布式遥感空间科学数 据元数据资源。

(2)元数据动态汇聚

即如何保持数据提供方和面向全球变化研究的空间科学数据元数据自动汇聚平台之间元 数据记录的一致性问题。为此,需要在分析数据源的元数据资源更新状况基础上,形成不同 的元数据收割方式和频率,及基于此的元数据下载模块,以满足数据更新需求和减轻系统负 载之间的良好折中,实现元数据实时或准实时同步。

(3)元数据一致化表达及转换

分布式空间科学数据元数据的表达具有多样性特征,要实现对元数据的统一化管理和检 索,必须实现全球变化科学数据元数据的一致化表达。为解决不同来源元数据的表达多样性 问题,需要在全球变化科学数据领域的国际通用数据表达和数据互操作规范的基础上建立本 地兼容性良好的元数据信息模型,并开发本地元数据转换器对不同来源的元数据进行解析、 转换、信息提取,以实现元数据的一致化表达。

(4)元数据统一快速准确检索

如上述,全球变化相关数据具有关系复杂、非结构化、数据量大、多比例尺、随时间变 化等特点,异构性强。在进行元数据的一致化转换和表达基础上,面对超大规模的海量科学 数据元数据,需要建立高效快速索引(数字)系统和元数据库系统,以实现统一、快速、准 确的元数据检索、定位。

为实现上述目的,本发明采用如下的技术方案:

一种面向全球变化研究的空间科学数据元数据自动汇聚方法,包括如下步骤:

(1)服务器对不同的数据源,定期循环执行以下过程:根据数据产品类型的不同,生成该 数据源元数据文件的可能有效id列表,并对其中的每一个id进行有效性验证(验证 的标准是id所标示的元数据文件是否存在)从而得到当前有效的元数据文件id列表, 对其中有效的id生成完整的元数据文件url(含对应的图片文件url),并将这些元数 据文件url(含对应的图片文件url)组合生成下载列表和下载任务,并启动下载任务 (如图2所示)。

(2)服务器在识别目标任务(含正常与否、任务类型等)后按照任务量和资源情况启动相 应的下载线程,并按照线程的情况和公平规则动态分配下载列表(对于已下载的任务, 会默认不进行重复下载),之后各线程按照配置文件连接数据服务器及按照所分配的列 表顺序获取文件流、对下载内容进行存储、对图片文件进行尺寸缩小和对下载过程中 的异常进行恢复和纠正等(如图3所示)。

(3)元数据文件(含对应的图片文件)下载完成后服务器对下载的文件完成质量检查(包 括文件是否可以正常打开、文件大小是否匹配、元数据文件和图片文件及缩小的图片 文件之间是否一一对应等)、元数据项提取、在计算的基础上识别四个顶点的经纬度值、 元数据转换、元数据入库和建立数字索引等(如图4所示)。

(4)服务器对元数据按照文件(之前步骤完成)、元数据项数据库数据、索引数据等不同形 式进行存储,并按照规则进行映射形成逻辑上统一的元数据环境,基于此提供逻辑上 统一的元数据检索接口(如图5所示)。

(5)用户检索部分提供用户检索接口,并完成对用户的查询(经纬度、空间对象)进行相 关性计算、按照规则(如距离等)对结果数据进行排序、根据用户的需要完成元数据 查询、定位等(如图6所示)。

通过上述步骤,完整地实现了面向全球变化研究的空间科学数据元数据自动汇聚等工 作。

与现有技术相比,本发明的优点和积极效果:

基于本发明的方法,可以使得科学家们方便地、一站式地查询分布在全球各地的海量全 球变化空间科学数据元数据资源,解决全球变化研究中的元数据自动汇聚问题。

附图说明

图1面向全球变化研究的空间科学数据元数据自动汇聚流程图;

图2元数据资源动态发现;

图3元数据动态汇聚;

图4元数据一致化表达及转换;

图5元数据存储管理;

图6用户检索部分。

具体实施方式

下面以landsat数据为例说明一下本发明的实施方式。

首先对需要汇聚的特定数据源整理其数据网站的地址(比如landsat的数据网站地址为 http://glovis.usgs.gov/)和需要汇聚的数据产品类型(比如LANDSAT-7 SLC_off)。

接下来服务器根据landsat数据产品类型、年份、日数等不同,生成可能有效的数据产品 id列表,landsat的数据产品id是一种格式为:LXSPPPRRRYYYYDDDGSIVV型的字符串,其中每 一位的含义为:

L-表示Landsat数据。

X-表示产品类型(M代表MSS,T代表TM,E代表ETM+)。

S-表示卫星(1,2,3,4,5,7)。

PPP-表示WRS通道。全球的范围是001-251,中国的范围是114-151。

RRR-表示WRS列。全球范围是001-248,中国的范围是011-051。

YYYY-表示数据产品的年份。

DDD-表示数据产品日数(001-366)。

GSI-表示地面站标识(比如北美站点为AAA,中国北京站点为BJC等)。

VV-表示版本(两位数字)。

之后服务器对生成的数据产品id列表中的每一个id进行有效性验证,可以通过提交到数 据网站的验证接口(比如landsat的接口为

http://edcsns17.cr.usgs.gov/EarthExplorer/order/bulkDownload.php)根据元数据文件 是否存在验证id的有效性;或者在下述拼接url基础上通过直接访问元数据文件的方式根据元 数据文件是否存在验证id的有效性。

对有效的数据产品id,在数据产品id和元数据文件url固定部分的基础上,拼接生成目标 (元数据及其对应图片)文件的url地址(比如数据产品id=LE71370312010294SGS00的元数据 文件的地址:http://edcsns17.cr.usgs.gov/cgi-bin/EarthExplorer/fgdc.cgi?

dataset_name=LANDSAT_ETM&entity_id=LE71370312010294SGS00&format=HTM)。对于生成的 有效元数据文件url(含对应的图片文件url),组合生成下载文件列表和下载任务(一个下 载任务对应的下载列表中某一类型数据产品需下载的url数量占该下载任务需下载url总数量 的比例等同于该类型数据产品的有效id数量占当前数据源中总有效id数量的比例;并且url 依次按照数据产品类型、时间顺序排列),并启动之。

服务器元数据动态汇聚部分在检测到已经可以启动的landsat下载任务后,按照下载列表 的url数量和数据源的数据服务器的资源情况启动相应的下载线程,并按照线程的情况及公平 原则将下载列表动态分配(分配规则:采取完全随机的方式进行分配)给下载线程,之后各 线程按照配置文件连接元数据服务器及按照所分配的列表顺序获取文件流、对下载内容进行 存储、对图片文件进行尺寸缩小和对下载过程中的异常进行恢复和纠正等。

服务器对下载完成的元数据文件(含对应的图片文件),首先需要经过质量检查,包括 文件是否能打开,文件大小和下载前是否相同,元数据文件、图片文件、缩小的图片文件是 否一一对应等。对质量检查合格的元数据文件可以进行元数据项的提取(比如数据产生时间、 实体数据文件所包含数据范围四个顶点的经纬度值、云量等),并通过计算判断的方式确定 四个顶点的经纬度值(计算判断的原则是:最北点的纬度值最大,最南点的纬度值最小,最东 点的经度值最大,最西点的经度值最小),之后在对元数据项进行必要转换(比如考虑到对 数字建立索引的过程中对正数处理比较方便,统一将所有的经纬度值增加一个固定的正数, 例如180,从而将所有的经纬度转换成大于或等于0的数;为了表达一致和建立索引高效,将 数据的产品类型等统一转换成数字编码)的基础上对四个顶点经纬度值等建立数字索引(每 一个数据均有一个唯一的数据id值),同时将其他的元数据内容(包括元数据文件的路径) 插入到本发明服务器的元数据项数据库中(每一个数据均有一个唯一的数据id值)。此过程 中在元数据文件、元数据项数据库数据、数字索引项数据之间通过文件路径、元数据项数据 库的数据id值、数字索引项中的数据id值(和元数据项数据库中的数据id值是同一值,对应 一致)建立一一对应的映射关系,从而在此基础上形成可统一访问的数据检索接口。

此后,用户可以在用户检索部分提供的检索接口,通过直接输入经纬度值或者提交特定 空间对象特征(服务器事先建立这些空间对象特征和经纬度之间的对应关系,在用户提交空 间对象特征时,服务器首先将这些特征转换为经纬度值)等作为查询条件,服务器将用户输 入或经转换后的经纬度值增加固定的数值(比如180)后对查询条件进行相关性计算,并对 查询结果按照区域中心点和查询区域中心点的距离、时间、云量等条件顺序排列,以此展示 特定区域的空间数据情况,比如landsat数据产品中存在的此区域的数据列表,数据产生时 间、云量等等。如果用户需要这些数据,可向对应的数据源(比如landsat)提出数据预定 申请。

在此基础上,实现了分布、多源、异构空间科学数据元数据的自动汇聚等功能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号