首页> 中国专利> 一种地理空间大数据处理方法及装置

一种地理空间大数据处理方法及装置

摘要

本发明公开了一种地理空间大数据处理方法及装置。该方法包括:将地理空间数据按类型分别存储在文件系统和数据库;建立实时数据仓库;关联空间数据和时间数据,建立时空数据模型。可见,本发明将地理空间数据按类型分别存储在文件系统、数据库中;建立实时数据仓库,实现地理空间数据的实时处理、分析;通过关联空间数据、时间数据,建立时空数据模型,实现历史数据分析、数据推演预测。

著录项

  • 公开/公告号CN112527945A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利号CN202110184561.1

  • 发明设计人 王琦;王恭华;白欢欢;王崟乐;

    申请日2021-02-10

  • 分类号G06F16/29(20190101);G06F16/28(20190101);

  • 代理机构11589 北京劲创知识产权代理事务所(普通合伙);

  • 代理人王闯

  • 地址 100081 北京市海淀区中关村南大街5号1区689号楼海淀科技大厦6层

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本发明涉及计算机领域,特别涉及一种地理空间大数据处理方法、装置、电子设备、计算机可读存储介质。

背景技术

目前地理空间数据处理方式主要是通过搭建用于存储地理信息系统(GeographicInformation System,GIS)数据的数据库,根据数据被访问的次数将GIS数据分为热数据、温数据和冷数据三个层次,并通过物理存储架构实现GIS数据的冷热均衡;通过人工定时物理备份的方式完成数据备份,防止数据丢失;另外数据分析主要基于专业的GIS软件进行,分析结果以图层形式展示在GIS平台上。

目前智慧城市、城市大脑建设中城市级别的空间信息数据处理方式仍处于原始阶段。现有技术的存储方式在大数据背景下劣势渐渐凸显,主要有以下几种缺陷:1、传统数据库数据量受限;2、数据维护方式复杂;3、实时分析能力差;4、时空分析能力差;5、海量数据检索能力弱。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的地理空间大数据处理方法、装置、电子设备、计算机可读存储介质。

本发明的一个实施例提供一种地理空间大数据处理方法,该方法包括:

将地理空间数据按类型分别存储在文件系统和数据库;

建立实时数据仓库;

关联空间数据和时间数据,建立时空数据模型。

可选地,所述将地理空间数据按类型分别存储在文件系统和数据库,包括:

将地图、卫星影像、地形以及建筑模型数据存储在文件系统;

将物联网数据、公共交通记录、电商物流数据存储在数据库。

可选地,所述建立实时数据仓库,包括:

通过分布式平台Debezium连接所述数据库和开源流处理平台kafka;

通过所述分布式平台Debezium监控所述数据库的变更并同步到所述开源流处理平台kafka的消息队列中;

通过数据引擎Flink拉取所述开源流处理平台kafka的消息队列中的数据,划分数据仓库层次,将数据处理流程分别在原始数据层、数据明细层、数据汇总层、应用层进行完成,建立实时数据仓库。

可选地,所述方法还包括:

将指标分析结果、城市物联网部件数据、人口数据、城市POI数据和矢量、栅格数据存储在搜索服务器Elasticsearch中。

可选地,所述方法还包括:

采用组件Griffin对数据进行质量监控。

本发明的另一个实施例提供一种地理空间大数据处理装置,包括:

数据分类存储单元,用于将地理空间数据按类型分别存储在文件系统和数据库;

数据仓库建立单元,用于建立实时数据仓库;

时空数据模型建立单元,用于关联空间数据和时间数据,建立时空数据模型。

可选地,所述数据分类存储单元用于:

将地图、卫星影像、地形以及建筑模型数据存储在文件系统;

将物联网数据、公共交通记录、电商物流数据存储在数据库;

所述数据仓库建立单元用于:

通过分布式平台Debezium连接所述数据库和开源流处理平台kafka;

通过所述分布式平台Debezium监控所述数据库的变更并同步到所述开源流处理平台kafka的消息队列中;

通过数据引擎Flink拉取所述开源流处理平台kafka的消息队列中的数据,划分数据仓库层次,将数据处理流程分别在原始数据层、数据明细层、数据汇总层、应用层进行完成,建立实时数据仓库。

可选地,所述装置还包括:

实时搜索单元,用于将指标分析结果、城市物联网部件数据、人口数据、城市POI数据和矢量、栅格数据存储在搜索服务器Elasticsearch中。

数据质量监控单元,用于采用组件Griffin对数据进行质量监控。

本发明的另一个实施例提供一种电子设备,其中,该电子设备包括:

处理器;以及,

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的地理空间大数据处理方法。

本发明的另一个实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述的地理空间大数据处理方法。

本发明的有益效果是,将地理空间数据按类型分别存储在文件系统、数据库中;建立实时数据仓库,实现地理空间数据的实时处理、分析;通过关联空间数据、时间数据,建立时空数据模型,实现历史数据分析、数据推演预测。

本发明通过搜索服务器Elasticsearch,实现大数据量(亿级)的实时统计查询。

本发明还引入空间数据质量监控,通过监控数据的完整性、准确性、一致性和及时性来保证数据质量。

附图说明

图1为本发明一个实施例的地理空间大数据处理方法的流程示意图;

图2为本发明一个实施例的地理空间大数据处理方法的原理图;

图3为本发明一个实施例的地理空间大数据处理装置的结构示意图;

图4示出了根据本发明一个实施例的电子设备的结构示意图;

图5示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明将传统GIS与大数据技术相结合,能够解决城市级数据量的存储受限以及实时分析等缺陷,达到城市大脑建设的需求。

图1为本发明一个实施例的地理空间大数据处理方法的流程示意图。如图1所示,该方法包括:

S11:将地理空间数据按类型分别存储在文件系统和数据库;

按照不同数据类型以及不同应用设计不同的存储方式。本发明实施的数据库可以通过对于地图、卫星影像、地形以及建筑模型等空间数据,由于其更新周期以及使用场景的较固定,存储在文件系统中并建立完整时间序列;对于物联网数据、公共交通记录、电商物流等其他含位置信息的空间数据,这类数据在存储时要建设实时数据仓库进行处理,这样可以最大限度的提高数据利用率。

S12:建立实时数据仓库;

实时数据仓库存储的空间数据包括城市物联网数据、公共交通记录、电商物流、微博微信足迹相片等,这些数据的共同点有:时效性、含坐标信息、传感器信息。

S13:关联空间数据和时间数据,建立时空数据模型。

实时数据仓库可存储全部历史数据,结合坐标位置数据(空间数据)、时间数据以及基本信息数据形成时空数据结构,建立时空数据模型,实现数据的历史查询、过程模拟与趋势预测功能。时空数据模型在地籍变更、环境监测、城市演化等领域作用巨大。

时空数据模型是一种有效组织和管理时态地学数据、空间、专题、时间语义完整的地学数据模型,建立合理、完善、高效的时空数据模型是实现时实GIS的基础和关键。

本发明实施例中可采用两种方法建立模型:在时间模型上扩展空间维的方法和面向对象的方法建立时空数据模型,前者描绘对象变迁以及过程,后者的时间维和空间维是垂直的,可表示实体在空间和属性上的变化。建立的模型在城市地籍变更、环境监测方面应用较多,比如地籍历史追溯,环境监测历史重演、未来预测等。

本发明实施例的地理空间大数据处理方法将地理空间数据按类型分别存储在文件系统、数据库中;建立实时数据仓库,实现地理空间数据的实时处理、分析;通过关联空间数据、时间数据,建立时空数据模型,实现历史数据分析、数据推演预测。

在本发明实施例的一种可选的实施方式中,如图2所示,所述将地理空间数据按类型分别存储在文件系统和数据库,包括:

将地图、卫星影像、地形以及建筑模型数据存储在文件系统;

将物联网数据、公共交通记录、电商物流数据存储在数据库。

在实际应用中,第一类数据存储在HDFS文件系统中并建立完整时间序列;第二类数据要分别建库存储,比如建物联网数据库、GPS数据库、LBS数据库等,建库便于后期实时采集提供支持,并不保存所有数据。

具体地,所述建立实时数据仓库,如图2所示,包括:

通过分布式平台Debezium连接所述数据库和开源流处理平台kafka;

通过所述分布式平台Debezium监控所述数据库的变更并同步到所述开源流处理平台kafka的消息队列中;

通过数据引擎Flink拉取所述开源流处理平台kafka的消息队列中的数据,划分数据仓库层次,将数据处理流程分别在原始数据层、数据明细层、数据汇总层、应用层进行完成,建立实时数据仓库。

本发明实施例通过分布式平台Debezium连接数据库与开源流处理平台kafka,监控数据库的变更并同步到kafka消息队列中,使用Flink数据引擎拉取消息队列中的数据。拉取数据后经过简单清洗以及分类将数据存储到HBASE中,作为ODS层(原始数据层),保存原始数据,起到备份的作用;通过FlinkSQL对ODS层数据进行进一步清洗、脱敏、压缩,并进行维度退化之后形成数仓的DWD层(数据明细层);通过分析维度数据形成维度宽表,比如报警信息宽表、工地监测宽表等,这类宽表作为DWS层(数据汇总层)存储;最后根据具体需求开发各种指标,指标运行数据作为APP层(应用层)。

优选地,所述方法还包括:

将指标分析结果、城市物联网部件数据、人口数据、城市POI数据和矢量、栅格数据存储在搜索服务器Elasticsearch中。

城市级数据量在传统GIS检索手段上会面临巨大压力,本发明基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询,根本性解决了这一问题。

本发明使用ES(Elasticsearch)作为底层数据框架,将指标分析结果、城市物联网部件数据、人口数据、城市POI数据等可检索数据以及矢量、栅格数据索引存放在ES中,利用其分布式多用户能力的全文搜索特性达到城市级数据秒级搜索。

优选地,所述方法还包括:

采用组件Griffin对数据进行质量监控。

处理城市级别的数据时,数据质量监控是必不可少的。本发明实施例重点关注数据的完整性、准确性、一致性和及时性,在设计上分为三个模块:数据、规则、告警,并贯穿整个数据流程。通过监控所有不同类型数据,贯穿整个数据生产流程,并制定异常规则以及告警级别来监控数据质量。

本发明实施例使用Griffin组件对数据的完整性、准确性、一致性和及时性来进行监测,并提供监测结果可视化展示以及报警信息通知。

具体流程为:

(1)注册数据,把要检测数据质量的数据源注册到griffin;

(2)配置度量模型,可以从数据质量维度来定义模型,精确度、完整性、及时性、一致性;

(3)配置定时任务提交spark集群,定时检查数据,根据指标设置邮件告警等监控信息;

(4)在门户界面上查看指标,分析数据质量校验结果。

图3为本发明一个实施例的地理空间大数据处理装置的结构示意图。如图3所示,该装置包括:

数据分类存储单元31,用于将地理空间数据按类型分别存储在文件系统和数据库;

数据仓库建立单元32,用于建立实时数据仓库;

时空数据模型建立单元33,用于关联空间数据和时间数据,建立时空数据模型。

本发明实施例的地理空间大数据处理装置将地理空间数据按类型分别存储在文件系统、数据库中;建立实时数据仓库,实现地理空间数据的实时处理、分析;通过关联空间数据、时间数据,建立时空数据模型,实现历史数据分析、数据推演预测。

可选地,数据分类存储单元31用于:

将地图、卫星影像、地形以及建筑模型数据存储在文件系统;

将物联网数据、公共交通记录、电商物流数据存储在数据库;

数据仓库建立单元32用于:

通过分布式平台Debezium连接所述数据库和开源流处理平台kafka;

通过所述分布式平台Debezium监控所述数据库的变更并同步到所述开源流处理平台kafka的消息队列中;

通过数据引擎Flink拉取所述开源流处理平台kafka的消息队列中的数据,划分数据仓库层次,将数据处理流程分别在原始数据层、数据明细层、数据汇总层、应用层进行完成,建立实时数据仓库。

可选地,所述装置还包括:

实时搜索单元,用于将指标分析结果、城市物联网部件数据、人口数据、城市POI数据和矢量、栅格数据存储在搜索服务器Elasticsearch中。

数据质量监控单元,用于采用组件Griffin对数据进行质量监控。

需要说明的是,上述实施例中的地理空间大数据处理装置可分别用于执行前述实施例中的方法,因此不再一一进行具体的说明。

综上所述,本发明将地理空间数据按类型分别存储在文件系统、数据库中;建立实时数据仓库,实现地理空间数据的实时处理、分析;通过关联空间数据、时间数据,建立时空数据模型,实现历史数据分析、数据推演预测。

本发明通过搜索服务器Elasticsearch,实现大数据量(亿级)的实时统计查询。

本发明还引入空间数据质量监控,通过监控数据的完整性、准确性、一致性和及时性来保证数据质量。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的检测电子设备的佩戴状态的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

例如,图4示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备传统上包括处理器41和被安排成存储计算机可执行指令(程序代码)的存储器42。存储器42可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器42具有存储用于执行图1所示的以及各实施例中的任何方法步骤的程序代码44的存储空间43。例如,用于存储程序代码的存储空间43可以包括分别用于实现上面的方法中的各种步骤的各个程序代码44。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。该计算机可读存储介质可以具有与图4的电子设备中的存储器42类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储空间存储有用于执行根据本发明的方法步骤的程序代码51,即可以有诸如处理器41读取的程序代码,当这些程序代码由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。

以上所述,仅为本发明的具体实施方式,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本发明的目的,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号