首页> 中国专利> 一种构建行业风险暴露数据库的POI数据清洗与融合方法及装置

一种构建行业风险暴露数据库的POI数据清洗与融合方法及装置

摘要

本发明涉及一种构建行业风险暴露数据库的POI数据清洗及融合方法,包括数据采集步骤、数据处理步骤、数据输出步骤。所述数据采集步骤包括:获取每个POI数据的属性信息和空间位置信息;获取每个POI数据按照属性信息进行评定的分值;获取每个POI数据的关系类型。所述数据处理步骤包括:至少基于所述属性信息和/或分值和/或关系类型将POI数据进行清洗;基于位置信息和/或关系类型将清洗后的POI数据进行空间合并,并为合并后的POI数据赋分;汇总清洗后的POI数据和空间合并后的POI数据,作为POI最终空间分布的权重。所述数据输出步骤包括:将汇总的POI数据以汇总文件形式输出,并结合GIS技术进行图形显示。经过大量的商业、工业造价拆分空间分布合理性检验及商业、工业面积拆分定量实验表明,应用该POI数据清洗及融合方法能够较好地构建行业风险暴露数据库,并满足地震、台风等巨灾模型的需求。

著录项

说明书

技术领域

本发明属于POI数据处理领域,特别涉及一种构建行业风险暴露数据库的POI数据清洗及融合方法及装置,可以运用在地震、台风、洪水等巨灾模型中。

背景技术

行业风险暴露数据库AED(Aggregate Exposure Database)反映社会可保商业、工业、住宅建筑面积、造价及其空间分布。因此,行业风险暴露数据库可以为省级或地市级的累积总保额做空间拆分,最大可能的减少累积保额下地震保险损失结果的不确定性,提升其在保险定价及地震风险管理中的实用价值。同时,行业风险暴露数据库也可以用来评估地震造成的商业、工业、住宅社会整体经济损失,帮助政府部门及时有效应对灾害,抗震救灾。然而,以构建中国(含香港、澳门等)行业风险暴露数据库AED为例,由于数据的缺失,尚未有成功构建中国商业、工业风险暴露数据库的报道,也没有利用地市级统计年鉴建筑面积及单位造价数据并基于建筑轮廓和POI数据进行空间拆分的报道,更没有如何利用计算机技术完成基于建筑轮廓和POI数据进行空间拆分中POI数据清洗及融合方法的报道。

发明内容

为解决上述技术问题,本发明提供了一种构建行业风险暴露数据库的POI数据清洗及融合方法,其包括数据采集步骤、数据处理步骤、数据输出步骤:

所述数据采集步骤包括:

获取每个POI数据的属性信息和空间位置信息;

获取每个POI数据按照属性信息进行评定的分值;

获取每个POI数据的关系类型;

所述数据处理步骤包括:

至少基于所述属性信息和/或分值和/或关系类型将POI数据进行清洗;

基于位置信息和/或关系类型将清洗后的POI数据进行空间合并,并为合并后的POI数据赋分;

汇总清洗后的POI数据和空间合并后的POI数据,作为最终价值分配权重和空间分布位置的POI;

所述数据输出步骤包括:

将汇总的POI数据以汇总文件形式输出,并结合GIS技术进行图形显示。

本发明还提供了一种构建行业风险暴露数据库的POI数据清洗及融合装置,包括数据采集装置、数据处理装置、数据输出装置:

所述数据采集装置被配置为:

获取每个POI数据的属性信息和空间位置信息;

获取每个POI数据按照属性信息进行评定的分值;

获取每个POI数据的关系类型;

所述数据处理装置包括:

清洗装置,所述清洗装置被配置为至少基于所述属性信息和/或分值和/或关系类型将POI数据进行清洗;

空间合并装置,所述空间合并装置被配置为基于位置信息和/或关系类型和/或属性信息将清洗后的POI数据进行空间合并,并为合并后的POI数据赋分;

汇总清洗后的POI数据和空间合并后的POI数据,作为POI最终空间分布的权重;

所述数据输出装置被配置为:

将汇总的POI数据以汇总文件形式输出,并结合GIS技术进行图形显示。

本发明的有益效果在于,提供了一种如何利用计算机技术完成基于建筑轮廓和POI数据进行空间拆分中POI数据清洗及融合方法,经过大量的商业、工业造价拆分空间分布合理性检验及商业、工业造价拆分定量实验表明,应用该POI数据清洗及融合方法能够较好地构建行业风险暴露数据库,并满足地震巨灾模型等需求。

附图说明

图1POI数据清洗及融合前后的对比;

图2北京市商业造价空间分布合理性检验;

图3北京市朝阳区商业造价空间分布;

图4北京市西城区商业造价空间分布;

图5北京市海淀区商业造价空间分布;

图6北京市工业造价空间分布合理性检验;

图7上海市商业建筑面积定量检验;

图8上海市工业建筑面积定量检验;

图9全国商业建筑面积空间分布图;

图10全国商业造价空间分布图;

图11全国工业面积空间分布图;

图12全国工业造价空间分布图。

具体实施方式

本发明关于一种构建行业风险暴露数据库的POI数据清洗及融合方法的一些实施例中,主要包括数据采集步骤、数据处理步骤、数据输出步骤:

所述数据采集步骤包括:

获取每个POI数据的属性信息和空间位置信息;

获取每个POI数据按照属性信息进行评定的分值;

获取每个POI数据的关系类型;

所述数据处理步骤包括:

至少基于所述属性信息和/或分值和/或关系类型将POI数据进行清洗;

基于位置信息和/或关系类型将清洗后的POI数据进行空间合并,并为合并后的POI数据赋分;

汇总清洗后的POI数据和空间合并后的POI数据,作为POI最终价值分配权重和空间分布位置的POI;

所述数据输出步骤包括:

将汇总的POI数据以汇总文件形式输出,并结合GIS技术进行图形显示。

其中,“POI(Point Of Interest)”又称“兴趣点”,一个POI可以是一个超市、一个大厦、一个公交站等。POI可用于描述“兴趣点”的经纬度、名称、地址、用途等,包括商业POI数据、工业POI数据,通常包括唯一识别编号(FID)、类型(KIND)、经度(LON)、纬度(LAT)、POI编号(POI_ID)关系类型(TYPE)等字段的属性信息;“分值”为所述POI数据的KIND字段,体现POI在最终空间分布的权重,任何已知的赋分方法都在本发明的选择范围之内;“关系类型”为所述POI数据的TYPE字段。

本发明关于清洗方法的一些实施例中包括:

判断关系类型为第一类标签还是第二类标签;

判断同一标的是否包括多个POI_ID;

当关系类型为第一类标签时,即识别到多个POI_ID中包括父类POI_ID和子类POI_ID时,将子类POI_ID进行删除;比如,POI Rel_Type关系如下:Rel_Type=1,表示POI_ID1为POI_ID2的父,关系类型为物理关系,即同一标的是由多个POI_ID组成的,如中再大厦有大厦建筑的POI_ID1和正门POI_ID2,此时需要对子类ID进行识别和删除。

当关系类型为第二类标签时,即识别到多个POI_ID为同一POI,按照不同类型的权重打分高低进行取舍,去掉得分较低的POI_ID。比如,Rel_Type=2,表示POI_ID1与POI_ID2为同一POI,即同一个标的被两个POI_ID重复表示,如北京饭店有酒店的POI_ID1和餐饮的POI_ID2,此时需要按照不同类型的权重打分高低进行取舍,去掉得分较低的POI_ID。

其中,可以用关系类型的取值不同来区分第一类标签还是第二类标签,比如type=1表示POI前后两列ID为父子关系,type=2表示两列ID重复表示为同一POI。

本发明关于所述空间合并方法的一些实施例中包括步骤:

当识别到多个POI_ID为为不同POI,但是基于所述位置信息判断多个POI_ID相距小于阈值n时,将这些POI合并,合并后的POI数据的权重值取各POI权重打分的总和。

其中,阈值n的为阈值值,比如可以设为10米以内;通常也会表示为同一标的,如王府井百货大厦有多个商店的POI_ID,这些并不需要验证关系类型,但却是王府井的一部分,此时需要将这些POI合并,权重值取各POI权重打分的总和。系统可以预设总和为不超过100,在更优的实施例中,如果超过100,则取上限值100。

下面实施例用于更加具体的解释本发明的方法构思,具体为:

采集预建立行业风险暴露数据库的地理范围内的二级地理范围的商业POI数据及工业POI数据、POI最终打分表、所述二级地理范围的POI关系表及其父子关系表、要删除的POI_ID表;

所述数据处理步骤包括:

读取采集到的POI数据的FID、KIND、LON、LAT、POI_ID字段;

读取POI最终打分表并根据POI数据的KIND对应的打分值为POI赋分;

读取父子关系表并删除子类POI数据;

读取要删除的POI_ID表并删除重复的POI数据;

选出父类POI数据以及非父类POI数据汇总;

所述数据输出步骤包括:

输出赋分完以后的POI;

父子关系表;

要删除的POI_ID表

汇总结果文件。

其中,以某省为例,商业POI数据及工业POI数据分别为文本文件,比如可以将商业POI数据命名为Com.txt,将工业POI数据命名为Ind.txt,为该省的名称(下同);“POI最终打分表”包括POI数据的分值区间,根据POI数据的KIND对应的打分值完成POI赋分;“二级地理范围的POI关系表”至少包括TYPE字段,并可根据“二级地理范围的POI关系表”生成“父子关系表”,比如从“二级地理范围的POI关系表”中选取3列的POI_ID,每列字段为[父ID,子ID,1],以POI_Relation_.txt文件名导出;“要删除的POI_ID表”,比如选出type=2的且得分低的POI_ID,共1列[要删除的ID],导出文件type1_deleteCom.txt和type2_deleteInd.txt。

在另外关于所述选出父类POI数据以及非父类POI数据汇总步骤的实施例中,非父类POI数据进行近距离空间合并后再进行汇总。比如,将经纬度后4位小数相同的POI数据进行整合,并重新赋以分值。

本发明的一些实施例中可以采用MATLAB对POI进行合并。

本发明关于一种地震巨灾模型中POI数据清洗及融合装置的实施例中,包括数据采集装置、数据处理装置、数据输出装置:

所述数据采集装置被配置为:

获取每个POI数据的属性信息和空间位置信息;

获取每个POI数据按照属性信息进行评定的分值;

获取每个POI数据的关系类型;

所述数据处理装置包括:

清洗装置,所述清洗装置被配置为至少基于所述属性信息和/或分值和/或关系类型将POI数据进行清洗;

空间合并装置,所述空间合并装置被配置为基于位置信息和/或关系类型将清洗后的POI数据进行空间合并,并为合并后的POI数据赋分;

汇总清洗后的POI数据和空间合并后的POI数据,作为价值分配权重和空间分布位置的POI;

所述数据输出装置被配置为:

将汇总的POI数据以汇总文件形式输出。

在一些清洗装置的实施例中还被配置为:

判断关系类型为第一类标签还是第二类标签;

判断同一标的是否包括多个POI_ID;

当关系类型为第一类标签时,且识别到多个POI_ID中包括父类POI_ID和子类POI_ID时,将子类POI_ID进行删除;

当关系类型为第二类标签时,且识别到多个POI_ID为同一POI,按照不同类型的权重打分高低进行取舍,去掉得分较低的POI_ID。

在一些空间合并装置的实施例中被配置为:

判断关系类型为第一类标签还是第二类标签;

当关系类型为第二类标签时,且当识别到多个POI_ID为不同POI,但是基于所述位置信息判断多个POI_ID相距小于阈值n时(比如10米以内),将这些POI合并,合并后的POI数据的权重值取各POI权重打分的总和。

下面实施示例用于更加具体的解释本发明的装置构思,具体为:所述数据采集装置被配置为:

采集预建立地震巨灾模型的地理范围内的二级地理范围的商业POI数据及工业POI数据、POI最终打分表、所述二级地理范围的POI关系表及其父子关系表、要删除的POI_ID表;

所述数据处理装置被配置为:

读取采集到的POI数据的FID、KIND、LON、LAT、POI_ID字段;

读取POI最终打分表并根据POI数据的KIND对应的打分值为POI赋分;

读取父子关系表并删除子类POI数据;

读取要删除的POI_ID表并删除重复的POI数据;

选出父类POI数据以及非父类POI数据汇总;

所述数据输出装置被配置为:

输出赋分完以后的POI;

父子关系表;

要删除的POI_ID表

汇总结果文件。

在装置的另外一些实施例中,所述选出父类POI数据以及非父类POI数据汇总配置过程中,非父类POI数据进行近距离空间合并后再进行汇总。

以下试验通过结果输出及结果效验来进一步解释本发明的POI数据清洗及融合方法。

试验以重庆市核心城区局部商业区为例,对其结果输出进行比较验证。图1中,绿底黑色圈表示原始POI数据,红色三角形表示经过装置清洗及融合后的POI结果,得到所示效果,经过耦合关系类型、属性信息和空间信息等要素,将原始POI进行了清洗、归类、融合。

试验以全国商业、工业建筑面积及造价为例进行结果校验。

1)商业、工业建筑拆分过程验证

全国商业/工业面积拆分是以各地级市统计年鉴数据作为总量控制的,为了验证拆分过程的准确性,将以地市为单元内的各网格内商业/工业面积值相加求和,与统计数据对比,R

2)商业、工业造价拆分空间分布合理性检验---北京市为例

北京市商业建筑造价拆分结果与Google Earth底图叠加检验,检验拆分结果的合理性。图2中红色圈表示由Google Earth中看到的人类活动和建筑比较密度地区,叠加拆分结果,得到所示效果,由红色到蓝色表示商业造价由大到小。

北京市朝阳区、西城区、海淀区商业建筑造价分布如图3、图4、图5所示。由图可知,北京市朝阳区网格最大值出现在三里屯,商业建筑总造价为303.4亿元;西城区网格最大值出现在金融街,商业建筑总造价为214.4亿元;海淀区网格最大值出现中关村,商业建筑总188.6亿元,与经验认知保持一致。

以北京市都市工业空间布局专题图做参考,风险暴露数据库拆分出的工业造价作对比,如图6所示。有图可知,北京是工业造价拆分结果高值地区与北京市都市工业空间布局专题图基本保持一致。

3)商业、工业建筑面积拆分定量检验——上海市为例

由于商业/工业的面积拆分都是基于地市级统计年鉴数据,因此可以用更低一级行政区划数据,即县级/区级统计数据做定量检验,以上海市为例,用各区的统计数据与拆分数据做验证,结果如图7、图8所示。

4)建筑轮廓数据验证POI评分体系方法——山东省为例

由于建筑轮廓数据是目前已知最为直接、精准的数据,因此可以用来做POI评分体系方法的效验。本研究以山东省为例,用轮廓区覆盖的济南市、青岛市、烟台市、威海市、潍坊市建筑轮廓数据得到的商业及工业建筑总造价与用POI方法得到的商业及工业建筑总造价做比对,来检验POI评分体系构建的合理性。结果,商业建筑总造价结果比较总体向好,POI评分得到的各市商业、工业造价。

为进一步验证POI打分体系构建的合理性,选了济南市建筑轮廓覆盖区,比较直接用建筑轮廓计算及用POI评分体系两种方法计算得到的商业、工业建筑造价最大网格的位置合理性。结果,用建筑轮廓方法得到的商业建筑造价前3网格总和为207亿元,轮廓区商业建筑总造价为724亿元。其中最大网格内分布的建筑包括北园立交桥、大明湖公园、泉城广场、欧亚电子大厦、元易商厦、门艺商场等。

济南市商业建筑造价用POI评分方法得到的结果表明,用POI评分方法得到的商业建筑造价前3网格总和为169亿元,轮廓区商业建筑总造价为754亿元。其中最大网格内分布的建筑包括世茂天城、济南火车站、天成新居、北园高架桥、荷香商厦、银座购物广场等。综合比较两种方法可得出,济南市建筑轮廓覆盖范围内建筑轮廓方法得出的商业建筑总造价比POI评分方法少3.9%,总体保持一致。

济南市工业建筑造价用建筑轮廓方法得到的结果表明,用建筑轮廓方法得到的工业建筑造价前3网格总和为198亿元,轮廓区工业建筑总造价为575亿元。济南市工业建筑造价用POI评分方法得到的结果表明,用POI评分方法得到的工业建筑造价前3网格总和为189亿元,轮廓区工业建筑造价为624.5亿元。

综合比较两种方法得出,济南市建筑轮廓覆盖范围内建筑轮廓方法得出的工业建筑总造价比POI评分方法少7.8%,总体保持一致。

5)全国商业建筑面积及造价空间分布

基于地市统计年鉴数据、全国68核心城市主城区建筑物数据、POI数据,对全国范围的商业建筑面积及造价空间分布计算结果如图9和图10.全国商业总面积79.72亿平方米,全国商业建筑总造价32.62万亿元。

6)全国工业建筑面积及造价空间分布专题图

基于地市统计年鉴数据、全国68核心城市主城区建筑物数据、POI数据,对全国范围的工业建筑面积及造价空间分布计算结果如图11和图12。全国工业总面积85.78亿平米,全国工业建筑总造价33.20万亿元。

本说明书中描述的主题的实施方式和功能性操作可以在以下中实施:数字电子电路,有形实施的计算机软件或者固件,计算机硬件,包括本说明书中公开的结构及其结构等同体,或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序,即,一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块,用以被数据处理设备执行或者控制数据处理设备的操作。

作为替代或者附加,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或者电磁信号,上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。

术语“数据处理设备”包含所有种类的用于处理数据的设备、装置以及机器,作为实例,包括可编程处理器、计算机或者多重处理器或者多重计算机。设备可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。设备除了包括硬件之外,还可以包括创建相关计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一种或多种的组合代码。

计算机程序(还可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)可以以任意形式的编程语言而被写出,包括编译语言或者解释语言或者声明性语言或过程式语言,并且计算机程序可以以任意形式展开,包括作为独立程序或者作为模块、组件、子程序或者适于在计算环境中使用的其他单元。计算机程序可以但不必须对应于文件系统中的文件。程序可以被存储在保存其他程序或者数据的文件的一部分中,例如,存储在如下中的一个或多个脚本:在标记语言文档中;在专用于相关程序的单个文件中;或者在多个协同文件中,例如,存储一个或多个模块、子程序或者代码部分的文件。计算机程序可以被展开为执行在一个计算机或者多个计算机上,所述计算机位于一处,或者分布至多个场所并且通过通信网络而互相连接。

在本说明书中描述的处理和逻辑流程可以由一个或多个可编程计算机执行,该计算机通过运算输入数据并且生成输出而执行一个或多个的计算机程序,以运行函数。处理和逻辑流程还可以由专用逻辑电路,例如,FPGA(可现场编程门阵列)或者ASIC(专用集成电路)执行,并且设备也可以被实施为专用逻辑电路。

适于实行计算机程序的计算机包括并且示例性地可以基于通用微处理器或者专用微处理器或者上述处理器两者,或者任意其他种类的中央处理单元。通常地,中央处理单元将接收来自只读存储器或者随机存取存储器或者这两者的指令和数据。计算机的主要元件是用于运行或者执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。通常地,计算机还将包括或者是可操作性地耦合,以从用于存储数据的一个或多个大容量存储装置接收数据或者传递数据到大容量存储装置,或者接收和传递两者,该大容量存储器例如为磁盘、磁光盘或者光盘。然而,计算机不必须具有这样的装置。此外,计算机可以被嵌入到另一装置中,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏主控台、全球定位系统(GPS)接收器或者可移动存储设备,例如,通用串行总线(USB)闪存盘等。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失存储器、介质和存储器装置,作为实例,包括:半导体存储器装置,例如,EPROM、EEPROM和闪速存储器装置;磁盘,例如,内置硬盘或者可移动磁盘;磁光盘;CD-ROM和DVD-ROM盘。处理器和存储器可以补充以或者并入至专用逻辑电路。

为了发送与用户的交互,本说明书中描述的主题的实施方式可以被实施在计算机上,该计算机具有:显示装置,例如,CRT(阴极射线管)或者LCD(液晶显示器)监控器,用于向用户显示信息;以及键盘和例如鼠标或者追踪球这样的定位装置,用户利用它们可以将输入发送到计算机。其他种类的装置也可以用于发送与用户的交互;例如,提供给用户的反馈可以是任意形式的传感反馈,例如,视觉反馈、听觉反馈或者触觉反馈;以及来自用户的输入可以以任意形式接收到,包括声响输入、语音输入或者触觉输入。另外,计算机可以通过将文档发送至由用户使用的装置并且接收来自该装置的文档而与用户交互;例如,通过响应于接收到的来自网络浏览器的请求,而将网页发送到用户的客户端装置上的网络浏览器。

本说明书中描述的主题的实施方式可以在计算系统中实施,该计算系统包括例如数据服务器这样的后端组件,或者包括例如应用服务器这样的中间组件,或者包括例如客户端计算机这样的前端组件,该客户端计算机具有图形用户界面或者网络浏览器,用户可以通过图形用户界面或者网络浏览器而与本说明书中描述的主题的实施进行交互,或者该计算机系统包括一个或多个这种后端组件、中间组件或者前端组件的任意组合。系统中的组件可以通过例如通信网络的任意形式或介质的数字数据通信而互相连接。通信网络的实例包括局域网络(“LAN”)和广域网络(“WAN”),例如,因特网计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络而交互。客户端与服务器之间的关系利用在各自的计算机上运行并且具有彼此之间的客户端-服务器关系的计算机程序而产生。

虽然本说明书包含很多具体的实施细节,但是这些不应当被解释为对任何发明的范围或者对可以要求保护的内容的范围的限制,而是作为可以使特定发明的特定实施方式具体化的特征的说明。在独立的实施方式的语境中的本说明书中描述的特定特征还可以与单个实施方式组合地实施。相反地,在单个实施方式的语境中描述的各种特征还可以独立地在多个实施方式中实施,或者在任何合适的子组合中实施。此外,虽然以上可以将特征描述为组合作用并且甚至最初这样要求,但是来自要求的组合的一个或多个特征在一些情况下可以从该组合去掉,并且要求的组合可以转向子组合或者子组合的变形。

相似地,虽然以特定顺序在附图中描述了操作,但是不应当理解为:为了实现期望的结果,要求这样的操作以示出的特定顺序或者以顺序次序而执行,或者所有图示的操作都被执行。在特定情况下,多任务处理和并行处理可以是有利的。此外,上述实施方式中的各种系统模块和组件的分离不应当理解为在所有实施方式中要求这样的分离,并且应当理解程序组件和系统可以通常被一体化在单个软件产品中或者打包至多个软件产品中。

已经描述了主题的特定实施方式。其他实施方式在以下权利要求的范围内。例如,在权利要求中记载的活动可以以不同的顺序执行并且仍旧实现期望的结果。作为一个实例,为了实现期望的结果,附图中描述的处理不必须要求示出的特定顺序或者顺序次序。在特定实现中,多任务处理和并行处理可以是有优势的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号