首页> 中国专利> 基于多源信息融合的人口数据空间化方法、装置和设备

基于多源信息融合的人口数据空间化方法、装置和设备

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及POI大数据处理技术领域，具体涉及一种基于多源信息融合的人口数据空间化方法、装置和设备，获取研究区域的夜间灯光数据、城市POI数据和人口数据，按照预设规则在研究区域内划分空间分布格网，建立以子人口数据为因变量，子夜间灯光数据为自变量的多元线性回归模型，根据多元线性回归模型，确定每个空间分布格网的人口分布的初始预估值，将行政区域的子人口数据作为约束条件对行政区域内的空间分布格网的初始预估值进行修正，确定人口预测值。本发明将夜间灯光数据同POI数据相结合，依据人口统计数据，构建回归分析模型，开展人口空间化建模，实现人口空间分布模拟及预测，数据不存在滞后性，且模型精确度较高。

著录项

公开/公告号CN112395383A

专利类型发明专利
公开/公告日2021-02-23

原文格式PDF
申请/专利权人湘潭大学;
展开▼

申请/专利号CN202011371075.2
发明设计人石东平;谢承煜;熊立春;王新丰;何利文;张孝强;
展开▼

申请日2020-11-30
分类号G06F16/29(20190101);G06F16/9537(20190101);G06Q10/04(20120101);G06Q50/26(20120101);
代理机构11471 北京细软智谷知识产权代理有限责任公司;
代理人葛钟
地址 411100 湖南省湘潭市雨湖区羊牯塘6号湘潭大学
入库时间 2023-06-19 10:00:31

说明书

技术领域

本发明涉及POI大数据处理技术领域，具体涉及一种基于多源信息融合的人口数据空间化方法、装置和设备。

背景技术

目前“空间数据社会化”是研究的热点，人口数据空间化研究作为其重要领域，可有效对人口数据进行离散化处理，挖掘隐藏空间信息。人口数据空间化的研究核心是人口统计数据离散化处理。早期人口数据空间分析研究为传统静态格网化，目前研究方向正逐渐向动态空间化演变。静态格网化方法应用空间差值法或人口分布模型法等将人口统计数据投影到单元尺寸格网中，仅单一考虑人口分布影响。伴随着遥感技术的发展，动态空间化研究将夜间灯光、土地利用、道路路网等同人口分布相结合，实现在一定空间尺度的栅格单元分配人口数据。

但是，利用夜间灯光数据可有效进行人口空间化分析，其研究方向多是同土地利用数据相结合，依据人口统计数据构建人口空间分布模型，但因土地利用数据的滞后性，其模型精确度较低，导致人口空间化分析的可靠性较低。

发明内容

有鉴于此，本发明的目的在于提供一种基于多源信息融合的人口数据空间化方法、装置和设备，以克服目前人口空间化分析的可靠性较低的问题。

为实现以上目的，本发明采用如下技术方案：

一种基于多源信息融合的人口数据空间化方法，包括：

获取研究区域的夜间灯光数据、城市POI数据和人口数据；

按照预设规则在所述研究区域内划分空间分布格网，确定所述空间分布格网、所述研究区域内的行政区域、所述城市POI数据和所述夜间灯光数据的对应关系；

根据每个所述行政区域中的子人口数据、每个所述行政区域中每类城市POI数据对应的子夜间灯光数据，建立以所述子人口数据为因变量，所述子夜间灯光数据为自变量的多元线性回归模型；

根据所述多元线性回归模型，确定每个空间分布格网的人口分布的初始预估值；

将所述行政区域的子人口数据作为约束条件对所述行政区域内的所述空间分布格网的初始预估值进行修正，确定每个所述空间分布格网的人口预测值。

进一步地，以上所述基于多源信息融合的人口数据空间化方法，所述将所述行政区域的子人口数据作为约束条件对所述行政区域内的所述空间分布格网的初始预估值进行修正，确定每个所述空间分布格网的人口预测值，包括：

确定每个所述行政区域内每类城市POI数据对应的所有初始预估值之和，作为该行政区域该类城市POI数据的总初始预估值；

确定该行政区域内，每个所述初始预估值和城市POI数据类型与所述初始预估值对应的总初始预估值的比值，将所述比值与该行政区域内的子人口数据的乘积作为所述人口预测值。

进一步地，以上所述基于多源信息融合的人口数据空间化方法，所述获取研究区域的夜间灯光数据，包括：

获取夜间灯光遥感数据；

将所述夜间灯光遥感数据的投影坐标系转换为UTM投影坐标系并进行辐值矫正，得到标准夜间灯光数据；

在所述标准夜间灯光数据中截取所述研究区域的夜间灯光数据。

进一步地，以上所述基于多源信息融合的人口数据空间化方法，所述城市POI数据的获取过程包括：

调用预设地图网站的接口以获取初始城市POI数据；

对所述初始城市POI数据进行数据筛选、UTM投影坐标系转换以及重复的POI数据清理，得到标准城市POI数据；

在所述标准城市POI数据中截取所述研究区域的城市POI数据。

进一步地，以上所述基于多源信息融合的人口数据空间化方法，所述子夜间灯光数据包括灯光总亮度、灯光亮元数和灯光暗元数；

所述多元线性回归模型为：

其中，P

进一步地，以上所述基于多源信息融合的人口数据空间化方法，所述根据所述多元线性回归模型，确定所述研究区域中每个预先划分的空间分布格网中人口分布的初始预估值，包括：

通过如下公式确定所述初始预估值：

其中，gridP

进一步地，以上所述基于多源信息融合的人口数据空间化方法，所述确定每个所述行政区域内每类城市POI数据对应的所有初始预估值之和，作为该行政区域该类城市POI数据的总初始预估值，确定该行政区域内，每个所述初始预估值和城市POI数据类型与所述初始预估值对应的总初始预估值的比值，将所述比值与该行政区域内的子人口数据的乘积作为所述人口预测值，包括：

通过如下公式确定所述人口预测值：

式中，gridP

本发明还提供了一种基于多源信息融合的人口数据空间化装置，包括获取模块、确定模块、模型建立模块和修正模块；

所述获取模块，用于获取研究区域的夜间灯光数据、城市POI数据和人口数据；

所述确定模块，用于按照预设规则在所述研究区域内划分空间分布格网，确定所述空间分布格网、所述研究区域内的行政区域、所述城市POI数据和所述夜间灯光数据的对应关系；

所述模型建立模块，用于根据每个所述行政区域中的子人口数据、每个所述行政区域中每类城市POI数据对应的子夜间灯光数据，建立以所述子人口数据为因变量，所述子夜间灯光数据为自变量的多元线性回归模型；

所述确定模块，还用于根据所述多元线性回归模型，确定每个空间分布格网的人口分布的初始预估值；

所述修正模块，用于将所述行政区域的子人口数据作为约束条件对所述行政区域内的所述空间分布格网的初始预估值进行修正，确定每个所述空间分布格网的人口预测值。

进一步地，以上所述基于多源信息融合的人口数据空间化装置，所述修正模块，具体用于确定每个所述行政区域内每类城市POI数据对应的所有初始预估值之和，作为该行政区域该类城市POI数据的总初始预估值，确定该行政区域内，每个所述初始预估值和城市POI数据类型与所述初始预估值对应的总初始预估值的比值，将所述比值与该行政区域内的子人口数据的乘积作为所述人口预测值。

本发明还提供了一种基于多源信息融合的人口数据空间化设备，包括处理器和存储器，所述处理器与所述存储器相连：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储所述程序，所述程序至少用于执行以上任一项所述的基于多源信息融合的人口数据空间化方法。

本发明的基于多源信息融合的人口数据空间化方法、装置和设备，获取研究区域的夜间灯光数据、城市POI数据和人口数据；按照预设规则在研究区域内划分空间分布格网，确定空间分布格网、研究区域内的行政区域、城市POI数据和夜间灯光数据的对应关系；根据每个行政区域中的子人口数据、每个行政区域中每类城市POI数据对应的子夜间灯光数据，建立以子人口数据为因变量，子夜间灯光数据为自变量的多元线性回归模型；根据多元线性回归模型，确定每个空间分布格网的人口分布的初始预估值；将行政区域的子人口数据作为约束条件对行政区域内的空间分布格网的初始预估值进行修正，确定每个空间分布格网人的人口预测值。本发明提供的技术方案，将夜间灯光数据同POI数据相结合，依据人口统计数据，构建回归分析模型，开展人口空间化建模，实现人口空间分布模拟及预测，数据不存在滞后性，且模型精确度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于多源信息融合的人口数据空间化方法一种实施例提供的流程图；

图2是本发明基于多源信息融合的人口数据空间化装置一种实施例提供的结构示意图；

图3是本发明基于多源信息融合的人口数据空间化设备一种实施例提供的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明基于多源信息融合的人口数据空间化方法一种实施例提供的流程图。请参阅图1，本实施例可以包括以下步骤：

S1O1、获取研究区域的夜间灯光数据、城市POI数据和人口数据。

在一种具体地实施方式中，以城市A作为研究区域，对人口数据空间化进行研究。

本实施例中，可以通过如下子步骤获取研究区域的夜间灯光数据：

子步骤一：获取夜间灯光遥感数据；

子步骤二：将夜间灯光遥感数据的投影坐标系转换为UTM投影坐标系并进行辐值矫正，得到标准夜间灯光数据；

子步骤三：在标准夜间灯光数据中截取研究区域的夜间灯光数据。

具体地，可以调用武汉大学“珞珈一号”LJ1-01科学实验卫星，以获取夜间灯光遥感数据，其空间参考系统为WGS84，地面空间分辨率为130m。将夜间灯光遥感数据的投影坐标系转换为UTM投影，对其进行辐射校正，得到标准夜间灯光数据。考虑到研究区域的范围，对标准夜间灯光数据以研究区域作为掩膜进行裁剪，得到夜间灯光数据。

本实施例中，可以通过如下子步骤获取研究区域的信息点(Point ofInformation，POI)数据：

子步骤一：调用预设地图网站的接口以获取初始城市POI数据；

子步骤二：对初始城市POI数据进行数据筛选、UTM投影坐标系转换以及重复的POI数据清理，得到标准城市POI数据；

子步骤三：在标准城市POI数据中截取研究区域的城市POI数据。

具体地，可以调用预设地图网站的接口爬取初始城市POI数据。在一种具体地实施方式中，可以调用高德地图、百度地图等地图网站的API接口获取初始城市POI数据。其中，初始城市POI数据涉及20个大类，分别为：汽车服务、汽车销售、汽车维修、摩托车服务、餐饮服务、购物服务、生活服务、体育休闲服务、医疗保健服务、住宿服务、风景名胜、商务住宅、政府机构及社会团体、科教文化服务、交通设施服务、金融保险服务、公司企业、道路附属设施、地名地址信息、公共设施。同时，每个大类别都还有二级以及三级的细小划分。

对初始城市POI数据进行筛选，筛选其中小区、住宅、商场、医院、学校等人口活动相关的类别，然后进行UTM投影坐标转换及数据清理。其中，数据清理指的是删除爬取的重复数据与乱码数据。一般地，爬取工作完成后，能够得到一系列带有坐标的POI数据，但是在爬取POI时为了避免遗漏，半径的设置及关键词的设置等可能会偏大，就会出现重复的POI点，而且爬取过程中有可能会出现乱码，本实施例将重复数据与乱码数据删除，得到标准城市POI数据。考虑到研究区域的范围，对标准城市POI数据以研究区域作为掩膜进行裁剪，得到城市POI数据。

本实施例中，可以通过如下子步骤获取研究区域的人口数据：

可以获取统计局发布的统计年鉴，将行政区划作为为底图，将人口数量投影到行政区划，形成人口数据。

S1O2、按照预设规则在研究区域内划分空间分布格网，确定空间分布格网、研究区域内的行政区域、城市POI数据和夜间灯光数据的对应关系。

本实施例中，首先建立研究区域范围内的格网矢量数据，即在研究区域内划分空间分布格网。其中，空间分布格网的边长可以按照预设规则确定。在一种具体地实施方式中，建立研究区域范围内200m的格网矢量数据。

可以确定空间分布格网、研究区域内的行政区域、城市POI数据和夜间灯光数据的对应关系。在一种具体地实施方式中，若以街道作为行政区域，那么可以确定每个街道对应的空间分布格网、每个街道内的城市POI数据类型、城市POI数据的分布、每类城市POI数据对应的夜间灯光数据等。

S1O3、根据每个行政区域中的子人口数据、每个行政区域中每类城市POI数据对应的子夜间灯光数据，建立以子人口数据为因变量，子夜间灯光数据为自变量的多元线性回归模型。

本实施例中，可以应用夜间灯光数据和城市POI数据作为数据源，基于人口数据，构建多元回归分析模型进行人口数据格网空间化。

本实施例中，子夜间灯光数据包括灯光总亮度、灯光亮元数和灯光暗元数。回归模型因变量为子人口数据，自变量为灯光总亮度、灯光亮元数和灯光暗元数。应用多元线性回归模型建立子夜间灯光数据、每个行政区域中每类城市POI数据对应的子夜间灯光数据同子人口数据之间的反演关系，其多元线性回归模型的具体表达为：

其中，P

S1O4、根据多元线性回归模型，确定每个空间分布格网的人口分布的初始预估值。

利用上述步骤得到的多元线性回归模型，得到格网尺度内的人口计算公式，以确定每个空间分布格网的人口分布的初始预估值。公式如下：

其中，gridP

S1O5、将行政区域的子人口数据作为约束条件对行政区域内的空间分布格网的初始预估值进行修正，确定每个空间分布格网的人口预测值。

需保证研究区域内，所有格网累积后的人口总数同人口统计数据一致，因此将研究区域内的总人口数据作为约束条件对初始预估值进行修正，以确定每个空间分布格网的人口预测值。具体地，确定每个行政区域内每类城市POI数据对应的所有初始预估值之和，作为该行政区域该类城市POI数据的总初始预估值；确定该行政区域内，每个初始预估值和城市POI数据类型与初始预估值对应的总初始预估值的比值，将比值与该行政区域内的子人口数据的乘积作为人口预测值。

修正公式为：

式中，gridP

由于本实施例基于街道区域范围建立多元回归模型，验证模型精度时，若依靠格网数据实际人口开展验证，无法获取格网级别的实际人口数据。故选用街道区域下一级的行政社区范围来验证多元回归模型。将行政社区单元内的格网数据预测值及统计值进行对比。应用平均绝对误差、均方根误差(及平均相对误差三个指标开展精度分析。

其中，P

基于一个总的发明构思，本发明还提供了一种基于多源信息融合的人口数据空间化装置，用于实现上述方法实施例。图2是本发明基于多源信息融合的人口数据空间化装置一种实施例提供的结构示意图。如图2所示，本实施例的装置包括：获取模块11、确定模块12、模型建立模块13和修正模块14；

获取模块11，用于获取研究区域的夜间灯光数据、城市POI数据和人口数据；

确定模块12，用于按照预设规则在研究区域内划分空间分布格网，确定空间分布格网、研究区域内的行政区域、城市POI数据和夜间灯光数据的对应关系；

模型建立模块13，用于根据每个行政区域中的子人口数据、每个行政区域中每类城市POI数据对应的子夜间灯光数据，建立以子人口数据为因变量，子夜间灯光数据为自变量的多元线性回归模型；

确定模块12，还用于根据多元线性回归模型，确定每个空间分布格网的人口分布的初始预估值；

修正模块14，用于将行政区域的子人口数据作为约束条件对行政区域内的空间分布格网的初始预估值进行修正，确定每个空间分布格网的人口预测值。

进一步地，本实施例的基于多源信息融合的人口数据空间化装置，修正模块14，具体用于确定每个行政区域内每类城市POI数据对应的所有初始预估值之和，作为该行政区域该类城市POI数据的总初始预估值，确定该行政区域内，每个初始预估值和城市POI数据类型与初始预估值对应的总初始预估值的比值，将比值与该行政区域内的子人口数据的乘积作为人口预测值。

进一步地，本实施例的基于多源信息融合的人口数据空间化装置，获取模块11，具体用于获取夜间灯光遥感数据，将夜间灯光遥感数据的投影坐标系转换为UTM投影坐标系并进行辐值矫正，得到标准夜间灯光数据，在标准夜间灯光数据中截取研究区域的夜间灯光数据。

进一步地，本实施例的基于多源信息融合的人口数据空间化装置，获取模块11，具体还用于调用预设地图网站的接口以获取初始城市POI数据，对初始城市POI数据进行数据筛选、UTM投影坐标系转换以及重复的POI数据清理，得到标准城市POI数据，在标准城市POI数据中截取研究区域的城市POI数据。

进一步地，本实施例的基于多源信息融合的人口数据空间化装置，子夜间灯光数据包括灯光总亮度、灯光亮元数和灯光暗元数；

多元线性回归模型为：

其中，P

进一步地，本实施例的基于多源信息融合的人口数据空间化装置，确定模块12，具体用于通过如下公式确定初始预估值：

其中，gridP

进一步地，本实施例的基于多源信息融合的人口数据空间化装置，修正模块14，具体用于通过如下公式确定人口预测值：

式中，gridP

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于一个总的发明构思，本发明还提供了一种基于多源信息融合的人口数据空间化设备，用于实现上述方法实施例。图3是本发明基于多源信息融合的人口数据空间化设备一种实施例提供的结构示意图。如图3所示，本实施例的基于多源信息融合的人口数据空间化设备包括处理器21和存储器22，处理器21与存储器22相连。其中，处理器21用于调用并执行存储器22中存储的程序；存储器22用于存储程序，程序至少用于执行以上实施例中的基于多源信息融合的人口数据空间化方法。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多源信息融合的人口数据空间化方法、装置和设备 [P] . 中国专利： CN112395383A . 2021-02-23
2. 基于多源信息融合的输电线路故障快速诊断方法、装置、设备及介质 [P] . 中国专利： CN113960417A . 2022-01-21
3. CROWDSENSING-BASED MULTI-SOURCE INFORMATION FUSION INDOOR POSITIONING METHOD AND SYSTEM [P] . WO2021093872A1 . 2021-05-20

机译：基于众包的多源信息融合室内定位方法和系统
4. METHOD AND APPARATUS FOR PROCESSING AND TRANSMITTING DEMOGRAPHIC DATA BASED ON SECONDARY MARKETING IDENTIFIER IN A MULTI-COMPUTER ENVIRONMENT [P] . 世界知识产权组织专利： WO2009049075A3 . 2009-06-04

机译：多计算机环境中基于二级市场标识的人口数据处理与传输方法及装置
5. METHOD AND APPARATUS FOR PROCESSING AND TRANSMITTING DEMOGRAPHIC DATA BASED ON SECONDARY MARKETING IDENTIFIER IN A MULTI-COMPUTER ENVIRONMENT [P] . 世界知识产权组织专利： WO2009049075A2 . 2009-04-16

机译：多计算机环境中基于二级市场标识的人口数据处理与传输方法及装置