首页> 中国专利> 一种高性能时空轨迹关联分析方法、装置及设备

一种高性能时空轨迹关联分析方法、装置及设备

摘要

本发明提供一种高性能时空轨迹关联分析方法、装置及设备,包括构建运营商网络侧O域数据分布式数据库;将运营商网络侧O域数据生成网格二进制文件;实时运营商网络侧O域数据接入与预处理;更新运营商网络侧O域数据分布式数据库和网格二进制文件;查询人员在一定时间内的活动过的时空轨迹;查找与时空轨迹有交集的网格二进制文件集合,计算中所有人员的时间轨迹集合;对时间轨迹与人员的时间轨迹进行时空关联分析,以寻找出对应重点关注人员的所有的时空轨迹关联者。本发明极大提高了时空轨迹关联关系的分析计算效率。

著录项

  • 公开/公告号CN114969567A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN202210920158.5

  • 发明设计人 乐鹏;于大宇;刘畅;

    申请日2022-08-02

  • 分类号G06F16/9536(2019.01);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222;

  • 代理人龚雅静

  • 地址 430072 湖北省武汉市武昌区八一路299号

  • 入库时间 2023-06-19 16:34:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-15

    授权

    发明专利权授予

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/9536 专利申请号:2022109201585 申请日:20220802

    实质审查的生效

说明书

技术领域

本发明属于移动对象数据处理领域,尤其涉及一种高性能时空轨迹关联分析方法、装置及设备。

背景技术

时空轨迹关联分析是时空轨迹数据挖掘领域重要的基础研究之一,特别是对于一些重点人员管理、旅行活动伙伴发现、社交网络分析等任务。

随着智能设备的普及,移动通信网络有庞大的用户群体,产生了规模巨大的运营商网络侧O域数据,而且源于高速采样频率,每时刻的运营商网络侧O域数据的增量也数以千万,

这种高采样频率可进一步确保许多位置服务应用的服务质量,这种海量的运营商网络侧O域数据隐含了每个手机使用者的时空轨迹,可用于进行时空轨迹关联分析等轨迹数据挖掘方法,从而挖掘出城市的潜在功能区、重点人员的旅行活动伙伴、社交网络、活动规律等,并且高采样频率可进一步确保轨迹数据挖掘的质量。然而一个城市一天累计形成的运营商网络侧O域数据达数TB,多天累计数据规模超万亿级。从万亿级数据规模的进行时空轨迹关联分析极具挑战性,目前而言,还没有能利用如此规模运营商网络侧O域数据,在半小时内完成时空关联分析的方法与装置。此外,现有时空轨迹关联分析算法复杂度大,在数据量极大情况下,运算效率较低,且并行可扩展性差,无法在可接受的时间内完成关联分析问题。

发明内容

为了填补技术空白,本发明提供了一种高性能时空轨迹关联分析方法、装置及设备,实现了从特大城市的万亿级运营商网络侧O域数据中快速对特定人员的时空轨迹进行关联分析,检索出与特定人员有时空轨迹关联的人员,可用于重点人群管理等工作。

本发明通过以下技术方案实现的:

一种高性能时空轨迹关联分析方法,包括以下步骤:

步骤1、构建运营商网络侧O域数据分布式数据库,存储与检索海量的运营商网络侧O域数据;

步骤2、将运营商网络侧O域数据生成网格二进制文件;

步骤3、实时运营商网络侧O域数据接入与预处理;

步骤4、更新运营商网络侧O域数据分布式数据库和网格二进制文件;

步骤5、查询人员

步骤6、查找与时空轨迹

步骤7、对于

进一步地,在步骤1中,运营商网络侧O域数据分布式数据库用于存储与检索海量的运营商网络侧O域数据,用于时空轨迹关联者查找的一条运营商网络侧O域数据e被组织为:

其中,IMSI为国际移动用户识别码,TIME为Unix时间戳,LONGITUDE和LATITUDE为经纬度;

所有的运营商网络侧O域数据分时间段

其中,

选定分布式数据库,设计适应于该数据库的手机运营商网络侧O域数据E的逻辑模型Schema,基于Schema构建分布式手机运营商网络侧O域数据数据库DB,并对e的IMSI字段建立索引结构。

进一步地,在步骤2中,基于指定的网格划分方法和进行时空轨迹关联分析所要求 的网格分辨率

进一步地,在步骤3中,设手机产生通讯过程中运营商网络侧O域数据平均采样间 隔为

进一步地,在步骤5中,设已知人员

进一步地,在步骤6中,查找与时空轨迹

将F内部记录的所有q导入到内存中,计算F中所有人员的时间轨迹的集合

进一步地,在步骤7中,对于

其中,

一种高性能时空轨迹关联分析装置,包括:

数据库模块,用于构建运营商网络侧O域数据分布式数据库,存储与检索海量的运营商网络侧O域数据;

网格模块,用于将运营商网络侧O域数据生成网格二进制文件;

数据接入与预处理,用于实时运营商网络侧O域数据接入与预处理;

更新模块,用于更新运营商网络侧O域数据分布式数据库和网格二进制文件;

轨迹查询模块,用于查询人员

时间轨迹计算模块,用于查找与时空轨迹

时空关联分析模块,对于

一种电子设备,所述设备包括分布式存储器、处理器以及在存储器中并可在处理器中运行的计算机程序,所述处理器执行计算机程序时实现所述的高性能时空轨迹关联分析方法的步骤。

与现有技术相比,本发明的优点和有益效果如下:

(1)针对目前尚未提出有效的方法用于从海量的运营商网络侧O域数据中挖掘出特定人员的时空轨迹关联者。本发明提出一种高性能时空轨迹关联分析方法、装置及设备,实现了从千万级人口特大城市的万亿级运营商网络侧O域数据中0.5小时内检索出特定关注人员的时空轨迹关联者。

(2)本发明提供的一种高性能时空轨迹关联分析方法、装置及设备,相比于建立时空网格运营商网络侧O域数据库,本发明将海量运营商网络侧O域数据存储在分布式数据中,将网络侧O域数据的IMSI和TIME字段存储在网格二进制文件中,具备更小的数据冗余度、更高的数据插入和读取的吞吐量、更快的时空轨迹关联分析等优势。

(3)本发明提供的一种高性能时空轨迹关联分析方法、装置及设备,在保证性能优越性的前提下,筛选的时空轨迹关联者包含了旅行活动伴随者,能够保证结果的准确性,不会遗漏重点关联目标。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明实施例提供的一种高性能时空轨迹关联分析方法的流程图;

图2是本发明实施例提供的一种高性能时空轨迹关联分析装置的结构示意图;

图3是本发明实施例提供的一种高性能时空轨迹关联分析方法检索出某特定人员的时空轨迹关联者中部分网络侧O域数据可视化结果。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

第一方面,本发明提供一种高性能时空轨迹关联分析方法,如图1所示,包括以下步骤:

步骤1、构建运营商网络侧O域数据分布式数据库,存储与检索海量的运营商网络侧O域数据;

通过步骤1,提供了人员的时空轨迹快速回溯功能。

步骤2、将运营商网络侧O域数据生成网格二进制文件。

通过步骤2,有利于以极高的吞吐量读取与人员的时空轨迹相关的IMSI和TIME字段到内存。

步骤3、实时运营商网络侧O域数据接入与预处理。

通过步骤3,对运营商数据进行预处理,有利于减轻后续分析的计算压力。

步骤4、更新运营商网络侧O域数据分布式数据库和网格二进制文件。

通过步骤4,有助于维持数据的时效性。

步骤5、查询人员

通过步骤5,提取人员

步骤6、查找与时空轨迹

通过步骤6,剔除了大量与人员

步骤7、对于

通过步骤7,可找出与人员

本发明提供的一种高性能时空轨迹关联分析方法,针对目前尚未提出有效的方法用于从海量的运营商网络侧O域数据中挖掘出特定人员的时空轨迹关联者,能够实现从千万级人口特大城市的万亿级运营商网络侧O域数据中0.5小时内检索出特定人员的时空轨迹关联者。

本发明提供的一种高性能时空轨迹关联分析方法,相比于建立时空网格运营商网络侧O域数据库,本发明将海量运营商网络侧O域数据存储在分布式数据中,具备更小的数据冗余度、更高的数据插入和读取的吞吐量、更快的时空轨迹关联分析检索优势。

(3)本发明提供的一种高性能时空轨迹关联分析方法、装置及设备,在保证性能优越性的前提下,筛选的时空轨迹关联者包含了旅行活动伴随者,能够保证结果的准确性,不会遗漏重点关联目标。在步骤1中,运营商网络侧O域数据分布式数据库用于存储与检索海量的运营商网络侧O域数据,用于时空轨迹关联者查找的一条运营商网络侧O域数据e被组织为:

其中,IMSI为国际移动用户识别码,TIME为Unix时间戳,LONGITUDE和LATITUDE为经纬度;

所有的运营商网络侧O域数据E分时间段

其中,

选定分布式数据库,设计适应于该数据库的手机运营商网络侧O域数据E的逻辑模型(Schema),基于Schema构建分布式手机运营商网络侧O域数据数据库DB,并对e的IMSI字段建立索引结构。

所述步骤1中,IMSI、TIME、LONGITUDE、LATITUDE为e的四个字段。

所述步骤1中,分布式数据库通常为HBase、Mongodb、Cassandra、OceanBase等NoSQL数据库,也可以为NewSQL数据库。

所述步骤1中,设计适应于该数据库的手机运营商网络侧O域数据E的逻辑模型 (Schema),具体为:针对指定的数据库特性,设计易于E快速插入、检索的该数据库的逻辑模 式。如,若选用文档类型NoSQL,e可以文档(Document)存储,

所述步骤1中,索引结构可以选用B-tree、HBase的Rowkey等结构。

所述步骤1中,

在步骤2中,网格二进制文件能够快速读取每个网格内所有的运营商网络侧O域数 据的IMSI和TIME字段,基于指定的网格划分方法和进行时空轨迹关联分析所要求的网格分 辨率

所述步骤2中,网格分辨率

所述步骤2中,IMSI、TIME为q的字段。

所述步骤2中,网格二进制文件中的数据可以分布式数据库存储,也可以存储在文件系统中,通常存在放在文件系统有利于充分利用磁盘吞吐量。保存在文件系统时,既可保存在分布式文件系统,如HDFS、MinIO等,也可保存在非分布式文件系统中。

在步骤3中,设手机产生通讯过程中运营商网络侧O域数据平均采样间隔为

所述步骤3中运营商网络侧O域数据的平均采样间隔

所述步骤3中,将每个人间隔

具体包括:

步骤301、在内存中保存每个IMSI在最近一次接入的TIME;

步骤302、实时接入运营商网络侧O域数据时,判断每个IMSI当前的

步骤303、若

步骤304、插值结束后,更新内存中保存的每个IMSI的最近一次接入的TIME。

所述步骤3中插值方法可选用最邻近插值。

在步骤4中,更新分布式数据库和网格二进制文件能够持久化保存接入的运营商 网络侧O域数据。具体地,对于步骤3中接入的每个e所属的时间段

所述步骤4中,将这些e并行插入到步骤1中分布式数据库DB,具体为:采用OpenMP、POSIX Threads等多线程并行方式,或采用MPI、Hadoop、Spark等多进程并行方式,将这些e划分为指定的线程数或进程数,启动相应数量的线程或者进程并行将它们插入到DB中。

在步骤5中,查询人员

所述步骤5中,

在步骤6中,查找与时空轨迹

在步骤7中,对于

所述步骤7中,共同停留时间

所述步骤7中并行对

在本发明的要给实施例中,以某区域重点关注人群的时空轨迹关联者查询为例, 在步骤1中,构建O域数据分布式数据库与网格二进制文件,具体为:首先,选用文档型非关 系型数据库MongoDB,构建分布式数据库存储运营商网络侧O域数据DB,具体的,将单条运营 商网络侧O域数据组织为e,每一天的O域数据集合

其次,生成网格二进制文件,以快速读取每个网格内所有的运营商网络侧O域数据 的IMSI和TIME字段:采用正四边形的网格划分方法和进行时空轨迹关联分析所要求的网格 分辨率

运营商网络侧O域数据集合E对应的字段集合为Q。每个网格二进制文件中存储了所有属于该网格范围和时间段范围内的e对应的q,每一个网格二进制文件保存在本地文件系统中;

在步骤2中,运营商网络侧O域数据接入、预处理与更新,具体为:手机产生通讯过 程中运营商网络侧O域数据平均采样间隔为

由于人员存在不使用手机通讯的时刻和手机关机的时刻,因此人员的运营商网络 侧O域数据的间隔或为

预处理完成后,更新分布式数据库和网格二进制文件,以持久化保存接入的运营商网络侧O域数据,具体的:计算接入的每个e所属的时间段,将这些e并行插入到步骤1中的分布式数据库DB。根据每个e的LONGITUDE和LATITUDE,计算其所属的网格二进制文件,并行将这些e的IMSI字段和TIME字段插入到步骤2中的网格二进制文件中;

在步骤3中,查询重点关注人员在一定时间内的活动过的网格集合

在步骤4中,查找与时空轨迹

之后,将F内部记录的所有q导入到内存中,计算F中所有人员的时间轨迹的集合

在步骤5中,判断

如图3所示,是本发明实施例提供的一种高性能时空轨迹关联分析方法检索出某重点关注人员的时空轨迹关联者中的部分网络侧O域的可视化结果,本发明能够实现从千万级人口特大城市的万亿级运营商网络侧O域数据中0.5小时内检索出重点关注人员的时空轨迹关联者。

第二方面,提供了一种高性能时空轨迹关联分析装置,实现上述一种高性能时空轨迹关联分析方法,如图2所示,所述装置包括数据库模块、网格模块、数据接入与预处理模块、更新模块、轨迹查询模块和时空关联分析模块:

数据库模块,用于构建运营商网络侧O域数据分布式数据库,存储与检索海量的运营商网络侧O域数据。

数据库模块能够存储海量、高频的运营商O域数据,具备快速的时空轨迹回溯功能。

网格模块,用于将运营商网络侧O域数据生成网格二进制文件。

网格模块能够根据设置的时间区间长度与网格分辨率,存储输入的运营商O域数据中的IMSI和TIME字段,具备IMSI和TIME字段的快速读取功能。

数据接入与预处理模块,用于实时运营商网络侧O域数据接入与预处理。

数据接入与预处理能够实时接入运营商O域数据,执行清洗、插值操作。

更新模块,用于更新运营商网络侧O域数据分布式数据库和网格二进制文件。

更新模块能够对接入和预处理后的数据按时空划分与排序,之后调用数据库和网格模块,实时将运营商O域数据快速入库。

轨迹查询模块,用于查询人员

轨迹查询模块能够根据输入的IMSI和时间范围,调用数据库模块,查询IMSI对应的人员在时间范围内活动过的时空轨迹。

时间轨迹计算模块,用于查找与时空轨迹

时间轨迹计算模块能够输入一个人员的时空轨迹,首先查询与该时空轨迹有交集的所有的网格二进制文件并读取到内存,之后计算这些文件中的潜在时空轨迹关联人员集合与潜在时空轨迹关联人员对应的时间轨迹集合;

时空关联分析模块,用于对于

时空关联分析模块能够输入人员

第三方面,本发明实施例提供了一种电子设备,所述设备包括分布式存储器、处理器以及在存储器中并可在处理器中运行的计算机程序,所述处理器执行计算机程序时实现如本发明第一方面所述一种高性能时空轨迹关联分析方法的步骤;

第四方面,本发明实施例提供了一种计算机可读存储介质,用于储存为上述第二方面所提供的一种高性能时空轨迹关联分析装置所用的计算机软件指令,或存储用于执行上述第二方面为一种高性能时空轨迹关联分析装置所设计的程序。

本发明实施例中的存储器用于存储各种类型的数据以支持本发明提供的电子设备的操作。这些数据的示例包括:用于在本发明提供的电子设备上操作的任何计算机程序。

本发明实施例揭示的一种高性能时空轨迹关联分析方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,高性能时空轨迹关联分析方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,DigitalSignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明实施例提供的面向重点关注人员的高性能时空轨迹关联分析方法的步骤。

在示例性实施例中,本发明提供的电子设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。

在一应用示例中,本发明提供的电子设备包括笔记本电脑,笔记本电脑用于运行计算机程序时,实现前述任一实施例所述的高性能时空轨迹关联分析方法。

可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对实施例的实施过程构成任何限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号