首页> 中国专利> 一种基于GloVe模型的移动信令轨迹相关性表示方法

一种基于GloVe模型的移动信令轨迹相关性表示方法

摘要

一种基于GloVe模型的移动终端信令轨迹相关性表示方法,属于基于位置的服务领域,方法包括以下步骤:采集移动终端信令数据,通过数据预处理消减重复、乒乓、漂移等噪声效应;构建位置网格映射表,将预处理后的位置点映射为网格编号,得到不同移动终端的网格转移序列;以网格转移序列集作为语料库训练GloVe模型,求出每个网格编号的嵌入表征向量,并基于时长加权平均计算任意网格序列的嵌入表达向量,用以表示不同移动终端的时空行为模式;计算目标网格序列与候选网格序列的嵌入表达向量的余弦相似度或明氏距离相似度,并根据相似度得分评估网格转移序列之间的相关性。结果表明本方法能够更好地捕捉到移动终端信令轨迹的相关性。

著录项

  • 公开/公告号CN112738715A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 陕西省信息化工程研究院;

    申请/专利号CN202110054499.4

  • 发明设计人 邱浪波;穆鹏远;蔡勇;南阿健;

    申请日2021-01-15

  • 分类号H04W4/02(20180101);H04W4/021(20180101);H04W4/029(20180101);H04W8/18(20090101);G06K9/62(20060101);

  • 代理机构

  • 代理人

  • 地址 710076 陕西省西安市茶张路1号省信息化中心14楼

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明属于基于位置的服务(Location Based Services,LBS)领域,具体涉及一种基于GloVe模型的移动终端信令轨迹相关性表示方法。

背景技术

移动终端信令数据是一种人类电子足迹数据,其中蕴含着丰富的时空信息,通过分析移动终端信令数据,可以发现移动对象的行为特性、活动规律、兴趣偏好等时空模式,进而为基于位置的服务提供支持。常见的基于移动终端信令的位置服务包括:重点人群监测、公共安全、靶向预警、商业选址、城市空间品质分析、交通规划与路网优化等。

移动终端信令数据的采集依托三大运营商建立的信令监测平台,记录了手机与基站之间的信令数据交换;触发信令数据交换有两种方式,一是通话、短信、上网、区间切换等主动行为,形成的主动信息记录;二是基站定期扫描其覆盖范围内移动终端的在线情况,形成的被动信息记录;信令数据具有全天候、全覆盖、海量性、持续性、低成本等特点。每条信令数据包含了移动终端编号、信令发生时间、基站信息(位置区码、蜂窝小区编号、经纬度坐标)和触发事件代码等字段;通过与基站位置的地理信息关联,就可以构成每一个移动终端的时空活动轨迹;因此,基于移动终端信令轨迹分析人群的时空分布特征和时空流动模式,一直是轨迹数据挖掘研究中的热点,得到了业界众多研究者的广泛关注。

实际的移动通信系统处于复杂电磁环境下,由此造成移动终端的时空活动轨迹与基站位置之间普遍存在大量的误差和噪声数据;主要表现形式有:1)重复;根据用户的时空活动规律,会在诸如家庭、工作地及休闲场所等长时间停留,并随之产生大量的重复信令数据;2)乒乓;若用户处于相邻蜂窝小区的交界处,两基站信号强度相当,易导致移动终端信令在两基站间来回快速切换;3)漂移;在某些特殊情况下,移动终端信令会突然从临近的基站切换到相对较远的宏基站;4)固有偏差;由于基站的信号覆盖效应,导致基站位置与移动终端真实位置存在较大的固有偏差:城区内偏差100~500米,郊区偏差可能超过1km,对于配备拉远站的基站而言,偏差最远可达10km以上;如何有效消减移动终端信令中的误差和噪声,是进行轨迹相关性分析的必要前提条件。

轨迹相关性分析是挖掘人群时空流动模式的关键技术之一;已有的典型轨迹相关性分析技术主要包括:最长公共子序列(Longest Common Subsequence,LCS)、动态时间调整(Dynamic Time Warping,DTW)、最大共现时间(Maximum Co-occurrence Time,MCT)等;上述方法数据处理的时间复杂度较高,重点关注的是不同轨迹点序列在空间上的重合程度,但无法有效度量在人群时空流动模式中具有高度相关、且重合度较低的轨迹段之间的相关性。如何有效度量移动终端信令轨迹的相关性是一个悬而未决的问题。

发明内容

为解决移动终端信令轨迹相关性的有效度量问题,本发明提供了一种基于GloVe模型的移动终端信令轨迹相关性表示方法,该方法包括。

步骤1采集移动终端信令数据,通过数据预处理消减重复、乒乓、漂移等噪声效应。

步骤2构建位置网格映射表,将移动终端信令序列转换为网格转移序列,构建网格转移序列集。

步骤3基于网格转移序列集,训练GloVe模型,得到网格嵌入矩阵,并基于时长加权平均计算出任意网格转移序列的嵌入表达向量。

步骤4计算任意两段网格转移序列的嵌入表达向量的相似度,得到移动终端信令轨迹的相关性。

在上述技术方案中,所述步骤1包括。

步骤1.1采集在重点关注区域出现的移动终端的信令数据,持续时长不少于2个月,信令数据中包括六个基本字段信息:移动终端编号、信令发生时间、位置区码、蜂窝小区编号、基站经度坐标、基站纬度坐标。

步骤1.2整行删除信息不完整的信令数据。根据移动终端编号,对每个移动 终端的信令按照时间先后排序,得到每个移动终端的信令序列,移动终端j的信 令序列记为S

S

其中,t

步骤1.3基于滑动时间窗口W

其中

在上述技术方案中,所述步骤2包括:

步骤2.1构建位置网格映射表。将移动终端信令序列中的轨迹点映射到具有 一定空间覆盖度的网格,其目的是在一定程度上减小基站的信号覆盖效应带来 的固有偏差,有效压缩位置变量的分布空间。分为两种情形:在城区内,基站 部署密度高,采用半径r米的正六边形蜂窝网格覆盖;在郊区,基站部署密度相 对较低,利用DBSCAN聚类算法将基站覆盖位置合并为较大尺度的不规则网格 覆盖。在构建的位置网格映射表中,网格总数为N,网格G

G

其中center_lng

步骤2.2将移动终端信令序列转换为网格转移序列,构建网格转移序列集。 根据位置网格映射表,将平滑处理后的移动终端信令序列中每个轨迹点,基于 最近邻原则映射为最近的网格G

从而得到以网格索引号表示的网格转移序列。例如,移动终端j的网格转移 序列可表示为:

在上述技术方案中,所述步骤3包括:

步骤3.1基于预定义网格宽度窗口W

步骤3.2采用随机梯度下降法训练GloVe模型,通过最小化网格i和j的目标函 数J(v

其中,v

步骤3.3对于任意长度网格转移序列的嵌入表达向量,计算出不同网格的权 重。不妨设网格转移序列的长度为K+1,则前K个网格的时长权重计算公式为:

式中

步骤3.4结合网格嵌入矩阵GridE=(v

从而,可以计算出任意网格转移序列的嵌入表达向量,其长度为嵌入维度E。

在上述技术方案中,所述步骤4包括:

计算任意两段网格转移序列的嵌入表达向量v

或者明氏距离相似度:

本发明方法具有以下优点。

(1)通过数据预处理消减移动终端信令中的误差和噪声,通过位置网格映射表和不同网格的权重兼顾到不同区域的重要性差异。

(2)利用深度学习中的序列嵌入技术,建立了可稳定描述人群时空流动模式的网格嵌入表达向量,通过计算向量之间的相似度,从而有效度量在人群时空流动模式中具有高度相关、且重合度较低的轨迹段之间的相关性。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明作具体阐述。

本实施例中,以陕西省为考察范围,以西安市为重点关注区域,其中北纬取值范围[108.721227°N, 109.140915°N],东经取值范围[34.150732°E, 34.481805°E],涉及到基站数量约为4.98万。

步骤1采集移动终端信令数据,通过数据预处理消减重复、乒乓、漂移等噪声效应。

步骤1.1在2020.04.28–2020.07.27期间,从重点关注区域内出现的所有移动终端中随机选取1000个移动终端,采集到原始信令数据共计24460511条,每条原始信令数据中包括六个基本字段信息:移动终端编号、信令发生时间、位置区码、蜂窝小区编号、基站经度坐标、基站纬度坐标。

步骤1.2 整行删除信息不完整的信令数据;对每个移动终端的信令按照时间先后排序,得到1000个移动终端的信令序列,其中包括18399807条信令数据。

步骤1.3基于滑动时间窗口W

步骤2构建位置网格映射表,将移动终端信令序列转换为网格转移序列, 构建网格转移序列集。

步骤2.1构建位置网格映射表。对西安市重点关注区域采用半径为300米的 正六边形蜂窝网格覆盖,陕西省内其他区域采用DBSCAN算法对基站进行聚类, 合并构成不规则网格,并计算各网格中心点经纬度坐标,构建地理空间网格映 射表,共得到5943个网格。

步骤2.2将1000条移动终端信令序列转换为1000条网格转移序列,其中网格 索引号取值范围[1,5943]。

步骤3基于网格转移序列集,训练GloVe模型,得到网格嵌入矩阵,并基于 时长加权平均计算出任意网格转移序列的嵌入表达向量。

步骤3.1基于预定义网格宽度窗口W

步骤3.2采用随机梯度下降法训练GloVe模型,其中学习率取0.01,循环次 数取50,得到5943个网格的嵌入表征向量

步骤3.3对于长度为K+1的网格转移序列的嵌入表达向量,计算出每个网格 的权重

移动终端26:截取时间段2020-06-05 07:00:00~2020-06-05 09:00:00,发生的移 动信令数据,经过上述步骤处理,得到的网格转移序列长度26(K=25),时间段、网格编号、网 格权重如表1所示。

表1。

移动终端783:截取时间段2020-06-05 07:00:00~2020-06-05 09:00:00,发生的 移动信令数据,经过上述步骤处理,得到的网格转移序列长度7(K=6),时间段、网格编号、网 格权重如表2所示。

表2。

步骤3.4结合网格嵌入矩阵GridE=(v

移动终端26的嵌入表达向量v

[-0.00020927,0.0005792,0.00108622,-0.00021015,0.00035025,0.00206338,-0.00071861,0.00079705,0.00095549,-0.00046904,-0.00033171,0.00019991, -0.00267957,-0.00022226,0.00060844,-0.00099018,0.00079124,0.00047156,0.0005128,0.00117441,0.00150647,0.00094499,-0.00073751,0.00041739,0.00053622,0.00127249,-0.0000979,-0.0005511,-0.00181473,-0.00073599,0.0002963,0.00296922,0.0002236,0.00091548,0.00099559,0.00014784, -0.00149617,-0.00043373,0.00155126,0.00248556,-0.00134076,0.000708,0.00089196,-0.00258728,-0.00002522,0.00140396,0.00229813,-0.00048293, -0.00257826,-0.00169406,0.00114152,0.00079931,0.00029694,0.00242982,0.00029111,0.00207249,-0.00048036,0.00004665,-0.00096276,0.00080228]

移动终端783的嵌入表达向量v

[-0.0189999,-0.01547875,0.01674357,-0.01750407,-0.01475298,-0.0166625, -0.01494532,-0.01893303,-0.01883285,-0.02159209,-0.01536785,0.02052424, -0.01685914,0.00248955,-0.01544047,0.01593026,-0.01451739,0.02144702, -0.02334099,0.02293941,-0.0157658,-0.0204249,-0.01050173,0.01945252, -0.00637136,0.019781,-0.01715144,-0.0187027,-0.0249627,-0.0205044, -0.00369801,0.01847215,0.00211256,0.01425333,0.00132631,-0.01805688, -0.01416264,-0.0133448,0.00601273,0.01707013,-0.02354686,0.02062726, -0.01795361,-0.02283511,0.01576922,0.02252061,0.01794986,0.01885057, -0.02360203,-0.02326177,0.01407123,-0.01934529,0.0203213,0.01772783, -0.00210585,0.02257319,0.01158342,0.01890588,-0.01973429,-0.02269858]

步骤4计算任意两段网格转移序列的嵌入表达向量的相似度,得到移动终 端信令轨迹的相关性。以移动终端26和移动终端783为例说明。

两个向量v

两个向量v

当p=1时是曼哈顿距离,p=2时是欧氏距离,p为无穷大时是切比雪夫距离。 最终通过对相似度大小的分析,就可以判断移动终端轨迹v

综上所述,本发明的基于GloVe模型的移动终端信令轨迹相关性表示方法,通过数据预处理消减移动终端信令中的误差和噪声,通过位置网格映射表和不同网格的权重兼顾到不同区域的重要性差异,通过序列嵌入技术可稳定描述人群时空流动模式,通过相似度计算可有效度量移动终端信令轨迹的相关性,使得属性相似的移动终端信令轨迹尽可能地聚在一起,从而提高了匹配效率,保证基于移动终端信令的位置服务应用中的时间复杂性要求,包括重点人群监测、公共安全、靶向预警、商业选址、城市空间品质分析、交通规划与路网优化等。

风险提示:本发明为基于历史信令数据对移动终端信令轨迹相关性的研究,当社会重大事件发生,例如新冠肺炎疫情、国庆七天长假,需要对位置网格映射表和网格共现矩阵进行重构,否则可能会使得模型失效。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号