法律状态公告日
法律状态信息
法律状态
2020-07-14
授权
授权
2018-03-02
实质审查的生效 IPC(主分类):G06F17/30 申请日:20170913
实质审查的生效
2018-02-02
公开
公开
技术领域
本发明属于数据挖掘技术领域,尤其在揭示地铁沿线区域功能、把握城市交通系统规划、建设智慧城市等领域具有重要意义,具体涉及一种基于LDA模型的地铁站点功能挖掘方法。
背景技术
随着信息技术革命的不断深入,信息化与数字化的浪潮席卷了现代城市。然而,现代化和城市化的迅猛发展也带来了诸如交通拥堵、资源配置、环境污染等棘手问题。如今,大数据的发展为解决这些问题提供了思路和可能。利用城市大数据和城市计算为城市管理者和规划者提供有价值的信息参考,提升城市管理、服务效率,可以处理城市发展中遇到的问题和挑战。基础设施方面,传感技术的大范围扩散、智能交通系统以及基于地理位置的IT服务不但为城市生活带来了智能和极大的便捷,还使我们获得了大量的城市数据,例如人类移动轨迹信息、社会活动信息及环境信息等,同时,数据中心和云计算的建设和发展也在技术上使我们具备了处理这些大规模异构数据的能力。
数据挖掘是一门结合了统计学、人工智能、机器学习和数据库系统的发现巨大的数据集中模式的计算过程,是计算机科学下的一门交叉学科。数据挖掘的总目标是从数据集中提取信息并将其转化为可理解的结构为未来所用。
在现代城市交通系统中,地铁凭借载客量大、快速高效、低环境污染的特点成为当今都市最优的交通方式。作为一座城市交通的脉搏,一方面,地铁系统方便了城市中心地带间的互通往来,因此,地铁站点往往是一座城市执行其城市功能最中心的地标性地带,另一方面,地铁也促进了地铁线路沿线经过的区域的发展,故而新的功能区在地铁站点处聚集成型。众所周知,城市的不同区域在城市发展的进程中渐渐孕育出了各类的城市功能,以满足居民某种特定的社会经济活动需求,这些区域既可以是人为的被规划者所设计,也可能是由于人类实际生活方式所自然形成,同时,在一个城市发展的过程中,这些功能区的区域和功能都可以被改变。在地铁沿线的站点所在区域的功能形成和演化正是以上过程的典型代表,加以地铁系统在城市发展中不可或缺的地位,使得地铁沿线地区的功能相较其他区域更为特殊重要。
发明内容
本发明的目的是运用数据挖掘的方法揭示地铁沿线区域功能。挖掘地铁站点这一城市重要的特殊区域的功能,可以让我们了解城市核心功能分布,把握城市生命线发展脉络,进而为诸如城市交通系统规划、区域发展规划、资源配置等城市规划提供宝贵的参考,建设智慧城市,具有重要的实际意义。
本发明的技术方案:
一种基于LDA模型的地铁站点功能挖掘方法,步骤如下:
(1)收集地铁客流数据作为乘客出行模式矩阵,收集地铁POI数据作为POI相对含量矩阵;
(2)以乘客出行模式矩阵和POI相对含量矩阵为输入,应用LDA主题模型挖掘站点静动语义;
(3)移动语义挖掘与位置语义挖掘
a)将所有站点的出行模式的频率通过一个形为m*n的矩阵Msp来表示,其中m为站点的总数目,n为所有可能出现的出行模式的总数目;
b)将站点出行模式矩阵Msp作为LDA的输入,得到一个m*k的站点功能矩阵,其中,k为潜在功能的数目,k设为20;
c)建立一个m*t的站点POI矩阵MSPOI,其中m为站点的数目,t为POI类别标签数目;
d)对矩阵MSPOI的每一列进行min-max标准化,以将每个POI类别的数值映射到0至1之间,具体公式如下:
其中,min(MSPOI[,j])表示矩阵第j列的最小值,max(MSPOI[,j])表示第j列的最大值;i=1,2,3,…,m;j=1,2,3,…,t;
(4)联合步骤(3)所得移动语义及位置语义,提取每个站点的功能特征向量,得到站点功能矩阵F
a)将移动语义与位置语义作为站点两大特征,得到一个m×2k的矩阵MSF,其中m为站点的总数目,k为潜在功能的数目;
b)对MSF按列进行Z-Score标准化处理,计算方法如下:
其中μj为MSF第j列的期望,σj为MSF第j列的方差;
c)使用稀疏主成份分析方法SPCA提取每个站点的功能特征向量,得到站点功能矩阵F;
(5)使用优化的K均值算法对站点的功能特征向量进行聚类
a)使用轮廓系数s来评估聚类性能,轮廓系数s通过以下两个指标来计算:
指标a:一个样本点和同一聚类中所有其他样本点的平均距离,反映了簇内凝聚度;
指标b:一个样本点和离其最近的聚类中所有样本点的平均距离,反映了簇间分离度;
对于一个样本的轮廓系数计算公式为:
b)使用KMeans++的聚类中心选取方法来代替原始K均值算法随机选取初始聚类中心的方式,步骤如下:
A.从样本集中随机选取一个点作为第一个聚类中心;
B.重复以下步骤,直至生成k个聚类中心:
①计算样本集中每个样本点xi和与之最近的已有聚类中心之间的距离di;
②选取一个新的聚类中心,选择时每个点xi被选中的概率与di成正比;
c)以这k个点为初始聚类中心执行K均值算法;
对站点功能矩阵F聚类,得到M个聚类中心向量μi,每个簇都是具有某种相同功能站点的集合;
(6)从多个角度分析站点功能标识,确定站点功能
a)类间客流转移:
分析类间不同时段的出入客流量特征以进行类型标注;在时间段t内由聚类ci中站点到达聚类cj中站点的平均客流量为这段时间内由聚类ci到达聚类cj的客流量总数除以两个聚类包含站点数的积;
b)地理功能占比分布:
统计一个站点类别内平均每个站点所含有的POI数目占全市总数目的百分比,以分析出每个类别的功能;第i种POI标签点在站点分类j的地理功能占比
c)簇间相似度:
根据已经获得的M个聚类中心向量μi,计算簇间余弦相似度矩阵MS,MS是一个M×M的方阵,其中每个元素MS.mi,j的具体计算方法如下:
MS.mi,j=cos<μi,μj>
在进行站点功能标识时,簇间相似度越大的两个簇承担的功能就越相似。
本发明的有益效果:
(1)首次将语义模型应用到地铁站点功能挖掘的场景中,并将已有的LDA输入模式扩展为4元组,将平时和周末一同纳入考虑。
(2)首次使用标准化和稀疏主成分分析的方法从站点的静动语义提取功能特征。
(3)从三个方面提出了功能标识的分析方法,标识相应的站点功能。
附图说明
图1是本发明的整体流程图。
图2是本发明所使用的LDA模型概率图。
图3是本发明实例中对上海地铁站点分类以后的结果。
图4是本发明实例中单独成类的上海火车站和人民广场。
图5(a)是本发明实例中上海地铁旅游娱乐类站点工作日离开客流转移。
图5(b)是本发明实例中上海地铁旅游娱乐类站点休息日离开客流转移。
图5(c)是本发明实例中上海地铁旅游娱乐类站点工作日到达客流转移。
图5(d)是本发明实例中上海地铁旅游娱乐类站点休息日到达客流转移。
图6(a)是本发明实例中上海地铁商业公司类站点工作日离开客流转移。
图6(b)是本发明实例中上海地铁商业公司类站点工作日到达客流转移。
图6(c)是本发明实例中上海地铁商业公司类站点休息日离开客流转移。
图6(d)是本发明实例中上海地铁商业公司类站点休息日到达客流转移。
图7(a)是本发明实例中上海地铁一般居住类站点工作日离开客流转移。
图7(b)是本发明实例中上海地铁一般居住类站点工作日到达客流转移。
图7(c)是本发明实例中上海地铁一般居住类站点休息日离开客流转移。
图7(d)是本发明实例中上海地铁一般居住类站点休息日到达客流转移。
图8是本发明实例中上海地铁站点地理功能占比分布。
图9是本发明实例中上海地铁站点簇间相似度矩阵可视化。
具体实施方式
下面结合上海地铁站点功能挖掘实例对本发明进行进一步描述。
本实例中的地铁站点功能挖掘方法整体框架如图1所示,具体包括以下步骤:
(1)从上海市地铁系统乘客刷卡数据集中提取乘客出行模式矩阵;从上海市POI数据集中得到相对POI含量矩阵。
(2)使用LDA算法处理客流信息矩阵和POI信息矩阵,获得地铁站点移动语义和位置语义的潜在主题分布向量,具体包括如下步骤:
a).移动语义挖掘:
将客流数据看作一条条行程记录的集合,每条行程记录J由如下五项组成:出发站点SL、目的站点SA、出发时间TL、到达时间TA和日期D,即J=(SL,SA,TL,TA,D)。根据以上行程记录提取出行模式P,并将出行模式频率用m*n矩阵Msp表示,其中m是站点的总数目,n为所有可能出现的出行模式的总数目,矩阵中的元素MSP.mi,j表示站点Si出行模式Pj出现的次数,其中i=1,2,3,…,m,j=1,2,3,…,n。最后使用LDA主题模型对站点从客流信息中表现出的潜在功能(即移动语义)进行挖掘。
b).位置语义挖掘:
首先统计每个站点区域中每种POI类别标签的数量分别是多少,即首先建立一个m×t的站点-POI矩阵MSPOI,其中m为站点的数目,t为POI类别标签数目,第i行第j列的元素MSPOI.mi,j为站点i所在区域含有第j类POI标签的数目;之后对矩阵MSPOI每一列进行min-max标准化,计算公式为:
其中min(MSPOI[,j])表示矩阵第j列的最小值,max(MSPOI[,j])表示第j列的最大值,i=1,2,3,…,m,j=1,2,3,…,t;最后将MSPOI作为LDA模型的输入,得到一个由站点附近静态设施反映出的m×k的站点-功能矩阵,其中m为站点的数目,k为潜在功能的数目,其中每一行都表示了一个站点的k个潜在位置语义的分布。
(3)拼接移动语义和位置语义矩阵并进行Z-Score标准化,将所有列向量处理为满足期望μ为0,方差σ为1的标准正态分布,即去除了数据量纲对后续分析的影响。之后使用稀疏主成分分析(Sparse PCA)处理所得矩阵,获得站点功能特征矩阵F,具体计算公式如下:
其中μj为MSF第j列的期望,σj为MSF第j列的方差。
(4)使用K均值聚类算法获得按功能的站点聚类簇,并对该结果进行地图可视化,具体过程如下:
1)从样本集中随机选取一个点作为第一个聚类中心;
2)重复以下步骤,直至生成k个聚类中心:
①计算样本集中每个样本点xi和与之最近的已有聚类中心之间的距离di;
②选取一个新的聚类中心,选择时每个点xi被选中的概率与di成正比;
3)以这k个点为初始聚类中心执行K均值算法。
对站点功能特征矩阵F聚类后得到的10个聚类记作c1,c2,…,c10,每个簇都是具有某种相同功能站点的集合。
(5)为每一个站点簇添加语义标签,具体包括以下几个角度:
a).类间客流转移:在时间段t内由聚类ci中站点到达聚类cj中站点的平均客流量为这段时间内由聚类ci到达聚类cj的客流量总数除以两个聚类包含站点数的积。
b).地理功能占比分布:第i种POI标签点在站点分类j的地理功能占比其中ni为所有i类POI的数目,nj为j类站点的数目,ni,j为j类站点所在地区内所有i类POI的数目。
c).簇间相似度:根据已经获得的10个聚类中心向量μi(i=1,2,3,…,10)计算簇间余弦相似度矩阵MS,MS是一个10×10的方阵,其中每个元素MS.mi,j的具体计算方法如下:
MS.mi,j=cos<μi,μj>。
机译: 基于改进LDA模型的在线互联网主题挖掘方法
机译: 用于基于基于有效指示的模型的基于数据的功能模型的模型值执行功能的方法和装置
机译: 用于基于化学反应性和/或非反应性原料的制剂的计算机辅助测定染发种子的至少一种性质的方法和装置,用于计算机辅助的测定毛发种子的制剂的方法和装置基于化学反应性和/或非反应性原料的染发种子,以及用于计算机辅助训练预定模型的设备和方法,该预定模型用于基于化学制剂确定计算机辅助确定染发种子的至少一种特性反应性和/或不反应性原料