首页> 中国专利> 一种基于LDA模型的地铁站点功能挖掘方法

一种基于LDA模型的地铁站点功能挖掘方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于数据挖掘技术领域，一种基于LDA模型的地铁站点功能挖掘方法，步骤如下：1)数据收集：包括地铁刷卡数据、地铁POI数据等。经过筛选提取预处理以后，得到实验所需的潜在主题分布向量，以保证分析结果的普适性；2)语义挖掘：应用LDA主题模型，以乘客出行模式分布矩阵和POI相对含量矩阵为输入挖掘动静语义；3)站点聚类：在功能挖掘方面，本发明使用先进的聚类算法获得按功能的站点聚类簇；4)站点分类标识：本发明从类间客流转移、地理功能占比分布、簇间相似度3个角度提出站点功能标识方法，使得分析结果权威可靠。以上海地铁为例进行的地铁站点功能挖掘实验表明，本方法对于处理类似问题具有出色表现。

著录项

公开/公告号CN107656987A

专利类型发明专利
公开/公告日2018-02-02

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN201710817833.0
发明设计人孔祥杰;夏锋;付振寰;郭昊尘;王进忠;
展开▼

申请日2017-09-13
分类号G06F17/30(20060101);G06Q50/26(20120101);G06K9/62(20060101);
代理机构21200 大连理工大学专利中心;
代理人温福雪;侯明远
地址 116024 辽宁省大连市甘井子区凌工路2号
入库时间 2023-06-19 04:26:08

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-14

授权

授权
2018-03-02

实质审查的生效 IPC(主分类):G06F17/30 申请日:20170913

实质审查的生效
2018-02-02

公开

公开

说明书

技术领域

本发明属于数据挖掘技术领域，尤其在揭示地铁沿线区域功能、把握城市交通系统规划、建设智慧城市等领域具有重要意义，具体涉及一种基于LDA模型的地铁站点功能挖掘方法。

背景技术

随着信息技术革命的不断深入，信息化与数字化的浪潮席卷了现代城市。然而，现代化和城市化的迅猛发展也带来了诸如交通拥堵、资源配置、环境污染等棘手问题。如今，大数据的发展为解决这些问题提供了思路和可能。利用城市大数据和城市计算为城市管理者和规划者提供有价值的信息参考，提升城市管理、服务效率，可以处理城市发展中遇到的问题和挑战。基础设施方面，传感技术的大范围扩散、智能交通系统以及基于地理位置的IT服务不但为城市生活带来了智能和极大的便捷，还使我们获得了大量的城市数据，例如人类移动轨迹信息、社会活动信息及环境信息等，同时，数据中心和云计算的建设和发展也在技术上使我们具备了处理这些大规模异构数据的能力。

数据挖掘是一门结合了统计学、人工智能、机器学习和数据库系统的发现巨大的数据集中模式的计算过程，是计算机科学下的一门交叉学科。数据挖掘的总目标是从数据集中提取信息并将其转化为可理解的结构为未来所用。

在现代城市交通系统中，地铁凭借载客量大、快速高效、低环境污染的特点成为当今都市最优的交通方式。作为一座城市交通的脉搏，一方面，地铁系统方便了城市中心地带间的互通往来，因此，地铁站点往往是一座城市执行其城市功能最中心的地标性地带，另一方面，地铁也促进了地铁线路沿线经过的区域的发展，故而新的功能区在地铁站点处聚集成型。众所周知，城市的不同区域在城市发展的进程中渐渐孕育出了各类的城市功能，以满足居民某种特定的社会经济活动需求，这些区域既可以是人为的被规划者所设计，也可能是由于人类实际生活方式所自然形成，同时，在一个城市发展的过程中，这些功能区的区域和功能都可以被改变。在地铁沿线的站点所在区域的功能形成和演化正是以上过程的典型代表，加以地铁系统在城市发展中不可或缺的地位，使得地铁沿线地区的功能相较其他区域更为特殊重要。

发明内容

本发明的目的是运用数据挖掘的方法揭示地铁沿线区域功能。挖掘地铁站点这一城市重要的特殊区域的功能，可以让我们了解城市核心功能分布，把握城市生命线发展脉络，进而为诸如城市交通系统规划、区域发展规划、资源配置等城市规划提供宝贵的参考，建设智慧城市，具有重要的实际意义。

本发明的技术方案：

一种基于LDA模型的地铁站点功能挖掘方法，步骤如下：

(1)收集地铁客流数据作为乘客出行模式矩阵，收集地铁POI数据作为POI相对含量矩阵；

(2)以乘客出行模式矩阵和POI相对含量矩阵为输入，应用LDA主题模型挖掘站点静动语义；

(3)移动语义挖掘与位置语义挖掘

a)将所有站点的出行模式的频率通过一个形为m*n的矩阵M_sp来表示，其中m为站点的总数目，n为所有可能出现的出行模式的总数目；

b)将站点出行模式矩阵M_sp作为LDA的输入，得到一个m*k的站点功能矩阵，其中，k为潜在功能的数目，k设为20；

c)建立一个m*t的站点POI矩阵M_SPOI，其中m为站点的数目，t为POI类别标签数目；

d)对矩阵M_SPOI的每一列进行min-max标准化，以将每个POI类别的数值映射到0至1之间，具体公式如下：

其中，min(M_SPOI[,j])表示矩阵第j列的最小值，max(M_SPOI[,j])表示第j列的最大值；i＝1,2,3,…,m；j＝1,2,3,…,t；

(4)联合步骤(3)所得移动语义及位置语义，提取每个站点的功能特征向量，得到站点功能矩阵F

a)将移动语义与位置语义作为站点两大特征，得到一个m×2k的矩阵M_SF，其中m为站点的总数目，k为潜在功能的数目；

b)对M_SF按列进行Z-Score标准化处理，计算方法如下：

其中μ_j为M_SF第j列的期望，σ_j为M_SF第j列的方差；

c)使用稀疏主成份分析方法SPCA提取每个站点的功能特征向量，得到站点功能矩阵F；

(5)使用优化的K均值算法对站点的功能特征向量进行聚类

a)使用轮廓系数s来评估聚类性能，轮廓系数s通过以下两个指标来计算：

指标a：一个样本点和同一聚类中所有其他样本点的平均距离，反映了簇内凝聚度；

指标b：一个样本点和离其最近的聚类中所有样本点的平均距离，反映了簇间分离度；

对于一个样本的轮廓系数计算公式为：

b)使用KMeans++的聚类中心选取方法来代替原始K均值算法随机选取初始聚类中心的方式，步骤如下：

A.从样本集中随机选取一个点作为第一个聚类中心；

B.重复以下步骤，直至生成k个聚类中心：

①计算样本集中每个样本点x_i和与之最近的已有聚类中心之间的距离d_i；

②选取一个新的聚类中心，选择时每个点x_i被选中的概率与d_i成正比；

c)以这k个点为初始聚类中心执行K均值算法；

对站点功能矩阵F聚类，得到M个聚类中心向量μ_i，每个簇都是具有某种相同功能站点的集合；

(6)从多个角度分析站点功能标识，确定站点功能

a)类间客流转移：

分析类间不同时段的出入客流量特征以进行类型标注；在时间段t内由聚类c_i中站点到达聚类c_j中站点的平均客流量为这段时间内由聚类c_i到达聚类c_j的客流量总数除以两个聚类包含站点数的积；

b)地理功能占比分布：

统计一个站点类别内平均每个站点所含有的POI数目占全市总数目的百分比，以分析出每个类别的功能；第i种POI标签点在站点分类j的地理功能占比其中n_i为所有i类POIs的数目，n_j为j类站点的数目，n_i,j为j类站点所在地区内所有i类POIs的数目；

c)簇间相似度：

根据已经获得的M个聚类中心向量μ_i，计算簇间余弦相似度矩阵M_S，M_S是一个M×M的方阵，其中每个元素M_S.m_i,j的具体计算方法如下：

M_S.m_i,j＝cos＜μ_i,μ_j＞

在进行站点功能标识时，簇间相似度越大的两个簇承担的功能就越相似。

本发明的有益效果：

(1)首次将语义模型应用到地铁站点功能挖掘的场景中，并将已有的LDA输入模式扩展为4元组，将平时和周末一同纳入考虑。

(2)首次使用标准化和稀疏主成分分析的方法从站点的静动语义提取功能特征。

(3)从三个方面提出了功能标识的分析方法，标识相应的站点功能。

附图说明

图1是本发明的整体流程图。

图2是本发明所使用的LDA模型概率图。

图3是本发明实例中对上海地铁站点分类以后的结果。

图4是本发明实例中单独成类的上海火车站和人民广场。

图5(a)是本发明实例中上海地铁旅游娱乐类站点工作日离开客流转移。

图5(b)是本发明实例中上海地铁旅游娱乐类站点休息日离开客流转移。

图5(c)是本发明实例中上海地铁旅游娱乐类站点工作日到达客流转移。

图5(d)是本发明实例中上海地铁旅游娱乐类站点休息日到达客流转移。

图6(a)是本发明实例中上海地铁商业公司类站点工作日离开客流转移。

图6(b)是本发明实例中上海地铁商业公司类站点工作日到达客流转移。

图6(c)是本发明实例中上海地铁商业公司类站点休息日离开客流转移。

图6(d)是本发明实例中上海地铁商业公司类站点休息日到达客流转移。

图7(a)是本发明实例中上海地铁一般居住类站点工作日离开客流转移。

图7(b)是本发明实例中上海地铁一般居住类站点工作日到达客流转移。

图7(c)是本发明实例中上海地铁一般居住类站点休息日离开客流转移。

图7(d)是本发明实例中上海地铁一般居住类站点休息日到达客流转移。

图8是本发明实例中上海地铁站点地理功能占比分布。

图9是本发明实例中上海地铁站点簇间相似度矩阵可视化。

具体实施方式

下面结合上海地铁站点功能挖掘实例对本发明进行进一步描述。

本实例中的地铁站点功能挖掘方法整体框架如图1所示，具体包括以下步骤：

(1)从上海市地铁系统乘客刷卡数据集中提取乘客出行模式矩阵；从上海市POI数据集中得到相对POI含量矩阵。

(2)使用LDA算法处理客流信息矩阵和POI信息矩阵，获得地铁站点移动语义和位置语义的潜在主题分布向量，具体包括如下步骤：

a).移动语义挖掘：

将客流数据看作一条条行程记录的集合，每条行程记录J由如下五项组成：出发站点S_L、目的站点S_A、出发时间T_L、到达时间T_A和日期D，即J＝(S_L，S_A，T_L，T_A，D)。根据以上行程记录提取出行模式P，并将出行模式频率用m*n矩阵M_sp表示，其中m是站点的总数目，n为所有可能出现的出行模式的总数目，矩阵中的元素M_SP.m_i,j表示站点S_i出行模式P_j出现的次数，其中i＝1,2,3,…,m，j＝1,2,3,…,n。最后使用LDA主题模型对站点从客流信息中表现出的潜在功能(即移动语义)进行挖掘。

b).位置语义挖掘：

首先统计每个站点区域中每种POI类别标签的数量分别是多少，即首先建立一个m×t的站点-POI矩阵M_SPOI，其中m为站点的数目，t为POI类别标签数目，第i行第j列的元素M_SPOI.m_i,j为站点i所在区域含有第j类POI标签的数目；之后对矩阵M_SPOI每一列进行min-max标准化，计算公式为：

其中min(M_SPOI[,j])表示矩阵第j列的最小值，max(M_SPOI[,j])表示第j列的最大值，i＝1,2,3,…,m，j＝1,2,3,…,t；最后将M_SPOI作为LDA模型的输入，得到一个由站点附近静态设施反映出的m×k的站点-功能矩阵，其中m为站点的数目，k为潜在功能的数目，其中每一行都表示了一个站点的k个潜在位置语义的分布。

(3)拼接移动语义和位置语义矩阵并进行Z-Score标准化，将所有列向量处理为满足期望μ为0，方差σ为1的标准正态分布，即去除了数据量纲对后续分析的影响。之后使用稀疏主成分分析(Sparse PCA)处理所得矩阵，获得站点功能特征矩阵F，具体计算公式如下：

其中μ_j为M_SF第j列的期望，σ_j为M_SF第j列的方差。

(4)使用K均值聚类算法获得按功能的站点聚类簇，并对该结果进行地图可视化，具体过程如下：

1)从样本集中随机选取一个点作为第一个聚类中心；

2)重复以下步骤，直至生成k个聚类中心：

①计算样本集中每个样本点x_i和与之最近的已有聚类中心之间的距离d_i；

②选取一个新的聚类中心，选择时每个点x_i被选中的概率与d_i成正比；

3)以这k个点为初始聚类中心执行K均值算法。

对站点功能特征矩阵F聚类后得到的10个聚类记作c₁,c₂,…,c₁₀，每个簇都是具有某种相同功能站点的集合。

(5)为每一个站点簇添加语义标签，具体包括以下几个角度：

a).类间客流转移：在时间段t内由聚类c_i中站点到达聚类c_j中站点的平均客流量为这段时间内由聚类c_i到达聚类c_j的客流量总数除以两个聚类包含站点数的积。

b).地理功能占比分布:第i种POI标签点在站点分类j的地理功能占比其中n_i为所有i类POI的数目，n_j为j类站点的数目，n_i,j为j类站点所在地区内所有i类POI的数目。

c).簇间相似度:根据已经获得的10个聚类中心向量μ_i(i＝1,2,3,…,10)计算簇间余弦相似度矩阵M_S，M_S是一个10×10的方阵，其中每个元素M_S.m_i,j的具体计算方法如下：

M_S.m_i,j＝cos＜μ_i,μ_j＞。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于LDA模型的地铁站点功能挖掘方法 [P] . 中国专利： CN107656987B . 2020.07.14
2. 一种基于doc2vec的地铁站点功能挖掘方法 [P] . 中国专利： CN107704524A . 2018-02-16
3. ONLINE INTERNET TOPIC MINING METHOD BASED ON IMPROVED LDA MODEL [P] . 世界知识产权组织专利： WO2017035922A1 . 2017-03-09

机译：基于改进LDA模型的在线互联网主题挖掘方法
4. Method and apparatus for performing a function based on a model value of a data based function model based on a model of valid indicating [P] . 德国专利： DE102016216945A1 . 2018-03-08

机译：用于基于基于有效指示的模型的基于数据的功能模型的模型值执行功能的方法和装置
5. Method and arrangement for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials, a method and arrangement for the computer-assisted determination of a formulation of a hair color seeds based on chemically reactive and / or unreactive raw materials, and apparatus and method for computer-aided training a predetermined model for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials [P] . 德国专利： DE102007050434A1 . 2009-04-23

机译：用于基于化学反应性和/或非反应性原料的制剂的计算机辅助测定染发种子的至少一种性质的方法和装置，用于计算机辅助的测定毛发种子的制剂的方法和装置基于化学反应性和/或非反应性原料的染发种子，以及用于计算机辅助训练预定模型的设备和方法，该预定模型用于基于化学制剂确定计算机辅助确定染发种子的至少一种特性反应性和/或不反应性原料