首页> 中国专利> 基于手机信令数据的半监督SVM的交通方式判别方法

基于手机信令数据的半监督SVM的交通方式判别方法

摘要

本发明涉及计算机识别技术,具体涉及一种基于手机信令数据的半监督SVM的交通方式判别方法,(1)准备与预处理数据,(2)设计标签种类,(3)提取出行特征,(4)建立改进的交通方式人工识别流程,(5)训练初始分类器,(6)判别未标记样本的交通方式,(7)判断分类器是否符合终止条件,(8)高置信度样本的数据集更新,(9)基于Tri‑training的半监督SVM分类器的优化,(10)判别未标记样本的交通方式,(11)判断分类器是否符合终止条件,(12)低置信度样本的数据集更新,(13)基于壳向量的半监督SVM分类器的优化。本发明信息获取成本降低、数据利用率提升,判别灵活、全面、精度高,应用场景更广泛。

著录项

  • 公开/公告号CN109784416A

    专利类型发明专利

  • 公开/公告日2019-05-21

    原文格式PDF

  • 申请/专利权人 西南交通大学;

    申请/专利号CN201910076104.3

  • 发明设计人 张锦;唐劲松;冯雨庭;肖斌;罗静;

    申请日2019-01-26

  • 分类号

  • 代理机构成都方圆聿联专利代理事务所(普通合伙);

  • 代理人李鹏

  • 地址 611756 四川省成都市高新区西部园区西南交通大学

  • 入库时间 2024-02-19 10:51:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-04

    授权

    授权

  • 2019-06-14

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20190126

    实质审查的生效

  • 2019-05-21

    公开

    公开

说明书

技术领域

本发明涉及计算机识别技术,具体涉及一种基于手机信令数据的半监督SVM的交通方式判别方法。

背景技术

出行的交通方式信息在交通规划、交通控制管理等方面有重要的作用和价值。目前获取交通方式信息的方法包括传统调查和数据挖掘等两大类。问卷调查、电话询问等传统调查方法难以高频率、大规模的实施,并且无法准确反映实际的交通方式信息;数据挖掘方法主要是基于手机数据建立一定的规则挖掘交通方式信息,相较于传统调查,数据挖掘的方法不仅可以解决调查组织难度大、抽样率低、信息展示维度单一等缺点,还可以适应我国飞速发展的交通需求与供给更新节奏。从数据源角度看,数据挖掘主要采用卫星定位数据和手机信令数据,卫星定位数据虽然应用广泛,但获取难度大,且全日数据完整度低,而手机信令数据具有获取成本低、抽样率高、全日数据完整度高、数据更新快等优点,可以更全面、更灵活地挖掘交通方式信息。因此本发明采用手机信令数据判别用户交通方式。

国内外学者主要研究了模糊识别、贝叶斯决策树等方法在基于手机信令数据判别交通方式上的应用。近年来,机器学习方法在多分类问题与模式判别问题中广泛应用并表现较好,逐渐被应用于交通方式判别领域,主要研究集中在监督学习和无监督学习等两方面。手机信令数据属于无标记数据,若采用监督学习的方法则需要人工对大量手机信令数据进行标记,工作量大且数据利用率低;若采用无监督学习的方法虽无需人工标记交通信息,但输出类别难以识别且精度低。

发明内容

针对上述技术问题,本发明提供基于手机信令数据的半监督SVM的交通方式判别方法,运用少量已标记数据与大量无标记数据,采用半监督支持向量机的分类方法判别用户交通方式,具有分类精度高、训练成本低等优势,有良好的普适性和推广价值。

本发明提供的基于手机信令数据的半监督SVM的交通方式判别方法,是一种基于手机信令数据的半监督支持向量机的交通方式判别方法,包括以下步骤:

步骤1:准备与预处理数据。将已经基于手机信令数据刻画的用户出行链,并处理成为只包含单一交通方式出行子链,转化为本发明使用的数据集。

步骤2:设计标签种类。判别出的交通方式数量为k,根据城市交通因素,设计具体交通方式判别情况,为各交通方式设计标签,并根据各交通方式容易区分的程度建立有向无环图;

本发明设计了有利于提升分类效率的有向无环图,根据各交通方式的容易区分程度,设计有向无环图,按照步行、自行车、电动车/摩托车、公交车、小汽车、其它的顺序将标签设计成1-6,其中,1和6是区别最大的两种交通方式,其余分别是1和5、2和5等等。此外,利用有向无环图的结构可以灵活调整分类类别,每增添或删减一种类别,只需在侧面增加一列节点,对其余节点分类不造成影响。

步骤3:提取出行特征。借助现有交通出行方式情况、传统居民出行调查数据、手机信令数据,提取半监督学习特征,包括速度、时耗、距离、起讫点POI类别、用户年龄等五大类。逐一计算、提取每一条出行子链的出行特征。

步骤4:建立改进的交通方式人工识别流程。运用贝叶斯决策树方法和第三方地图数据辅助人工识别出行子链的交通方式。

步骤5:训练初始分类器。随机抽取出行子链,依据步骤4中改进的交通方式人工识别流程,识别样本交通方式,若无全覆盖k种出行方式,则增加抽样数量,继续识别,直至k种交通方式均有人工识别的样本。人工识别后的出行子链组成已标记样本集L,剩余出行子链构成未标记样本集U。利用已标记样本集L与未标记样本集U,训练初始半监督SVM分类器。

步骤6:判别未标记样本的交通方式。用分类器对未标记样本集U进行判别,得到样本交通方式。

步骤7:判断分类器是否符合终止条件。判断分类器是否符合精度、无标记样本集U是否为空集等终止条件;若符合,则该分类器为最优分类器,并输出各出行子链的交通方式;否则,转至步骤8。

步骤8:高置信度样本的数据集更新。在预判别结果中选取部分置信度高的样本,添加至已标记样本集L中,更新样本集。

步骤9:基于Tri-training的半监督SVM分类器的优化。利用步骤8中已更新的样本集构建Tri-training的半监督SVM分类器。

步骤10:判别未标记样本的交通方式。用当前分类器对未标记样本集U进行判别,得到样本交通方式。

步骤11:判断分类器是否符合终止条件。按照步骤7的方法进行终止条件的判断,若符合,则该分类器为最优分类器,并输出各出行子链的交通方式;否则,转至步骤12。

步骤12:低置信度样本的数据集更新。从步骤9中对无标记样本集U的判别结果中选取部分置信度低的样本,添加至已标记样本集L中,更新样本集。

步骤13:基于壳向量的半监督SVM分类器的优化。利用步骤11中已更新的样本集构建基于CHB-ASVM主动学习的分类器并转至步骤6。

进一步的其中部分步骤的详细子步骤为:

步骤1准备与预处理数据

1.1收集并准备数据;

本发明采用包含出行链信息的手机信令数据研究交通方式的判别方法。手机信令数据经过清洗、挖掘后,转换成为本发明的数据集,数据字段包括用户编码、时间戳、轨迹点经纬度、轨迹点类型、用户年龄等。

1.2提取出行子链;

本发明基于轨迹点类型,将用户全日出行链拆分成为只包含一次出行的出行子链。

步骤2设计标签种类

步骤3提取出行特征

步骤4建立改进的交通方式人工识别流程

分别将样本xi,(i=1,2,L,n)利用基于贝叶斯决策树的交通方式识别流程和基于第三方地图数据的交通方式识别流程进行识别,得到交通方式结果然后判断二者是否相同,若相同,则该样本交通方式为否则,将样本交由专家进行对比判断,识别该出行子链的交通方式Xi

步骤5训练初始分类器

5.1对步骤1中的出行子链进行简单随机抽样,选取样本xi,(i=1,2,L,n)构成样本集N,样本数量n。利用步骤4的交通方式人工识别流程判断样本集N内所有样本的交通方式并标记,若无覆盖全出行方式,则增加抽样数量,继续识别,直至全部标签类别均有样本,判别后的出行子链构成已标记样本集L,剩余出行子链构成未标记样本集U。

5.2令t=1,记已标记样本集为进行Bootstrap采样,产生三个训练样本集L′1、L′2、L′3,并用SVM算法训练三个初始分类器,记为

5.3初始分类器的集成,即

步骤6:判别未标记样本的交通方式

利用分类器对未标记样本集U中出行子链的交通方式进行判别。

步骤7判断分类器是否符合终止条件

7.1确定终止条件。根据训练目标、数据精度、样本规模等情况,确定最优分类器的分类精度、半监督支持向量机对未标记样本的利用率等指标,确定终止条件。

7.2判断目前的分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤8。

步骤8高置信度样本数据集更新

8.1计算预标记结果置信度conf(xi)。

8.2在预标记结果中,选取选择m个类标记置信度大于阈值ε1的样本,即当前分类器类标记相对确定的样本,记为Uε1

8.3将置信度高的样本Uε1添加至已标记样本集中,更新样本集。

步骤9基于Tri-training的半监督SVM分类器的优化

9.1利用步骤8更新的样本集进行Tri-training半监督学习,生成分类器

9.2计算三个分类器分类误差计算3个分类器在集成分类器中的权重

9.3生成集成分类器

步骤10:判别未标记样本的交通方式

利用分类器对未标记样本集U中出行子链的交通方式进行判别。

步骤11判断分类器是否符合终止条件

判断分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤12。

步骤12低置信度样本数据集更新

12.1计算预标记结果置信度conf(xi)。

12.2在预标记结果中,选取选择j个类标记置信度小于阈值ε2的样本,即当前分类器相对不确定的样本,记为Uε2

12.3计Uε2中壳向量为将样本集记为

12.4将样本集运用步骤4改进的交通方式人工识别流程进行标记,并从未标记样本集中去除这部分样本,即令

步骤13基于壳向量的半监督SVM分类器的优化

13.1分别在样本集进行3次重采样所得样本子集和标记后样本集进行SVM增量学习,记训练所的分类器为

13.2计算3个分类器分类误差及3个分类器在集成分类器中的权重

13.3生成分类器

13.4令t=t+1,并转至步骤6。

本发明提供的基于手机信令数据的半监督SVM的交通方式判别方法,改进交通方式人工识别流程,通过贝叶斯决策树的交通方式判别方法和第三方地图数据提升人工识别交通方式的效率;提供一种分类标签变量化的方法,将交通方式数量视为变量,建立可调整节点数量的有向无环图,根据数据精度、城市交通方式等情况,调整分类标签数与有向无环图结构,进而调整判别结果。并且基于Tri-training的半监督支持向量机分类器,将置信度较高的未标记加入已标记样本集,通过更新样本集,不断优化分类器性能,提升交通方式的判别能力。特别是基于壳向量的半监督支持向量机分类器,将置信度低的未标记数据利用人工标记确定交通方式并加入已标记样本集,通过置信度较低的样本提高支持向量的确定效率,确定支持向量机的决策边界,提升交通方式判别效率。

本发明技术方案具有的有益效果:

1.交通方式信息获取成本降低、数据利用率提升。手机信令数据的源数据获取简单便捷,降低了成本。利用半监督支持向量机的方法,使用较少的人工标记数据和大量未标记数据进行训练,提升了数据利用率。

2.交通方式判别灵活、全面。判别结果基本涵盖城市居民出行的主要交通方式,且可以随着城市交通基础设施建设种类调整分类类别,能够很好地适应城市特性。

3.交通方式判别精度更高。分类器可以通过不断的调整样本数据集的组成,优化分类器性能,提升分类精度。

4.应用场景更广泛。判别结果可为城市交通管理与规划、城市规划与建设提供数据支持。

附图说明

图1为本发明的判别的总流程;

图2为实施例的有向无环图;

图3为实施例的人工识别出行链出行方式流程;

图4为实施例的贝叶斯决策树;

图5为实施例的借助第三方地图数据的交通方式识别流程;

图6为实施例的分类器精度变化情况。

具体实施方式

结合实施例说明本发明的具体技术方案。

按照图1所示的流程,本实施例包括以下步骤:

步骤1准备与预处理数据

1.1收集并准备数据

本发明采用包含出行链信息的手机信令数据研究交通方式的判别方法。手机信令数据经过清洗、挖掘后,转换成为本发明的数据集,数据字段包括用户编码、时间戳、轨迹点经纬度、轨迹点类型、用户年龄等,用户A0000001的2016年9月14日星期三的出行链如表1所示。

表1用户全日出行链

其中起讫点表示出行的起点或终点,停留点表示用户在该地停留,普通轨迹点表示用户经过该点。

1.2提取出行子链

本发明基于轨迹点类型,将用户全日出行链拆分成为只包含一次出行的出行子链,用户958fea201的出行子链如表2所示,其中出行开始时间为9:19:11,结束时间9:52:01。

表2用户单次出行的出行子链

步骤2设计标签种类

2.1确定标签数量

示例所用数据所在城市为GZ省GY市,时间为2016年9月,主要交通方式包括步行、自行车、电动车、摩托车、私家车、公交车、出租车等,本次示例,将电动车与摩托车设同种标签,将小汽车与出租车设为同种标签,设交通方式数量k=6,包括步行、自行车、电动车/摩托车、私家车/出租车、公交车、其它,标签分别是1,2,3,……,6。

2.2建立有向无环图

标签数k=6,根据各交通方式容易区分的程度建立的有向无环图如图2所示。

步骤3提取出行特征

将出行特征分为速度、时间、距离及起讫点POI、用户特征等五类,对每一类特征进行细分,根据数据精度和城市特点进一步确定出行特征。

3.1速度特征。出行速度可以细分为平均速度、最大速度、速度75分位数、速度方差等特征,在此基础上还可根据不同速度区间占比进行识别,不同出行方式速度特征如表3所示。选取速度的[0.5,5]百分比、[1,10]百分比、[5,15]百分比作为学习特征。

表3不同出行方式速度累计频率(%)分布

3.2时间特征。出行时间可分为出行时刻和出行时耗等特征。

3.3距离特征。选取出行距离与起讫点间直线距离作为出行特征。

3.4起讫点POI特征。手机信令数据的另一个信息是基站定位点,即经纬度信息,构建出行链后,可以确定每条出行的出发点与到达点的经纬度信息,这些经纬度信息可以通过百度POI转化成为出行地属性,分为居民区、政府机构、写字楼、美食、生活服务、医院、公园景点等6类作为学习特征,特征值分别为1,2,3,……,6。

3.5用户年龄。

分析可知,可用速度、时间、距离、出行地属性等特征可作为半监督学习的输入特征,具体特征表如表4所示,用户A0000001一次出行的出行特征如表5所示。

表4出行特征表

表5用户A0000001一次出行的出行特征

步骤4建立改进的交通方式人工识别流程

分别将样本xi,(i=1,2,L,n)利用基于贝叶斯决策树的交通方式识别流程和基于第三方地图数据的交通方式识别流程进行识别,得到交通方式结果然后判断二者是否相同,若相同,则该样本交通方式为否则,将样本交由专家进行对比判断,识别该出行子链的交通方式Xi。改进的交通方式人工识别流程如图3所示,贝叶斯决策树如图4所示,借助百度API的交通方式识别流程如图5所示。

以用户A000001在2016年9月14日的第一条出行子链进行交通方式人工识别为例,交通方式1为公交车(标签5),交通方式2为公交车(标签5),两结果相同,该出行子链的交通方式为公交车。

步骤5训练初始分类器

5.1对步骤1中的出行子链进行简单随机抽样,选取样本xi,(i=1,2,L,n)构成样本集N,样本数量n。利用步骤4的交通方式人工识别流程判断样本集N内所有样本的交通方式并标记,若无覆盖全出行方式,则增加抽样数量,继续识别,直至全部标签类别均有样本,判别后的出行子链构成已标记样本集L,剩余出行子链构成未标记样本集U。

5.2令t=1,记已标记样本集为进行Bootstrap采样,产生三个训练样本集S1、S2、S3,并用SVM算法训练三个初始分类器,记为

5.3初始分类器的集成,即

步骤6:判别未标记样本的交通方式

利用分类器对未标记样本集U中出行子链的交通方式进行判别。

步骤7判断分类器是否符合终止条件

7.1确定终止条件。根据训练目标、数据精度、样本规模等情况,确定最优分类器的分类精度、半监督支持向量机对未标记样本的利用率等指标,确定终止条件。

7.2判断目前的分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤8。

步骤8高置信度样本数据集更新

8.1计算预标记结果置信度conf(xi)。

8.2在预标记结果中,选取选择m个类标记置信度大于阈值Tconfth的样本,即当前分类器类标记相对确定的样本,记为

8.3将置信度高的样本添加至已标记样本集中,更新样本集。

步骤9基于Tri-training的半监督SVM分类器的优化

9.1利用步骤8更新的样本集进行Tri-training半监督学习,生成分类器

9.2计算三个分类器分类误差计算3个分类器在集成分类器中的权重

9.3生成集成分类器

步骤10:判别未标记样本的交通方式

利用分类器对未标记样本集U中出行子链的交通方式进行判别。

步骤11判断分类器是否符合终止条件

判断分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤12。

步骤12低置信度样本数据集更新

12.1计算预标记结果置信度conf(xi)。

12.2在预标记结果中,选取选择j个类标记置信度小于阈值Cconfth的样本,即当前分类器相对不确定的样本,记为

12.3计中壳向量为将样本集记为

12.4将样本集运用步骤4改进的交通方式人工识别流程进行标记,并从未标记样本集中去除这部分样本,即令

步骤13基于壳向量的半监督SVM分类器的优化

13.1分别在样本集进行Bootstrap采样3次所得样本子集和标记后样本集进行SVM增量学习,记训练所的分类器为

13.2计算3个分类器分类误差及3个分类器在集成分类器中的权重

13.3生成分类器

13.4令t=t+1,并转至步骤6。

步骤5至步骤13为本发明研究的半监督支持向量机的实现步骤,为更好的说明实现过程,本发明以GY市10000条出行子链进行示例,进行详述。

半监督支持向量机示例详述如下:

以GY市10000条出行子链为例,说明本发明研究的半监督支持向量机的具体过程。

步骤5:对总体数据进行随机抽样,选取300条出行子链进行交通方式人工识别,构成已标记样本集L,剩余出行子链构成未标记样本集U。以对数量为300的以标记样本集L进行重采样,采样数量为200,构成三个训练样本集,并用SVM算法训练三个初始分类器,并集成为一个初始分类器

步骤6:利用分类器(当前分类器)对未标记样本集U中出行子链的交通方式进行判别。

步骤7:设定终止条件为分类器精度为0.85或未标记样本集U为空集,即重采样剩余的出行子链构成验证集样本,判断初始分类器精度accuracy=0.45且不符合终止条件转至步骤8。

步骤8:利用公式(2)计算各出行子链预标记结果置信度conf(xi),选取m=30个置信度大于的样本,并添加至已标记样本集中,更新样本集。

本发明使用样本与最优分类面之间距离的远近作为样本属于不同类别的概率度量,

其中,f(x)=ω·x+b。为方便度量SVM主动学习不确定样本的类标记置信度,简化计算且不影响度量效果,结合式(1)采用度量样本xi的类标记置信度conf(xi):

步骤9:根据步骤8中更新的样本集基于Tri-training的半监督SVM分类器

步骤10:利用分类器对未标记样本集U中出行子链的交通方式进行判别。

步骤11:判断分类器精度accuracy=0.47且不符合终止条件转至步骤12。

步骤12:利用式(2)计算各出行子链预标记结果置信度conf(xi),选取j=10个置信度小于阈值Cconfth=0.50的样本,计算该样本中的壳向量,根据步骤4的改进的交通方式人工识别流程判别壳向量的交通方式,并添加至已标记样本集中,更新样本集。

步骤13:利用步骤12中已更新的样本集构建基于CHB-ASVM主动学习的分类器,对未标记样本集U进行判别,并转至步骤6。

重复步骤7至步骤16,直至第18次循环,经过35次优化,分类器符合终止条件,结束训练,并输出各出行子链的交通方式。分类器精度随循环次数的变化如图6所示。

本发明所用的阈值、停止条件如表6所示。基于本发明的阈值取值,本领域普通技术人员在没有作出创造性劳动前提下采用本发明阈值其他取值的实例,都属于本发明保护的范围。

表6阈值建议与停止条件取值

这些阈值的取值受城市土地利用、商业活动、人文风俗、公交线网布局等因素的影响,针对不同的城市在不同的时间取值不同,表6中取值仅作为参考建议值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号