首页> 中国专利> 基于VAE和深度学习组合模型的高速公路旅行时间预测方法

基于VAE和深度学习组合模型的高速公路旅行时间预测方法

摘要

本专利公开了一种基于VAE和深度学习组合模型的高速公路旅行时间预测方法,包括:步骤一、对高速公路收费数据进行预处理,剔除缺失、异常数据,并将处理过后的数据整理为旅行时间序列数据;步骤二、对旅行时间数据进行平稳化处理;步骤三、利用循环神经网络LSTM对旅行时间数据进行训练,并对旅行时间进行预测。本发明利用VAE算法编码解码的过程,依据数据的条件分布对数据进行提取,在不影响数据时序特征的前提下,对数据进行平稳化处理。其次组合深度学习的循环神经网络,能够很好的处理长时序数据,提高预测的精度。

著录项

  • 公开/公告号CN113065684A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利号CN202110200510.3

  • 发明设计人 于海洋;张浩洋;任毅龙;于海生;

    申请日2021-02-23

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/26(20120101);G06N3/04(20060101);G06N3/08(20060101);G07B15/06(20110101);

  • 代理机构11939 北京佳信天和知识产权代理事务所(普通合伙);

  • 代理人张宏伟

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明涉及旅行时间预测,具体涉及一种基于VAE和深度学习组合模型的高速公路旅行时间预测方法。

背景技术

旅行时间是高速公路运行状况的一个重要的衡量指标,它指的是从一个收费站进站到一个收费站出站的时间。对旅行时间进行准确的预测可以为出行者的路径选择甚至交通诱导提供很大的帮助。对于旅行时间的估计,有很多方法利用融合多源数据,比如固定线圈和浮动车数据。本发明针对的数据为高速公路收费数据。

高速公路收费数据直接记录了车辆进站和出站的时间,因此经过处理就可以得到收费站之间的旅行时间的时间序列,对于此进行预测,本质上是对时间序列进行预测。传统的对于时间序列进行预测的方法主要是Box-Jenkins方法,该方法首先确定ARIMA模型中适当的p、d、q值,然后通过估计方法,如最大似然估计来估计模型具体的参数值,最后检验模型的适当性并做出改进。近年来随着机器学习和深度学习的发展,以支持向量机作为基础的预测方法也越来越多,深度学习方面对于时间序列的预测表现得很好的是长短时记忆网络(LSTM),它对于处理长序列数据以及时序性数据具有很大的优势。

但是对于时间序列来说,大部分数据都具有不平稳的特点,数据不平稳对于预测的准确性影响很大,一般解决数据不平稳的方法是对数据进行差分处理,可是这种方法效果一般,因此在对时间序列进行预测时,如何将数据平稳化处理也非常重要。

发明内容

本发明的目的在于提供一种基于VAE和深度学习组合模型的高速公路旅行时间预测方法。

实现本发明目的的技术解决方案为:一种基于高速公路收费数据的旅行时间预测方法,包括如下步骤:

S1:对高速公路收费数据进行预处理,剔除缺失、异常数据,并将处理过后的数据整理为旅行时间序列数据;

S2:对旅行时间数据进行平稳化处理;

S3:利用循环神经网络LSTM对旅行时间数据进行训练,并对旅行时间进行预测。

进一步,步骤S1中数据预处理包括以下步骤:

S11:对于高速公路收费数据当中缺失数据进行剔除;

S12:对于剩余完整的高速公路收费数据,用出站时间减去进站时间得到各站点间的旅行时间数据;

S13:对于各站点间的旅行时间数据计算均值

进一步,步骤S2中对旅行时间进行平稳化处理包括如下步骤:

S21:利用站间旅行时间数据,拟合函数f

S22:从标准正态分布中采样随机误差,加入到隐变量Z的计算当中;

S23:利用隐变量Z的条件分布中采样得到新样本

S24:利用梯度下降方法对整个网络进行迭代,从而得到最终修复后的时间序列

进一步,步骤S3中利用循环神经网络LSTM对旅行时间数据进行训练,并对旅行时间进行预测包括如下步骤。

S31:将数据集以8:2的比例划分为训练集和测试集;

S32:设置好参数之后放入到LSTM模型当中进行训练;

S33:根据训练好的模型对旅行时间进行预测。

本发明利用VAE算法编码解码的过程,依据数据的条件分布对数据进行提取,在不影响数据时序特征的前提下,对数据进行平稳化处理。其次组合深度学习的循环神经网络,能够很好的处理长时序数据,提高预测的精度。

附图说明

图1为本发明的方法流程示意图;

图2为高速公路收费数据内容示意图;

图3为VAE算法原理图;

图4为LSTM单个记忆单元示意图。

具体实施方式

下面结合附图对本发明进行进一步说明:

本发明的方法流程示意图如附图1所示,具体内容如下:

在本实例中的收费数据来自吉林省17条高速公路。共计157个收费站的 5680799行数据。时间跨度为2018年9月10日至2018年10月4日,包含了普通工作日、周末和国庆节的收费数据,种类较为充实。主要包括以下特征:车牌号、车辆类型、车辆进站名称、车辆进站时间、车辆出站名称以及车辆出站时间,如附图2所示。

步骤一:收费数据预处理。

(1)剔除缺失数据,缺失数据是指对于上文提到的收费信息的六个特征值存在部分缺失的数据,只有车牌号不会影响后续旅行时间的预测,其他五个特征值缺失的数据应该被剔除。

(2)旅行时间数据集整理,由于本发明内容为旅行时间预测,因此需要预先从收费数据当中提取旅行时间信息,首先根据车辆进出收费站的名称相同的数据归为一类,这就为次两站间的旅行时间数据集,具体的旅行时间为出站时间减去进站时间,除此之外,还可以根据车辆类型对数据再进行分类。

(3)异常数据筛选,异常数据是指该条数据计算出的两站间的旅行时间相较于大部分车辆的数据过大或过小,可能是因为系统记录数据时出错、车辆中途停车、个别车辆车速过快或过慢等因素造成的,这少量的异常数据称为噪音。应该通过处理去除噪音。

首先,计算旅行时间的最小阈值,高速公路对于小型车辆的限速为120km/h,因此最小旅行时间阈值=路程/限速,并以最小旅行时间阈值为标准剔除旅行时间小于该阈值的数据。

其次根据(2)过程统计的旅行时间计算平均旅行时间

其中,i和j分别表示进站和出站收费站的标号,t

计算旅行时间标准差S为:

步骤二:旅行时间数据重构修复

由步骤一可以得到关于旅行时间的历史数据集,以其中一对收费站之间的数据为例,定义为X={X

时间序列进行预测时一般希望时间序列具有平稳性,如果时间序列平稳性很差,不仅预测效果不能非常准确,在预测之后的数据分析也很有可能造成分析结果无效,一般的平稳性检测通过ADF对时间序列进行单位根检验,但大多数时间序列都不具有很好的平稳性,因此都需要经过一定的重构修复。

VAE算法对时间序列数据进行修复的原理图如附图3所示,首先将原始样本 X={X

u

其中,函数f

隐变量Z的计算公式为:

Z

其中,Z

然后通过原始样本X和隐变量Z可以发现其条件分布

其中,z,u,σ泛指上文的Z

通过神经网络梯度下降不断改变ε的取值,通过多轮迭代,从而得到最终修复后的时间序列

传统的差分处理方法处理数据时,如果数据平稳性很差,可能需要进行多次差分处理,而差分次数越多,给后续的预测过程带来的计算量也越大。VAE算法对数据进行处理相较于传统的差分处理,数据处理结果更直接,也能使后续的预测过程计算量减少。

步骤三:循环神经网络训练样本数据并进行预测

长短期记忆网络(LSTM)是一种特殊构造的循环神经网络,它可以解决长序列在训练过程中可能出现的梯度消失和梯度爆炸问题,比起传统的循环神经网络, LSTM在处理长时间序列中,有很好的表现。

通过步骤一和步骤二可以得到二维的n×m的旅行时间数据

其中n表示如步骤一所述根据15min为一个时间不长划分的n个时间不长,m 表示数据当中存在的m个进站出站对。第n行第m列的数据表示第n个时间步长内,第m个进站出站对的平均旅行时间,将此数据输入到LSTM网络当中,设定网络参数“input size=5、batchsize=10、output size=1”,并且将数据集以8:2 的比例划分为训练集和测试集。LSTM结构如附图所示。

LSTM通过遗忘门、输入门和输出门保留和更新状态。

其中遗忘门中:

f

式中σ函数为sigmoid激活函数。W

输入门中:

i

式中tanh函数为tanh激活函数,W

输出门中:

o

h

式中,W

LSTM更新状态公式为:

其中,C

LSTM算法不仅解决长序列在训练过程中可能出现的梯度消失和梯度爆炸问题,在本专利当中由于高速公路收费数据量不大,LSTM算法相较于其他神经网络算法,结构简单,而且训练时间较短,具有长时记忆功能,,实现起来简单,因此非常适用于本专利。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号