技术领域
本发明涉及一种基于因果逻辑和图卷积特征提取的网络耦合时序信息流预测方法,属于信息流预测技术领域。
背景技术
现代化管理服务已经进入了以数据资源和信息技术为双轮驱动的新时期,大数据为信息管理和服务提供了更广阔的视野和更有效的途经。依托多源大数据资源形成的“数据智慧”,亟须构建以大数据体系为统领、科技创新为驱动的发展模式,满足现代化信息管理服务需求。首先,需完善网络化、标准化的数据状态感知采集体系,进一步整合数据资源;其次,需创新大数据分析应用,支撑应用场景高效运营管理、智能化服务;最后,需强化顶层设计、融合发展,构建智能信息大数据生态体系。
流量预测是大数据领域的一个十分重要的研究课题,在交通、金融、气候等领域有着重要的实际应用价值。随着近几年机器学习热潮的到来,机器学习方法中深度利用学习方法进行流量预测得到了广泛关注。2014年,Lv Yisheng et al.将深度学习框架引入流量预测领域,提出了基于Stack Autoencoder的深度学习方法,并取得较为不错的预测结果。后续深度学习方法逐渐引起了人们的关注。2017年,J.Tang et al.提出了一种改进的模糊神经网络方法,成功实现了对时序信息流的多步预测。然而此时的信息流量预测仍然存在着很多问题,其中最重要的是预测准确率不够高,并且预测步数不够长,还不能够实现较为准确的中长期的预测。
2018年,LSTM(Long Short-Term Memory)的兴起,同时也带动了时序信息流预测技术的发展,LSTM是循环神经网络(Recurrent Neural Network,RNN)的一种。2017年,LiY.et al.引入了RNN,其团队提出了一种混合卷积RNN的方法,解决了原先的深度学习框架不能实现较为准确的多步预测的难题,并一定程度上克服了多区域数据关联性耦合的问题,提高了预测准确率。但同时也带来了新的问题,其中就是中长期预测中,由于RNN层数逐渐加深,模型更加复杂,在优化过程中出现了梯度消失问题,而LSTM则很好的解决了这个问题。Mackenzie J.et al.于2018年在LSTM的基础上,增加了层级临时记忆机制(Hierarchical Temporal Memory,HTM),很好的延长了RNN模型在神经网络层数加深时带来的优化难题,更好的延长了时序信息流的预测步数。至此,主流的信息流流量预测模型已经基本建立在各种RNN模型及其变种的基础上。
近两年,又由于图卷积网络(Graph Convolutional Network,GCN)的兴起,图结构信息流预测在效果上有了质的飞跃。图卷积网络是图神经网络的一个重要的分类,图卷积网络借鉴了卷积神经网络中卷积的思想,利用卷积来处理图结构数据的信息,得到了很好的信息特征。由于图结构的数据与图像等数据结构不同,是一种非欧几里得的数据结构,每个节点的邻居数量不同,不能直接利用卷积网络进行特征提取。2014年Joan Bruna等人利用图的拉普拉斯矩阵提出了基于图拉普拉斯矩阵的第一代图卷积网络。其结构为:H
发明内容
本发明的目的是针对现有的技术存在的上述问题,提供一种基于因果逻辑和图卷积特征提取的网络耦合时序信息流预测方法,本发明所要解决的技术问题是通过计算成对节点之间的转移熵建立一种描述其依赖性的因果逻辑网络,替代单一实体交通网络作为耦合时序信息流预测的输入,从而在因果逻辑网络基础上利用图卷积网络(GCN)来提取图数据的特征,再将提取的特征利用门控循环单元(GRU)进行预测。
为达到上述目的,本发明采用如下的技术方案:一种基于因果逻辑和图卷积特征提取的网络耦合时序信息流预测方法,所述方法包括以下步骤:
S1,基于N个采样节点的时间序列数据利用转移熵(Transferentropy)建立因果逻辑网络G=(V,E);
转移熵为信息论中两个随机事件X与Y间依赖性的一种度量,表达式为:
其中熵H
因果逻辑网络定义为G=(V,E),其中V={1,2,…,N}为节点集,E=(e_ij)为连边集,i与j连边的权重e
S1.1,为了计算转移熵,需要首先确定参数k和l,再估计随机变量的概率分布函数。本方法使用符号编码方法,将节点的时间序列划分为完备事件组。确定状态数q后,将时间序列数值利用
S1.2,遍历成对节点i,j之间的转移熵TE
S1.3,由于转移熵计算存在冗余信息,所以本发明设置阈值θ从而过滤冗余信息。交通节点i流向节点j的信息流连边权重w
S2,基于因果逻辑网络G对逻辑网络节点数据利用图卷积网络(GCN)进行特征提取。逻辑因果网络为G=(V,E),因果网络节点个数为N,初始因果逻辑网络节点特征为X∈R
S2.1,为提取节点特征,图卷积神经网络将集合图结构信息对每个节点进行信息提取,在不考虑边权情况下,传统图神经网络节点特征将按如下形式更新:
此处,H
S2.2,对每个节点单独考虑,通过度矩阵与邻接矩阵的实际含义不难得出在图卷积神经网络中每个节点的信息是按照如下规则进行传递的:
其中
S3,基于提取的图信息特征h
S3.1,对于n个采样节点的时间序列数据
可以得到t时刻时间截面数据特征h
S3.2,针对第i个节点的特征数据
z
r
其中输入为h
m
从而将n个GRU模块按顺序排列即可接收第i个节点数据特征流
S3.3,记编码结果
v
其中v
解码器初始输入v
S4,利用反向传播算法进行训练优化参数。对于n个采样节点的时间序列数据设立时间窗t,将0-t时刻的数据用于编码,t-T时刻的数据用于解码,从而有真实训练标签x
利用反向传播算法来逐步减小损失函数,实现参数的训练更新,最终得到信息流数据预测模型。
与现有技术相比,本发明具有以下优点:
1、基于转移熵的耦合信息流测度具有方向性,且能够捕获时间序列的非线性特征,以此建立的因果逻辑网络能够对耦合时序信息流在预测方面表现出的不同时空特征进行很好的测度。
2、图卷积神经网络是一种新型的处理图数据的方法,可以通过邻接矩阵,拉普拉斯矩阵有效的提取图网络信息。
3、门控循环单元GRU是LSTM结构的变体,在处理时序数据中有着广泛的应用,本技术将因果逻辑网络、图卷积网络GCN与门控循环单元GRU相结合,在GCN处理逻辑网络信息额基础上在利用GRU进行时序数据处理,模型具有更好的精度。
4、本方案通过因果逻辑网络进行根源推理提取节点间的因果关系,通过带权改进的图卷积神经网络来提取空间信息,之后通过GRU提取时间信息。全面多层次的运用了空间时间的数据特征,将复杂的流量数据的各个方面进行分析提取,比传统的只考虑空间状态或时间序列信息的预测方法有了明显的进步,也取得了更好的预测结果。
附图说明
图1是本方法中各个部分的结构示意图。
图2是本方法中基于转移熵的因果逻辑网络建立流程图。
图3是本方法的图卷积网络(GCN)示意图。
图4是本方法门控循环单元(GRU)单元结构图。
图5是本方法中门控循环单元(GRU)模型图(h为GRU单元)。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:参见图1—图5,一种基于因果逻辑和图卷积特征提取的网络耦合时序信息流预测方法,所述方法包括以下步骤:
S1,基于N个采样节点的时间序列数据利用转移熵(Transferentropy)建立因果逻辑网络G=(V,E);
转移熵为信息论中两个随机事件X与Y间依赖性的一种度量,表达式为:
其中熵H
因果逻辑网络定义为G=(V,E),其中V={1,2,…,N}为节点集,E=(e
S1.1,为了计算转移熵,需要首先确定参数k和l,再估计随机变量的概率分布函数。本方法使用符号编码方法,将节点的时间序列划分为完备事件组。确定状态数q后,将时间序列数值利用
S1.2,遍历成对节点i,j之间的转移熵TE
S1.3,由于转移熵计算存在冗余信息,所以本发明设置阈值θ从而过滤冗余信息。交通节点i流向节点j的信息流连边权重w
S2,基于因果逻辑网络G对逻辑网络节点数据利用图卷积网络(GCN)进行特征提取。逻辑因果网络为G=(V,E),因果网络节点个数为N,初始因果逻辑网络节点特征为X∈R
S2.1,为提取节点特征,图卷积神经网络将集合图结构信息对每个节点进行信息提取,在不考虑边权情况下,传统图神经网络节点特征将按如下形式更新:
此处,H
S2.2,对每个节点单独考虑,通过度矩阵与邻接矩阵的实际含义不难得出在图卷积神经网络中每个节点的信息是按照如下规则进行传递的:
其中
S3,基于提取的图信息特征h
S3.1,对于n个采样节点的时间序列数据
可以得到t时刻时间截面数据特征h
S3.2,针对第i个节点的特征数据
z
r
其中输入为h
m
从而将n个GRU模块按顺序排列即可接收第i个节点数据特征流
S3.3,记编码结果
v
其中v
S4,利用反向传播算法进行训练优化参数。对于n个采样节点的时间序列数据设立时间窗t,将0-t时刻的数据用于编码,t-T时刻的数据用于解码,从而有真实训练标签x
利用反向传播算法来逐步减小损失函数,实现参数的训练更新,最终得到信息流数据预测模型。
具体来说,基于转移熵(TE)因果网络—图卷积网络(GCN)—门控循环单元(GRU)的预测模型,包括下述步骤:
1.数据处理:
采用深圳某地区2019年6月1日至2019年12月31日的交通流量数据,采样的道路点为154,即节点数为154。统计每个节点的过车量,时间分辨率为5min,即对每五分钟每个采样点统计流量。将流量数据集按照8:2的比例划分训练集和测试集,流量预测的时间窗为1小时,即以用1小时的流量数据预测1小时的流量情况。
2.建模过程:
如图2所示,采样数据处理后得到时间序列数据,在符号编码方法中将交通流区间利用20%、40%、60%、80%分位数划分为5个状态,将每种状态的频率近似作为概率分布,设置参数k=l=1遍历计算两两节点的转移熵后对初始网络进行阈值筛选,只有边权大于阈值的连边被保留下来,形成最终的有向加权因果逻辑网络。
如图3所示,将得到的加权因果逻辑网络放入图卷积神经网络中,对于每个时间点使用共享参数的图神经网络进行训练得到各个节点的时序提取信息数据。
如图5所示,将经过信息提取的时序数据作为输入,输入至GRU模块中,通过GRU模块的编码解码过程实现流量的预测,将流量预测的结果作为下步流量预测的输入多次迭代实现多步预测,GRU单元涉及的算法如图4所示,主要包括更新门与重置门,通过更新门确定接收信息的比例,通过重置门确定重置信息的比例,模块结构如下:
z
r
最后将真实数据和输出结果模型置入损失函数L计算,与阈值0.05进行对比,获得模型参数的最优解。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 通过卷积神经网络进行特征提取并通过主成分分析进行特征约简,从而对细粒度对象进行基于类别的基于内容的图像检索
机译: 用于基于多位卷积神经网络的基于多位卷积神经网络的存储单元的存储单元,用于基于多位卷积神经网络的基于存储的内存应用的存储器阵列结构及其计算方法
机译: 基于卷积神经网络的声学特征提取方法和装置及终端设备