首页> 中国专利> 互联网+时代下的车辆驾驶行为分析大数据公共服务平台

互联网+时代下的车辆驾驶行为分析大数据公共服务平台

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种互联网+时代下的车辆驾驶行为分析大数据公共服务平台，对车辆驾驶行为、汽车行驶风险概率进行分析，其中包括步骤一、通过大数据平台存储汽车一段时间内的行驶数据并采用MapReduce框架对这些数据进行处理和分析，步骤二、基于大数据平台下对数据进行处理过后统计出某个区域和时间段内汽车非正常驾驶次数，包括超速、超载、急加速急减速、疲劳驾驶、夜间行驶，步骤三、对非正常驾驶行为统计后，利用自组织映射神经网络算法计算车辆风险概率，并对后续车辆行驶风险进行预测。本发明通过采集车辆的北斗/GPS导航数据，利用大数据平台对采集的数据进行预处理，在对数据进一步数据挖掘，可以分析和判断驾驶者的驾驶行为。

著录项

公开/公告号CN106095963A

专利类型发明专利
公开/公告日2016-11-09

原文格式PDF
申请/专利权人上海经达信息科技股份有限公司;
展开▼

申请/专利号CN201610430864.6
发明设计人文巨峰;罗赞文;穆祥强;许伟;
展开▼

申请日2016-06-17
分类号G06F17/30(20060101);G06K9/62(20060101);
代理机构31128 上海世贸专利代理有限责任公司;
代理人严新德
地址 200336 上海市长宁区仙霞路350号10幢楼265室
入库时间 2023-06-19 00:49:26

法律信息

法律状态公告日

法律状态信息

法律状态
2019-12-06

授权

授权
2017-07-04

实质审查的生效 IPC(主分类):G06F17/30 申请日:20160617

实质审查的生效
2016-11-09

公开

公开

说明书

技术领域:

本发明涉及物理领域，尤其涉及数据的存储与处理技术，特别是一种互联网+时代下的车辆驾驶行为分析大数据公共服务平台。

背景技术:

随着信息化程度提高，生活中充满着海量信息，在这些信息中有些与我们的生活息息相关，分析与挖掘它们可以为我们改善生活，服务公众，提高社会信息化程度，为智慧城市及信息化的动态管理方案提供了新的契机。

随着道路行驶的车辆不断增加，因人的违规驾驶导致人员财产损失的风险也在不断增加。不同地段区域内车辆出现违规驾驶行为的风险也不同，所以不能将简单的将风险平均，要因地而异。这就是需要考虑到汽车行驶的环境因素，所以首先要对汽车行驶区域进行划分然后分析出每个区域内的风险概率。现有技术中，不能从生活中的海量信息分析车辆驾驶行为。

发明内容：

本发明的目的在于提供一种互联网+时代下的车辆驾驶行为分析大数据公共服务平台，所述的这种互联网+时代下的车辆驾驶行为分析大数据公共服务平台要解决现有技术中不能从生活中的海量信息分析车辆驾驶行为的技术问题。

本发明的这种互联网+时代下的车辆驾驶行为分析大数据公共服务平台，包括对车辆驾驶行为、汽车行驶风险概率进行分析，其中包括以下步骤：

步骤一、通过大数据平台存储汽车一段时间内的行驶数据并采用MapReduce框架对这些数据进行处理和分析，

步骤二、基于大数据平台下对数据进行处理过后统计出某个区域和时间段内汽车非正常驾驶次数，包括超速、超载、急加速急减速、疲劳驾驶、夜间行驶，

步骤三、对非正常驾驶行为统计后，利用自组织映射神经网络算法计算车辆风险概率，并对后续车辆行驶风险进行预测。

进一步的，对汽车驾驶数据进行处理分析,其中包括，第一步建立数据存储层，主要方案为基于Hadoop分布式文件系统(简称HDFS)存储方案和基于HDFS+分布式面向列开源数据库(简称HBase)技术存储方案；第二步建立数据处理层，在数据处理层中采用大规模并行计算框架MapReduce(简称MR)框架来处理原始数据，第三步建立数据分析层，对数据进一步分析、建模和挖掘，第四步建立数据可视化，第五步建立安全层，为大数据平台提供安全保护系统，对外提供统一的服务接口，用户通过统一数据访问接口或统一门户页面来访问大数据服务平台。

进一步的，利用隐马尔科夫算法找到车辆行驶的路网路段，并通过地图数据找到汽车行驶的路段信息，最后将定位数据中行驶速度输入时空限速模型中，最终得出车辆是否超速的判断。

进一步的，利用大数据平台实现支持向量机的算法，其中包括，第一步、将原始数据进行标准化消除量纲的影响；第二步、通过原始数据中时间、速度和里程计算平均速度、平均加速度和启动加速度，并作为训练样本；第三步、将大量的训练样本上传到HDFS中并做分块，每个节点会启动HDFS的Map任务对块中数据进行序列最小优化(简称SMO)训练算出每个块数据的支持向量，最后将各个节点训练处的支持向量输入到HDFS的Reduce任务中交于SMO算法训练得到最终的支持向量；第四步、利用第三步中的支持向量得到分类器，并利用分类器对车辆是否超载进行判别。

进一步的，建立大数据平台下线性回归模型，其中包括，第一步、利用大数据平台找到该路段内所有汽车行驶的数据，并计算出相邻两个数据之间速度差值；第二步、利用统计线性回归算法得到某段道路上汽车以某个起始车速v_o和行驶至下一时刻车速变化量Δv为输入，以汽车在该段时间内行驶距离S为输出，并统计该路段内所有行驶汽车的数据，第三步、计>o)，最后利用该方程判别该汽车发生急加速和急减速的概率，判断规则为第i量汽车的距离与模型距离误差e＝||S-Sⁱ||越大则说明汽车发生急加速和急减速概率越大，越小则说明概率越低。

具体的，首先通过大数据平台从原始数据中找出某个路段所有时间所有车辆的行驶数据，对这些数据进行处理得出相邻两点速度的差值，接着利用回归分析方法得出回归模型。通过回归模型得出汽车在该路段发生急加速和急减速的概率。设同一个路段上两个时间点的速度差为Δv，汽车的每个时间点的初始速度为v_o。因为汽车在一段时间内行驶距离与速度差和初始速度成线性关系，所以可以该回归模型为

$> \hat{S} = b_{o} + b_{1} Δ v + b_{2} v_{0} - - - (1)$ >

其中b_o,b₁,b₂为变量Δv和v₀的偏回归系数。

通过训练数据和最小二乘原理得出偏回归系数的值，并利用方差分析对得出的模型进行检验，最后根据的大小得出汽车发生急加速和急减速的概率。其中S为汽车实际的行驶距离，为满足回归模型下的行驶距离。

进一步的，所述的计算车辆风险概率的步骤中包括，第一步度量风险概率，第二步建立风险概率模型，首先对历史数据进行预处理，包括对数据进行聚类得到l个簇即C_n＝{I₁,I₂.....I_l}其中I_i是其中的一个簇，然后针对聚类结果构造预测模型包括求簇的平均风险概率和特征向量与平均向量的相似系数，接着对风险概率进行预测。

具体的，风险概率是风险发生可能性的百分比，是对事物状态发生可能性的衡量。汽车在同一区域内行驶数据具有较高的相似性，不同区域内行驶数据差别性比较大。以一个区域为一个簇，将汽车行驶数据按特征点进行聚类，可以得到不同区域内的行驶数据。每一个特征点(特征向量)都与簇中的点有关，并假设簇中第i个特征向量为Xⁱ(i∈N)，那么风险概率>

$> P_{r} (X^{i}) \approx \frac{U (N_{r} (X^{i}))}{| | N_{r} (X^{i}) | |} - - - (2)$ >

其中||N_r(Xⁱ)||表示区域r中所有点的个数，N_r(Xⁱ)为点Xⁱ以r为半径的领域。U(N_r(Xⁱ))为该簇中安全风险发生的次数。有(2)可以看出，风险概率就是该簇中所有点的平均概率。也可以表示为

$> P_{r} (X^{i}) \approx s (X^{i}, \overline{X}) \times P_{r} (\overline{X}) - - - (3)$ >

其中表示特征点Xⁱ与所有点的平均向量的相似度。

其中，风险概率预测模型确定包括三部分：

对历史数据的预处理

(1)从历史数据中抽象出数据属性，在汽车驾驶行为数据包括车牌号、经纬度、行驶速度、行驶方向、行驶时间。

(2)对历史数据进行聚类得到l个簇即C_n＝{I₁,I₂.....I_l}，其中I_i是其中的一个簇，假设I_i簇中有k个特征向量即其中X_i^j是簇中第j个特征向量。

构造预测模型

聚类得到结果后对每个簇中的特征向量计算风险概率，步骤如下：

(1)计算簇I_i中平均风险概率。

$> P ({\overline{X}}_{i}) = \frac{Σ_{j = 1}^{k} E (X_{i}^{j})}{| I_{i} |} - - - (4)$ >

其中，|I_i|是簇I_i中元素的个数，如果表示的点为风险发生，那么否则为0。

(2)计算簇I_i中所有点的平均特征向量

(3)计算簇中每个特征向量与的相似系数

(4)计算每个特征向量的风险概率

5.3风险概率预测

计算得到风险概率模型之后就可以对新的汽车数据进行预测，步骤如下：

(1)对于新的汽车行驶数据X^p进行聚类分析；

(2)一般聚类后会将新的数据聚类到某一簇中，然后计算该数据与平均向量的相似系数；

(3)那么新的数据点的概率计算公式为：

$> P (X^{p}) = s (X^{p}, {\overline{X}}_{i}) \times P ({\overline{X}}_{i}) - - - (5)$ >

进一步的，在对数据进行聚类的步骤中，采用基于hadoop的自组织映射的神经网络聚类算法，使用Mapreduce并行计算框架对数据进行计算。

进一步的，在使用Mapreduce并行计算框架对数据进行计算的步骤中，在Map阶段计算获胜神经元并计算权值修改量，Reducer阶段对相同的获胜神经元，统计与其连接的每个权值的总体更新量，然后对权值进行更新。

进一步的，在实现支持向量机的算法中，利用欧式距离态度量两个向量之间的相似度。

具体的，在上述基于hadoop的自组织映射(SOM)的神经网络聚类算法中，采用竞争学习实现内部自适应和自组织的改变内部结构，即在接受外界输入后会自动地分为不同区域，每个区域对于输入都有不同的响应特征，而且这个过程是自动完成的。该算法的步骤如下：

(1)初始化和归一化。首先对当前输入向量和竞争层中神经元权值向量W_i进行归一化处理，并建立初始优胜域并对增益μ(0)进行赋值。

(2)寻找获胜神经元。将输入向量与竞争层中所有响应的权值向量进行相似性比较，将最相思的权值向量最为获胜神经元。在数学中两个向量最相似则他们的点积越大可以表示为下面公式：

$> {\hat{W}}_{i^{*}}^{T} \hat{X} = \underset{i \in {1, 2 ... m}}{m a x} ({\hat{W}}_{i}^{T} \hat{X}) - - - (6)$ >

(3)对优胜领域内节点权值调整

$> W_{i^{*}} (t + 1) = {\hat{W}}_{i^{*}} (t) + {ΔW}_{i^{*}} = {\hat{W}}_{i^{*}} (t) + μ (t) (\hat{X} - {\hat{W}}_{i^{*}}) - - - (7)$ >

$> W_{i} (t + 1) = {\hat{W}}_{i} (t) - - - (8)$ >

其中，μ(t)为增益并随着时间下降到0。

(4)如果增益下降到设定的阈值μ_min那么结束流程，否则继续输入数据从第一步开始新的流程计算。

将上述算法运行在Hadoop平台运行，其实施步骤如下：

Map阶段

输入键值对<key，value>，其中key表示样本序号value表示样本特征集合。

根据竞争学习原则计算出竞争层的输出值。

判定获胜神经元，将其状态判定为1，其他状态判定为0。设置flag为获胜神经元在竞争层的位置。

计算与获胜神经元相连接的各权值更新量，其他权值保持不变。

输出键值对其中key表示flag，value表示与获胜神经元相连接的权值更新量。

Reducer阶段

接受map函数的输出作为reduce函数的输入，输入key表示获胜神经元的位置，values表示与获胜神经元相连接的权值更新量的结合。

累计获得每个权值的总体更新量，并计算平均更新量。

调整相应的网络权值。

输出键值对，key表示权值更新状态，value表示更新后的网络权值。

更新全局向量，并重复MapReduce过程，直到权值向量和获胜样本误差小于设定的阈值则结束。

从上述计算步骤中可以看出SOM网络的学习可以自适应的根据样本内在的联系进行聚类，输出神经元权值向量W_i逐渐的向获胜样本靠近，权值>i|i＝1,2...l}看成所有样本的聚类中心。相似性度量方法描述如下：

特征向量X＝{x₁,x₂....x_n}属于特征空间某个簇I_i，该特征向量与平均向量>(聚类中心)相似系数可表示为，

$> s (X, {\overline{X}}_{i}) = \frac{Σ_{j = 1}^{n} x_{j} \times {\overline{x}}_{i j}}{\sqrt{(Σ_{j = 1}^{n} x_{j}^{2}) (Σ_{j = 1}^{n} {\overline{x}}_{i j}^{2})}} - - - (9)$ >

从式(9)中可以看出度量向量之间相似度使用欧式距离来测量的，两个向量越相似则值越大最大值为1。

本发明和已有技术相比较，其效果是积极和明显的。本发明通过采集车辆的北斗/GPS导航数据，利用大数据平台对采集的数据进行预处理，在对数据进一步数据挖掘，可以分析和判断驾驶者的驾驶行为。

附图说明：

图1是本发明的互联网+时代下的车辆驾驶行为分析大数据公共服务平台的框架图。

图2是本发明中的基于自组织映射神经网络算法流程图。

具体实施方式：

实施例1:

如图1和图2所示，本发明的互联网+时代下的车辆驾驶行为分析大数据公共服务平台，包括四个部分：数据存储层、数据处理层、数据分析层和数据可视化层。

判断汽车超速，第一步、利用隐马尔科夫算法找到车辆行驶的最佳路段；第二步、利用地图数据找到汽车行驶的道路类型对应的限速大小；第三步、将获得数据中行驶速度大小和路段限速大小进行对比判别车辆是否超速。

判断汽车超载，第一步、将原始数据进行标准化消除量纲的影响；第二步、通过原始数据中时间、速度和里程计算平均速度、平均加速度和启动加速度，并作为训练样本；第三步、利用第二步中的训练样本训练出分类器；第四步、利用分类器对车辆是否超载进行判别。

急加速与急减速判断，首先通过大数据平台从原始数据中找出某个路段所有时间所有车辆的行驶数据，对这些数据进行处理得出相邻两点速度的差值，接着利用回归分析方法得出回归模型。通过回归模型得出汽车在该路段发生急加速和急减速的概率。设同一个路段上两个时间点的速度差为Δv，汽车的每个时间点的初始速度为v_o。因为汽车在一段时间内行驶距离与速度差和初始速度成线性关系，该回归模型为：

$> \hat{S} = b_{o} + b_{1} Δ v + b_{2} v_{0} - - - (1)$ >

其中b_o,b₁,b₂为变量Δv和v₀的偏回归系数。

风险概率是风险发生可能性的百分比，是对事物状态发生可能性的衡量。汽车在同一区域内行驶数据具有较高的相似性，不同区域内行驶数据差别性比较大。以一个区域为一个簇，将汽车行驶数据按特征点进行聚类，可以得到不同区域内的行驶数据。每一个特征点(特征向量)都与簇中的点有关，并假设簇中第i个特征向量为Xⁱ(i∈N)，那么风险概率可以表示为

$> P_{r} (X^{i}) \approx \frac{U (N_{r} (X^{i}))}{| | N_{r} (X^{i}) | |} - - - (2)$ >

其中||N_r(Xⁱ)||表示区域r中所有点的个数，N_r(Xⁱ)为点Xⁱ以r为半径的领域。U(N_r(Xⁱ))为该簇中安全风险发生的次数。有(1)可以看出，风险概率就是该簇中所有点的平均概率。也可以表示为

$> P_{r} (X^{i}) \approx s (X^{i}, \overline{X}) \times P_{r} (\overline{X}) - - - (3)$ >

其中表示特征点Xⁱ与所有点的平均向量的相似度。

其中，风险概率预测模型需要分三个部分：

对历史数据的预处理

从历史数据中抽象出数据属性，在汽车驾驶行为数据包括车牌号、经纬度、行驶速度、行驶方向、行驶时间。

对历史数据进行聚类得到l个簇即C_n＝{I₁,I₂.....I_l}，其中I_i是其中的一个簇，假设I_i簇中有k个特征向量即其中是簇中第j个特征向量。

构造预测模型

聚类得到结果后对每个簇中的特征向量计算风险概率，步骤如下：

(1)计算簇I_i中平均风险概率。

$> P ({\overline{X}}_{i}) = \frac{Σ_{j = 1}^{k} E (X_{i}^{j})}{| I_{i} |} - - - (4)$ >

其中，|I_i|是簇I_i中元素的个数，如果表示的点为风险发生，那么否则为0。

(2)计算簇I_i中所有点的平均特征向量

(3)计算簇中每个特征向量与的相似系数

(4)计算每个特征向量的风险概率

风险概率预测

计算得到风险概率模型之后就可以对新的汽车数据进行预测，步骤如下：

对于新的汽车行驶数据X^p进行聚类分析；

一般聚类后会将新的数据聚类到某一簇中，然后计算该数据与平均向量的相似系数；

新的数据点的概率计算公式为：

$> P (X^{p}) = s (X^{p}, {\overline{X}}_{i}) \times P ({\overline{X}}_{i}) - - - (5)$ >

求数据点的风险概率模型的关键技术是如何利用聚类算法对历史数据进行聚类。此处采用基于自组织映射(SOM)的神经网络聚类算法。该算法采用竞争学习实现内部自适应和自组织的改变内部结构，即在接受外界输入后会自动地分为不同区域，每个区域对于输入都有不同的响应特征，而且这个过程是自动完成的。该算法的步骤如下：

初始化和归一化。首先对当前输入向量和竞争层中神经元权值向量W_i进行归一化处理，并建立初始优胜域N_i*(0)，并对增益μ(0)进行赋值。

寻找获胜神经元。将输入向量与竞争层中所有响应的权值向量进行相似性比较，将最相思的权值向量最为获胜神经元。在数学中两个向量最相似则他们的点积越大可以表示为下面公式：