首页> 中国专利> 一种基于大规模数据的贝叶斯分类算法的黑车识别方法

一种基于大规模数据的贝叶斯分类算法的黑车识别方法

摘要

本发明涉及一种基于大规模数据的贝叶斯分类算法的黑车识别方法,包括:从大规模过车数据平台中检索出黑车样本车辆和白车样本车辆的过车记录数据;对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特征属性;根据过车记录数据的原始特征属性计算出车辆出行规律程度;利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给用户。本发明模型建立过程中的所有参数都是通过自调整的方式设定的,消除了主观因素对黑车识别结果的影响,提高了数据处理的效率及结果显示的实时性。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-19

    授权

    授权

  • 2015-08-19

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150410

    实质审查的生效

  • 2015-07-22

    公开

    公开

说明书

技术领域

本发明涉及智能交通技术领域,尤其是一种基于大规模数据的贝叶斯分类算法的 黑车识别方法。

背景技术

所谓黑车,是指没有在交通运输管理部门办理任何相关手续、没有领取营运牌证 而以有偿服务实施非法运营的车辆。近年来,随着经济的发展,黑车的数量也在 逐年上升,黑车的存在不仅严重扰乱了正常的运输市场秩序,导致严重的交通事 故发生,损害旅客的合法权益,而且由于有些黑车车主的强揽旅客、敲诈勒索、 谋财害命的行为,严重影响了旅客的出行安全,给社会带来了不稳定的因素。因 黑车的治理具有车辆难以识别、数量庞大、调查取证困难等特点,且目前尚无一 种有效的方法或系统可实现对其的自动识别,故如何正确识别黑车已成为运管处 急需解决的问题。

发明内容

本发明的目的在于提供一种自动对卡口系统中的过往车辆是否为黑车进行判别, 维护正常的交通秩序,为运管处对黑车的监控、处罚提供依据的基于大规模数据 的贝叶斯分类算法的黑车识别方法。

为实现上述目的,本发明采用了以下技术方案:一种基于大规模数据的贝叶斯分 类算法的黑车识别方法,该方法包括下列顺序的步骤:

(1)从运管处获得多个非法运营车辆的车牌号信息,作为黑车样本车辆;同时 获得多个私家车的车牌号信息,作为白车样本车辆,然后从大规模过车数据平台 Hadoop中检索出黑车样本车辆和白车样本车辆的过车记录数据;

(2)对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特 征属性;

(3)根据过车记录数据的原始特征属性计算出车辆出行规律程度;

(4)在大规模过车数据平台Hadoop中,利用过车记录数据的原始特征属性和车 辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;

(5)将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动 识别车辆是否为黑车,并将识别结果呈现给用户。

在进行过车数据检索时,通过大规模过车数据平台Hadoop下的MapReduce引擎 获取非关系型分布式数据库HBase中存储的数据,该数据以车牌号信息为索引存 储在大规模过车数据平台Hadoop上的HBase中,且以分布式文件系统为基础。 所述数据预处理是指首先将有缺失或者错误的过车记录数据删除,然后通过相关 性分析,得到车辆的过车数据中的各特征属性与黑车间的相关程度,取相关程度 最大的4个特征属性作为过车记录数据的原始特征属性,即过车时间、卡口编号、 车型和车速。

计算车辆出行规律程度的具体步骤如下:

(1)建立特征属性向量:将原始特征属性的过车时间、卡口编号、车型和车速 组成向量,得到过车记录的特征属性向量;

(2)向量分组:将得到的特征属性向量根据样本进行分类处理,得到对应于白 车和黑车的两个向量组;

(3)计算类内离散矩阵:根据公式①、公式②和公式③分别求出对应于白车和 黑车的两个向量组样本的类内离散矩阵,公式如下:

mi=1niΣxkXixk,i=1,2        ①

Si=ΣXXi(X-mi)(X-mi)T,i=1,2   ②

Sw=S1+S2            ③

其中:xk为过车记录向量,Xi为总体数据集,mi为每组向量组的期望向量,ni为 每个向量组的元素个数,S1为过车时间的方差值,S2为过车速度的方差值,T代 表矩阵的转置;Sw为两向量组的方差之和,即类内离散矩阵;

(4)计算类间离散矩阵:根据公式④求出两个向量组样本之间的离散矩阵,公 式如下:

Sb=(m1-m2)(m1-m2)T         ④

其中:m1和m2分别为时间向量和速度向量的期望值,Sb为黑车和白车的类间离散 矩阵,T代表矩阵的转置;

(5)计算车辆出行规律程度:根据公式⑤由类内离散矩阵和两向量组间的类间 离散矩阵得到车辆出行规律程度,公式如下:

J=|Sb||Sw|=|(m1-m2)(m1-m2)T||S1+S2|       ⑤

其中:m1和m2分别为时间向量和速度向量的期望值,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置。

所述建立基于贝叶斯分类模型的黑车识别模型的步骤为:

(1)特征属性选择:每个数据样本用一个5维特征向量表示,5维特征向量的5 个特征属性包括原始特征属性和车辆出行规律程度,即过车时间、卡口编号、车 型、车速和车辆出行规律程度;

(2)计算某一属性值的条件概率:所有的样本共分为黑车和白车两个类,计算 5个特征属性的各取值在黑车类和白车类中的比率P(xk︱黑车)和P(xk︱白车), 其中:xk是特征属性的各个不同取值;(P(xk︱黑车)为某一特征属性的取值占 黑车的百分比,P(xk︱白车)为某一特征属性的取值占白车的百分比;

(3)计算某一样本的条件概率:由公式⑥、公式⑦计算P(X︱白车)、及P(白 车)的值,同理,计算P(X︱黑车)及P(黑车)的值,公式如下:

P(白车)=样本中白车数/样本总数    ⑥

P(X︱白车)=∏P(xk︱白车)          ⑦

其中:∏代表连乘,P(黑车)和P(白车)分别为样本中黑车和白车的所占的 比率;X代表5个特征属性取值的排列组合,P(X︱白车)为某车是白车的情 况下各属性取值为X的概率值,P(X︱黑车)为某车是黑车的情况下各属性取值 为X的概率值;

(4)求得最终结果:由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值, 具体公式如下:

P(白车︱X)=P(X︱白车)*P(白车)/P(X)  ⑧

P(黑车︱X)=P(X︱黑车)*P(黑车)/P(X)  ⑨

其中,P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率,P (X)为中间推导量。

所述大规模过车数据平台Hadoop采用MapReduce引擎对获取到的过车数据进行 预处理操作,并将处理后的数据传输到计算节点;计算节点接收到过车数据,执 行Map算法对贝叶斯分类模型进行训练,对模型的各参数进行调整;使用训练后 的模型即黑车识别模型对未标识的车辆是否为黑车进行判断,并将判定的结果传 给Reduce模块,Reduce模块对结果进行排序,从而实现对黑车的识别。

将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中,通过比较P(X︱ 白车)*P(白车)与P(X︱黑车)*P(黑车)的大小,得到P(白车︱X)、P (黑车︱X)的大小关系,即可得到某车属于白车或黑车的概率,概率大的即表 示该辆车属于此类,从而实现对未知车辆的识别。

由上述技术方案可知,本发明的优点如下:第一,本发明利用现有的卡口数据即 大量的过车记录数据,得到黑车和白车的样本,在样本的基础上建立黑车识别模 型,样本数据真实性高,识别的准确度高,由于无需投入更多的成本去获得数据, 成本较低;第二,本发明模型建立过程中的所有参数都是通过自调整的方式设定 的,最大限度的消除了主观因素对最终黑车识别结果的影响,极大地提高了数据 处理的效率及结果显示的实时性;第三,通过本发明,能够自动对卡口系统中的 过往车辆是否为黑车进行判别,维护正常的交通秩序,为运管处对黑车的监控、 处罚提供依据。

附图说明

图1为本发明的方法流程图;

图2为本发明的计算车辆出行规律程度的方法流程图;

图3为本发明的建立黑车识别模型的方法流程图。

具体实施方式

如图1所示,一种基于大规模数据的贝叶斯分类算法的黑车识别方法,包括:(1) 从运管处获得多个非法运营车辆的车牌号信息,作为黑车样本车辆;同时获得多 个私家车的车牌号信息,作为白车样本车辆,然后从大规模过车数据平台Hadoop 中检索出黑车样本车辆和白车样本车辆的过车记录数据;(2)对检索出来的过车 记录数据进行数据预处理,得到过车记录数据的原始特征属性;(3)根据过车记 录数据的原始特征属性计算出车辆出行规律程度;(4)在大规模过车数据平台 Hadoop中,利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分 类模型进行训练,得到黑车识别模型;(5)将卡口系统中未识别的过车数据输入 黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给 用户。

如图1所示,在进行过车数据检索时,通过大规模过车数据平台Hadoop下的 MapReduce引擎获取非关系型分布式数据库HBase中存储的数据,该数据以车牌 号信息为索引存储在大规模过车数据平台Hadoop上的HBase中,且以分布式文 件系统为基础。所述数据预处理是指首先将有缺失或者错误的过车记录数据删 除,然后通过相关性分析,得到车辆的过车数据中的各特征属性与黑车间的相关 程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性,即过 车时间、卡口编号、车型和车速。对过车数据的存储与计算采用分布式数据计算 技术,研究Hadoop分布式存储机制、并行计算等技术,设计了一个分布式计算、 统一存储、统一访问、动态扩容的基础环境解决方案,为“黑车”识别提供技术 支撑。

如图2所示,计算车辆出行规律程度的具体步骤如下:

(1)建立特征属性向量:将原始特征属性的过车时间、卡口编号、车型和车速 组成向量,得到过车记录的特征属性向量;

(2)向量分组:将得到的特征属性向量根据样本进行分类处理,得到对应于白 车和黑车的两个向量组;

(3)计算类内离散矩阵:根据公式①、公式②和公式③分别求出对应于白车和 黑车的两个向量组样本的类内离散矩阵,公式如下:

mi=1niΣxkXixk,i=1,2    ①

Si=ΣXXi(X-mi)(X-mi)T,i=1,2    ②

Sw=S1+S2     ③

其中:xk为过车记录向量,Xi为总体数据集,mi为每组向量组的期望向量,ni为 每个向量组的元素个数,S1为过车时间的方差值,S2为过车速度的方差值,T代 表矩阵的转置;Sw为两向量组的方差之和,即类内离散矩阵;

(4)计算类间离散矩阵:根据公式④求出两个向量组样本之间的离散矩阵,公 式如下:

Sb=(m1-m2)(m1-m2)T     ④

其中:m1和m2分别为时间向量和速度向量的期望值,Sb为黑车和白车的类间离散 矩阵,T代表矩阵的转置;

(5)计算车辆出行规律程度:根据公式⑤由类内离散矩阵和两向量组间的类间 离散矩阵得到车辆出行规律程度,公式如下:

J=|Sb||Sw|=|(m1-m2)(m1-m2)T||S1+S2|        ⑤

其中:m1和m2分别为时间向量和速度向量的期望值,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置。

如图3所示,所述建立基于贝叶斯分类模型的黑车识别模型的步骤为:

(1)特征属性选择:每个数据样本用一个5维特征向量表示,5维特征向量的5 个特征属性包括原始特征属性和车辆出行规律程度,即过车时间、卡口编号、车 型、车速和车辆出行规律程度;

(2)计算某一属性值的条件概率:所有的样本共分为黑车和白车两个类,计算 5个特征属性的各取值在黑车类和白车类中的比率P(xk︱黑车)和P(xk︱白车), 其中:xk是特征属性的各个不同取值;(P(xk︱黑车)为某一特征属性的取值占 黑车的百分比,P(xk︱白车)为某一特征属性的取值占白车的百分比;例如: 当x代表速度时,x1代表速度大于80Km/h,则P(x1︱黑车)代表黑车中速度大 于80Km/h的车辆占总黑车数的比例。

(3)计算某一样本的条件概率:由公式⑥、公式⑦计算P(X︱白车)、及P(白 车)的值,同理,计算P(X︱黑车)及P(黑车)的值,公式如下:

P(白车)=样本中白车数/样本总数    ⑥

P(X︱白车)=∏P(xk︱白车)        ⑦

其中:∏代表连乘,P(黑车)和P(白车)分别为样本中黑车和白车的所占的 比率;X代表5个特征属性取值的排列组合,如:车速为高,车型为大型,卡 口编号为一类,过车时间为上午,车辆出行规律程度为不规律就是X的一个向量 值;P(X︱白车)为某车是白车的情况下各属性取值为X的概率值,P(X︱黑车) 为某车是黑车的情况下各属性取值为X的概率值;

(4)求得最终结果:由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值, 具体公式如下:

P(白车︱X)=P(X︱白车)*P(白车)/P(X)  ⑧

P(黑车︱X)=P(X︱黑车)*P(黑车)/P(X)  ⑨

其中,P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率,P (X)为中间推导量,没有具体意义。

所述大规模过车数据平台Hadoop采用MapReduce引擎对获取到的过车数据进行 预处理操作,并将处理后的数据传输到计算节点;计算节点接收到过车数据,执 行Map算法对贝叶斯分类模型进行训练,对模型的各参数进行调整;使用训练后 的模型即黑车识别模型对未标识的车辆是否为黑车进行判断,并将判定的结果传 给Reduce模块,Reduce模块对结果进行排序,从而实现对黑车的识别。

将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中,通过比较P(X︱ 白车)*P(白车)与P(X︱黑车)*P(黑车)的大小,得到P(白车︱X)、P (黑车︱X)的大小关系,即可得到某车属于白车或黑车的概率,概率大的即表 示该辆车属于此类,从而实现对未知车辆的识别。本发明将分析后的车辆是否为 “黑车”、属于“黑车”的程度等信息以列表的形式展示给用户,用户可对感兴 趣车辆的行车轨迹等具体情况进行查询。例如:X=(a1,a2,a3,a4,a5),其 中,a1代表过车时间为上午,a2代表卡口编号为一类、a3代表车型为大型,a4 代表车速为高,a5代表出行不规律,则P(X︱白车)=∏P(xk︱白车)=P(a1 ︱白车)*P(a2︱白车)*P(a3︱白车)*P(a4︱白车)*P(a5︱白车) =0.7144*0.6458*0.37*0.8623*0.8676;P(白车)=0.9762,则P(X︱白车)*P (白车)=0.9543;同理,可求得P(X︱黑车)*P(黑车)=0.0457,由于P(X ︱白车)*P(白车)>P(X︱黑车)*P(黑车),故该车为白车。

综上所述,本发明模型建立过程中的所有参数都是通过自调整的方式设定的,最 大限度的消除了主观因素对黑车识别结果的影响,极大地提高了数据处理的效率 及结果显示的实时性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号