首页> 中国专利> 一种基于大规模数据的贝叶斯分类算法的黑车识别方法

一种基于大规模数据的贝叶斯分类算法的黑车识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于大规模数据的贝叶斯分类算法的黑车识别方法，包括：从大规模过车数据平台中检索出黑车样本车辆和白车样本车辆的过车记录数据；对检索出来的过车记录数据进行数据预处理，得到过车记录数据的原始特征属性；根据过车记录数据的原始特征属性计算出车辆出行规律程度；利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练，得到黑车识别模型；将卡口系统中未识别的过车数据输入黑车识别模型中，黑车识别模型自动识别车辆是否为黑车，并将识别结果呈现给用户。本发明模型建立过程中的所有参数都是通过自调整的方式设定的，消除了主观因素对黑车识别结果的影响，提高了数据处理的效率及结果显示的实时性。

著录项

公开/公告号CN104794184A

专利类型发明专利
公开/公告日2015-07-22

原文格式PDF
申请/专利权人安徽四创电子股份有限公司;
展开▼

申请/专利号CN201510169533.7
发明设计人王佐成;任子晖;王汉林;马韵洁;张凯;王卫;刘畅;张伟;许亚军;
展开▼

申请日2015-04-10
分类号
代理机构合肥金安专利事务所;
代理人吴娜
地址 230088 安徽省合肥市高新区香樟大道199号
入库时间 2023-12-18 09:52:52

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-19

授权

授权
2015-08-19

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150410

实质审查的生效
2015-07-22

公开

公开

说明书

技术领域

本发明涉及智能交通技术领域，尤其是一种基于大规模数据的贝叶斯分类算法的黑车识别方法。

背景技术

所谓黑车，是指没有在交通运输管理部门办理任何相关手续、没有领取营运牌证而以有偿服务实施非法运营的车辆。近年来，随着经济的发展，黑车的数量也在逐年上升，黑车的存在不仅严重扰乱了正常的运输市场秩序，导致严重的交通事故发生，损害旅客的合法权益，而且由于有些黑车车主的强揽旅客、敲诈勒索、谋财害命的行为，严重影响了旅客的出行安全，给社会带来了不稳定的因素。因黑车的治理具有车辆难以识别、数量庞大、调查取证困难等特点，且目前尚无一种有效的方法或系统可实现对其的自动识别,故如何正确识别黑车已成为运管处急需解决的问题。

发明内容

本发明的目的在于提供一种自动对卡口系统中的过往车辆是否为黑车进行判别，维护正常的交通秩序，为运管处对黑车的监控、处罚提供依据的基于大规模数据的贝叶斯分类算法的黑车识别方法。

为实现上述目的，本发明采用了以下技术方案：一种基于大规模数据的贝叶斯分类算法的黑车识别方法，该方法包括下列顺序的步骤：

(1)从运管处获得多个非法运营车辆的车牌号信息，作为黑车样本车辆；同时获得多个私家车的车牌号信息，作为白车样本车辆，然后从大规模过车数据平台 Hadoop中检索出黑车样本车辆和白车样本车辆的过车记录数据；

(2)对检索出来的过车记录数据进行数据预处理，得到过车记录数据的原始特征属性；

(3)根据过车记录数据的原始特征属性计算出车辆出行规律程度；

(4)在大规模过车数据平台Hadoop中，利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练，得到黑车识别模型；

(5)将卡口系统中未识别的过车数据输入黑车识别模型中，黑车识别模型自动识别车辆是否为黑车，并将识别结果呈现给用户。

在进行过车数据检索时，通过大规模过车数据平台Hadoop下的MapReduce引擎获取非关系型分布式数据库HBase中存储的数据，该数据以车牌号信息为索引存储在大规模过车数据平台Hadoop上的HBase中，且以分布式文件系统为基础。所述数据预处理是指首先将有缺失或者错误的过车记录数据删除，然后通过相关性分析，得到车辆的过车数据中的各特征属性与黑车间的相关程度，取相关程度最大的4个特征属性作为过车记录数据的原始特征属性，即过车时间、卡口编号、车型和车速。

计算车辆出行规律程度的具体步骤如下：

(1)建立特征属性向量：将原始特征属性的过车时间、卡口编号、车型和车速组成向量，得到过车记录的特征属性向量；

(2)向量分组：将得到的特征属性向量根据样本进行分类处理，得到对应于白车和黑车的两个向量组；

(3)计算类内离散矩阵：根据公式①、公式②和公式③分别求出对应于白车和黑车的两个向量组样本的类内离散矩阵，公式如下：

$m_{i} = \frac{1}{n_{i}} \underset{x_{k} \in X_{i}}{Σ} x_{k}, i = 1,2$ ①

$S_{i} = \underset{X \in X_{i}}{Σ} (X - m_{i}) {(X - m_{i})}^{T}, i = 1,2$ ②

S_w＝S₁+S₂ ③

其中：x_k为过车记录向量，X_i为总体数据集，m_i为每组向量组的期望向量，n_i为每个向量组的元素个数，S₁为过车时间的方差值，S₂为过车速度的方差值，T代表矩阵的转置；S_w为两向量组的方差之和，即类内离散矩阵；

(4)计算类间离散矩阵：根据公式④求出两个向量组样本之间的离散矩阵，公式如下：

S_b＝(m₁-m₂)(m₁-m₂)^T ④

其中：m₁和m₂分别为时间向量和速度向量的期望值，S_b为黑车和白车的类间离散矩阵，T代表矩阵的转置；

(5)计算车辆出行规律程度：根据公式⑤由类内离散矩阵和两向量组间的类间离散矩阵得到车辆出行规律程度，公式如下：

$J = \frac{| S_{b} |}{| S_{w} |} = \frac{| {(m_{1} - m_{2}) (m_{1} - m_{2})}^{T} |}{| S_{1} + S_{2} |}$ ⑤

其中：m₁和m₂分别为时间向量和速度向量的期望值，S₁为过车时间的方差值，S₂为过车速度的方差值，T代表矩阵的转置。

所述建立基于贝叶斯分类模型的黑车识别模型的步骤为：

(1)特征属性选择：每个数据样本用一个5维特征向量表示，5维特征向量的5 个特征属性包括原始特征属性和车辆出行规律程度，即过车时间、卡口编号、车型、车速和车辆出行规律程度；

(2)计算某一属性值的条件概率：所有的样本共分为黑车和白车两个类，计算 5个特征属性的各取值在黑车类和白车类中的比率P(x_k︱黑车)和P(x_k︱白车)，其中：x_k是特征属性的各个不同取值；(P(x_k︱黑车)为某一特征属性的取值占黑车的百分比，P(x_k︱白车)为某一特征属性的取值占白车的百分比；

(3)计算某一样本的条件概率：由公式⑥、公式⑦计算P(X︱白车)、及P(白车)的值，同理，计算P(X︱黑车)及P(黑车)的值，公式如下：

P(白车)＝样本中白车数/样本总数 ⑥

P(X︱白车)＝∏P(x_k︱白车) ⑦

其中：∏代表连乘，P(黑车)和P(白车)分别为样本中黑车和白车的所占的比率；X代表5个特征属性取值的排列组合，P(X︱白车)为某车是白车的情况下各属性取值为X的概率值，P(X︱黑车)为某车是黑车的情况下各属性取值为X的概率值；

(4)求得最终结果：由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值，具体公式如下：

P(白车︱X)＝P(X︱白车)*P(白车)/P(X) ⑧

P(黑车︱X)＝P(X︱黑车)*P(黑车)/P(X) ⑨

其中，P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率，P (X)为中间推导量。

所述大规模过车数据平台Hadoop采用MapReduce引擎对获取到的过车数据进行预处理操作，并将处理后的数据传输到计算节点；计算节点接收到过车数据，执行Map算法对贝叶斯分类模型进行训练，对模型的各参数进行调整；使用训练后的模型即黑车识别模型对未标识的车辆是否为黑车进行判断，并将判定的结果传给Reduce模块，Reduce模块对结果进行排序，从而实现对黑车的识别。

将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中，通过比较P(X︱白车)*P(白车)与P(X︱黑车)*P(黑车)的大小，得到P(白车︱X)、P (黑车︱X)的大小关系，即可得到某车属于白车或黑车的概率，概率大的即表示该辆车属于此类，从而实现对未知车辆的识别。

由上述技术方案可知，本发明的优点如下：第一，本发明利用现有的卡口数据即大量的过车记录数据，得到黑车和白车的样本，在样本的基础上建立黑车识别模型，样本数据真实性高，识别的准确度高，由于无需投入更多的成本去获得数据，成本较低；第二，本发明模型建立过程中的所有参数都是通过自调整的方式设定的，最大限度的消除了主观因素对最终黑车识别结果的影响，极大地提高了数据处理的效率及结果显示的实时性；第三，通过本发明，能够自动对卡口系统中的过往车辆是否为黑车进行判别，维护正常的交通秩序，为运管处对黑车的监控、处罚提供依据。

附图说明

图1为本发明的方法流程图；

图2为本发明的计算车辆出行规律程度的方法流程图；

图3为本发明的建立黑车识别模型的方法流程图。

具体实施方式

如图1所示，一种基于大规模数据的贝叶斯分类算法的黑车识别方法，包括：(1) 从运管处获得多个非法运营车辆的车牌号信息，作为黑车样本车辆；同时获得多个私家车的车牌号信息，作为白车样本车辆，然后从大规模过车数据平台Hadoop 中检索出黑车样本车辆和白车样本车辆的过车记录数据；(2)对检索出来的过车记录数据进行数据预处理，得到过车记录数据的原始特征属性；(3)根据过车记录数据的原始特征属性计算出车辆出行规律程度；(4)在大规模过车数据平台 Hadoop中，利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练，得到黑车识别模型；(5)将卡口系统中未识别的过车数据输入黑车识别模型中，黑车识别模型自动识别车辆是否为黑车，并将识别结果呈现给用户。

如图1所示，在进行过车数据检索时，通过大规模过车数据平台Hadoop下的 MapReduce引擎获取非关系型分布式数据库HBase中存储的数据，该数据以车牌号信息为索引存储在大规模过车数据平台Hadoop上的HBase中，且以分布式文件系统为基础。所述数据预处理是指首先将有缺失或者错误的过车记录数据删除，然后通过相关性分析，得到车辆的过车数据中的各特征属性与黑车间的相关程度，取相关程度最大的4个特征属性作为过车记录数据的原始特征属性，即过车时间、卡口编号、车型和车速。对过车数据的存储与计算采用分布式数据计算技术，研究Hadoop分布式存储机制、并行计算等技术，设计了一个分布式计算、统一存储、统一访问、动态扩容的基础环境解决方案，为“黑车”识别提供技术支撑。

如图2所示，计算车辆出行规律程度的具体步骤如下：

(1)建立特征属性向量：将原始特征属性的过车时间、卡口编号、车型和车速组成向量，得到过车记录的特征属性向量；

(2)向量分组：将得到的特征属性向量根据样本进行分类处理，得到对应于白车和黑车的两个向量组；

(3)计算类内离散矩阵：根据公式①、公式②和公式③分别求出对应于白车和黑车的两个向量组样本的类内离散矩阵，公式如下：

$m_{i} = \frac{1}{n_{i}} \underset{x_{k} \in X_{i}}{Σ} x_{k}, i = 1,2$ ①

$S_{i} = \underset{X \in X_{i}}{Σ} (X - m_{i}) {(X - m_{i})}^{T}, i = 1,2$ ②

S_w＝S₁+S₂ ③

(4)计算类间离散矩阵：根据公式④求出两个向量组样本之间的离散矩阵，公式如下：

S_b＝(m₁-m₂)(m₁-m₂)^T ④

其中：m₁和m₂分别为时间向量和速度向量的期望值，S_b为黑车和白车的类间离散矩阵，T代表矩阵的转置；

(5)计算车辆出行规律程度：根据公式⑤由类内离散矩阵和两向量组间的类间离散矩阵得到车辆出行规律程度，公式如下：

$J = \frac{| S_{b} |}{| S_{w} |} = \frac{| {(m_{1} - m_{2}) (m_{1} - m_{2})}^{T} |}{| S_{1} + S_{2} |}$ ⑤

其中：m₁和m₂分别为时间向量和速度向量的期望值，S₁为过车时间的方差值，S₂为过车速度的方差值，T代表矩阵的转置。

如图3所示，所述建立基于贝叶斯分类模型的黑车识别模型的步骤为：

(3)计算某一样本的条件概率：由公式⑥、公式⑦计算P(X︱白车)、及P(白车)的值，同理，计算P(X︱黑车)及P(黑车)的值，公式如下：

P(白车)＝样本中白车数/样本总数 ⑥

P(X︱白车)＝∏P(x_k︱白车) ⑦

其中：∏代表连乘，P(黑车)和P(白车)分别为样本中黑车和白车的所占的比率；X代表5个特征属性取值的排列组合，如：车速为高，车型为大型，卡口编号为一类，过车时间为上午，车辆出行规律程度为不规律就是X的一个向量值；P(X︱白车)为某车是白车的情况下各属性取值为X的概率值，P(X︱黑车) 为某车是黑车的情况下各属性取值为X的概率值；

(4)求得最终结果：由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值，具体公式如下：

P(白车︱X)＝P(X︱白车)*P(白车)/P(X) ⑧

P(黑车︱X)＝P(X︱黑车)*P(黑车)/P(X) ⑨

其中，P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率，P (X)为中间推导量，没有具体意义。

将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中，通过比较P(X︱白车)*P(白车)与P(X︱黑车)*P(黑车)的大小，得到P(白车︱X)、P (黑车︱X)的大小关系，即可得到某车属于白车或黑车的概率，概率大的即表示该辆车属于此类，从而实现对未知车辆的识别。本发明将分析后的车辆是否为 “黑车”、属于“黑车”的程度等信息以列表的形式展示给用户，用户可对感兴趣车辆的行车轨迹等具体情况进行查询。例如：X＝(a1，a2，a3，a4，a5)，其中，a1代表过车时间为上午，a2代表卡口编号为一类、a3代表车型为大型，a4 代表车速为高，a5代表出行不规律，则P(X︱白车)＝∏P(x_k︱白车)＝P(a1 ︱白车)*P(a2︱白车)*P(a3︱白车)*P(a4︱白车)*P(a5︱白车) ＝0.7144*0.6458*0.37*0.8623*0.8676；P(白车)＝0.9762，则P(X︱白车)*P (白车)＝0.9543；同理，可求得P(X︱黑车)*P(黑车)＝0.0457，由于P(X ︱白车)*P(白车)>P(X︱黑车)*P(黑车),故该车为白车。

综上所述，本发明模型建立过程中的所有参数都是通过自调整的方式设定的，最大限度的消除了主观因素对黑车识别结果的影响，极大地提高了数据处理的效率及结果显示的实时性。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于大规模数据的贝叶斯分类算法的黑车识别方法 [P] . 中国专利： CN104794184B . 2018.01.19
2. 一种基于大规模数据的贝叶斯分类算法的黑车识别方法 [P] . 中国专利： CN104794184A . 2015-07-22
3. The ‘Property Identification Method’ (“PIM”) is a novel algorithm through which a Real Estate Authority and/or Conveyancing data is created through image-processing a document such as a Council/Shire Rates Notice. This invention establishes a unique algorithm incorporating techniques such deep learning segmentation and computer vision to decode property information. This application utilises computer-implemented technology configured in such manner as to enable conveyancers and real estate agents to automate the creation of client files. [P] . AU2020102233A4 . 2020-10-29

机译： “财产识别方法”（“ PIM”）是一种新颖的算法，通过该算法，可以通过对文件（如市议会/房屋价格通知）进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法，该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术，以使运输商和房地产经纪人能够自动创建客户端文件。
4. An algorithm for recognising relationships between data of a database and a method for image pattern recognition based on the said algorithm [P] . 欧洲知识产权局专利： EP1508872A1 . 2005-02-23

机译：识别数据库数据之间关系的算法和基于所述算法的图像模式识别方法
5. Data i.e. multimedia data, handling method, involves storing data with dictionary-based algorithm in permanent memory of embedded device i.e. control module, in compressed manner and decompressing data in volatile memory [P] . 德国专利： DE102006049263A1 . 2008-04-30

机译：数据，即多媒体数据，一种处理方法，涉及将基于字典的算法的数据以压缩方式存储在嵌入式设备即控制模块的永久存储器中，并在易失性存储器中解压缩数据