首页> 中国专利> 一种基于行车数据确定用户住址的方法

一种基于行车数据确定用户住址的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种基于行车数据确定用户住址的方法。所述方法包括：获取最近n天内的用户行车数据；根据所述数据确定用户停车的位置，并记录每天最后的停车位置数据X(i)；对X(i)进行DBSCAN聚类得到聚类簇；对所述聚类簇进行Kmeans聚类得到聚类中心，所述聚类中心即为用户住址的坐标；将所述坐标转换成住址信息，得到用户住址。本发明基于海量的用户行车数据，提取每天最后停车位置，大大降低了数据处理的数据量；采用DBSCAN与Kmeans相结合的聚类算法确定用户住址的位置数据，消除了采用单一Kmeans聚类算法因K值的随机性影响聚类结果的不足，消除了噪声点，提高了用户住址的定位精度。

著录项

公开/公告号CN112380906A

专利类型发明专利
公开/公告日2021-02-19

原文格式PDF
申请/专利权人上汽通用五菱汽车股份有限公司;
展开▼

申请/专利号CN202011114391.1
发明设计人王兴月;张亮;程登;黎飞;谢燕芳;
展开▼

申请日2020-10-19
分类号G06K9/00(20060101);G06K9/62(20060101);G06F16/29(20190101);
代理机构11253 北京中北知识产权代理有限公司;
代理人卢业强
地址 545007 广西壮族自治区柳州市河西路18号上汽通用五菱汽车股份有限公司
入库时间 2023-06-19 09:55:50

说明书

技术领域

本发明涉及定位技术领域，具体涉及一种基于行车数据确定用户住址的方法。

背景技术

随着汽车市场逐渐朝着智能化迅猛发展，用户住址信息的识别与预测已经成为建立准确的用户地理位置分布的关键要素，其对主机厂准确了解用户群体分布有着非常重要的意义和应用。从目前的发展现状来看，对于汽车行业主机厂，其用户住址信息是通过用户购车时填写的地住信息为分析样本，但往往都不是用户真实用车场景和地理位置信息。为此，本发明提出了一种基于汽车GPS定位信息确定停车位置，从而确定用户住址信息的方法。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种基于行车数据确定用户住址的方法。

为实现上述目的，本发明采用如下技术方案：

一种基于行车数据确定用户住址的方法，包括以下步骤：

步骤1，获取最近n天内的用户行车数据，所述数据包括车辆位置、车速和整车高压状态；

步骤2，根据所述数据确定用户停车的位置，并记录每天最后的停车位置数据X(i)，i＝1,2,…,n；

步骤3，对X(i)进行DBSCAN聚类得到聚类簇；对所述聚类簇进行Kmeans聚类得到聚类中心，所述聚类中心即为用户住址的坐标；

步骤4，将所述坐标转换成住址信息，得到用户住址。

与现有技术相比，本发明具有以下有益效果：

本发明通过获取最近一段时间内的用户行车数据，根据所述数据确定用户的停车位置，并记录每天最后的停车位置数据X(i)，对X(i)进行DBSCAN聚类得到聚类簇，对所述聚类簇进行Kmeans聚类得到聚类中心即用户住址的坐标，将所述坐标转换成住址信息，得到用户住址信息。本发明基于海量的用户行车数据，提取每天最后停车位置，大大降低了数据处理的数据量；本发明采用DBSCAN与Kmeans相结合的聚类算法确定用户住址的位置数据，消除了采用单一Kmeans聚类算法因K值的随机性影响聚类结果的不足，消除了噪声点，提高了用户住址的定位精度。

附图说明

图1为本发明实施例一种基于行车数据确定用户住址的方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例一种基于行车数据确定用户住址的方法，流程图如图1所示，所述方法包括以下步骤：

S101、获取最近n天内的用户行车数据，所述数据包括车辆位置、车速和整车高压状态；

S102、根据所述数据确定用户停车的位置，并记录每天最后的停车位置数据X(i)，i＝1,2,…,n；

S103、对X(i)进行DBSCAN聚类得到聚类簇；对所述聚类簇进行Kmeans聚类得到聚类中心，所述聚类中心即为用户住址的坐标；

S104、将所述坐标转换成住址信息，得到用户住址。

在本实施例中，步骤S101主要用于获得最近一段时间内用户的行车数据。行车数据主要包括车辆的位置坐标即GPS定位数据、车速和整车高压状态。用户车辆在行驶过程中通过车载终端将行车数据实时上传到云服务器，并进行存储。可从云服务器获取用户的行车数据。

在本实施例中，步骤S102主要用于确定用户停车的位置，并记录每天最后的停车位置。用户行车最常到的地点一般是工作单位和家里即用户住址，而每天最后停车的地方一般是家里。本实施例就是基于这一原理确定用户住址的。停车状态可根据行车数据识别，例如车速为0且车辆熄火。停车状态的位置即为停车位置。

在本实施例中，步骤S103主要用于确定用户住址的坐标。步骤S102已经得到了用户每天最后一次停车的位置数据X(i)，对X(i)进行聚类运算即可得到聚类中心，所述聚类中心就是用户住址的位置。顾名思义，聚类就是将具有相似属性的一组数据归为一类。聚类算法是机器学习中较常用的一类算法，与分类不同，聚类是一种无监督机器学习。聚类的算法很多，根据计算方式不同，可以分为基于距离的聚类算法和基于密度的聚类算法。距离聚类的特点就是每一个类别的点都是与本类别(簇)中心的距离比其它类别(簇)中心的距离近。密度聚类更多考虑的是点和点之间的连接关系，如果有一连串的点是彼此相邻的，它们之间的密度就是相近的，把这种点看作是一个类别的点。按照密度聚类得到的每个簇都是连通的，不同簇之间是不连通的。Kmeans是常用的距离聚类算法，DBSCAN是常用的密度聚类算法。

本实施例先利用DBSCAN聚类算法将X(i)划分成多个聚类簇，然后再利用Kmeans聚类算法计算多个聚类簇的聚类中心，数据点最多的聚类簇的聚类中心即为用户住址的位置。DBSCAN聚类算法的方法是：设置聚类半径R和以R为半径的圆内数据点数量的最小值M，这个参数用来表示密度。首先任意选取一个点O，以O为圆心以R为半径画圆，计算圆内的数据点的数量；如果圆内数据点数大于M，再以与O相邻的点O’为圆心、以R为半径画圆，并计算圆内的数据点的数量；如果圆内数据点数大于M，再以相同的方法判断与O’相邻的点，不断扩展得到一个最大化的区域即一个聚类簇。然后再对该聚类簇以外的点进行相同的操作得到多个聚类簇。Kmeans聚类算法是在DBSCAN聚类算法的基础上进行。Kmeans聚类算法的方法是：先设置聚类簇的个数K；然后设置K个簇的初始中心点；遍历所有数据点，选出与K个中心点最相近的K类数据点，得到初步的K个簇。然后对初始中心点进行修正，计算每个簇的中心点得到K个新的中心点，选出与与K个新的中心点最相近的K类数据点，得到新的K个簇。重复上述步骤进行不断的迭代，生成相对稳定的K个聚类。与DBSCAN聚类算法不同的是，Kmeans聚类算法需要预先设定聚类的簇数K，由于K的设定具有很大的随机性的盲目性，如果选择不当会直接影响聚类中心的精度。本实施例利用DBSCAN聚类算法不需要预先设定聚类簇数K的特点，将DBSCAN聚类算法得到的聚类簇数作为Kmeans聚类算法的K值，可以消除Kmeans聚类算法因K值选择不当引起的误差。另外，Kmeans聚类通过一次次迭代遍历每个点到簇中心点的距离实现分类，任何一个点都会被分到一个类别中，会导致噪声点(干扰数据)不能被排除。而DBSCAN聚类算法基于密度选择数据点，可以将一些稀疏的噪声点(远离密集区域的数据点)滤掉。本实施例在DBSCAN聚类的基础上进行Kmeans聚类，则可消除此类噪声点，可进一步提高聚类的精度。

在本实施例中，步骤S104主要用于将用户住址坐标转换成住址信息。用户住址坐标一般采用经纬度坐标。有了得到用户住址的经纬度坐标，通过调用电子地图软件可获得用户的住址。

值得说明的是，本实施例每次可只针对一个用户的行车数据进行处理得到一个用户的住址信息，也可以每次对很多用户的行车数据同时进行处理，一次得到很多用户的住址信息。

作为一种可选实施例，所述步骤2之前还包括：对用户行车数据进行预处理，剔除位置的经纬度坐标异常的数据。

本实施例给出了对行车数据进行预处理的一种技术方案。数据预处理主要是滤掉一些异常数据点，比如，位置的经纬度坐标为0度或大于180度的数据。由于车载终端的GPS模块摔坏或无网络等问题无法上传准确的经纬度数据，很容易出现异常数据，如果不滤除这些异常数据，将会影响聚类精度。

作为一种可选实施例，所述S102确定用户停车位置的方法包括：

遍历用户行车数据，查找车速为0、整车高压状态由1变为0的数据点，如果所述数据点的连续持续时间大于5分钟，则所述数据点的位置坐标就是用户车辆停车位置；整车高压状态1表示车辆高压接通、动力连接状态，0表示车辆未启动、动力断开状态。

本实施例给出了确定用户停车位置的一种技术方案。停车状态一般至少具有以下特征：一是静止；二是熄火。另外还要排除临时停车情况，如异常熄火。本实施例根据车速和整车高压状态判断停车状态，车速为0说明车辆处于静止状态；整车高压状态由1变为0，可表示车辆熄火。本实施例将临时停车时间阈值设为5分钟，即上述状态至少要持续5分钟不变。

作为一种可选实施例，所述S103还包括对DBSCAN聚类算法中聚类半径的优化步骤：

S1031、分别绘制N个用户最后一天停车位置的热力图；

S1032、分别确定每个热力图中颜色最红的点的位置，得到每个用户的热力图位置；

S1033、分别计算每个用户的热力图位置与采用聚类算法得到的每个用户住址位置之间的距离，若所述距离小于设定的距离阈值，则认为对应用户住址位置正确；

S1034、计算N个用户住址位置的正确率，若所述正确率小于设定的正确率阈值，调整DBSCAN聚类算法中的聚类半径，重复S1031～S1033，直到所述正确率大于或等于设定的正确率阈值。

本实施例给出了优化聚类半径的一种技术方案。根据DBSCAN聚类算法原理，聚类半径的大小会影响聚类精度，为提高聚类精度，需要对聚类半径进行优化。本实施例引入了热力图。热力图是通过将不同颜色的区块叠加在地图上描述用户分布密度的可视化地图，可利用高德开发者的数据可视化功能绘制热力图。热力图通过颜色深浅来表示用户分布密度，如颜色越红，密度越大，颜色最红的位置即为用户住址位置。在本实施例中，随机抽取N个用户，分别绘制每个用户每天最后停车位置的热力图，根据热力图确定每个用户的住址位置，并以此位置为基准，计算采用聚类算法得到的所述用户的住址位置与此位置之间的距离，所述距离作为聚类算法的误差。如果所述误差小于设定阈值则认为对应用户的住址位置正确。计算N个用户住址位置的正确率，如果正确率不满足要求，调整DBSCAN聚类算法中的聚类半径(一般是由大向小变化)，重复前面的步骤，直到正确率满足要求为止，从而得到优化后的聚类半径。

作为一种可选实施例，所述S104具体包括：通过调用高德地图的API接口将所述坐标转换成住址信息，得到用户住址。

本实施例给出了将用户住址坐标转换成用户住址信息的一种技术方案。本实施例通过调用高德地图的API接口将所述坐标转换成住址信息。值得说明的是，本实施例只是给出了一种较佳的实施方式，并不排斥其它可行的实施方式，比如也可以采用百度地图等其它电子地图。

上述仅对本发明中的几种具体实施例加以说明，但并不能作为本发明的保护范围，凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等，均应认为落入本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于行车数据确定用户住址的方法 [P] . 中国专利： CN112380906A . 2021-02-19
2. 一种基于不确定数据表的用户画像数据整合方法及系统 [P] . 中国专利： CN108304476A . 2018-07-20
3. A method of determining programs is based on neuroplasticity, in which information in a database is related to multiple users'tasks or experimenting with their answers to accomplish those tasks for users. [P] . CL2009002011A1 . 2010-12-24

机译：一种确定程序的方法是基于神经可塑性的，其中数据库中的信息与多个用户的任务相关，或者尝试用他们的答案为用户完成这些任务。
4. A METHOD FOR TRANSMITTING DATA BETWEEN A USER UNIT AND A COMPUTER RESOURCE, WHERE THE COMMUNICATION MODE IS BASED ON WHICH PART OF A POSITION-CODING PATTERN THAT HAS BEEN DETECTED [P] . 世界知识产权组织专利： WO03056420A1 . 2003-07-10

机译：一种在用户模式和计算机资源之间传输数据的方法，其中，通信模式基于已确定位置编码模式的哪一部分
5. A METHOD FOR TRANSMITTING DATA BETWEEN A USER UNIT AND A COMPUTER RESOURCE, WHERE THE COMMUNICATION MODE IS BASED ON WHICH PART OF A POSITION-CODING PATTERN THAT HAS BEEN DETECTED [P] . AU2002358394A1 . 2003-07-15

机译：一种在用户模式和计算机资源之间传输数据的方法，其中，通信模式基于已确定位置编码模式的哪一部分