首页> 中国专利> 一种不同轨迹间相似度度量系统及其度量方法

一种不同轨迹间相似度度量系统及其度量方法

摘要

本发明公开了一种不同轨迹间相似度度量系统,包括轨迹数据文件上传模块和计算结果可视化模块,其中轨迹数据文件上传模块通过数据预处理模块后经过轨迹间相似度计算模块得到最相似段构造模块,最后通过计算结果可视化模块传送给用户;一种不同轨迹间相似度度量系统的度量方法,包括1、数据上传;2、判断轨迹数据文件是否合法,如果判断文件合法则对进行预处理,如果判断文件不合法则进行错误提示;3、通过轨迹间相似度计算模块对轨迹间的相似度进行评价;4、通过最相似段构造模块寻找出最为相似的两条轨迹;5、通过计算结果可视化模块将计算结果显示出来。本发明结果更加准确,同时利用最长公共子序列的方法来构造轨迹间的最相似段。

著录项

  • 公开/公告号CN106960006A

    专利类型发明专利

  • 公开/公告日2017-07-18

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201710101794.4

  • 发明设计人 叶枫;徐永欢;吴胜艳;邹由超;

    申请日2017-02-24

  • 分类号G06F17/30(20060101);

  • 代理机构南京苏高专利商标事务所(普通合伙);

  • 代理人梁耀文

  • 地址 211100 江苏省南京市江宁开发区佛城西路8号

  • 入库时间 2023-06-19 02:52:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-05

    授权

    授权

  • 2017-08-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170224

    实质审查的生效

  • 2017-07-18

    公开

    公开

说明书

技术领域

本发明属于数据挖掘技术领域,特别涉及一种不同轨迹间相似度度量系统及其度量方法。

背景技术

数据挖掘(datamining)是一种从海量的历史业务数据中,透过数理分析模式提取出蕴藏于其中的潜在信息的过程。时空轨迹数据挖掘则是专门针对时空轨迹数据进行有效信息发掘的一种过程,随着移动通讯设备和视频监控设备的快速发展,轨迹数据与日剧增,针对移动对象的分析和研究也越来越受到人们的重视。如何有效管理和利用移动对象的各种信息已成为目前研究的热点之一。轨迹数据处理主要包括数据采集、数据预处理、数据分析、结果可视化等流程。

时空轨迹数据挖掘中轨迹间相似度计算已有很多经典算法,这些算法适用于轨迹聚类,缺乏对轨迹数据多维度的分析,而轨迹间最相似轨迹段的计算尚无比较统一的方法。目前尚无面向用户的纯粹的轨迹相似度度量的系统,轨迹相似度计算多从属于一些移动端应用的模块等。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种结果更加准确,同时利用最长公共子序列的方法来构造轨迹间的最相似段的不同轨迹间相似度度量系统及其度量方法。

技术方案:为解决上述技术问题,本发明提供一种不同轨迹间相似度度量系统,包括用户参与的轨迹数据文件上传模块和计算结果可视化模块,其中轨迹数据文件上传模块通过数据预处理模块后经过轨迹间相似度计算模块得到最相似段构造模块,最后通过计算结果可视化模块传送给用户;

轨迹数据文件上传模块用于通过Web上传方式获取数据;

数据预处理模块用于读取从数据采集模块获取的轨迹数据,判断轨迹数据是否为经纬度或经纬度带时间定义的合法数据;

轨迹间相似度计算模块用于在保留轨迹整体特征的情况下对已经过预处理的两条轨迹进行轨迹点的匹配,然后对匹配结果进行统计分析,结合动态时间规整得出的特征值计算出轨迹间的相似度大小;

最相似段构造模块用于按顺序考虑每一对轨迹点是否可以构造一对临近点对,最终得出全局最优结果,并从构造结果内得出不同对子轨迹段,进而从子轨迹段对中找出最相似轨迹段;

计算结果可视化模块用于将分析的结果通过GIS形式进行展现。

进一步的,所述计算结果可视化模块包括显示器和含有GPS定位功能的地图软件。

一种如上所述的不同轨迹间相似度度量系统的度量方法,具体步骤如下:

步骤一:通过轨迹数据文件上传模块实现数据上传,具体的:使用Web上传方式采集数据,通过监听Web客户端的数据上传请求,建立客户端和数据存储服务器的Socket连接,再使用JavaI/O流将数据集写入到数据存储服务器的文件系统中;

步骤二:读取步骤一中轨迹数据文件上传模块获取的轨迹数据,判断轨迹数据文件是否合法,即是否为经纬度或经纬度带时间定义的轨迹;如果判断文件合法则进入步骤三,如果判断文件不合法则进行错误提示并返回步骤一;

步骤三:通过数据预处理模块对合法的文件进行预处理,预处理主要包括异常点检测并去除,利用k-means算法对一条轨迹进行聚类,若某个类中仅有单独一个轨迹点,则认定该轨迹点为异常点,将其去除,通过预处理提取出轨迹数据对象;

步骤四:通过轨迹间相似度计算模块对轨迹间的相似度进行评价,具体的:基于经典的动态时间规整算法,在保留轨迹整体特征的情况下对已经预处理的两条轨迹进行轨迹点的匹配,然后对匹配结果进行统计分析,从经过临近的点、经过各点的顺序、经过各点的时间接近程度这三个方面考量轨迹间的相似度,最终归一化处理计算出轨迹间的相似度大小;

步骤五:通过最相似段构造模块寻找出最为相似的两条轨迹,具体的:利用统计分析找出两条轨迹上轨迹点之间区分临近的一个距离阈值,利用该阈值进行最长公共子序列的构造,结合动态规划思想,按顺序考虑每一对轨迹点是否可以构造一对临近点对,最终得出全局最优结果;然后从构造结果内得出不同对子轨迹段,继而计算每对子轨迹段之间的相似度大小,子轨迹段之间相似度的计算按照步骤四中的计算方法依然考虑经过临近的点、经过各点的顺序、经过各点的时间接近程度这三个方面,从子轨迹段对中找出最相似轨迹段即为两条轨迹最相似段;

步骤六:通过计算结果可视化模块将计算结果显示出来。

与现有技术相比,本发明的优点在于:

本发明充分分析影响轨迹间相似度的轨迹点之间距离、顺序差、时间差等因素,综合这些因素来评价轨迹间的相似度,将统计分析的思想与经典的动态时间规整算法相结合,深入考虑了轨迹间相似度的语义背景,相较于单一利用欧氏距离度量、利用动态时间规整距离度量、或者利用编辑距离度量等轨迹间相似度度量方法,计算结果更符合语义需要,更准确,可信度也更高。同时基于本相似度度量方法创新地利用最长公共子序列算法的思想来构造轨迹间的最相似段,提供了一种查询轨迹间最相似轨迹段的方案,该方案查询结果满足需要,并且利用动态规划思想实现最长公共子序列算法也使得这种构造方法效率较高。

附图说明

图1为本发明的结构示意图;

图2为本发明的总体流程图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明。

如图1所示,本发明涉及的轨迹相似度度量系统为用户提供了经纬度或经纬度带时间定义的不同轨迹间相似度的度量以及最相似轨迹段的查询功能,用户只需在轨迹数据上传模块提交轨迹数据文件,即可在结果可视化模块查看所提交轨迹的计算结果,非常便捷。

本发明设计并实现轨迹数据文件上传模块使用Web上传方式获取数据,其处理机制是通过监听Web客户端的数据上传请求,建立客户端和数据存储服务器的Socket连接,再使用JavaI/O流将数据集写入到数据存储服务器的文件系统中。对于单个轨迹数据文件或者轨迹数据文件集,分别采取不同处理方法。

轨迹数据预处理模块先读取从数据采集模块获取的轨迹数据,判断轨迹数据是否为经纬度或经纬度带时间定义的合法数据。若不合法则返回错误提示,若合法则继续进行必要的预处理,包括异常点检测、缺失值处理、数据压缩,避免异常数据以及冗余数据。

本发明提出的系统的核心思想是引入统计分析的思想,对轨迹间的相似度进行评价。基于经典的动态时间规整算法,在保留轨迹整体特征的情况下对已经过预处理的两条轨迹进行轨迹点的匹配,然后对匹配结果进行统计分析,结合动态时间规整得出的特征值计算出轨迹间的相似度大小。

本发明提出的系统是利用统计分析找出两条轨迹上轨迹点之间区分临近的一个距离阈值,利用该阈值进行最长公共子序列的构造。结合动态规划思想,按顺序考虑每一对轨迹点是否可以构造一对临近点对,最终得出全局最优结果。从构造结果内得出不同对子轨迹段,进而从子轨迹段对中找出最相似轨迹段。

本发明对于轨迹相似度分析的展示结果使用GIS形式,调用了百度地图API来实现的。

本发明所述的度量方法主要包括以下步骤;

步骤1:设计并实现轨迹数据文件上传模块。使用Web上传方式采集数据,通过监听Web客户端的数据上传请求,建立客户端和数据存储服务器的Socket连接,再使用JavaI/O流将数据集写入到数据存储服务器的文件系统中。考虑到轨迹数据可以是单个轨迹数据文件或者轨迹数据文件集,应分别采取不同处理方法。

步骤2:设计并实现数据预处理模块。读取轨迹数据文件上传模块获取的轨迹数据,判断轨迹数据文件是否合法,即是否为经纬度或经纬度带时间定义的轨迹。若数据不合法则进行错误提示,对于合法的数据进一步进行必要的预处理,包括异常点检测、缺失值处理、数据压缩,避免异常数据以及冗余数据对轨迹相似度度量的影响。轨迹数据经预处理提取出轨迹数据对象,供后续轨迹间相似度的度量。

步骤3:设计并实现相似度评价模型模块。引入统计分析的思想,对轨迹间的相似度进行评价。基于经典的动态时间规整算法,在保留轨迹整体特征的情况下对已经过预处理的两条轨迹进行轨迹点的匹配,然后对匹配结果进行统计分析,从经过临近的点、经过各点的顺序、经过各点的时间接近程度这三个方面考量轨迹间的相似度,最终归一化处理计算出轨迹间的相似度大小。

步骤4:设计并实现轨迹间最相似段构造模块。利用统计分析找出两条轨迹上轨迹点之间区分临近的一个距离阈值,利用该阈值进行最长公共子序列的构造,结合动态规划思想,按顺序考虑每一对轨迹点是否可以构造一对临近点对,最终得出全局最优结果。从构造结果内得出不同对子轨迹段,继而计算每对子轨迹段之间的相似度大小,子轨迹段之间相似度的计算依然考虑经过临近的点、经过各点的顺序、经过各点的时间接近程度这三个方面,从子轨迹段对中找出最相似轨迹段即为两条轨迹最相似段。

步骤5:设计并实现结果可视化显示模块。首先将相似度计算结果进行展示,同时可以通过调用可访问百度地图进行轨迹的展示,充分表现轨迹的经纬度信息并在途中标注出最相似轨迹段。

如图2所示,本发明所述的不同轨迹间相似度度量系统的度量方法,具体步骤如下:

步骤一:通过轨迹数据文件上传模块实现数据上传,具体的:使用Web上传方式采集数据,通过监听Web客户端的数据上传请求,建立客户端和数据存储服务器的Socket连接,再使用JavaI/O流将数据集写入到数据存储服务器的文件系统中;

步骤二:读取步骤一中轨迹数据文件上传模块获取的轨迹数据,判断轨迹数据文件是否合法,即是否为经纬度或经纬度带时间定义的轨迹;如果判断文件合法则进入步骤三,如果判断文件不合法则进行错误提示并返回步骤一;

步骤三:通过数据预处理模块对合法的文件进行预处理,预处理主要包括异常点检测并去除,利用k-means算法对一条轨迹进行聚类,若某个类中仅有单独一个轨迹点,则认定该轨迹点为异常点,将其去除,通过预处理提取出轨迹数据对象;

步骤四:通过轨迹间相似度计算模块对轨迹间的相似度进行评价,具体的:基于经典的动态时间规整算法,在保留轨迹整体特征的情况下对已经预处理的两条轨迹进行轨迹点的匹配,然后对匹配结果进行统计分析,从经过临近的点、经过各点的顺序、经过各点的时间接近程度这三个方面考量轨迹间的相似度,最终归一化处理计算出轨迹间的相似度大小;

步骤五:通过最相似段构造模块寻找出最为相似的两条轨迹,具体的:利用统计分析找出两条轨迹上轨迹点之间区分临近的一个距离阈值,利用该阈值进行最长公共子序列的构造,结合动态规划思想,按顺序考虑每一对轨迹点是否可以构造一对临近点对,最终得出全局最优结果;然后从构造结果内得出不同对子轨迹段,继而计算每对子轨迹段之间的相似度大小,子轨迹段之间相似度的计算按照步骤四中的计算方法依然考虑经过临近的点、经过各点的顺序、经过各点的时间接近程度这三个方面,从子轨迹段对中找出最相似轨迹段即为两条轨迹最相似段;

步骤六:通过计算结果可视化模块将计算结果显示出来。

以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号