并行化流式数据聚类及其在交通热点挖掘中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着交通、GPS监控等方面数据量的海量增长,伴随出现交通实时路况延时性、交通预测不准确等现象,对流式数据的实时处理提出更高的要求,挖掘交通热点区域成为交通领域研究热点;尽管目前对交通领域流式数据聚类的研究已取得显著成就,但仍存在聚类时效性、伸缩性差,不可实现任意形状类簇等缺点。因此,为高精度实时的挖掘交通热点区域,减少城市交通拥堵和方便资源调度,提出两阶段快速流式数据聚类框架并在Storm集群下实现并行化。
　　本文提出的两阶段快速流式数据聚类框架(Canopy-Kmeans,简称CK)针对流式数据,在线阶段选择改进Canopy算法粗聚类产生宏簇并缓存概要信息;离线阶段使用Kmeans算法细聚类;引入滑动时间窗口并抽取概要信息以自动确定Kmeans初始输入和微簇时间标志。为增加聚类实时性,将CK算法在Storm集群并行化,提出并行化流式数据聚类算法(Parallel-Canopy-Kmeans,简称PCK)并实现。
　　为验证PCK算法性能,选取测试数据集对PCK、CK、Kmeans进行聚类就准确性、执行时间对比;对PCK自身就扩展性对比。为提高交通热点区域挖掘的可行性,选取北京市某七天的出租车定位数据模拟流式数据,使用PCK算法聚类生成微簇集合并结合热力图和电子地图可视化表达。实验结果表明:生成的交通热力图可直观地发现出租车活动较为频繁的热点区域和线路,且与日常出行经验相符合;生成的微簇集合可实现用户在任意时间窗口范围内交通状况实时查询,提高流式数据的聚类质量的同时保证交通路况预测实时性,为交通活动实时分析、城市车辆实时调度、物流园区车货调度等方面提供有价值的理论参考依据。

著录项

作者
高书娟;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科管理科学与工程
授予学位硕士
导师姓名陈燕;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 U491.14;
关键词
交通预测; 热点区域; 实时挖掘; 流式数据; 聚类算法;

相似文献

中文文献
外文文献
专利

1. 一种大规模流式数据聚类方法在交通热点分析中的应用 [J] . 牟向伟 ,陈燕 ,曹妍 . 科学技术与工程 . 2017,第015期
2. 数据聚类算法在web数据挖掘中的应用 [J] . 刘小利 ,刘小辉 . 科技创新导报 . 2012,第031期
3. 兴趣子空间挖掘算法在高维数据聚类中的应用 [J] . 杨颖 ,韩忠明 ,杨磊 . 计算机工程 . 2007,第002期
4. 并行化的Apriori算法在海量医疗文档数据挖掘中的应用及优化 [J] . 李伟 ,刘光明 ,孟祥飞 . 北京师范大学学报：自然科学版 . 2016,第4期
5. 基于互信息和散度改进K-Means在交通数据聚类中的应用 [J] . 徐文进 ,许瑶 ,解钦 . 计算机系统应用 . 2020,第001期
6. 警情热点在交通管理工作中的应用与实现 [C] . Tao Zhimin ,陶智敏 . 第十二届多国城市交通学术会议 . 2011
7. 基于CPS的交通多流式数据聚类及演化趋势发现研究 [A] . 桑春艳 . 2014

并行化流式数据聚类及其在交通热点挖掘中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅