基于Hadoop的桥梁监测数据孤立点挖掘研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

桥梁是公路交通的重要组成部分，保证桥梁的运营安全极为重要。桥梁健康监测是一种通用的管理办法，监测数据处理是其中的一个核心内容。随着时间的推移，桥梁监测系统会累积越来越多的数据，而传统的数据处理技术在面对日益增长的数据存储与处理时压力越来越大。Hadoop是一种流行的大数据处理平台，它以HDFS分布式文件存储系统及MapReduce计算框架为核心，Hive、Sqoop等工具为枝干，形成了一个完整的大数据处理生态系统，使用Hadoop处理大量桥梁监测数据，具有理论意义及现实价值。数据挖掘是常用的一种数据处理手段，孤立点挖掘是其中的热门研究之一，目前在许多行业与领域如网络入侵检测、天气预报等都有所应用，而在桥梁监测领域，孤立点数据的挖掘研究还没有得到足够重视。本文主要研究基于Hadoop的桥梁监测数据孤立点挖掘方案，研究内容体现在以下几个方面:
　　第一，针对K-近邻孤立点算法开销大的缺点，结合划分思想、聚类思想及最小限界矩阵理论进行了改进，提出一种基于k-均值聚类划分的k-近邻孤立点算法（KMKNN）。该算法首先对数据集进行均值聚类，以聚类结果作为划分依据把数据集分成不同区域，判断每个区域是否包含孤立点，对不存在孤立点的区域进行剪枝处理，最后对包含孤立点的候选区域中的数据进行k-近邻计算，得到孤立点。实验表明，改进算法相比原始K-近邻算法提高了运算效率。
　　第二，KMKNN算法的缺点在于对数据集进行K-均值聚类时，需要给定聚类数目且随机选取初始聚类中心，得到的聚类结果精度不高，使得最终得到的孤立点不准确。因此，对KMKNN算法进行改进，使用Canopy聚类计算初始聚类数目，使用最大最小距离算法计算初始聚类中心，提出一种基于Canopy与最大最小距离算法的均值聚类划分k-近邻算法(CMM-KMKNN)。实验表明，改进算法提高了聚类精度及孤立点精度。
　　第三，由于KMKNN及CMM-KMKNN算法需要对数据进行大量迭代计算操作，算法开销大，因此搭建了一个Hadoop集群实验环境，对KMKNN与CMM-KMKNN算法实现Hadoop并行化。利用并行化后的KMKNN及CMM-KMKNN算法进行桥梁数据孤立点挖掘。实验表明，并行算法提高了数据处理速度，得到的孤立点数据准确。

著录项

作者
谭京京;
展开▼
作者单位

重庆交通大学;

展开▼
授予单位重庆交通大学;
学科软件工程
授予学位硕士
导师姓名曹建秋;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类桥梁试验观测与检定;
关键词
桥梁监测; Hadoop平台; 孤立点挖掘; k-均值聚类划分; k-近邻孤立点;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop的桥梁监测数据管理系统 [J] . 郑金明 . 西部交通科技 . 2020,第011期
2. 基于局部孤立系数的孤立点挖掘 [J] . 贾晨科 ,邱保志 . 微计算机信息 . 2005,第036期
3. 基于局部孤立系数的孤立点挖掘 [J] . 贾晨科 ,邱保志 . 微计算机信息 . 2005,第12X期
4. 基于Hadoop的时空离群点挖掘研究 [J] . 张恩 ,邓凯 . 科技信息 . 2014,第001期
5. 基于SLOF的海洋环境监测数据空间局部离群点挖掘研究 [J] . 向先全 ,付瑞全 ,路文海 . 海洋通报 . 2015,第001期
6. 基于相异度系数和的孤立点挖掘应用与研究 [C] . 房伟 ,逄玉俊 ,路爽 . 2006年全国数学技术应用科学学术论坛 . 2006
7. 基于Hadoop/Spark的结构健康监测数据挖掘算法研究与实现 [A] . 林志伟 . 2020

基于Hadoop的桥梁监测数据孤立点挖掘研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅