首页> 中文学位 >基于Hadoop的桥梁监测数据孤立点挖掘研究
【6h】

基于Hadoop的桥梁监测数据孤立点挖掘研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 研究现状与发展趋势

1.2.1 桥梁监测数据处理

1.2.2 孤立点检测

1.2.3 Hadoop技术

1.3 本文主要研究内容

1.4 研究创新点

1.5 论文组织结构

第二章 相关理论研究

2.1 基于距离的孤立点挖掘算法

2.2 聚类算法

2.2.1 K-means聚类

2.2.2 Canopy聚类

2.2.3 最大最小距离聚类

2.3 Hadoop平台

2.3.1 HDFS

2.3.2 MapReduce

2.4 本章小结

第三章 KMKNN及CMM-KMKNN算法

3.1 基本K-近邻孤立点算法(K-NN)

3.2 基于划分思想的K-NN改进

3.3 KMKNN算法

3.4 CMM-KMKNN算法

3.5 算法分析

3.6 本章小结

第四章 KMKNN及CMM-KMKNN算法的Hadoop实现

4.1 基于K-means聚类的区域划分MapReduce实现

4.2 Canopy聚类算法的MapReduce实现

4.3 最大最小距离算法的MapReduce实现

4.4 区域上下界计算

4.5 候选区域计算

4.6 候选区域孤立点检测

4.7 算法分析

4.8 本章小结

第五章 实验及结果分析

5.1 相关环境与数据

5.2 单机环境下的实验与分析

5.3 Hadoop分布式实验

5.3.1 Hadoop分布式集群搭建

5.3.2 实验结果与分析

5.4 本章小结

第六章 总结与展望

6.1 工作总结

6.2 研究展望

致谢

参考文献

攻读学位期间取得的研究成果

展开▼

摘要

桥梁是公路交通的重要组成部分,保证桥梁的运营安全极为重要。桥梁健康监测是一种通用的管理办法,监测数据处理是其中的一个核心内容。随着时间的推移,桥梁监测系统会累积越来越多的数据,而传统的数据处理技术在面对日益增长的数据存储与处理时压力越来越大。Hadoop是一种流行的大数据处理平台,它以HDFS分布式文件存储系统及MapReduce计算框架为核心,Hive、Sqoop等工具为枝干,形成了一个完整的大数据处理生态系统,使用Hadoop处理大量桥梁监测数据,具有理论意义及现实价值。数据挖掘是常用的一种数据处理手段,孤立点挖掘是其中的热门研究之一,目前在许多行业与领域如网络入侵检测、天气预报等都有所应用,而在桥梁监测领域,孤立点数据的挖掘研究还没有得到足够重视。本文主要研究基于Hadoop的桥梁监测数据孤立点挖掘方案,研究内容体现在以下几个方面:
  第一,针对K-近邻孤立点算法开销大的缺点,结合划分思想、聚类思想及最小限界矩阵理论进行了改进,提出一种基于k-均值聚类划分的k-近邻孤立点算法(KMKNN)。该算法首先对数据集进行均值聚类,以聚类结果作为划分依据把数据集分成不同区域,判断每个区域是否包含孤立点,对不存在孤立点的区域进行剪枝处理,最后对包含孤立点的候选区域中的数据进行k-近邻计算,得到孤立点。实验表明,改进算法相比原始K-近邻算法提高了运算效率。
  第二,KMKNN算法的缺点在于对数据集进行K-均值聚类时,需要给定聚类数目且随机选取初始聚类中心,得到的聚类结果精度不高,使得最终得到的孤立点不准确。因此,对KMKNN算法进行改进,使用Canopy聚类计算初始聚类数目,使用最大最小距离算法计算初始聚类中心,提出一种基于Canopy与最大最小距离算法的均值聚类划分k-近邻算法(CMM-KMKNN)。实验表明,改进算法提高了聚类精度及孤立点精度。
  第三,由于KMKNN及CMM-KMKNN算法需要对数据进行大量迭代计算操作,算法开销大,因此搭建了一个Hadoop集群实验环境,对KMKNN与CMM-KMKNN算法实现Hadoop并行化。利用并行化后的KMKNN及CMM-KMKNN算法进行桥梁数据孤立点挖掘。实验表明,并行算法提高了数据处理速度,得到的孤立点数据准确。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号