首页> 中文学位 >基于DME聚类分析模型的海量日志流实时异常检测研究
【6h】

基于DME聚类分析模型的海量日志流实时异常检测研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文主要研究工作

1.4 本文组织结构

第二章 相关理论与技术研究

2.1 异常检测概述

2.2 聚类分析概述

2.3 流式数据异常检测处理

2.4 Apache Flink流式计算框架

2.5 本章小结

第三章 基于DME算法的实时日志流异常检测

3.1 基于聚类分析的日志流异常检测模型

3.2 日志流预处理

3.3 基于DME聚类算法的日志流异常检测

3.4 实验与分析

3.5 本章小结

第四章 海量日志流实时异常检测系统设计与实现

4.1 DME-MLRADS总体设计

4.2 实验结果与分析

4.3 本章小结

第五章 总结与展望

5.1 本工作总结

5.2 未来展望

致谢

参考文献

附录

展开▼

摘要

随着安全问题的重要性在网络环境中日益凸显,一个具有健壮性的应用程序,会在各关键处输出日志来监控当前内存占用、CPU使用率等服务状态,请求及应答信息,系统故障追踪信息等。因此日志分析是异常检测最常用且较有效的方法。围绕海量日志流的实时异常检测,从有效性和性能出发,本文在日志流异常检测和实时计算两方面展开了研究。具体研究内容如下:
  (1)日志流预处理。原始日志信息冗余多,格式杂乱,并且以文本格式作为异常检测模块的输入对象,大大降低了检测模块的效率和准确性,同时加重了聚类算法的复杂度,为此,本课题首先对原始数据做了日志事件序列化处理,然后提出无损压缩算法LLCA(Log-stream Lossless Compression algorithm),利用信息熵与无损压缩的关系,用信息含量来表征文本字符串,从而把日志各属性数值化,最终实现了日志的数值化。
  (2)基于 DME( Dimension based Maximum Entropy clustering analysis algorithm)聚类分析的日志流异常检测。聚类分析是日志流异常检测新的热门手段。为了实现对海量日志流的实时异常检测,本文提出了DME聚类算法。DME主要解决和优化了传统基于密度网格聚类算法的三方面问题:1)聚类质量不稳定问题。DME通过引入信息最大熵原理和相对相似度方法解决了人工设定参数问题,提升了聚类稳定性;2)降低计算量和空间复杂度。将维度空间划分,利用维度组连通性,形成维度簇,最终形成微簇结构,解决了传统网格数量与维度成指数关系的问题,大大降低了网格的数量,从而降低了聚类时的计算量和空间复杂度。3)优化异常检测性能。引入维度信息熵概念,放大异常信息量,提升检测有效性;在滑动窗口模型的基础上,结合Ebbinghaus,提出新的MCDW(Main cluster damping attenuation window model)数据流处理模型,优化了对历史信息的存储,提高了聚类质量。最后通过采用UCI国际标准化数据集中的真实数据KDD CUP-99和真实的ssh服务日志进行试验,验证了模型的有效性和性能。
  (3)实时计算系统框架实现。本文基于 Flink框架,设计并实现了日志流检测系统 DME-MLRADS( Real-time Anomaly Detection System of Massive Log-stream based on Dimension Maximum Entropy clustering algorithm)。并用实验验证了该系统的准确性和有效性,并在性能上与基于Hadoop的系统做了对比。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号