基于DME聚类分析模型的海量日志流实时异常检测研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着安全问题的重要性在网络环境中日益凸显，一个具有健壮性的应用程序，会在各关键处输出日志来监控当前内存占用、CPU使用率等服务状态，请求及应答信息，系统故障追踪信息等。因此日志分析是异常检测最常用且较有效的方法。围绕海量日志流的实时异常检测，从有效性和性能出发，本文在日志流异常检测和实时计算两方面展开了研究。具体研究内容如下：
　　（1）日志流预处理。原始日志信息冗余多，格式杂乱，并且以文本格式作为异常检测模块的输入对象，大大降低了检测模块的效率和准确性，同时加重了聚类算法的复杂度，为此，本课题首先对原始数据做了日志事件序列化处理，然后提出无损压缩算法LLCA（Log-stream Lossless Compression algorithm），利用信息熵与无损压缩的关系，用信息含量来表征文本字符串，从而把日志各属性数值化，最终实现了日志的数值化。
　　（2）基于 DME（ Dimension based Maximum Entropy clustering analysis algorithm）聚类分析的日志流异常检测。聚类分析是日志流异常检测新的热门手段。为了实现对海量日志流的实时异常检测，本文提出了DME聚类算法。DME主要解决和优化了传统基于密度网格聚类算法的三方面问题：1）聚类质量不稳定问题。DME通过引入信息最大熵原理和相对相似度方法解决了人工设定参数问题，提升了聚类稳定性；2）降低计算量和空间复杂度。将维度空间划分，利用维度组连通性，形成维度簇，最终形成微簇结构，解决了传统网格数量与维度成指数关系的问题，大大降低了网格的数量，从而降低了聚类时的计算量和空间复杂度。3）优化异常检测性能。引入维度信息熵概念，放大异常信息量，提升检测有效性；在滑动窗口模型的基础上，结合Ebbinghaus，提出新的MCDW（Main cluster damping attenuation window model）数据流处理模型，优化了对历史信息的存储，提高了聚类质量。最后通过采用UCI国际标准化数据集中的真实数据KDD CUP-99和真实的ssh服务日志进行试验，验证了模型的有效性和性能。
　　（3）实时计算系统框架实现。本文基于 Flink框架，设计并实现了日志流检测系统 DME-MLRADS（ Real-time Anomaly Detection System of Massive Log-stream based on Dimension Maximum Entropy clustering algorithm）。并用实验验证了该系统的准确性和有效性，并在性能上与基于Hadoop的系统做了对比。

著录项

作者
武国平;
展开▼
作者单位

杭州电子科技大学;

展开▼
授予单位杭州电子科技大学;
学科计算机技术
授予学位硕士
导师姓名吴卿;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.07;
关键词
网络环境; 海量日志流; 异常检测; 信息最大熵; 实时计算; DME聚类算法;

相似文献

中文文献
外文文献
专利

1. 分布式实时日志密度数据流聚类算法及其基于Storm的实现 [J] . 张辉 ,王成龙 ,王伟 . 中国新通信 . 2017,第006期
2. 基于组合增量聚类的数据流异常检测研究 [J] . 许福 ,徐建 . 计算机与数字工程 . 2017,第008期
3. 基于Hadoop的海量安全日志聚类算法研究 [J] . 陆勰 ,罗守山 ,张玉梅 . 信息网络安全 . 2018,第008期
4. 基于特征聚类的海量恶意代码在线自动分析模型 [J] . 徐小琳 ,云晓春 ,周勇林 . 通信学报 . 2013,第008期
5. 基于Spark Streaming的海量日志实时处理系统的设计 [J] . 陆世鹏 . 电子产品可靠性与环境试验 . 2017,第005期
6. 海量日志实时分析日志搜索引擎 [C] . . 2015第六届中国数据库技术大会（DTCC） . 2015
7. 基于GPR预判模型的海量日志流实时异常检测研究 [A] . 郭子昂 . 2016

基于DME聚类分析模型的海量日志流实时异常检测研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅