一种基于日志信息和CNN-text的软件系统异常检测方法

梅御东; 陈旭; 孙毓忠; 牛逸翔; 肖立; 王海荣; 冯百明

首页> 中文期刊>计算机学报 >一种基于日志信息和CNN-text的软件系统异常检测方法

一种基于日志信息和CNN-text的软件系统异常检测方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本.为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析.然而大多数情况下,系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需要关注的,然而大多数用于系统日志分析的机器学习模型都假设训练集的数据是均衡数据,因此这些模型在做系统日志预警时容易过度偏向大样本数据,以至于效果不够理想.本文将从深度学习角度出发,探究深度学习中的CNN-text(CT)在系统日志分析方面的应用能力,通过将CT与主流的系统日志分析机器学习模型SVM、决策树对比,探究CT相对于这些算法的优越性;将CT与CNN-RNN-text(CRT)进行对比,分析CT对特征的处理方式,证实CT在深度学习模型中处理系统日志类文本的优越性;最后将所有模型应用至两套不同的日志类文本数据中进行对比,证明CT的普适性.在CT同日志分析的主流机器学习模型对比的实验中,CT相较于最优模型的结果召回率提升了近15%;在CT同CRT模型对比的实验中,CT相较于更为先进的CRT,模型准确率高出约20%,召回率高出约80%、查准率高出约60%;在CT的普适性实验中,将各类模型融入到本文的实验数据集logstash和公开数据集WC85_1中,在准确率同其他表现较优的模型同为100%的情况下,CT的召回率高出其余召回率最高的模型(DT-Bi)近14%.从中可看出,相较于主流系统日志分析机器学习模型,如支持向量机、决策树、朴素贝叶斯等,CNN-text的局部特征提取能力及非线性拟合能力都有更为优异的表现;同时相较于同为深度学习CNN簇的CNN-RNN-text将大量权重投入到系统日志的序列特征中的特点,CNN-text则报以较少的关注,反而在序列不规则的系统日志中展现出比CNN-RNN-text更优秀的表现.最终证明了CNN-text是本文所提到的方法中最适合进行软件系统异常检测的方法.

著录项

来源
《计算机学报》|2020年第2期|366-380|共15页
作者
梅御东; 陈旭; 孙毓忠; 牛逸翔; 肖立; 王海荣; 冯百明;
展开▼
作者单位

中国科学院计算技术研究所计算机体系结构国家重点实验室北京100080;

中国科学院大学北京101400;

北方民族大学计算机科学与工程学院银川 750021;

西北师范大学计算机科学与工程学院兰州 730070;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
系统日志分析; 系统异常预警; 不均衡数据; 机器学习; 深度学习; CNN text;
入库时间 2022-08-18 20:46:44

相似文献

中文文献
外文文献
专利

1. 基于日志解析的大规模微服务架构软件系统异常检测 [J] . 邰丽媛 ,田春岐 ,王伟 . 计算机科学与应用 . 2019,第012期
2. 基于注意力机制的大规模系统日志异常检测方法 [J] . 房笑宇 ,曹陈涵 ,夏彬 . 南京大学学报:自然科学版 . 2021,第5期
3. 改进的基于日志聚类的异常检测方法 [J] . 冯士龙 ,台宪青 ,马治杰 . 计算机工程与设计 . 2020,第004期
4. 基于改进时间序列模型的日志异常检测方法 [J] . 陆佳丽 . 信息网络安全 . 2020,第009期
5. 一种基于信息熵的传感器数据异常检测方法 [J] . 田黎明 ,张冬梅 . 软件 . 2018,第009期
6. 云计算系统中基于子序列特征向量的海量日志异常检测方法 [C] . RAO Xiang ,饶翔 ,TIAN Qing . 第18届全国信息存储技术学术会议 . 2012
7. TCNLog：一种通用的系统日志异常检测方法 [A] . 刘辉 . 2020

一种基于日志信息和CNN-text的软件系统异常检测方法

摘要

著录项

相似文献

相关主题

期刊订阅