首页> 中文学位 >基于多维指标的故障定位系统的设计与实现
【6h】

基于多维指标的故障定位系统的设计与实现

 

目录

摘要

ABSTRACT

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 故障检测

1.2.2 根因定位

1.3 研究内容与创新工作

1.4 论文结构

第二章 相关技术研究

2.1 时间序列与循环神经网络

2.1.1 时间序列

2.1.2 循环神经网络

2.1.3 长短期记忆网络

2.1.4 门控循环单元网络

2.2 故障检测

2.2.1 基于自动编码器的故障检测

2.2.2 基于变分自动编码器的故障检测

2.3 根因定位

2.3.1 Adtributor根因定位

2.3.2 基于蒙特卡洛树搜索的根因定位

2.4 本章小结

第三章 多维指标的故障定位算法设计

3.1 基于iG-VAE模型的故障检测算法

3.1.1 算法整体架构

3.1.2 iG-VAE模型的变分下界

3.1.3 改进的门控循环单元

3.1.4 算法具体工作流程

3.2 基于MEPRS模型的根因定位算法

3.2.1 算法整体架构

3.2.2 基于集成学习的预测算法

3.2.3 基于解释力和相关性的剪枝算法

3.2.4 潜在关联分数

3.2.5 算法具体工作流程

3.3 实验及其结果分析

3.3.1 算法评价标准

3.3.2 故障检测算法实验及结果分析

3.3.3 根因定位算法实验及结果分析

3.4 本章小结

第四章 基于多维指标的故障定位系统的设计与实现

4.1 需求分析以及可行性分析

4.2 系统开发环境

4.2.1 硬件设备

4.2.2 软件开发环境

4.3 系统架构

4.4 系统模块设计及实现

4.4.1 系统整体模块及流程

4.4.2 数据采集模块实现

4.4.3 故障检测模块实现

4.4.4 根因定位模块实现

4.5 系统测试与验证

4.5.1 功能测试

4.5.2 性能测试

4.6 本章小结

第五章 总结与展望

5.1 工作总结

5.2 未来展望

参考文献

致谢

展开▼

摘要

对于大规模在线服务系统来说,为了维持高质量的使用体验和服务质量,保障在线系统的稳定性极其重要,这也正是运维工程师存在的价值。大规模在线服务系统往往具有数据量巨大、指标多维度以及实时性要求高三个特性。对于大规模在线服务系统,仅凭运维工程师人工监视或者简单依照规则的自动化运维系统,很难全面且迅速地发现故障的产生并定位到导致故障的真正根因集合。因此,智能运维(Artificial Intelligence for IT Operations,AIOps)应运而生。AIOps 共包含两大课题:一是,迅速准确地检测到在线系统中存在的故障,即故障检测;二是,快速地定位到导致故障的真正根因集合,即根因定位。针对AIOps的上述两个课题,本文分别提出了相应的算法,并设计实现了一个基于多维指标的故障定位系统。本文提出基于改进门控循环单元的变分自动编码器模型的故障检测算法和基于解释力和潜在关联分数的蒙特卡洛树搜索模型的根因定位算法。在故障检测方面,利用门控循环单元可以发现时间序列相关性的特点,本文将改进的门控循环单元应用在变分自动编码器的框架下,使得传统变分自动编码器在进行时间序列检测时的局限性得到了有效解决。在根因定位方面,本文提出一种新的指标——潜在关联分数,并在蒙特卡洛树搜索开始前加入基于时间序列相关性和解释力的剪枝。本文利用这种新的指标在裁剪后的蒙特卡洛树中进行搜索从而找到导致故障的真正元素组合,最终实现对故障的根因定位。通过实验,本文分别证明了以上两种算法的有效性。基于以上两种算法,本文设计并实现了一个基于多维指标的故障定位系统。系统包含三个主要模块,分别为数据采集模块、故障检测模块以及根因定位模块,实现了从在线数据采集,到实时故障检测,再到快速根因定位的一个完整流程。通过功能测试和性能测试,本文证明了系统的三个子模块的高可用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
AI论文写作

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号