声明
摘要
第1章绪论
1.1课题背景
1.1.1云计算时代的到来
1.1.2容器云成为行业标准
1.1.3基础设施稳定性建设的重要性
1.2容器云平台稳定性研究现状
1.2.1 CNCF Landscape中的监控与分析
1.2.2 Kubernetes稳定性相关机制
1.3本文研究内容与创新点
1.4本文组织结构
第2章相关技术综述
2.1容器引擎综述
2.1.1 Docker
2.1.2 PouchContainer
2.2容器编排调度标准Kubernetes
2.2.1 Kubernetes资源对象
2.2.2 Kubernetes组件架构
2.2.3 Kubernetes声明式API
2.3运维体系的演进
2.4本章小结
第3章稳定性闭环解决方案总体设计
3.1闭环控制概述
3.2稳定性闭环
3.2.1概念定义与可行性分析
3.2.2解决方案模型
3.2.3解决方案总体架构
3.3本章小结
第4章节点综合巡检的研究与实现
4.1问题剖析与难点总结
4.1.1节点综合巡检概述
4.1.2 Kubernetes节点巡检难点分析
4.2 Kubernetes节点巡检研究现状
4.3关键技术的研究与设计
4.3.1高可扩展的稳定性信息采集模型
4.3.2基于API聚合的标准化指标消费接口
4.4系统设计与实现
4.4.1系统架构
4.4.2节点异常上报
4.4.3节点指标上报
4.5本章小结
第5章容器异常诊断的研究与实现
5.1问题剖析与难点总结
5.1.1容器异常诊断概述
5.1.2 PouchContainer日志建模难点分析
5.2基于软件日志的异常诊断研究现状
5.3关键技术的研究与优化
5.3.1基于双向推导有限状态机的日志模型
5.3.2基于状态转移链路的异常标注方法
5.4系统设计与实现
5.4.1系统架构
5.4.2模型构建流水线
5.4.3模型推导流水线
5.5本章小结
第6章集群故障自愈的研究与实现
6.1问题剖析与难点总结
6.1.1集群故障自愈概述
6.1.2 Kubernetes节点自愈难点分析
6.2 Kubernetes节点管理机制研究现状
6.3关键技术的研究与设计
6.3.1基于运维自动化的Kubernetes节点管理机制
6.3.2基于批次管理的修复流程模型
6.4系统设计与实现
6.4.1系统架构
6.4.2修复触发模块
6.4.3修复流程管控模块
6.5本章小结
第7章实验结果与分析
7.1.1功能验证
7.1.2可用性研究
7.2异常诊断系统相关实验
7.2.1功能验证与性能测试
7.2.2可用性研究
7.3集群自愈系统相关实验
7.3.1综合性测试
第8章总结与展望
8.1工作总结
8.2工作展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
浙江大学;