探索运维体系与自动化的关联性

发表时间: 2024-02-02 11:00

面向应用的系统优化性能测试 jmeter loadrunner

交易系统

一:智能运维

运维的本质就是在线,即如何让这种在线的业务能持续不断地运行,满足客户的需求

遇到了任何故障或问题时能否自动解决

运维最核心的本质--稳定性

业务复杂度越来越高,已经没有办法靠人来运维整个平台和业务

我们人为地去感知问题后排查问题、定位问题,这时业务可能已经挂了很长时间


二:运维通道

生命周期

稳定性

自动化运维是根本的

dragonfly 文件分发

80%的故障可能都是由变更引起的

无人值守

对监控指标进行分类,包括系统、日志、业务等,对各种指标做检查。我们会检查发布和没发布的机器,以及发布的机器与前一天在各方面的一些对比,最后做出一个诊断

三:AIOps

保证变更不受影响

走向无人化的状态



四:Artificial Intelligence for IT Operations

Algorithmic IT Operations

基于算法的IT运维,能利用数据和算法提高运维的自动化程度和效率,比如将其用于告警收敛和合并、Root分析、关联分析、容量评估、自动扩缩容等运维工作中

智能运维需要解决的问题有:海量数据存储、分析、处理,多维度,多数据源,信息过载,复杂业务模型下的故障定位

百度自动化运维标准中能力等级与能力描述对应关系如下

L0:人工(无自动化)、L1:工具辅助的自动化、L2:部分自动化、L3:有条件的自动化、L4:高度自动化、L5:完全自动化

进一步,随着实例标签(Tag)的支持,我们可以以多维度视图的方式来管理服务,终于打破了树形结构的挚肘

时序数据库 TSDB

服务生命周期

运维数据仓库(ODW):统一的运维数据管理方案

监控指标数据、报警数据、上线变更的事件数据、服务管理配置数据等等

借助大数据的能力,运维在成本管理、效率管理、用户体验等方向得到全面提升

异常检测、多维度分析、关联关系挖掘、根因分析等算法策略逐渐应用,感知、决策、执行的工程框架逐渐定型

五:故障流程


发现故障后,需要对故障进行定级、通告、辅助定位、处理决策、快速恢复、复盘,以及为了防止下次故障进行的演练

监控的目标需要直达业务结果,业务量下跌即为出现故障,虽然故障可能不是由于系统本身引起,但仍需要发现并定位该故障

对海量“事件”进行分类和处理

实时数据和非实时数据

格式化数据和非格式化数据

需要索引的数据和只需要运算的数据

全量数据和抽样数据

可视化数据和告警数据

六:预测与自动化处理



日志

在系统运维中,预防问题和处理问题是非常重要的两个工作。以往的运维方式都是部署一套监控软件并设置一些阈值和告警机制,出现异常数据之后触发告警,再由运维人员进行故障排查

这种方式效率非常低,因为监控只能告诉我们哪个数值有异常,但并不能直接指出问题的症结所在。我们还要进行人工排查和定位

七:Docker容器云的支持部署


八:生命周期


九:配置标准化