面向应用的系统优化性能测试 jmeter loadrunner
交易系统
一:智能运维
运维的本质就是在线,即如何让这种在线的业务能持续不断地运行,满足客户的需求
遇到了任何故障或问题时能否自动解决
运维最核心的本质--稳定性
业务复杂度越来越高,已经没有办法靠人来运维整个平台和业务
我们人为地去感知问题后排查问题、定位问题,这时业务可能已经挂了很长时间
二:运维通道
生命周期
稳定性
自动化运维是根本的
dragonfly 文件分发
80%的故障可能都是由变更引起的
无人值守
对监控指标进行分类,包括系统、日志、业务等,对各种指标做检查。我们会检查发布和没发布的机器,以及发布的机器与前一天在各方面的一些对比,最后做出一个诊断
三:AIOps
保证变更不受影响
走向无人化的状态
四:Artificial Intelligence for IT Operations
Algorithmic IT Operations
基于算法的IT运维,能利用数据和算法提高运维的自动化程度和效率,比如将其用于告警收敛和合并、Root分析、关联分析、容量评估、自动扩缩容等运维工作中
智能运维需要解决的问题有:海量数据存储、分析、处理,多维度,多数据源,信息过载,复杂业务模型下的故障定位
百度自动化运维标准中能力等级与能力描述对应关系如下
L0:人工(无自动化)、L1:工具辅助的自动化、L2:部分自动化、L3:有条件的自动化、L4:高度自动化、L5:完全自动化
进一步,随着实例标签(Tag)的支持,我们可以以多维度视图的方式来管理服务,终于打破了树形结构的挚肘
时序数据库 TSDB
服务生命周期
运维数据仓库(ODW):统一的运维数据管理方案
监控指标数据、报警数据、上线变更的事件数据、服务管理配置数据等等
借助大数据的能力,运维在成本管理、效率管理、用户体验等方向得到全面提升
异常检测、多维度分析、关联关系挖掘、根因分析等算法策略逐渐应用,感知、决策、执行的工程框架逐渐定型
五:故障流程
发现故障后,需要对故障进行定级、通告、辅助定位、处理决策、快速恢复、复盘,以及为了防止下次故障进行的演练
监控的目标需要直达业务结果,业务量下跌即为出现故障,虽然故障可能不是由于系统本身引起,但仍需要发现并定位该故障
对海量“事件”进行分类和处理
实时数据和非实时数据
格式化数据和非格式化数据
需要索引的数据和只需要运算的数据
全量数据和抽样数据
可视化数据和告警数据
六:预测与自动化处理
日志
在系统运维中,预防问题和处理问题是非常重要的两个工作。以往的运维方式都是部署一套监控软件并设置一些阈值和告警机制,出现异常数据之后触发告警,再由运维人员进行故障排查
这种方式效率非常低,因为监控只能告诉我们哪个数值有异常,但并不能直接指出问题的症结所在。我们还要进行人工排查和定位
七:Docker容器云的支持部署
八:生命周期
九:配置标准化