精通Java后端开发的艺术

发表时间: 2023-10-25 23:28

怎么尽可能的减少线上故障带给自己的损失?

语雀这一波是阿里近几年最严重的故障没有之一,估计又有不少人要被离职,不少人要被降级了。雨雀是阿里推出的一款在线笔记软件,10月23日无法访问长达了8个小时。从公告上来看是由于运维升级工具导致。

为什么我说这是阿里近几年最严重的?是因为这次时间特别长,做过稳定性保障的应该都知道,SLA也就是服务等级协议。大的互联网公司都号称自己的系统可用性是4个9,也就是99.99。

什么意思?一年8760个小时,只有0.0001的停机时间,也就是全年停机档期的时间不超过52.6分钟。而这次雨雀故障了8个小时。

对于这种故障,阿里内部有专门的故障定级委员会,这次肯定是最高的P0级别。我记得上次这种大规模故障,十阿里云导致很多公司业务直接停止运行几个小时,那次大团队全部没有了年终奖和晋升的机会。有的高p从P11降到了P10,有的P10降到P9,这雨却公告上来看,这个故障运维工具升级确实是没有做足,上线后影响面的评估以及没有足够的时间去做恢复,这些都是造成这次故障的原因。

对于阿里这种规模来说要想全面的评估和测试也确实比较难。但是对于个人来说应该如何避免这种事发生在自己身上?也不好避免。避免涉及到可能影响到资损,线上故障的功能,你不要参与开发,不要参与上线,肯定没问题。但是系统稍微复杂一些,这些是没有办法完全评估到的,发生故障其实是在所难免。

如何保障自己的利益不被甩锅?教你一招就是转移风险。做技术评估的时候和产品技术测试都同步,可能会引起什么样的问题,什么样的风险,风险就会转移给项目组。测试的时候和测试同步,这里可能会产生问题,需要测试各种case。风险转移给测试上线之前可能出问题的地方做code review,让领导帮你把把关,风险转移给领导。

最后上下如果还出了问题,这锅产品开发测试领导都得背,这样可能罚你罚的就轻一些,实在不行还能和领导一起换工作。

关注我一个分享干货的技术博主。