运维工程师的辛酸泪:那些让人崩溃的时刻

发表时间: 2023-05-23 17:05

运维有啥苦逼的事?

老男孩IT教育创始人,SRE全栈架构师,CEO讲师。

运维苦逼的事也挺多的。我觉得第一个就是背锅侠。什么是背锅侠?就是这个事情可能不是你的责任,但是非让你解决。因为下蛋人家是母鸡的事,然后非让你公鸡下蛋,解决不了。所以这时候很难受。在我原来工作的时候这种问题还挺多的。

在我单位我极力的去推进这个改革,所有网络系统的问题是运维的问题。网站宕机这种故障实际上是开发的责任。他们晚上上线没什么事情,因为流量小,第二天一到流量高峰期就CPU爆高。这个时候运维其实很难解决,还得开发陷入网站宕机时间长了。还是运维部的责任?

这就很难。在单位里所有网站业务相关的基本上都是推给开发运维,负责网络系统搭建环境,包括配合开发代码上线,然后把时间拿出来夹学习。就学Python让构建自动化,构建平台化。就说白了提升运维的效率,间接的提升了干活的能力,这样工资就高了。

第二个最苦逼的其实还有很多运维是要24小时待命的,网站有任何宕机就需要处理,白天处理还好,有的时候半夜后半夜处理问题很累,很辛苦,但实际上处理的慢影响业务了。领导还说不行,处理的好了领导没有感觉,领导并不知道又不觉得你好。

真正要干好运维,他是一个智慧,他不仅仅是靠体力,要有脑力。有些问题甚至要放大把问题放大引起领导重视,从而获得资源。然后在后面的解决问题的时候把更大的问题扼杀在萌芽当中。所以有的时候一个问题发生了,每次都快速解决就拿不到资源,比如说CPU高,优化调参。

其实这些好多时候效果是有限的,不如加一颗CPU买固态盘效果好。但是没有理由,老大不会给你加,没有智慧干运维。真的是工资不高,开发和运维都一样。岗位没有工资高低,就看你真的会不会干。

现在企业在推行这个叫devops,这种整个基于网站软件开发生命周期的体系,它实际上通过平台自动化已经实现了整个敏捷开发、敏捷交付的这么一大体系,所以这种状态已经变得少了。

·devops这个d e v就是开发的意思,0p s是运维的意思,要画的它是一个8字形,左边是开发。开发先有软件有需求,做需求分析,然后落地落地就开始开发,代码研发,研发完代码进行编译。编译完之后要在测试环境下进行测试,测试完了要进行发布部署到生产线。

·然后是右边8,生产线之后就要部署,部署之后肯定给用户用了。当用户用的时候这边就需要维护网站宕机、流量大了、增加服务器档期了,得预支,尽量提前知道就要有监控,左边就属于开发的任务,右边是运维的任务。

现在我们通过一个平台,通过一个自动化的体系就把这些软件的整个从需求分析到线上运营,整个用一个软件平台给它管起来了,实现完全无感知的平滑的,随时可以代码上线,能够发布代码,不影响用户的使用。