运维人员:我并非“背锅”者,运维如同人生

发表时间: 2018-01-13 10:38

点击关注 InfoQ,置顶公众号

专业的原创深度技术分享,值得收藏

当我们聊到运维的时候,很多人的第一反应都是“背锅侠”,这或许就代表了一个很主流的对运维的定位。但是,当我们深入了解 Google 的 SRE 以及 Netflix 的 Core SRE 这些岗位时,又能感受到运维令人神往的魅力。那到底该如何来定义运维?美丽联合集团技术服务经理赵成结合他自己的经历谈了对这个事情的看法,或许能够带给你一些启发。本文节选自极客时间专栏《赵成的运维体系管理课》。

作者简介

赵成,美丽联合集团技术服务经理,公众号“Forrest 随想录”的作者,多届 ArchSummit 运维专题明星讲师和优秀出品人,EGO 杭州分会会员。他拥有丰富的电信级和互联网业务研发及运维经验,目前专注于云计算和人工智能时代的运维转型和提升。

我是怎么开始做运维工作的?

我做运维是在加入华为 1 年后开始的。在华为内部,我从来没有听说过任何贬低运维的说法,反倒是从华为出来,才开始听到铺天盖地的贬低言论,比如运维背锅、运维层次低等等,当时感觉还有点怪怪的,这一点下面会再详细讲到。

我当时是在华为电信软件部门,大家熟知的短信、彩信、智能网、BOSS 计费系统以及运营商客服系统等都是这个部门的产品。我到公司没多久就进入了一个新成立的项目组,为运营商开发一个阅读类互联网产品,因为是工作后参与的第一个正式项目,从需求讨论、方案选型、代码开发到上线这样一路跟来下,几乎倾注了我所有的热情。当时完全是封闭式开发,除了吃饭睡觉,其它时间基本都用在这个项目上,周六日都是泡在公司的。

项目上线之后,基于运营商海量用户的积累,业务量很快就增长上来了,按照惯例,各种系统问题、故障宕机也随之而来了。当时我们团队规模不大,大家也都是齐心协力,出现问题我们总是一群人一起冲上去解决问题。之所以有这样的反应,主要是因为不忍心看到自己和团队一手打造出来的系统出问题。在华为,软件质量的荣誉感胜过一切。

因为我经验尚浅,所以一开始都是跟在后面看着主管和老员工解决,后来对于一些疑难问题,我就会主动要求接过来研究一下,有时候一个问题要研究好几天才会有些眉目,不过也是在这样的一个过程中,随着解决的问题越来越多,经验也就越来越丰富,很快就成长了起来。再加上我一直是出现问题后,第一个做出响应和冲到最前面的那个人,主管和团队也对我有了足够的信任和认可,也正是因为获得了这样的信任和认可,后来我得到的成长机会就越来越多。

这里就分享一点:

要敢于承担责任,敢于表达自己的想法。特别是对于职场新人,只有承担,且敢于承担更多更重要的责任,才能够快速成长起来。一些重要事项,主管肯定是优先安排最稳妥和靠谱的人去做,这个时候老员工的优势会更明显,作为新人或经验尚浅的员工,如果没有积极主动的态度和令人放心的表现,很多好机会往往就与你失之交臂了。

对这个阶段做个总结,我更愿意承担一些非常具有挑战性的工作,成长得就比较快。同时,在客户层面,我又相对比较愿意表达见解和意见。虽然那个时候没有什么沟通技巧,也没什么表达技巧,甚至有些时候是笨嘴拙舌的,但是,很多时候技巧是次要的,最关键的是要敢于表达,当团队需要这样一个角色时,是不是有人能够站出来承担起这个职责。慢慢地我在客户层面也得到了一定的认可和信任,成为一个真心诚意、关键时刻能靠得住的一个人。通过这样一个阶段,我不但在技能深度上有了积累,在广度上也体现出了明显的优势。

我为什么会把运维当作职业发展的方向?

这个阶段大约也就 1 年左右,我的主管就开始跟我沟通,由我来组建这个产品的运维团队,把线上运维、稳定性和部分客户沟通工作完全交给我。

可能有些人觉得做运维是很低级的事情,让你做运维就是让你去填坑,其实对于这样的言论我是十分反对的。当然,更多的时候我也不是去解释,而是靠做事情来证明。

说回到当时的事情上,当时主管在跟我沟通独立带一个运维团队时,我的感受不仅仅是晋升层面的喜悦,更多的是因为能够做运维而感到非常自豪。

为什么会非常自豪,这就不得不提到华为内部,在当时来讲,就已经有非常完善和先进的运维体系和运作机制了,我们一起来看一下。

在华为内部,运维是非常受尊重而且非常关键的岗位。如果你在研发团队中一直写代码,没有做过运维工作,是很难晋升高级别岗位的。所以华为的架构师、技术经理甚至是更高级别的研发主管,按照不成文的规定,都默认要在运维团队轮岗过,然后再选拔出来。而且这里面最最关键的是,运维这个岗位不是你想做就能做的,是有条件要求的。

下面我们就来看看有什么样的条件要求。我当时是在华为电信业务软件部,华为的运维体系分为一、二、三线,我们分别来看。

一线维护

这个团队是负责产品的交付服务和后续的客户服务工作。从技能上,很像传统运维,主要是对网络设备、硬件主机和操作系统层面要熟练。一方面要负责交付的项目管理;另一方面,也是非常重要的一点,要对一线客户满意度负责,也就是客户反馈的所有问题,甚至是客户工作中表现出来的喜怒哀乐都要关注。

一线维护,最重要的就是必须要有非常强的服务意识。

二线技术支持

因为一线维护面对的是单个具体的运营商,在遇到一些问题的时候,往往没有经验,但是二线因为要面对某个产品全球的局点问题,所以在经验上更容易沉淀和积累。当某个一线团队遇到没有经验的问题时,二线有可能就可以很快很好地帮忙解决,而不用直接透传到三线。同时,二线还要做好统筹协调,因为一线过来的问题不仅仅是产品本身问题,也可能是网络设备、硬件、操作系统、存储甚至数据库等的问题,这就需要二线帮助一线协调专家资源进行处理,而不是一线再一个个找人,这时一线只管反馈问题即可。

二线技术支持,大多由产品研发或者一线维护经验的人员抽调上来的,即使没有这些经验,也要下放到一线去锻炼很长时间,两三年都有可能,所以技术和经验上都相对更加全面,同时能够有较强的推进协调能力。

三线研发维优

到了三线就是研发团队中的运维团队了,这个团队在华为叫做维优团队。这个团队就很牛了,一般都是从开发骨干精挑细选出来的,一方面是为了锻炼人,另一方面也是为了在出现问题时,能够有最专业、能力最强的人响应处理。处理问题的过程中,还会不断完善工具体系,提升日常维护和问题定位的效率。因为三线同样要面对全球局点问题,所以 7*24 响应,而且常年无休,比我们现在互联网运维的工作负荷要大得多,所以这个团队成员一般做个 1~2 年就会转岗晋升,不然身体肯定是承受不住的。

三线研发维优,这个团队的成员就像军队中的突击队或尖刀连一样,总是冲在最前面,在高压状态下,解决最复杂、最棘手的问题,所以从选拔阶段,就有非常高的要求。最终经过这个团队磨练出来的人,技术能力、沟通协作能力以及全面解决问题的能力,都是非常突出的。自然地,在晋升发展方面就会有更大竞争优势。

上述这样一个非常严密的一、二、三线运维机制和协作体系,各条线各司其职,发挥各自优势作用,串联起了客户、产品和研发整个技术支持体系,基本上就支撑起了华为电信软件在全球局点的技术支持和服务工作,这一点还是很强大的。也因为各自都有独特的价值体现,所以运维岗位上人员的存在感和成就感就会比较强,当然就不会觉得做运维是很低级的事情。同时,因为人员非常优秀,能力突出,这个岗位得到尊重也是必然的,甚至是令人向往的。

其实,能够得到尊重,还有非常重要的一点,就是来自华为对客户和用户的尊重,真正的把“客户第一”融入到了整个公司的组织架构和运作机制中。

这里我们不做过多发散,理解下来就是谁离客户最近,谁对客户负责,谁就能代表客户,谁就有最大的话语权,甚至是指挥权和决策权。体现在上述我们所说的运维机制上,就是:一线的声音,代表了客户声音;一线反馈到二线的问题,二线必须响应;二线传递到三线的问题,三线必须响应。

这套机制的根本目的,还是为了促进整个体系能够以尽快解决问题、提升软件质量为目标。整个团队树立起这样的观念,就自然会对质量和问题有敬畏感,研发维优那个时候大多都是远程电话与一、二线沟通,潜意识里就会把一、二线作为他们的客户,同样保持谦卑和尊重。

所以,无论是从对运维的定位上,还是整个公司文化以及运作机制上,都形成了对这个岗位的高度定位和尊重。

当时华为的三线研发维优,其实很像 Google 的 SRE 岗位,各方面能力要求很高,不仅仅是软件开发这么简单,所以当时让我去做运维,并且给到我足够的授权去组建和带团队,就相当于让我去做 SRE 这样高端的岗位,我自然会觉得非常自豪。

再往后,在这个专业方向上做精做细,形成差异化的优势,自然就会有更大的收获。

给我们的一点启发

这样的一个发展过程并不是我刻意设计过的,机会也不是刻意争取到的,就是平时多做一点,做得认真一点,确保最终能够拿到结果,而且稍微努力一下,尽量拿到比预期好一些的结果。在这个过程中,随着个人能力的提升和全面发展,后续各种机会也就随之而来了。

总结起来确实就是这么平淡无奇,但在运维岗位,我做到了从普通到优秀。

做运维如此,其他岗位亦如此。

《赵成的运维体系管理课》全年目录

本文摘自赵成在极客时间 App 开设的付费专栏“赵成的运维体系管理课”,欢迎扫描下图二维码了解专栏详情并阅读试读文章,在极客时间留言,一起参与讨论。