联想运维之道:我们是如何做到的?

发表时间: 2023-02-16 16:02

Jeffrey是一名“攻城狮”,他2016年应届毕业后加入联想全球IT的运维部门 - Command Center,主要工作是负责集团大小信息系统的运维,7*24小时支持联想全球6万余名员工的工作,保障业务系统的正常运行。

在集团数字化转型2.0的过程中,Jeffrey和Command Center团队向着智能化运维(AIOps)的道路前进,他逐渐由一名传统的运维工程师转型成了智能运维工程师。下面我们一起跟随他的自述,回溯他是如何一步步学习、探索、总结、落地,逐步把技术产品和方案应用到各个业务方向里的。

燃烧吧,小火苗

大家好,我是Jeffrey。入职以来的前三年,我是做数据仓库和报表系统运维的。报表种类各式各样,数据链路也是绵长复杂,一头扎进代码里复现、debug,不知不觉几个小时就过去了,有时还要半夜跟欧洲和美洲的同事开会确认业务逻辑。

几年下来,各种编程语言和人类语言水平都长进了不少。不过也看到了传统运维模式下存在的一些问题,这些问题在心中逐渐生了根,成为了激发我想要做点什么的小小火苗。

2019年中,部门想把各个团队的转型力量集中起来,新成立了团队,专门做运维智能化的探索,并开始做一些将AI技术赋能于运维领域的尝试。新团队新气象,拥有不同知识背景的伙伴们提了很多不同的点子和见解。

其中,我从自己数据运维的角度出发,提出了数据流检测和纠错、运维单据问题分析这些入手点,后来合并其它同事的想法,形成了几个智能运维探索的着力点:数据流监控、服务台工作流程自动化和智能化、IT运维用户画像和推荐系统。这几个方向后来都形成了一定的突破。

2020年,正逢集团IT启动了一个大项目,其中涉及混合云环境、数据中台、微服务等复杂的方案和环境,而在这个复杂的环境中,数据一致性,及时性及准确性等问题就越发凸显。我和小组的伙伴们敏锐地捕捉到了这个问题,刚好可以做一些AI新技术的应用,能够改变传统的数据链路监控模式,提升监控的效率。

于是,我们与系统负责人、开发团队、系统集成团队、监控团队合作,从项目初期就开始介入,了解系统设计逻辑、开发进度、数据流、集成方式、监控点等,再由此设计我们的监控告警方案。方案中很多环节对于我来说都是新的领域,这可以说是一个运维人的“创新第一步”。与此同时智能数据链路监控解决方案也逐渐诞生。

同一时间段,新成立的团队也向部门的其他团队征集工作中的痛点、难点问题。其中最痛的要数一线服务台的同事们了。一线服务台的同事们业务量大、线路多,很多问题重复性高而且单据量巨大。

因此服务台的同事们迫切需要更自动、更智能的方法,改变传统的“人拉肩扛”方式,提升工作的效率。在切身体验过一线的工作后,我们不禁思考,什么样的技术能够减轻他们的压力,什么样的服务能够提升他们的效率?

去年,随着我们这个算法小组逐渐在部门做出一些成果,开始有一些兄弟团队主动找到我们做一些智能化服务赋能的尝试,比如内部即时聊天应用团队和IT内部社区团队,希望我们做一些内容推荐的服务帮助他们产品运营,提升一些用户指标。

这又是一个未曾做过的人工智能领域,但我也认识到,我们团队做推荐系统是有巨大优势的,我们本身已经有成熟的、基于IT运维的用户画像数据了,再加上对端产品的数据,做内部运营的内容推荐功能,也成为了我们的另一朵小小火苗。

从火光中走来

我从运维中来,运维的经历点燃了心中创新的小小火苗,但在火势渐旺的过程中自己的内心也经受着煎熬,因为创新也不是一蹴而就的,太过乐观那有可能就“too young, too simple”,这是要吃亏的。光想出来不够厉害,能落地使用才是真的厉害。那么如何才能落地呢,以我看来分三步走:

1. 学习、调研已有的方案。2. 结合自身和业务的经验融合、调整,只会照猫画虎是不行的。3. 自己改进调整之后要根据业务方的反馈持续研发和优化。

比如,在做上文提到的服务台邮件自动分派服务的时候,由于一开始做AI模型需要标注训练数据,而服务台并没有空余人手做标注,所以我采用了IT运维报单数据的问题表述和单据问题分组作为训练数据,先做出一个初始模型后续进行迭代的形式。利用这个初版模型先上线,节省服务台的人工分派压力。

之后分派到手了如果发现分派错了,再处理时顺便进行人工标注,这样就在日常工作中完成了数据标注,为之后迭代模型提供了数据基础。后续根据标注数据,再结合一线同事的反馈,又将模型细化为区分语种的多模型,在模型后加入特定逻辑重新分派等调整方案。这样持续地收集意见,优化方案,最终这个邮件自动分派服务得以落地。

此服务在样本数据验证时分类准确率为90.5%,经一线服务台实际使用,分派的准确率达到90.4%,基本替代了服务台每日值班分单的工作,使得资深同事可以解放出来做更有意义的工作。

轻舟已过万重山

踏上这条智能化转型之路已经三年了。这三年里,我的心态可谓经历了“一波三折”的路程,从一开始智能转型的激动兴奋,到很多效果不好的实验、庞杂凌乱的业务和数据带给我的否定和迷茫,再到和不同团队同事的交流让我又开阔了视野,逐渐恢复了信心。

任何技术都没有那么好,也没有那么坏,它不是山珍海味也不是残羹冷炙。拿来主义不可取,全盘否定行不通。我们应该做的还是实事求是,具体问题具体分析。

过去一年多,我们针对这些技术服务成果,从自然语言文本分类,数据流性能评估,文本主题提取等几个维度分别总结提炼专利点,最终有两篇申请通过了公司内部的评审并提交到国家专利局。回过头看,一步一个脚印,踏踏实实去做,不仅产出了一些稳定、可用的产品服务,还能把创新点理论化,发布几篇专利。

轻舟已过万重山。当这些丰硕的果实捧在手里的时候,回头看确实是痛并快乐着的。以后再翻越重重山峦的时候,曾经在火中淬出的宝剑就是我最好的武器。

作为联想运维人,智能化转型的道路上不断创新,超越自我才是最好的答卷。