云时代下企业运维:圆桌对话探讨挑战与机遇

发表时间: 2022-01-14 17:15

编者按:上云,已经成为了企业势不可挡的选择。云计算所拥有的“软件定义一切”的特性,推动了敏捷弹性、DevOps、智能运维和基础设施即代码等自动化运维趋势,给企业研发运维体系的进一步升级带来机会,也给企业架构师与运维工程师带来了新的挑战。

12月10日,在2021云上架构与运维峰会上,阿里云邀请到了CSDN生态内容总监董世晓作为负责人,与高效运维社区华东技术负责人陈刚、红帽资深解决方案架构师陈炯、大搜车基础设施部负责人李同刚和任意门运维负责人尤首智等四位大咖展开对话,讨论“云时代下,企业运维面临的挑战与机遇”。

以下为圆桌讨论实录整理:

主持人:CSDN生态内容总监 董世晓

四位圆桌对话嘉宾

Q1企业为什么要上云?

主持人:上云已经是业内共识,但也存在一些不同的声音。各位嘉宾都是上云的资深人士,那么首先想跟各位探讨一下,企业为什么要上云?上云带来哪些好处?还存在哪些问题?

陈刚:这是一个常谈常新的话题。企业上云最主要的驱动力是在IT成本方面的巨大优势。云厂商的价格在逐年下降,这对很多企业形成了巨大的诱惑力。一些入门级的云服务器配置,一年的价格都在千元之内,中小企业面对这样的低价很难不动心。企业自己买一个机器放在托管机房,再加上人力维护成本,花费估计是云服务器的10倍以上。企业上云,成本可控力是其巨大动力。

第二点就是随着云计算技术的发展,各种IaaS、PaaS、SaaS平台和应用日渐成熟,大小企业都希望能够在云技术方面与时俱进,享受到最新的云技术带来的IT优势,在激烈的市场竞争当中保持科技领先优势。

与此同时,我们也要理性地去判断企业上云的利与不利,做出最适合自己的选择。我从事运维工作超过20年,服务的企业包括国内外的一些电商、金融企业以及云厂商,参与过一些机房的建设以及运营,也见识过很多企业上云成功和失败的案例。

企业上云的成本节约对中小企业效果最明显,因为这类企业的要求都是一些标准化的需求,比如前后端、中间件、数据库,基本不需要定制的IT框架,现有的云仓标准方案就可以解决。但是一旦企业上了规模,比如说金融行业,银行、保险、证券这些大型企业,上云就比较曲折,在初期甚至还会增加一些IT成本。

因为在上云的过程当中,很多企业既要保持现有的基于实体机和虚拟机构架的稳定运行,又要在上云的过程中稳定运行。所以他们需要投入额外的人力进行技术试点和技术探索,并且在过程当中要一直保持服务的兼容性。同时,很多大型企业会提出一些更高的要求比如构架回退计划,这几乎相当于高危动作,这些动作无疑都会增加企业在初期的IT投入。

陈炯:我们在传统的运维模式里经常会提到一个话题,就是自动化。标准化就是自动化的前提,我们上云非常重要的一个原因,就是能得到一些标准化的交付。云市场上有各种各样标准化提供的软件和硬件,在使用这些软件和硬件的同时,我们享受到了标准化的服务,这对后期的运维也会带来非常大的便利。

李同刚:企业上云第一个优点就是快。在外部需求变化非常快的今天,如何提高基础设施的交付,让商业进程更快,是每个运维人员必须考虑的。上云以后,可以利用云的资源快速交付并实现业务价值。

第二个优点是省,特别是在安全方面。上云以后,企业可以按需付费使用云产品,对比上云之前的私有化部署,成本会明显下降。

尤首智:关于企业为什么要上云,我的观点分为以下4个部分:

机房限制。传统的物理机房包括带宽、专线、电力等方面的限制,无法满足企业快速成长的需求,云上的架构的优势会更明显。

使用率。使用IDC的物理机配置相对较高,导致使用率是一个避免不了的问题。很多技术都是为了解决这些问题,包括业务的混布、容器的技术,但都不是特别好的方式。问题的核心点还是在于弹性能力的不足。

中间件。云上提供的中间件包括云呼、实人认证、智能语音交互等产品。对于像Soul这样的中小型企业,在现阶段投入特别大的人力和精力去做一些偏功能性的中间件,最终的收益一定没有直接使用云上的产品来得高。

费用。关于费用,要看业务的形态和业务的特点。中小型企业上云的运维成本是更低的,一是省在共享能力,二是省在弹性能力。云上的多种机型的配置、竞价实例、WAF、原生防护,均有提供共享模式为企业节省费用。

Q2云上运维工作最大的挑战与解法?

主持人:从上述分享中我们可以知道,企业上云以后可以享受到标准化的服务,高效、省钱、省力、安全。但对于一些有特殊要求的应用场景,还需要相关体系的进一步完善。

接下来想和各位嘉宾交流的是,上云对运维工作有哪些挑战?在各位自身的实践或者服务客户的过程中,是怎么解决这些挑战的?

陈炯:我们现在面临的已经不是传统意义上的监、管、控的运维了,而是统一运维,是未来的智能运维甚至云运维。但是在落地过程中,我们还需要解决以下几个问题:

实现统一运维。我们现在面临的环境非常复杂,不是传统意义上的单个机房或者一个IDC,而是一个多云的环境,私有云、公有云,还有虚拟化平台和未来的容器平台等,不同的平台有不同的逻辑,需要用不同的技能进行运维,导致对运维人员的要求比较高。所以我们希望能够打破不同平台之间的差异,用同一种方式对所有平台进行运维。

打破运维隔离。目前各个运维团队都是孤立作战,互相之间缺乏协同合作。孤立运维会造成很大的困扰。比如在项目过程中,各个团队都维护自己的利益,不愿意主动认领问题并解决,这对工作效率是有很大的影响的。

规避手工运维。在目前的运维过程中还是存在非常多手工运维的操作,这会导致效率问题和安全问题。其次,频繁地登录服务器去做一些命令操作,也存在安全隐患。所以我们希望有一个平台代替人工去做此类重复劳动,避免人为的重复劳动和过多的登录服务器。

运维人员知识固化。运维过程非常多的知识是保存在运维人员的大脑中的,这些知识非常宝贵,但是并没有一个系统能够把这些知识固化保存下来,让其他的人员能反复使用。保证当这些人员不在场的时候,团队的运维能力也不会出现问题。

以上4点就是我们目前面临的比较大的挑战。

李同刚:企业上云面分为两个阶段,第一阶段是IDC机房上云,第二阶段是技术架构上云。技术架构上云和业务程序的结合比较紧密,所以涉及兼容问题。很多企业有多云的需求,如何让基础架构同时兼容两个云,这是亟待解决的问题。

期望未来在多云的技术架构和技术协议上能够达成共识,真正的降低企业跨云的兼容性成本。

尤首智:我认为企业上云主要有以下4个难点:

迁移成本。基础设施从传统的IDC引入云计算,是对IT的基础设施和基础架构的一次革新,而迁移过程中的稳定性和原有的管理方式也要重新打造,这的确是一个不小的工程。

安全和合规。数据从企业原有的IDC迁移到云上,会有数据泄露的风险。

SLA保障与掌控力。企业与公有云都签有SLA的保障协议,公有云的SLA相比企业是比较高的,一般可以达到4个9,但公有云发生故障的时候企业会显得束手无策。

长期开销。前期的上云是在一个固定的时间节点,也可以算出整体上云的长期费用。但随着企业的扩张以及业务类型的变化,会发生资源向某一方面倾斜,导致费用不可控。

陈刚:我主要分享关于大型企业在上云过程中会面临的三个挑战。

大型企业可能会受到一些行业协会的强制要求,比如说证监会、保监会、银监会等,要求保证数据的保密性和数据的安全性,这就导致了他们的很多数据不能用公共云来完全解决,从而只能选择建私有云,或者搭建集团内部的统一云平台来做混合云解决方案,这其实就相当于一种变相的重复建设。

运维人员面临技术转型的挑战。很多企业在上云之前已经形成了实体机与虚拟机方面很成熟稳定的运维体系。在他们在上云之后,运维人员的技能转型就要面临很大的挑战,对现有运维人员的技能进行培训转型提升,或者招聘新的运维人员,都将是一个漫长的过程。

现有平台与云原生技术不匹配的挑战。一些企业的平台,无论是自然的、二次开发的或者乙方的资源,不一定会能跟云原生技术服务完全匹配。他们上云就会比中小企业的通用上云难度翻倍,时间翻倍,成本翻倍,并且不一定保证转型成功。

Q3 国内XOps的接受度与落地情况如何?

主持人:企业上云对运维工作的挑战与云上的安全性、稳定性、兼容性、知识的可传承性都密切相关,解决好这些问题,运维工作就能更好地开展。在国内,我们把各种XOps都统一称为自动化运维,企业对这种XOps的接受度怎么样?在各位接触的过程中,有哪些不错的自动化运维的实践?

李同刚:自动化是运维领域一直在追求的话题。我会从两个方面对自动化运维的落地情况进行分析。

第一点,自动化运维有大量的告警监控,如果数据量过大,就会造成告警无效。我们可以通过对历史数据的积累和分析,总结出它的趋势,然后通过自动化学习的方式和一些数学模型,自动给指标做阈值的调整。原先的告警是一个固化的值,但靠固定值不能做到足够高的准确率,所以通过机器学习的方式,自动学习历史数据的趋势,达到自动告警。目前我们梳理了100多个指标,正在和阿里云的 SLS服务进行对接。

第二点,自动分析故障根因。在网络拓扑中,报警业务应该是感知最快的。如果整个服务到数据库层到服务层链条的日志是完整的话,理论上是可以根据业务上的故障,来推出这个故障到底是数据库还是虚机或是其他的原因。

总之,从数据这个方向出发,我们希望能给运维领域带来一些卓越且超出期望的成效。

尤首智:首先谈一下DevOps理念,DevOps已经被国内很多的公司接受,核心优势是提高人工效率,减少重复性的工作。从DevOps到AIOps是我们未来的风向标,能够完成从人工决策人工执行到自动决策自动执行的演进。以下两点是AIOps在Soul的落地情况:

第一点是资源成本把控。首先从资源申请层面把控,防止资源的浪费,再到服务水位的把控,自动开启弹性扩缩容、业务指标感知、流量的自动切换和自动调度,最后是业务的自动熔断机制。

第二点是业务监控层面。首先监控指标的分析,可以有助于我们快速定位问题的根因,其次对故障类型进行判断,分析故障影响的人数、故障级别以及历史故障的推荐,有助于快速解决故障。

陈刚:关于 XOps在国内落地的情况,我主要从两个方面进行分析。

首先,国内的几个一线互联网大厂对XOps的理解应用都已经比较成熟了,甚至在某些领域,这些大厂本身就是XOps业务的风向标,同时在国际领域他们也都有自己的原创输出。

其次,这两年我主要是给国内的大型金融企业做DevOps转型的咨询和培训。他们对DevOps还是处于初期的了解观望再跟进的态度。同时,他们对AIOps、ChatOps、GITOps等也希望能够同步跟进和了解。

比如今年10月份,华泰证券、浙江移动都通过了工信部下面信息通讯研究院颁发的AIOps能力证书,其中的能力包括异常检测、告警收敛、根因分析和故障预测等。浦发银行、国泰君安这些大型银行证券也正在AIOps的能力建设以及认证的过程当中。

国内的XOps咨询工作一般需要持续半年到一年,因为在XOps落地过程当中的确有很多困难需要去克服,但是只要我们一直坚持往前走,XOps国内一定会遍地开花。

陈炯:我们红帽针对运维自动化这一块也有比较完整的解决方案。从这么多年实践的角度来看,我们发现在国内的企业中用到自动化的场景主要有以下这几点:

用自动化带动标准化,通过自动化平台的引入,帮助企业去建立一套标准化的体系,包括它的系统、平台等等各种设置应该如何实现标准化。

通过自动化来实现系统的自动巡检,自动配置管理等等一系列日常的管理。

使用自动化平台帮助企业进行故障的根因分析,甚至故障的自愈。

帮助企业实现应用自动化发布,甚至灾备切换自动化等等。

自动化能实现的场景是非常丰富的,有多大的想象力就能够实现多大的功能。

Q4 云时代,运维人员核心竞争力何在?

主持人:总结来说,一线大厂对XOps的接受度和应用度是比较高的,但是放眼到整个行业的转型方面,XOps还存在上升空间,比如体系化普及应用这方面。

前面提到了上云之后省钱省力更安全,但这是否意味着包括运维人员在内的好多岗位会被替代?云时代的运维人员如何打造自己的核心竞争力?各位如何看待这个问题?

尤首智:我从三个方面来阐述我对这个问题的看法。

首先,要从观念上改变。运维有一部分重复或简单的工作,例如构建资源或底层基础环境,这些是会被重度依赖的,却不一定是必要的重复去做的。

其次,是工作重点的改变。上云之后这部分重复或简单的工作会被公有云自身的能力所替代。但对于运维人员来说,这并不是一件坏事,他们可以更多地关注业务的稳定性,也有更多的时间来提升自己,要勇敢的跳出舒适区域。

最后,如何理解与利用好公有云。我对公有云的理解是它可以满足所有企业80%以上的需求,但几乎无法满足他们100%的需求。我们要利用好已有的80%更快更好的构建私有部分,从公司和业务的层面更快看到结果。运维的价值是提高业务稳定性,这是企业是最关心的一点,而这部分的能力由公有云来提供是一个很好的解决办法。

陈刚:企业上了云之后不需要那么多运维人员,这些人是否就要面临失业?我根据自己的经验来对这个问题进行一个阐述。

前几年我曾经参与过一个项目,对企业进行DevOps赋能,然后将应用向K8s迁徙,同时引入一些云原生的实践。在项目进行当中我需要带领两名同事从头到尾进行技术的攻坚和探索,最终形成落地方案。

当时部门有20个左右的运维同事,大多还是以传统的数据中心的运维技能以及实体机和虚拟机为主。在转型过程中,确实有一部分的运维人员担心自身技术失去核心竞争力优势,但是我们在转型的过程中其实能够积累很多最佳实践方面的文档和 PPT,在企业内部进行培训和宣贯,争取把想学习、想提升技能的运维同事及时地提升到公司需要的水平线上。

企业在上云转型过程中的运维人员,要么对现有运维人员进行培训提升技能来匹配转型的要求,要么从外部引入新的运维人员,没有第三条路可以走。我相信只要运维人员有提升自己技能的愿望,与时俱进,一定能够稳步前进,并且运维人员站到云端以后也可以对社会做出更多贡献。

最后,现代社会市场竞争激烈,犹如逆水行舟,不进则退。在企业上云的过程当中,确实也会淘汰一部分不愿意进取转型的低层次运维人员。其实这就是适者生存的概念,不只是在运维界,在有社会分工的地方,就会有优胜劣汰的机制。

陈炯:在 IT建设过程中,产品、流程和人员始终是绕不开的三个主要话题。企业上云并不意味着运维人员的失业,而是新的环境和平台下,我们对人员的要求发生了变化。

以前,运维人员只需要会打命令、写代码代码和脚本,但是上云以后就远远不够了。他们需要去制定整个运维的体系标准和完整的运维流程,甚至要从闭环的角度来看一个全生命周期的管理。并且在对故障进行根因分析的时候,能从不同的角度自主地去发现。还有非常重要的一点,在构建环境的时候,能够识别哪些软件和系统能够整合在一起,进行比较好的协同运作。

所以说,运维人员不是要被替代,而是他们的能力要得到很大的提升才能够满足未来 IT运维的需要。这是我的观点,谢谢主持人。

李同刚:我觉得从另一方面讲,这其实是一个机遇。

以前,运维人员是以懂各种中间件技术而引以为傲,但其实这未必是运维岗位最有意义的事。运维本质上是要保证业务的稳定性和IT成本的合理性。但这两个目标并不是靠技术来实现的,而是需要结合本公司的实际情况来制定解决方案,这是一整套的体系。

这一块的能力目前来看机器是很难替代的,所以我们可以把一些简单重复的事交给机器去做,人去做机器做不了的事。一方面,这样对人员本身的技能是一个提升,另一方面,公司也能够获得直接的业务价值。

圆桌对话总结

主持人:确实容器、集群技术对运维人员提出了很大的挑战,但运维人员需要做的是积极迎接和学习新的技术。另外在上云之后,运维人员可以多做一些机器做不了的事情,比如流程、规范等方面的制定。

企业上云虽然还面临着很多挑战,但更多的是机遇。相信随着企业运维体系的完善,新的运维技术的加持,运维人员核心能力的提升,云上会越来越精彩,我们一起努力

原文链接:
http://click.aliyun.com/m/1000318461/

本文为阿里云原创内容,未经允许不得转载。