云原生时代，宕机事件频发的原因是什么？

发表时间: 2022-08-22 19:16

美联储支付系统宕机、亚马逊云服务宕机、国内 B 站等互联网服务平台宕机……近年来，全球范围内宕机事件频发，系统稳定性逐渐成为行业关注的焦点。

随着互联网服务深度融入生产生活，软件需要完成多样化的需求，势必需要扩大系统、引入新兴技术架构，信息系统的复杂度迅速提升，这些都导致系统稳定性的挑战愈加艰巨。中国信通院云计算与大数据所马鹏玮认为，信息系统稳定性成为业内焦点已经是必然趋势。

为了帮助各行各业实现更高效的运维，为业务提供全方位的稳定性保障，近日，蚂蚁数科发布了业务智能可观测服务 BOS。在产品发布会上，蚂蚁数科的产品专家马恒洋，对传统 IT 运维存在的挑战，以及业务智能可观测产品的功能进行了全面解读。

蚂蚁集团数字行业事业部总经理余滨表示：“未来蚂蚁数科将提供更丰富的产品体系，并联合相关的生态伙伴，去服务更多企业数字化转型，让业务智能可观测的产品、技术和服务给企业带来更多价值。”

传统 IT 运维面临的四大挑战

目前各行业都在进行数字化转型，比如建设 Devops、分布式架构、容器化改造等。在享受数字化和云化带来福利后，复杂业务场景和大规模用户量，给今天的运维带来了全新挑战和更大风险压力，主要挑战如下：

业务数字化运维缺失：现阶段大多数企业偏向于应用或资源视角运维，缺少从业务视角进行运维、运营的能力。并且企业的业务场景又纷繁复杂，比如面向用户的手机银行、微信银行等，面向内部员工的财务、HR 系统，以及面向伙伴的开放平台等。这些复杂的业务场景没办法通过传统运维手段将其量化和可视化，更无法将业务与应用系统进行关联映射；
链路的覆盖率很低：40% 左右用户体验故障是由客户端自身导致的，60% 左右是客户端调用服务端或中间件引起的，所以原先单点请求调用变成了长链路调用，任何一笔请求可能经过客户端-服务端-中间件等多个异构节点，每次出现故障时，运维人员无法快速感知调用链路上哪个环节出现异常或性能瓶颈；
运维产品多且割裂：很多企业都有购买和自建了各种监控产品，比如应用、中间件、基础资源的监控等，这些产品由不同部门使用，同样也建设了日志和链路等运维工具，但故障发生时仍需人工手动的收集信息，导致排障周期很长，比如应用出现故障时，可能是因为运行所在虚拟机异常导致的，但却是两个监控平台各自发出告警信息，无法自动关联；
运维数据无统一标准：海量运维数据不能实现数据的多维关联分析，就不能支撑上层可观测和智能运维能力，更无法实现运维数据的分析和挖掘。

上述四类挑战最终导致运维人员每天陷入到海量告警风暴中，但又无法准确发现故障；生产事故频繁出现，但又无好的观测和应急手段；并且每次故障都要拉齐相关的业务方、应用研发和运维等多方协同，效率不仅低下而且协同成本高。

如何应对这些挑战呢？传统方式是通过监控聚焦发现基础资源故障点，以运维人员为主；近年来，云原生兴起，可观测性概念与技术也得到很好的发展和传播，针对应用系统提供各种观测手段，如指标、链路、日志，可以更好去发现系统故障的根因，将系统内部白盒化和感知系统内部正在发生什么，用户也从运维扩大到应用研发。

但面对复杂的业务场景，这还远远不够。蚂蚁集团有复杂的业务场景，而每个业务完成也都会经过很多应用系统，所以业务内部在发生什么就变得很重要。蚂蚁沉淀出将业务场景可视化和数据业务语义化，以此实现业务和应用关联映射。当业务异常时，可利用智能化的观测技术手段，以此实现快速的故障定位和恢复。

业务智能可观测服务的五大能力

业务智能可观测服务 BOS（Business-Intelligent Observability Service）是基于蚂蚁大规模技术风险防控实践自研的一套运维平台，具有业务数字化运维、全息可观测定位、智能场景化防控、一体化数据分析和大规模实践等产品特性，将业务场景可视化和数据业务语义化，赋能云上/云下的异构应用开箱即用的智能可观测能力，为业务提供全方位的稳定性保障，建设业务观测新范式，让稳定更有力量。

业务智能可观测服务包含以下核心价值。

核心价值 1：业务数字化运维

蚂蚁有着上百个业务域，具有业务种类多、业务场景数量多、业务量级高等特性，所以就需要时刻检测和发现业务异常，比如流量下跌/突增、流量失败等。并且当业务异常时能够提供快速诊断的能力，所以对链路、日志和指标等观测数据，按照业务场景模型进行聚合，以此提供业务数字化运维的能力：

通过对业务链路和日志数据融合，并增加业务依赖轨迹，可构建业务多阶段模型，比如交易业务（交易创建-> 交易付款-> 交易支付成功），让业务方、研发和运维人员都能过可视化熟悉业务流程走向，并可自动感知到业务上下游依赖，以及通过业务影响面定义故障和拉齐应急；
通过对链路和日志数据融合，并增加业务语义行为，可自动聚合成业务单依赖链路，比如支付这个动作，支付业务在服务端的请求调用依赖是什么样的，当支付业务受损后，可查看对应的业务链路，识别链路中的应用服务和中间件等异常节点，将业务异常与应用异常自动关联映射；
通过将指标和日志数据融合，并增加业务语义维度，可灵活自定义配置丰富的业务指标，比如交易量和转账率等，并借助全息可观测能力去快速的发现和定位故障，提供业务连续性保证。

业务数字化运维从业务出发定位应急和可视化系统，但这需要可观测能力和数据已建设完成，我们提供一整套完整的定位充分度度量机制，去衡量可观测基础数据的完整性；并且根据业务优先级和重要性，充分的梳理每个业务，实现更广的覆业务盖率，这样就可以对平台内的业务一目了然。

核心价值 2：全息可观测定位

端到端全链路观测：提供从客户端->服务端->中间件的分布式全链路追踪能力，通过链路图、拓扑图和时序图等多种可视化方式，识别和锁定链路调用中的异常点和性能瓶颈；针对客户端应用，提供崩溃分析功能，以监控 APP 的闪退、卡死、卡顿等崩溃类事件，并及时上报 APP 对应的内存堆栈信息，方便定位问题，此外还提供启动分析、网络分析、电量分析、内存分析、H5 性能分析、小程序分析等客户端监控能力。

提供丰富服务端性能监控，可视化展现应用自身各方面运行情况，如应用的服务接口、资源使用、JVM Runtime 、端口存活等，并且将细粒度的观测数据按照单服务、机房、单元化和应用等维度聚合，实现指标的逐层下钻能力；并且真正意义上实现将指标、链路和日志等可观测数据进行超融合，比如 error 错误数可查看对应错误日志信息统计、慢接口和慢 SQL 等指标可查询对应的链路明细数据、单链路中可查看应用运行指标和关联日志。

性能诊断分析：提供 CPU 快照分析、内存快照分析、线程分析、异常分析的性能监控能力，可真实还原代码执行过程，帮助快速定位线程、堆栈等引起的程序故障。同时 Arthas 是诊断 Java 领域线上问题的利器，利用字节码增强技术，可以在不重启 JVM 进程的情况下，查看程序的运行情况。

故障定位自愈：将相关告警和异常事件按照风险维度进行聚合，提供单应用诊断、链路诊断、依赖诊断、故障决策分析能力，可快速定位到故障点，如已知风险事件，可自动触发已配置风险预案，以此实现故障自愈能力。

应用安全治理：基于插桩技术将安全策略注入到应用运行时环境，来抵御黑灰产网络攻击的应用安全防护能力，RASP 安全技术可在应用运行时检测攻击并进行自我保护，其攻击拦截防护率高达 98.7%，RT<1ms ；当服务异常时，可基于 ServiceMesh 实现服务治理的能力，并在链路和监控中观测 sidecar 节点，以此保证 sidecar 稳定性，避免对业务的影响，在服务治理界面提供丰富的观测数据融合展现；最后与应用变更流程打通，可实现对变更流量的实时观测能力。业务智能可观测服务真正实现了对应用全生命周期的防-治-变能力。

核心价值 3：一体化数据分析

业务智能可观测服务除了提供丰富的可观测数据采集能力外，还能够与第三方系统数据集成，按照符合开源 Open-telementry 标准协议的数据模型，对上报的数据进行预处理和二次计算，统一存储到高可靠的数据库中。

并对接第三方运维变更平台的元数据中心或 CMDB，将异构元数据转换为统一技术风险元数据，按照不同业务定位场景聚合为不同的影响面模型，如系统依赖影响、业务链路影响、客户资产影响等，在影响面模型上融合时序数据，构建成实时技术风险数据中台，使顶层可观测能力和底层异构数据源真正解耦。

一体化数据分析的目的并不仅仅是将数据进行统一纳管，更重要的是对数据进行关联分析，以此支撑各种技术风险场景运维，如故障诊断、根因分析、上卷下钻等。用此解决业务来源下跌、服务损耗比等故障，比如当业务异常时，我们对业务的相关变更检测、对业务相关应用诊断、和应用依赖分析等，之后将整个业务故障诊断链路上的所有异常点进行聚合推送给应急人员，以此在最短的时间内感知到故障影响面和作出应急决策，最终实现蚂蚁技术风险应急的 1-5-10 目标（即一分钟发现异常、五分钟定位问题、十分钟恢复故障）。

核心价值 4：智能场景化防控

蚂蚁内部做了很多 AIOPS 算法和工具的探索，最终沉淀出一套包含智能算法的部署、训练、回归，以及决策的打标回流完整算法能力平台。和告警模块深度结合，基于时序数据可将未出现过的突刺判定为业务异常，如突升/突降、缓升/缓降、跌零、长趋势异常、频率异常等。并给出当前点未告警的详细原因，比如同比过滤、环比过滤、同升同降过滤等；且准确率稳定> 90%, 能够识别>5%涨跌幅的异常波动，智能场景化防控帮助更多的企业实现自动化运维，释放运维人力成本。

核心价值 5：11.11 大规模实践

业务智能可观测服务作为安全生产和稳定性保障的眼睛，所以其自身的稳定性极其重要。业务智能可观测服务框架可针对不同量级观测对象，实现快速弹性扩所容。所有组件皆是蚂蚁自研，具有很强的技术兜底性保障。并且整个平台在采集、计算、存储等都具备超强高性能，以及支持多地多中心容灾部署架构，可实现 4 个 9 的金融急容灾能力，以此应对各种大规模场景，保障业务不间断。

开放兼容各类异构应用

今天越来越多的企业去建设可观测体系和产品能力，因为观测可以让企业不同部门、人员都能够获得更大的竞争优势。

对于运维工程师、研发工程师，通过全息可观测能够实现以可观测能力，将业务设计-研发-运行-运维全流程融合，端到端全链路可视化可定位调用瓶颈，一站式应用观测可快速诊断故障根因；对于项目管理者、架构师可以通过业务影响定义故障，实现多部门协作应急，提供业务场景/拓扑/链路/大盘多视图，实现业务与系统映射，打破数据孤岛，以此实现业务化运营；对于企业可以降低业务生产故障，提供更好安全稳定性保障，以此实现安全生产的目标。

业务智能可观测服务会以更加开放和兼容的形态对外提供服务。在阿里云公有云提供全套业务观测服务，可以搭配 SOFAStack 金融级云原生分布式解决方案和其他阿里云云产品一同使用，更好的享受云原生带来便捷。同样支持混合云私有化的输出，目前能够部署在阿里云飞天、vmware 虚拟机、Kubernetes 容器、openstack 等多种异构环境，并且支持国产化架构，获得了信创认证。

今天分布式和容器化应用仅占企业系统的一部分，大部分的应用系统都在云下，运行在经典虚拟机上，这些核心系统同样面临着前述运维挑战，而业务智能可观测服务能够对各种异构语言、异构技术栈的应用系统，提供开箱即用的业务观测能力，让云下的应用也享受可观测技术红利。

如果部分企业已基于开源产品进行可观测的尝试，比如 Skywalking、Prometheus 、EFK 等。业务智能可观测服务同样能够兼容，可收集开源链路产品上报的链路数据、可采集基于 prometehus 协议生成的监控指标、可对接查询 ES 的原始日志，让应用系统无缝且无成本的迁移到业务智能可观测服务上。

此外，蚂蚁数科还提供 SRE 咨询和配置服务。搭配蚂蚁 SRE 的咨询服务，可深入的调研和调了解企业运维现状，并结合蚂蚁的技术风险实践，梳理出一份针对企业自身运维发展和 SRE 体系的建设的咨询报告。除了业务智能可观测服务的产品，也提供相关的业务配置服务，根据企业的试点应用打造业务样本间，如业务场景、业务指标、业务大盘、巡检脚本、故障诊断树、预案等，并在配置过程中对企业人员进行赋能，可实现产品更好的落地和企业真正的自主可控。

目前金融行业的国有大行、股份制银行、城商行、农信社、保险领域的多家机构都已经使用业务智能可观测服务。比如宁波银行的可观测和故障诊断自愈、中华财险的混合云统一观测平台等。

蚂蚁数科是蚂蚁集团的科技业务板块，致力于将蚂蚁集团在区块链、人工智能、云计算、安全科技等领域的核心技术能力持续对外开放，为中小金融机构数字化升级、小微商家数字化经营、产业链数字化协作和跨境服务数字化转型贡献力量。

云原生时代，宕机事件频发的原因是什么？

热门阅读

推荐阅读