现在技术领域讨论的热门话题中,智能运维 (AIOps) 一直热度不减。根据 Gartner Report,智能运维相关的技术产业处于上升期。Gartner 预计 2019 年 AIOps 的全球部署率可以达到 25%,而在 16 年全球部署率低于 5%。由此可见,智能运维的前景可谓是一片光明。
那么,在 AI 时代,作为运维技术人员,应该怎么应对?从传统运维转变为智能运维,又该怎么着手落地呢?我们先从智能运维的定义和发展谈起。
智能运维的定义和发展
按照 Gartner 的定义,AIOps 是 Algorithmic IT Operations,究其本质,可以简单理解为将人工智能知识和互联网运维领域相结合,让运维具备机器学习和算法的能力。
(图片来源——智能运维中的科研问题,裴丹)
我们大家都知道,在运维发展的过程中,最早出现的是手工运维;在大量的自动化脚本产生后,就有了自动化的运维;后来又出现了 DevOps 和智能运维。在运维的过程中,涉及到的步骤可以概括为:产生海量的监测日志,进行分析决策,并通过自动化的脚本进行控制。运维的发展过程,主要是分析决策步骤发生了变化:起初,由人工决策分析;后来,在采集数据的基础上,使用自动化的脚本进行决策分析;最后,用机器学习方法做决策分析。
运用机器学习方法做决策分析,智能运维从而达到如下效果:
能够准确的复现并诊断过去发生的事件;
能够及时准确的检测、诊断当前正在发生的事件,并确定最适合的应对方案;
能够相对准确地规划和预测将来可能发生的事件。
智能运维落地挑战及关键
从清华大学计算机系副教授裴丹的有关智能运维的研究中可以归纳出,智能运维落地的核心挑战是:从工业界的角度,我们有数据、有应用,但是缺乏一些算法和经验;从学术界的角度,我们有不少理论算法,但是缺乏实际的数据以支持科学研究,也不熟悉运维的场景。其中,在实际应用中,智能运维的一个主要挑战是根据具体需求评判应用哪些机器学习算法,并适配或改造。
基于智能运维想要达到的效果,具体的机器学习技术包括以下几项:
面向历史事件的: 批量根因分析、瓶颈分析、热点分析等;
面向实时事件的: KPI 异常检测、日志异常监测、事件关联关系挖掘、报警聚合、快速止损、故障根因分析、止损建议分析;
面向未来的:配置管理、容量预测、趋势预测、故障预测、热点预测等。
所以,在目前这个阶段,智能运维想要继续往前推进并取得更好的成果,需要把智能运维里的一些关键算法定义好、分解好、应用好。这是智能运维落地的一个关键步骤和手段。
智能运维的落地途径推荐
有关智能运维的落地,日志易产品总监饶琛琳同样有着深刻的见解和丰富的实践经验。饶琛琳,日志易产品总监,曾任新浪微博系统架构师、大数据运维技术专家,从事运维 11 年,精通大规模互联网性能优化,机器数据处理分析,监控和管理平台的部署开发。
饶琛琳认为,运维工作中有三个比较重要的方面:监控、管理和故障定位。在大数据时代,智能运维是基于大数据之上。目前看来,运维想要把监控、管理和故障定位这三部分有机结合起来,就不可避免的需要用到机器学习算法知识。
传统的 IT 运维需要管理大量的告警,极大地分散了企业的注意力,消耗运维人员大量的时间和创新力。运用机器学习算法进行快速的监控和排障、还能进行智能告警预测,把运维人员从纷繁复杂的告警和噪音中解脱出来,才能变身为真正的智能运维。
所以,要想尽快在智能运维领域有所突破,首先要主抓好监控系统和告警系统,并利用机器学习算法进行快速监控和排障。想要实现和搭建一个智能运维平台,也应从以下四点出发:
非结构化数据的处理
多模块关联追踪分析
动态阈值的异常检测
平台服务的资源管控
为了帮助企业能快速解读智能时代下的新运维,为了更好的实现智能运维的落地,帮助传统运维变身智能运维,我们特邀了日志易产品总监饶琛琳在 CNUTCon 2017 全球运维技术大会会前两天(9 月 8 日 -9 日)和大家进行一个面对面的深度培训交流。
届时,将会结合智能运维平台四个要点,分享其构建数据驱动的智能运维平台的心得,深度剖析基于算法的运维平台背景和架构;针对智能运维能够达到的理想状态,培训讲解运维场景中的根因分析、异常检测、故障监测定位、数据概要、配置管理、和智能告警、未来预测中所用到的算法知识。
彩蛋福利 —— 留言点赞赠书
在文末评论留言:“对智能运维的看法和想法”。截止到 8 月 22 日之前 留言被点赞最多的前五名用户,即可获得《ELK stack 权威指南(第 2 版)》一书。
添加小助手微信,及时获取赠书获奖情况信息。
点击 「阅读原文」即可进入大会官网,了解更多饶琛琳老师分享的智能运维中用到的算法知识。