运维,这个传统的技术工种,在容器技术、人工智能的强力加持下,已经从”机械劳动“这样的刻板印象中蜕变出来,成为了任何一家技术公司所必须依赖和大力投入的核心技术能力。这样的大背景下,企业间的竞争也已经从线上业务争夺,延续到了自身技术实力的直接碰撞。
这次,在 CNUTCon 全球运维技术大会上,我们希望把业界有指导意义的运维能力集中组织和分享出来,然后借助开源项目和社区把这种能力落实到更多的技术企业当中去,一起探索智能时代下的新运维发展趋势。
大会邀请了国内外诸多一流领域技术专家严筛优质话题、发掘优秀讲师,揭秘最前沿运维技术,更有阿里、百度、腾讯、京东、携程、搜狗等公司大牛分享他们在最新运维实践过程中遇到的坑与经验。这一次,我们相信运维、DevOps、SRE 一定会成为这次技术变革的主角,毕竟,这本就是属于他们的时代。
智能化运维
《机器学习在大规模服务器治理复杂场景的实践》
我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上,任何一次硬件故障都可能影响到重要的业务。 面对如此庞大的基础设施:百种机型、万种应用、百万服务器、千万部件,再加上不同业务对故障的敏感程度不一致,传统的运维方法受到了极大挑战,海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。
阿里巴巴高级技术专家陈立波将分享在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现 ->定位 ->跟踪 ->修复的一站式解决方案。
《苏宁大数据平台运维实践》
苏宁大数据平台经过 3 年多的快速发展,集群规模从 10 台虚机急速扩展到 700 台物理机,平台组件也逐渐丰富,形成了以离线存储、在线存储、离线计算、实时计算等引擎为核心的大数据平台。在平台快速发展的过程中,平台规模的增长和组件的增多都给平台运维带来了很大的挑战。
苏宁云商 IT 总部技术总监王志强将分享苏宁大数据平台发展过程中平台运维工作所遇到的问题和痛点,以及相应的应对措施和解决方案,希望能为大家提供一些思路或经验。
运维自动化实践
《京东物流系统自动化运维平台技术揭密》
物流系统会有很多分支机构, 比如仓库、分拨中心、转运中心等, 业务复杂的分支机构可能会有自己的信息系统, 这些信息系统往往分布式地部署到全国各地,如何管理好这些分支机构的服务器、 信息系统, 降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。
京东资深架构师赵玉开将详细介绍京东物流系统自动化运维平台的实现方案, 包括仓库系统的开仓实现、应用部署方案,以及研发排查问题的运维自助工具实现等。