运维领域必读:10篇精选技术文章

发表时间: 2015-12-02 17:12

InfoQ是一个关注中高端技术人的社区媒体

——追踪技术圈新闻热点时事深度解读;

圈点行业内KOL观点灼见;

聚焦技术领域中的360行;

不断丰富、改变、突破着的为技术人呈现的内容矩阵。

现在向大家推荐10篇优秀文章,这些文章来自微信公众号InfoQ,如果您对各类技术感兴趣,推荐关注微信公众号:InfoQ。

长按识别二维码可轻松关注 InfoQ

涂彦,腾讯互动娱乐运维总监:2005 年进入网络游戏行业, 长期从事游戏运维一线支撑服务与团队管理工作,在游戏运维领域有丰富的实战经验。2010 年加入腾讯游戏,亲历公司游戏业务和运维团队的高速增长并深度参与主导了运维转型、游戏云平台建设、运维四化实践等关键项目,对游戏运维发展有深刻的理解。目前正在努力推动互联网行业运维标准的制定工作。

运维们在游戏云平台上源源不断地将技术方案与产品运营相结合, 在标准化、自动化、服务化、产品化的运维理念影响下,通过蓝鲸平台将运维的服务能力持续覆盖腾讯游戏300+业务。在实践过程中我们深深体会到,运维服务对于产品运营的重要性以及对于运维未来发展的关键性。此次论坛希望通过腾讯游戏运维服务能力实践分享,与大家一起探讨运维发展未来与运维标准建设。

扫描二维码关注 InfoQ 公众号后,发送数字 101即可阅读原文。

众所周知,系统监控一直是拥有复杂IT架构的企业所面临的一个重要问题,而这也并不是每家企业都能够轻松解决的技术挑战。OPPO后端系统规模近几年快速发展,系统重构以后采用了服务化的架构,各系统之间耦合降低,开发效率得到了很大的提升。然而在服务化带来了好处的同时,难于监控的问题也一并出现。

为了解决这些问题,OPPO公司自行开发了一套监控系统,并结合第三方监控系统,形成了从App请求开始到后端处理过程的完整监控体系。OPPO监控系统的简称为OMP(OPPO Monitor Platform),历时半年开发,分为两期上线,现在已全面接入OPPO线上项目。

扫描二维码关注 InfoQ 公众号后,发送数字 102即可阅读原文。

没有比“可视化”更好的一个词能概括运维的本质,而“可视化”又应该分成两部分:可视化的服务交付和可视化的服务度量!

对于运维来说,提供一种高效、一致性、透明化、面向用户的服务是运维的价值所在,这样就要求运维屏蔽其提供的服务背后的所有实现细节。运维的自动化最终要实现可视化,复杂的运维工作流必须通过可视化来表达,可视化后的自动化才能让所有人理解一致、执行一致、结果一致。

“除了上帝,一切人都必须用数据说话”,这是运维人员必须恪守的信条。数据的可视化能力非常重要,需要在面向整体和面向某个业务流上都有实现。可视化的能力就代表了运维的能力,可视化的程度越高,运维的能力越高。那么你现在到底可视化了哪些运维服务,并能进行度量呢?

扫描二维码关注 InfoQ 公众号后,发送数字 103即可阅读原文。

运维的今天,内忧外患。运维危机,已非盛世危言、或哗众取宠。

怎么办?暴风雨和奇点同时逼近,而运维的分化,或许只是时间的问题。

为此,我提出新观点:运维2.0——这也是运维最后的机会。

运维好比是池塘里的鱼,不管水域大小,都有一块自留地。但某天,突然来了一头鲸鱼,目标不是鱼而是水…… 所以运维的任务需随之而变——在水被吸干之前,提前上岸。

运维2.0,就是那个带我们跳出池塘投身大湖的武器。

扫描二维码关注 InfoQ 公众号后,发送数字 104即可阅读原文。

通过对比企业数据库运维模式和云数据库(以下简称RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。

陈长城, 阿里技术保障 数据库高级专家, 2008年慕名加入淘宝DBA团队,成为一名专职Oracle DBA,两年后作为淘宝去IOE的主要实施人,对淘宝核心系统的数据库架构进行改造,经过3年架构演变,完成去IOE。之后着手建设统一的数据库自动运维平台DBFree,不断迭代至今。支撑了历年的双11大促,和去年的异地多活架构,满足异地多IDC同时进行交易。 一直负责阿里集团数据库基础技术,2014年同时负责阿里云数据库的基础运维,喜欢在工作中探索新的模式,通过运维系统和生产系统的有机结合,让运维工作智能化,DBA经验服务化。

扫描二维码关注 InfoQ 公众号后,发送数字 105即可阅读原文。

运维自动化是目前热门的研究领域,我们以1号店的运维实践作为依据,首先介绍1号店运维自动化的基础平台CMDB的架构和应用,然后在此基础上介绍运维自动化核心子系统构的构建及系统间的整合,突出讲解一下目前流行的puppet的特点以及整合。

希望我们通过以下的内容分享,帮助大家少走弯路: 运维自动化的规划和架构。 1号店运维大闭环及3大核心闭环。 服务器下层闭环。(购买到进资源池前) 服务器上层闭环。(上架到回收) 业务闭环。(业务变更) CMDB的构建及心得。 运维自动化产品puppet的选型及和CMDB的整合与应用。

扫描二维码关注 InfoQ 公众号后,发送数字 106即可阅读原文。

每天,在携程网上都有巨量的在线旅游交易发生,而其背后有一个相当复杂的软件体系和基础设施在支撑。伴随业务的飞速发展,生产环境的发布越来越频繁,基础架构的变更也越来越密集,网站稳定性面临从所未有的挑战。

从去年开始,新的监控体系开始被打造,从人员组织,工具开发,流程定义上都不断改进和磨合。如今监控工具已经能做到先于人发现网站问题,为故障恢复争取了时间,成为提高网站可用性的利器。在此基础上,我们还开发了监控工具的移动端,使得网站支持人员能够方便快捷的查看系统报警和关键监控数据,进一步缩短网站故障时间。

本次分享主要介绍携程网的监控体系打造的思路,提高监控有效性采取的一些方法和工具,并展望携程监控平台一体化,移动化的未来发展方向。

扫描二维码关注 InfoQ 公众号后,发送数字 107即可阅读原文。

崔华,赶集网高级技术经理、自动化运维专家.赶集网运维平台负责人,近10年运维及开发经验,2011年加入赶集,一直致力于自动化运维建设,经历了“阿波罗平台”诞生变迁的全过程。负责管理应用运维团队,对服务层运维方面提供保障,同时推进运维标准化及规范化;曾任完美世界运维平台开发负责人,具有丰富的自动化运维项目开发和管理经验。

面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重; 从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天; 我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。 如何目睹起飞的过程? 如何清晰地看到那一轮明月? 希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。

扫描二维码关注 InfoQ 公众号后,发送数字 108即可阅读原文。

张春林,招商银行数据中心技术管理室主管,十二年金融业IT运维从业经验,涉足的专业领域包括基础网络运维、应用交付运维、业务连续性管理、自动化运维管理、技术架构管理,曾负责招商银行重要系统灾备建设项目、招商银行总行负载均衡项目、招商银行分行负载均衡项目、应急管理项目等,在负载均衡技术、高可用架构、灾备和应急管理、自动化运维等领域积累了丰富的实战经验,曾被邀请在F5用户大会发表演讲。

对于大型商业银行而言,由于业务对信息系统的依赖,信息系统的可用性成为关系到财务收益和声誉风险的重要因子,而应急处置效率又是影响可用性的关键因素之一。如何快速有效地处置突发事件,既是商业银行的内在管理需要,也是外部监管要求。本文通过定性和定量结合的方式,全面分析可能影响应急处置效率的各个环节和要素,提出了提升应急处置效率的方法,并基于分析结果和笔者实践,总结了一套应急标准化方法论,可为听众起到抛砖引玉、开拓思路的作用。

扫描二维码关注公众号后,发送数字 109即可阅读原文。

这里的自动化主指自动化部署,它涵盖的范围很广泛,包括搭环境、修改配置、线上升级、扩容、迁移,以及带来的所有关联变更等等。 部署系统一直作为运维基础设施的核心组件,紧密的将监控、名字服务、配置管理等关联起来。 对于持续集成,配合hudson和本地部署工具,可以串联整个软件生命周期的自动化;对于服务稳定性来说,可以通过资源隔离及增加调度来自动运维服务,提高服务可用性。

伏晔,小米运维架构师,微博: @幸福哥V,从事互联网运维8年,曾在百度负责自动化运维项目及担任运维技术委员会主席。2013年加入小米,任职运维架构师,负责应用运维及运维自动化工作。

扫描二维码关注 InfoQ 公众号后,发送数字 110即可阅读原文。