在过去的 48 小时里,发生了一场震撼全球互联网和 IT 基础设施的数字灾难,全世界的机场、火车系统、银行、医疗机构、酒店、电视台纷纷受到了影响,许多人的生活被打乱,造成的经济损失更是难以估量。
表面上,这场大规模 IT 系统崩溃体现在 Windows 电脑的“蓝屏死机”上。大量 Windows 用户在社交媒体上发布了他们遭遇的蓝屏。
有在机场信息屏上的:
有在室外电子广告牌上的:
还有在赛车场公告牌上的:
甚至连医疗器械也受到了影响:
然而,Windows 系统和微软并不是这场崩溃的主角,真正的“元凶”是一家名为 CrowdStrike 的安全公司,它发布了一个有缺陷的软件(驱动)更新,导致 Windows 电脑陷入了灾难性的重启循环。
在系统崩溃出现不久后,CrowdStrike 的 CEO 乔治·库尔茨(George Kurtz)就在 X 平台上强调,这不是一起安全事件或网络攻击,而且“问题已经被识别、隔离并部署了修复”。但并非所有组织都能迅速采取正确的行动。
受此影响,微软 365 服务出现异常,云端储存服务 OneDrive 和邮件服务 Outlook 都出现了宕机。
美国达美航空公司和美国联合航空公司的航班被迫停飞,英国希思罗机场、荷兰阿姆斯特丹国际机场和新加坡樟宜机场等重要机场的 IT 系统崩溃,导致值机失败、航班延误和停飞,大量乘客被迫滞留在机场。英国和马来西亚的铁路系统也遭遇了类似的问题。
同时,欧洲、澳大利亚和印度的许多银行客户无法访问在线银行,也不能完成转账等交易。
英国的医生办公室和医院失去了对患者记录和预约系统的访问权限。美国的 911 应急服务也遭遇了技术故障,许多呼叫中心无法正常工作。
在历史上,极少有一个软件(甚至是几行代码)能在短时间内破坏全球的计算机系统,我们有所耳闻的主要是蠕虫和木马攻击,比如 2003 年的 SQL Slammer 蠕虫攻击和 2017 年的勒索软件 WannaCry 传播。
最近几年的全球大宕机主要发生在 IT 系统的“服务器端”,例如云服务提供商出现问题、互联网电缆中断或分布式拒绝服务攻击。
滑稽的是,这次的混乱并非由黑客传播的恶意软件引发的,而是由旨在阻止黑客攻击的软件引发的。
一张张荒诞而又带点艺术色彩的照片仿佛在说:“看吧,这个世界就是一个巨大的草台班子。”
问题的起因
大崩溃的根本原因是网络安全公司 CrowdStrike 为 Windows 设备发布的一个更新中存在 bug。
该更新旨在用于 CrowdStrike 的 Falcon 软件,这是一款“端点检测和响应(endpoint detection and response)”软件,旨在保护公司的计算机系统免受网络攻击和恶意软件的侵害。
此次更新属于“内核驱动程序”更新,但它并没有按预期工作,而是导致运行 Windows 系统的计算机崩溃并无法成功重启。
运行 Windows 的家用电脑不太可能受到影响,因为 CrowdStrike 主要由大型组织使用。
独立网络安全研究员兼顾问卢卡斯·奥利尼克(Lukasz Olejnik)表示,CrowdStrike 软件在低级操作系统层工作,在这里出现任何问题都可能会使操作系统无法启动。
他指出,并非所有运行 Windows 的计算机都会受到影响。如果一台机器在 CrowdStrike 推送更新时处于关机状态,它就不会自动更新。
如何修复
当然,在发现问题后,CrowdStrike 和微软已经撤回了此次更新,目前也发布了一些解决方法。
令人啼笑皆非的是,官方最早发布的解决方法竟然是大名鼎鼎的“重启试试”。
微软 Azure 云服务页面指出,一些客户反馈称,他们通过多次重启虚拟机成功解决了系统崩溃。有的客户称其重启了 15 次才成功。
究其原因,似乎是重启可以让受影响的设备有更多机会尝试获取 CrowdStrike 的未损坏更新。如果重启无法解决问题,微软的建议是使用备份,将系统恢复到 CrowdStrike 驱动更新之前。
如果不想或无法恢复备份,那就只能由 IT 管理员开启电脑的安全模式,手动删除受影响的驱动(位于 C:\Windows\System32\drivers\CrowdStrike 目录下的 C-00000291*.sys 文件),然后让机器正常启动并获取未损坏的驱动。
对于管理成百上千台电脑和服务器的大公司来说,IT 部门无疑面临着巨大的工作量,完全修复可能需要几天的时间,许多 IT 管理员的周末不得不用来加班。
不过,人类的悲喜并不相通。因为电脑蓝屏,很多打工人的周末从周五就“开始”了。
此次全球宕机潮反映出了 IT 基础设施是多么的脆弱:如果这是一种勒索软件而不是一次意外的更新 bug,情况将比现在糟糕多了。
在 IT 管理员争先恐后地修复问题、降低影响时,如何防止类似危机再次发生的问题仍没有答案。
“人们可能会现在要求改变现在这种运行模式。”网络安全咨询公司 Hunter Strategy 的研发副总裁杰克·威廉姆斯(Jake Williams)表示,“CrowdStrike 刚刚展示了在没有 IT 介入的情况下,为何推送更新是不可持续的原因。”
参考资料:
https://www.technologyreview.com/2024/07/19/1095161/fix-windows-pc-microsoft-crowdstrike-outage/
https://arstechnica.com/information-technology/2024/07/crowdstrike-fixes-start-at-reboot-up-to-15-times-and-get-more-complex-from-there/
https://www.theverge.com/24202037/microsoft-crowdstrike-outage-blue-screen-error-photos
排版:朵克斯