Windows蓝屏频发,源头竟是CrowdStrike更新缺陷!

发表时间: 2024-07-20 18:06

在过去的 48 小时里,发生了一场震撼全球互联网和 IT 基础设施的数字灾难,全世界的机场、火车系统、银行、医疗机构、酒店、电视台纷纷受到了影响,许多人的生活被打乱,造成的经济损失更是难以估量。


表面上,这场大规模 IT 系统崩溃体现在 Windows 电脑的“蓝屏死机”上。大量 Windows 用户在社交媒体上发布了他们遭遇的蓝屏。


有在机场信息屏上的:


(来源:X)


有在室外电子广告牌上的:


(来源:X)


还有在赛车场公告牌上的:


(来源:X)


甚至连医疗器械也受到了影响:


(来源:X)


然而,Windows 系统和微软并不是这场崩溃的主角,真正的“元凶”是一家名为 CrowdStrike 的安全公司,它发布了一个有缺陷的软件(驱动)更新,导致 Windows 电脑陷入了灾难性的重启循环。


在系统崩溃出现不久后,CrowdStrike 的 CEO 乔治·库尔茨(George Kurtz)就在 X 平台上强调,这不是一起安全事件或网络攻击,而且“问题已经被识别、隔离并部署了修复”。但并非所有组织都能迅速采取正确的行动。


受此影响,微软 365 服务出现异常,云端储存服务 OneDrive 和邮件服务 Outlook 都出现了宕机。


美国达美航空公司和美国联合航空公司的航班被迫停飞,英国希思罗机场、荷兰阿姆斯特丹国际机场和新加坡樟宜机场等重要机场的 IT 系统崩溃,导致值机失败、航班延误和停飞,大量乘客被迫滞留在机场。英国和马来西亚的铁路系统也遭遇了类似的问题。


同时,欧洲、澳大利亚和印度的许多银行客户无法访问在线银行,也不能完成转账等交易。


英国的医生办公室和医院失去了对患者记录和预约系统的访问权限。美国的 911 应急服务也遭遇了技术故障,许多呼叫中心无法正常工作。


在历史上,极少有一个软件(甚至是几行代码)能在短时间内破坏全球的计算机系统,我们有所耳闻的主要是蠕虫和木马攻击,比如 2003 年的 SQL Slammer 蠕虫攻击和 2017 年的勒索软件 WannaCry 传播。


最近几年的全球大宕机主要发生在 IT 系统的“服务器端”,例如云服务提供商出现问题、互联网电缆中断或分布式拒绝服务攻击。


滑稽的是,这次的混乱并非由黑客传播的恶意软件引发的,而是由旨在阻止黑客攻击的软件引发的。


一张张荒诞而又带点艺术色彩的照片仿佛在说:“看吧,这个世界就是一个巨大的草台班子。”


问题的起因


大崩溃的根本原因是网络安全公司 CrowdStrike 为 Windows 设备发布的一个更新中存在 bug。


该更新旨在用于 CrowdStrike 的 Falcon 软件,这是一款“端点检测和响应(endpoint detection and response)”软件,旨在保护公司的计算机系统免受网络攻击和恶意软件的侵害。


此次更新属于“内核驱动程序”更新,但它并没有按预期工作,而是导致运行 Windows 系统的计算机崩溃并无法成功重启。


运行 Windows 的家用电脑不太可能受到影响,因为 CrowdStrike 主要由大型组织使用。


独立网络安全研究员兼顾问卢卡斯·奥利尼克(Lukasz Olejnik)表示,CrowdStrike 软件在低级操作系统层工作,在这里出现任何问题都可能会使操作系统无法启动。


他指出,并非所有运行 Windows 的计算机都会受到影响。如果一台机器在 CrowdStrike 推送更新时处于关机状态,它就不会自动更新。


如何修复


当然,在发现问题后,CrowdStrike 和微软已经撤回了此次更新,目前也发布了一些解决方法。


令人啼笑皆非的是,官方最早发布的解决方法竟然是大名鼎鼎的“重启试试”。


微软 Azure 云服务页面指出,一些客户反馈称,他们通过多次重启虚拟机成功解决了系统崩溃。有的客户称其重启了 15 次才成功。


图 | 微软最早给出的“重启试试”解决方案(来源:微软)


究其原因,似乎是重启可以让受影响的设备有更多机会尝试获取 CrowdStrike 的未损坏更新。如果重启无法解决问题,微软的建议是使用备份,将系统恢复到 CrowdStrike 驱动更新之前。


如果不想或无法恢复备份,那就只能由 IT 管理员开启电脑的安全模式,手动删除受影响的驱动(位于 C:\Windows\System32\drivers\CrowdStrike 目录下的 C-00000291*.sys 文件),然后让机器正常启动并获取未损坏的驱动。


对于管理成百上千台电脑和服务器的大公司来说,IT 部门无疑面临着巨大的工作量,完全修复可能需要几天的时间,许多 IT 管理员的周末不得不用来加班。


不过,人类的悲喜并不相通。因为电脑蓝屏,很多打工人的周末从周五就“开始”了。


此次全球宕机潮反映出了 IT 基础设施是多么的脆弱:如果这是一种勒索软件而不是一次意外的更新 bug,情况将比现在糟糕多了。


在 IT 管理员争先恐后地修复问题、降低影响时,如何防止类似危机再次发生的问题仍没有答案。


“人们可能会现在要求改变现在这种运行模式。”网络安全咨询公司 Hunter Strategy 的研发副总裁杰克·威廉姆斯(Jake Williams)表示,“CrowdStrike 刚刚展示了在没有 IT 介入的情况下,为何推送更新是不可持续的原因。”


参考资料:

https://www.technologyreview.com/2024/07/19/1095161/fix-windows-pc-microsoft-crowdstrike-outage/

https://arstechnica.com/information-technology/2024/07/crowdstrike-fixes-start-at-reboot-up-to-15-times-and-get-more-complex-from-there/

https://www.theverge.com/24202037/microsoft-crowdstrike-outage-blue-screen-error-photos


排版:朵克斯