时间:2024-07-19 作者:奇安信集团
北京时间2024年7月19日下午,全球大量Windows用户在社交媒体上晒出电脑蓝屏画面,出现了大量 Windows 10电脑崩溃、显示蓝屏死机、无法重新启动的案例。在国内“微软蓝屏”迅速登顶微博热搜第一,成为全网热议话题。
随后,蓝屏问题被确认与CrowdStrike的软件更新有关,导致中国、新西兰、澳大利亚、日本、印度等地区Windows用户均出现了蓝屏现象。CrowdStrike目前正在全球范围内撤销该更新。截至发稿前,网络安全公司CrowdStrike美股盘前大跌超18%,微软跌超2%。
微软发布官方消息称,旗下Microsoft 365系列服务出现访问中断,受影响的包括但不限于Microsoft 365各个应用,微软Xbox,以及Azure云平台的正常运行。此次事件不仅波及企业办公工具,还牵涉到Xbox游戏服务,以及多家航空巨头的运营,给全球多个地区的企业和个人用户带来了不便。
part 01 航空、能源、金融等多行业被波及,甚至瘫痪
根据航空公司和机场的声明,全球多家航空公司和机场正面临广泛的技术问题,导致运营延迟。美国航空公司、达美航空公司、土耳其航空公司、美国联合航空公司、IndiGo航空公司都相继报告了问题,美国联合航空、美国航空和达美航空已对所有航班发出地面停飞指令。墨尔本机场、柏林机场等也通知称,由于“技术问题”,航班可能会延误。
除了航空业之外,伦敦和新加坡的几家主要石油/天然气交易部门因网络故障而难以执行交易。澳大利亚的中断检测网站Downdetector显示,澳大利亚国民银行、电信公司Telstra、谷歌等都报告了问题,导致客户无法登录或交易,广播公司也遭到被迫停播。
美国交通部长皮特·布蒂吉格对此事表达了关注,表示交通部正在密切监控航班取消和延误的情况,并强调将要求航空公司履行责任,保障乘客权益。
part 02 “蓝屏事件”导致的系统瘫痪该如何避免?
目前,安全专家给出了针对这个问题的临时解决方案,即通过安全模式阻止CrowdStrike驱动程序启动,例如在安全模式中将 C:\windows\system32\drivers\crowdstrike 文件夹重命名,重命名后引起兼容性的驱动程序文件无法被正常调用,系统可以恢复正常使用。
接到大量用户反馈后 CrowdStrike发布声明表示已经知晓此问题并在处理中,在Reddit论坛中该公司工程师称正在撤销CrowdStrike 的一项可能导致蓝屏死机的更改。
奇安信网络安全事件响应专家、威胁情报中心负责人汪列军表示,此次微软服务的大规模中断事件,提醒了业界和广大用户,即使是非常成熟的技术平台也可能遭遇意外故障。可见,业务稳定和网络安全不仅是技术问题,更是管理和战略问题,需全面综合考虑各种因素。主要表现以下几点:
•首先是把好质量关。正所谓“能力越大责任也越大”,涉及系统稳定性的软件厂商需要对自己的软件有更严格的质量管理。否则,这种意外故障导致的业务连续性问题比恶意的网络攻击还要大。
•其次是做好升级策略。在产品升级时,要控制影响范围,俗称“爆炸半径”,掌控好升级策略,确保灰度升级,控制放量节奏。逐步测试,逐步增加覆盖。
•最后是态度需要积极主动。在出现事故时,平台厂商和安全厂商,都需要本着客户至上原则,最短时间给出客户相应的解决方案,并积极与公众沟通,避免因为信息差等导致的恐慌。
汪列军还提醒广大用户,在云计算时代,业务系统稳定性面临的挑战将比以往更加严峻,企业迫切需要加强自身安全意识,合理应对技术故障,提前做好紧急事故预案,并重新评估其业务稳定保障、灾难恢复计划以及技术依赖的风险。例如,对业务有高稳定性要求的用户,可采用多供应商互为备份,以避免出现供应商单点故障,还可进行故障应急演习,对此类场景有应对预案和回退措施。
事实上,因为意外系统故障造成业务瘫痪的安全事件,在全球范围屡次发生。就在2023年8月底,丰田汽车就对外发表声明,由于发生计算机系统故障,该巨头在日本国内的所有14家整车工厂共计28条生产线将全部暂停运营。根据媒体的计算结果,这些停工的工厂加起来约占公司全球产量的1/3。在国内,2023年底,某头部云计算厂商出现大面积宕机,导致其旗下多款国民级服务无法正常访问,影响巨大。
分析人士认为,随着数字化转型的不断深入,政企机构核心关键业务对数字化平台的依赖度越来越深,数字化程度较高的企业,其生产经营、业务服务,片刻离不开数字化系统,这也引出了一个深刻问题:企业的数字化基础设施一旦升级、改造、迁移,或者故障排查,甚至是某个策略的更新,都可能需要付出正常服务中断的代价,尤其是数字化程度越深,业务影响的代价就越大。因此企业亟待未雨绸缪,在追求“安全零事故、生产零事故”目标的道路上持续前行。
本文图片来源于网络
95015服务热线
微信公众号