Масштабный сбой в облаке Microsoft Azure, наложившийся на неудачное обновление защитного ПО компании CrowdStrike для ПК на Windows привели к нарушениям работы критически важной инфраструктуры по всему миру. По данным Datacenter Dynamics, в результате пришлось прекратить полёты некоторым авиалиниям, остановить работу банков, больниц, магазинов и других критически важных организаций и сервисов. В Сети в шутку предложили назначить 19 июля Международным днём Синего экрана смерти Windows. Эксперты уже назвали данное событие крупнейшим IT-сбоем за всю историю.
В Microsoft объявили, что облачный регион Central US спустя пять часов после сбоя вернулся к работе, хотя клиентам облака на восстановление работоспособности может понадобиться больше времени. Компания CrowdStrike, занимающаяся обеспечением кибербезопасности, также подтвердила, что выпущенное её обновление вызывало появление «экранов смерти» на компьютерах или бесконечной перезагрузке, а совпадение по времени двух не связанных с собой сбоев привело к тому, что клиентам теперь трудно определить, какая именно из причин вызвала неполадки в их инфраструктуре. Возможно, в некоторых случаях оказали влияние оба фактора.
Сбои привели к тому, что авиакомпании приостановили полёты, частично прекратили функционировать аэропорты, железные дороги, банковские приложения и даже сервис Xbox Live прекратил работу на несколько часов. Пострадали и некоторые телеком-операторы и СМИ. Проблемы коснулись жителей США, Великобритании и Австралии, а также других стран, от Европы до Индии и Японии.
CrowdStrike «откатила» дефектное обновление ПО Falcon Sensor, включавшее некорректный драйвер. В качестве временной меры предлагается удалить файлы вида C-00000291*.sys в директории C:WindowsSystem32driversCrowdStrike, загрузив Windows в безопасном режиме или режиме восстановления. Для облачных инстансов предлагается сделать то же самое, отмонтировав тома и сняв резервную копию. При наличии BitLocker понадобится ключ для дешифровки данных. Причём это не первая массовая проблема с ПО компании за последний месяц — более ранний апдейт приводил к 100 % загрузке одного из ядер CPU.
Акции компании в преддверии сегодняшних торгов в США уже упали на 19 %. Аналитики полагают, что CrowdStrike в её нынешнем виде, возможно, перестанет существовать. По некоторым оценкам, поражено до 15 % корпоративных Windows-систем. Ситуация осложняется тем, что при отсутствии OOB придётся вручную исправлять проблему на каждом ПК. По неподтверждённым данным, в некоторых случаях помогает многократная последовательная перезагрузка ПК (до 15 раз подряд).
Microsoft в свою очередь пояснила, что автоматизированный процесс управления внёс изменения в конфигурацию серверов, в результате чего была заблокирована связь между некоторыми хранилищами данных и вычислительными ресурсами в регионе US Central. Это привело к тому, что инстансы потеряли связь с виртуальными дисками, уходя в циклическую перезагрузку. Большинство сервисов сейчас восстановлено, но некоторые ещё испытывают «остаточное воздействие», клиенты получат поддержку на профильном портале Azure. В частности, проблемы всё ещё могут быть у пользователей и администраторов Microsoft 365.
Источник: