Произошедший 30 августа сбой в работе австралийского дата-центра привёл к проблемам в работе с сервисами Azure, API, базами данных, а также облачным ПО. Пользователи более суток не имели доступа к Azure, сервисам Microsoft 365 и Power Platform. Как сообщает Network World, в Microsoft обвиняют в произошедшем недостаток персонала в ЦОД и неисправную систему автоматики.
По данным экспертов компании, после падения напряжения в сети на юго-востоке страны отключилась часть охлаждающих систем в одном из ЦОД. Поскольку охлаждение не работало должным образом, рост температуры в машинных залах привёл к автоматическому отключению некоторого оборудования для сохранения инфраструктуры и данных.
При этом в компании подчеркнули, что системы охлаждения можно было бы заново включить вручную, окажись для этого достаточно персонала в ЦОД. С учётом размеров кампуса и небольшого числа сотрудников ночной смены людей оказалось недостаточно для своевременного восстановления работоспособности. В компании подчеркнули, что временно увеличили команду с трёх до семи человек, пока не выяснили причины проблем и не приняли необходимые меры для их устранения.
В Microsoft добавили, что компания работает над масштабными реформами, включая совершенствование системы автоматизации ЦОД для восстановления работоспособности в случае повторения инцидентов, в частности, связанных с перепадами напряжения. Поэтому ведётся оценка загруженности серверов, чтобы выяснить, какие именно системы охлаждения нужно «оживить» в первую очередь.
В последние месяцы сбои в работе сервисов Microsoft уже случались, в первую очередь связанные с нарушением доступа к Microsoft 365. Например, в июле пострадали OneDrive для бизнеса и SharePoint Online, а месяцем ранее с проблемами на восемь часов столкнулись пользователи Outlook Web, Teams, OneDrive для бизнеса и SharePoint. А в начале года наблюдались глобальные сбои в работе сервисов компании.
Источник: