Ранее в этом месяце Google Cloud по ошибке удалила учётную запись австралийского пенсионного фонда UniSuper. После восстановления работоспособности систем UniSuper и завершения внутренней проверки компания опубликовала информацию, призванную прояснить характер инцидента.
В соответствии с отчётом, инцидент затронул только и исключительно одного клиента, только один его сервис Google Cloud VMware Engine (GCVE) и только в одном облачном регионе из двух, используемых компанией UniSuper. Резервные копии данных клиента, хранящиеся в Google Cloud Storage (GCS) в том же регионе не пострадали.
По данным Google, во время первоначального развертывания частного облака для клиента в 2023 году операторы Google Cloud случайно неправильно настроили сервис GCVE, оставив поле неназванного параметра пустым. Это привело к непреднамеренному и непредсказуемому результату: частное облако UniSuper было автоматически удалено по истечении одного года (срок жизни по умолчанию), причём без уведомления о событии кого бы то ни было.
Восстановление GCVE, конфигурации сети, систем безопасности, приложений и данных потребовало от команды UniSuper и Google нескольких дней работы в режиме 24×7. Google Cloud предприняла ряд мер для исключения подобных инцидентов в будущем, в том числе проверку вручную всех GCVE-развёртываний других клиентов. Кроме того, теперь процесс создания GCVE полностью автоматизирован и не требует участия живых операторов даже при формировании нестандартных конфигураций.
Однако необычно долгое восстановление сервиса и произошедший спустя неделю после инцидента с UniSuper похожий, а возможно и связанный с описанной историей, сбой в работе Google Cloud ставит под сомнение надёжность облачной платформы в целом, а также в очередной раз показывает, насколько хрупка и уязвима ИТ-инфраструктура и насколько велико значение человеческого фактора.