Облачная платформа Amazon Web Services (AWS) готовит ИИ-ускоритель нового поколения — изделие Trainium 3. Завесу тайны над этим решением, как сообщает ресурс Fierce Networks, приоткрыл вице-президент компании по инфраструктурным услугам Прасад Кальянараман (Prasad Kalyanaraman).
Оригинальный ускоритель AWS Trainium дебютировал в конце 2021 года. Его производительность — 3,4 Пфлопс на вычислениях малой точности и до 840 Тфлопс в FP32-расчётах. В ноябре 2023-го было представлено решение AWS Trainium 2, которое, как утверждается, вчетверо производительнее первой версии. Теперь AWS готовит изделие третьего поколения.
Кальянараман намекнул, что энергопотребление Trainium 3 достигнет 1000 Вт или более. Он не стал называть конкретные цифры, но сказал, что для ускорителя планируется применение СЖО. «Текущее поколение ускорителей не требует СЖО, но следующему она понадобится. Когда мощность чипа превышает 1000 Вт, ему необходимо жидкостное охлаждение», — отметил Кальянараман.
В настоящее время единственными ИИ-изделиями, показатель TDP которых достигает 1000 Вт, являются ускорители NVIDIA Blackwell. Вместе с тем, по имеющимся сведениям, Intel разрабатывает устройство в соответствующей категории с энергопотреблением на уровне 1500 Вт.
На текущий момент почти все дата-центры AWS используют технологию воздушного охлаждения. Но Кальянараман сказал, что компания рассматривает возможность внедрения технологии однофазной СЖО (а не иммерсионного охлаждения) для поддержки ресурсоёмких рабочих нагрузок. К внедрению СЖО вынужденно пришли и Meta✴ с Microsoft — компании используют гибридный подход с водоблоками на чипах и теплообменниками на дверях стойки или же в составе отдельной стойки.
Кроме того, отметил Кальянараман, AWS стремится к дальнейшей оптимизации своих ЦОД путём «стратегического позиционирования стоек» и модернизации сетевой архитектуры. Речь идёт о применении коммутаторов следующего поколения с пропускной способностью до 51,2 Тбит/с, а также оптических компонентов.
Источник: