На GTC 2023 корпорация NVIDIA анонсировала новые ускорители для инференс-систем — сверхмощный H100 NVL и компактный L4. Последний предлагает приличную производительность в форм-факторе HHHL. Google Cloud уже воспользовалась последней новинкой и объявила о доступности инстансов G2 с ускорителями NVIDIA L4.
Инференс-задачи требуют от ускорителя быстрой обработки входных данных. Google Cloud предлагает использовать G2 именно в таком качестве и говорит о возможном снижении инфраструктурной стоимости на 40 %. Также говорится о повышении производительности в сравнении с NVIDIA T4, ускорителями аналогичного класса, но предыдущего поколения.
В зависимости от задачи прирост может варьироваться от двух до четырёх раз. Карта развивает почти 500 Топс (INT8/FP8) и несёт на борту 24 Гбайт памяти с ПСП 300 Гбайт/с. Впрочем, L4 достаточно универсален и может использоваться в любых сценариях, от HPC и рендеринга 3D-графики до параллельного транскодирования потокового видеоконтента. В том числе новинка поддерживает трассировку лучей, технологию масштабирования DLSS 3.0, а также аппаратное кодирование в формате AV1.
В настоящее время новые виртуальные машины доступны в виде закрытого превью, количество используемых ускорителей — от 1 до 8. Инстансы G2 доступны в регионах us-central1, asia-southeast1, europe-west4, а запрос на доступ к ним можно оставить, использовав приведённую ссылку. Также новые ускорители вскоре станут доступны в Google Kubernetes Engine (GKE), Vertex AI и других облачных сервисах.
Источник: