Российский провайдер сервисов IT-инфраструктуры Selectel приступил к бета-тестированию инференс-платформы собственной разработки, которая позволит упростить запуск ML-моделей в промышленную эксплуатацию и ускорить их работу. Как сообщается на сайте провайдера, с помощью нового сервиса можно всего за несколько минут развернуть готовую модель на вычислительных мощностях провайдера без привлечения разработчиков.
Решение нацелено на компании, использующие в работе ИИ-модели для обеспечения функционирования голосовых роботов в колл-центрах, чат-ботов для консультаций сотрудников и клиентов, сервисов распознавания изображений и других задач. С помощью платформы можно загружать модели в объектное хранилище Selectel, а на выходе получить готовые API. Также с её помощью можно регулярно обновлять версии моделей без прекращения обработки поступающих пользовательских запросов.
Selectel отметил, что благодаря инференс-платформе можно в несколько раз сократить время вывода ИИ-проектов на рынок, причём с учётом конкретных профилей нагрузок и требований к производительности, которые помогут подобрать и донастроить специалисты ML-команды провайдера.
Платформа построена на базе GPU-кластеров Managed Kubernetes с использованием открытых инструментов NVIDIA Triton Inference Server, Ray Serve Cluster и Istio Ingress Controller. Решение полностью независимо от привязки к поставщику (vendor lock) и обеспечивает высокую производительность за счёт встроенных возможностей по повышению пропускной способности и максимальной утилизации ресурсов.
Источник: