Материалы по тегу: hpc
12.03.2025 [14:45], Сергей Карасёв
10+ Тбайт/с: Pure Storage представила высокопроизводительную All-Flash СХД FlashBlade//EXA для ИИ и НРСКомпания Pure Storage анонсировала систему FlashBlade//EXA: это, как утверждается, самая производительная на сегодняшний день платформа хранения данных, разработанная специально для наиболее требовательных нагрузок ИИ и HPC. Отмечается, что стандартные СХД оптимизированы для традиционных сред HPC с предсказуемыми операциями. Такие системы разрабатываются с прицелом на масштабирование «чистой производительности». Однако современные нагрузки ИИ являются гораздо более сложными и многомодальными: они предусматривают обработку данных разного типа — текстов, изображений и видео — одновременно на десятках тысяч ускорителей. Из-за этого возникает необходимость в оптимизации обработки метаданных наряду с масштабированием производительности. FlashBlade//EXA, по заявлениям Pure Storage, устраняет узкие места традиционных СХД в плане работы с метаданными. Архитектура новой платформы даёт возможность масштабировать ресурсы для обработки обычных данных и метаданных независимо друг от друга. Эффективная обработка метаданных имеет решающее значение для поддержания высокой производительности, надёжности и эффективности в крупномасштабных средах ИИ. Сегмент метаданных Metadata Core в составе FlashBlade//EXA может объединять от 1 до 10 5U-шасси с десятью blade-узлами в каждом. В каждом узле размещается от одного до четырёх фирменных 37.5-Тбайт модуля DFM. Ещё 2U приходится на пару XFM (External Fabric Modules), которые дают 16 подключений 400GbE. Metadata Core работает с фирменной ОС Purity//FB, общается напрямую с GPU-кластером (NFSv4.1 over TCP) и управляет потоками данных между узлами хранения и кластером (NFSv3 over RDMA). Узлы хранения Data Node обладают неограниченной масштабируемостью. Причём эти узлы могут быть самыми обычными x86-серверами любых вендоров. Каждый такой узел должен содержать 32-ядерный CPU, 192 Гбайт RAM, от 12 до 16 NVMe SSD (PCIe 4.0/5.0) вместимостью до 61,44 Тбайт, а также пару 400GbE NIC. Архитектура платформы предусматривает использование сетевых адаптеров NVIDIA ConnectX, коммутаторов Spectrum, компонентов LinkX и пр. Система FlashBlade//EXA обеспечивает производительность свыше 10 Тбайт/с на операциях чтения в одном пространстве имён. В результате, организации могут значительно ускорить процессы обучения ИИ-моделей и инференса, максимально используя потенциал GPU-ускорителей. Это также способствует снижению временных и финансовых затрат на решение ресурсоёмких задач. По-видимому, именно это решение компания и предлагает гиперскейлерам. У самой Pure Storage есть тестовая конфигурация из 300 узлов, которая показывает производительность на уровне 30 Тбайт/с.
10.03.2025 [12:03], Сергей Карасёв
Lenovo создаст крупнейший в Индии ИИ-суперкомпьютер, который получит отечественные чипы KrutrimИндийская компания Krutrim, подразделение Ola Group, специализирующееся на технологиях ИИ, заключила партнёрское соглашение с Lenovo с целью разработки крупнейшего в Индии суперкомпьютера. Как сообщает Datacenter Dynamics, система будет использоваться в том числе для разработки большой языковой модели (LLM) Krutrim 3 с 700 млрд параметров. В ходе конференции Lenovo TechWorld India 2025 Навенду Агарвал (Navendu Agarwal), директор по информационным технологиям Ola, сообщил, что в составе нового НРС-комплекса планируется использовать фирменные чипы Krutrim, а также облачные сервисы этой компании. В дальнейшие подробности относительно технических характеристик машины Агарвал вдаваться не стал. В августе прошлого года Krutrim анонсировала чипы собственной разработки для ИИ-приложений. Это изделие Bodhi 1 для инференса и работы с LLM, процессор Sarv 1 для облачных платформ и дата-центров, поддерживающих ИИ-нагрузки, а также решение Ojas для выполнения задач на периферии. Таким образом, в составе проектируемого суперкомпьютера могут быть задействованы чипы Bodhi 1 и Sarv 1. Агарвал отмечает, что в 2028 году ожидается выход процессора Bodhi 2, который, по его словам, сможет использоваться для работы с LLM, насчитывающими до 10 трлн параметров. ![]() Источник изображения: Lenovo Вместе с тем Krutrim сотрудничает с Arm и Untether AI с целью разработки решений нового поколения для ЦОД, которые будут применяться для настройки и инференса ИИ-моделей Krutrim. В свою очередь, Lenovo осенью 2024 года объявила о намерении организовать выпуск ИИ-серверов на индийском заводе в Пондичерри (Puducherry). Кроме того, Lenovo планирует сформировать передовую научно-исследовательскую лабораторию в Бангалоре (столица штата Карнатака на юге Индии). В целом, Lenovo готова содействовать правительственной программе по трансформации Индии в крупный центр технологических инноваций и производства.
10.03.2025 [08:52], Руслан Авдеев
К2 НейроТех: российский рынок HPC за два года вырос на 35 %К2 НейроТех сделала прогноз относительно основных трендов на российском рынке российских суперкомпьютеров. По оценкам компании, за последние два года рынок высокопроизводительных вычислений (HPC) в стране вырос на 35 % и достиг 15,8 млрд руб. Ключевую роль в этом играет развитие ИИ-систем. В 2025 году рынок HPC должен вырасти как минимум на 12 %. Согласно прогнозам компании, в РФ вырастет местное производство оборудования для ИИ-систем. Рост спроса на искусственный интеллект и вычислительные мощности ведут к распространению HPC в бизнесе. Если раньше такие вычисления применялись в основном в науке и инженерных расчётах, то теперь всё чаще их активно применяют для обработки Big Data, ИИ, машинного обучения и др. В 2024 году вложения в системы хранения данных (СХД) и платформы для высоконагруженных систем выросли на 40 %. Утверждается, что выпуск СХД и ИИ-серверов вырос на 10,5 %, госзакупки таких систем увеличились вдвое, а госкомпании потратили на оборудование для ИИ более 1,7 млрд руб. Ещё одним трендом стали модернизация и масштабирование имеющихся HPC-кластеров. Особенной популярностью стали пользоваться готовые решения «под ключ», поскольку теперь часто возникает проблема совместимости программного обеспечения и оборудования. В К2Тех заявляют, что заказчики всё чаще сталкиваются с тем, что имеющееся оборудование не способно справляться с современными задачами и масштабироваться. Ответом на это также будет развитие HPCaaS и гибридных инфраструктур, объединяющих локальные и облачные вычисления. Наконец, К2 НейроТех предрекает переход к контейнеризированным средам как альтернативе «монолитным» приложениям. Использование Kubernetes, Singularity и Slurm даёт возможность оптимально распределять нагрузки и снижать издержки на эксплуатацию HPC-инфраструктуры.
07.03.2025 [15:36], Сергей Карасёв
Стартап Axelera AI анонсировал ИИ-ускоритель TitaniaНидерландский стартап Axelera AI B.V., специализирующийся на разработке ИИ-ускорителей, анонсировал решение Titania — высокопроизводительный, энергоэффективный и масштабируемый чиплет для задач инференса. Полностью технические характеристики изделия пока не раскрываются. Известно, что Titania использует проприетарную модель вычислений в памяти Digital In-Memory Computing (D-IMC). Этот подход, как заявляет Axelera AI, обеспечивает ИИ-производительность свыше 50 TOPS на ядро (эквивалентная точность FP32) и энергоэффективность на уровне 15 TOPS на 1 Вт затрачиваемой энергии. Решение Titania базируется на открытой архитектуре RISC-V. Несколько чиплетов могут быть объединены в виде модуля SiP (System-in-Package). Использование D-IMC обеспечивает практически линейную масштабируемость производительности без значительного увеличения затрат на питание и охлаждение. В качестве потенциальных областей применения Titania названы НРС-платформы, корпоративные дата-центры, робототехника, автомобилестроение и пр. Одновременно с анонсом Titania стартап Axelera AI объявил о привлечении до €61,6 млн от EuroHPC JU в рамках проекта Digital Autonomy with RISC-V for Europe (DARE). Компания Axelera AI будет поддерживать EuroHPC в области разработки суперкомпьютерной экосистемы мирового класса в Европе. В частности, стартап планирует расширять свои научно-исследовательские и опытно-конструкторские подразделения в Нидерландах, Италии и Бельгии. Отмечается также, что основанная в 2021 году компания Axelera AI за три года существования получила инвестиции на общую сумму более $200 млн.
12.02.2025 [23:28], Руслан Авдеев
Евросоюз направит €200 млрд на развитие ИИ, чтобы не отстать от США и Китая в этой сфереЕвросоюз объявил о намерении направить €200 млрд (около $206 млрд) на развитие ИИ в рамках инициативы InvestAI — это, как ожидается, позволит конкурировать с США и Китаем на рынке систем искусственного интеллекта, сообщает The Verge. По словам главы Еврокомиссии Урсулы фон дер Ляйен (Ursula von der Leyen), €50 млрд (около $51 млрд) будет выделено надгосударственными структурами союза, ещё €150 млрд (около $154 млрд) потратит группа частных инвесторов European AI Champions Initiative. По её мнению, Европа должна стать одним из ведущих «ИИ-континентов», а это значит, что необходимо принять образ жизни, где ИИ используется повсюду. Чиновница не согласилась с утверждениями, что Европа «опоздала» к гонке между США и Китаем — она уверена, что гонка далека от завершения. По словам фон дер Ляйен, инициатива InvestAI на €200 млрд поможет ускорить строительство в ЕС «гигафабрик», необходимых для обучения сложных моделей непосредственно в Европе. Как отмечает Euronews, ещё в декабре прошлого года в рамках EuroHPC было объявлено о строительстве семи первых «гигафабрик», а вскоре будет объявлено о ещё пяти. Они получат порядка 100 тыс. самых современных ускорителей. Это примерно вчетверо больше, чем у ИИ-фабрик, строящихся сегодня. Основная цель — обеспечить доступ к высокопроизводительным вычислениям даже мелким компаниям. Из €200 млрд на строительство «гигафабрик» выделят €20 млрд. По словам руководства ЕС, «гигафабрики», финансируемые в рамках InvestAI, должна стать крупнейшими в мире государственно-частными партнёрствами по разработке надёжных решений в сфере искусственного интеллекта. Изначально средства для InvestAI будут поступать от действующих программ с «цифровым» компонентом, вроде Horizon Europe и InvestEU. Вклад могут внести и государства — члены Евросоюза. Примечательно, что в понедельник президент Франции Эммануэль Макрон (Emmanuel Macron) объявил об инвестициях в одни только французские ИИ-проекты €109 млрд (около $112 млрд). Он отметил, что эти проекты смогут составить конкуренцию американскому $500-млрд проекту Stargate, на них Франция сразу выделит гигаватт атомной энергии. Кроме того, вложиться во французские ЦОД обещали и представители ОАЭ. Евросоюз стал одним из первых мировых игроков, принявших всеобъемлющие правила для рынка ИИ — «Закон об ИИ» был подписан 2024 году. США раскритиковали эти нормы, назвав нормативную среду Евросоюза «авторитарной цензурой». За океаном считают, что чрезмерное регулирование способно буквально убить отрасль. Примечательно, что США и Великобритания отказались подписывать декларацию на Парижском ИИ-саммите, которая обязывает страны-участницы обеспечить «открытость, инклюзивность, прозрачность, этичность, безопасность, надежность» искусственного интеллекта и т. д.
12.02.2025 [00:50], Владимир Мироненко
AMD и французские атомщики вместе займутся развитием технологий для ИИ-инфраструктур будущегоAMD объявила о подписании соглашения о намерениях с французским Комиссариатом по атомной энергии и альтернативным источникам энергии (CEA) с целью совместной работы над созданием передовых технологий, компонентов и системных архитектур, которые определят будущее ИИ-вычислений. Сотрудничество позволит использовать сильные стороны обеих организаций в разработке энергоэффективных систем и технологий для вычислительной инфраструктуры следующего поколения, необходимых для поддержки самых ресурсоёмких в мире рабочих ИИ-нагрузок в различных областях — от энергетики до медицины. AMD и CEA планируют провести в 2025 году симпозиум, посвящённый будущему ИИ-вычислений, который соберёт европейских и глобальных разработчиков технологий, стартапы, суперкомпьютерные центры, университеты и политиков с целью укрепления сотрудничества в разработке современных вычислительных технологий ИИ. В CEA отметили, что сотрудничество с AMD является значительным шагом на пути к укреплению международного партнёрства в области HPC, позволяя объединить экспертные знания мирового уровня для удовлетворения растущих потребностей в обслуживании ИИ-нагрузок. В свою очередь, в AMD подчеркнули, что в сотрудничестве с CEA и ведущими французскими инженерами компания стремится приблизить передовые исследования в области ИИ к реальным приложениям, развивая системные архитектуры, которые отвечают требованиям будущих рабочих нагрузок, одновременно расширяя возможности для совместных исследований и разработок США и Франции. Большая часть электроэнергии во Франции производится АЭС, что позволяет обеспечивать внутренние потребности, а также поставлять излишки за рубеж. Франция рассматривает это как ключевой фактор для привлечения инвесторов, стремящихся развивать инфраструктуру энергоёмких ЦОД в стране. По словам президента Франции Эммануэля Макрона (Emmanuel Macron), это позволит разместить в стране 20 % всех ЦОД в мире. В понедельник Макрон объявил, что объём частных инвестиций в ИИ-сектор страны составит в ближайшие несколько лет около €109 млрд.
11.02.2025 [16:24], Владимир Мироненко
ИИ ЦОД за 20 недель: G42 и DataOne построят крупнейший во Франции суперкомьютер на чипах AMD InstinctХолдинг G42 из Абу-Даби (ОАЭ) объявил о стратегических инвестициях во Франции в партнёрстве с недавно образованной DataOne, которая сама себя называет первым в Европе оператором гига-ЦОД для ИИ. Вместе компании в кратчайшие сроки построят в Гренобле ИИ ЦОД, оснащённый ускорителями AMD Instinct. Ожидается, что объект будет полностью введён в эксплуатацию к середине 2025 года. Вычислительные возможности нового ЦОД позволят французским компаниям и учёным разрабатывать передовые модели ИИ, агентов и приложения, а также проводить различные исследования. Реализацией проекта будет заниматься компания Core42, дочернее предприятие G42, совместно с DataOne. По словам главы DataOne Шарля-Антуана Бейни (Charles-Antoine Beyney), на развёртывание крупнейшего ИИ-суперкомпьютера в Европе потребуется всего 20 недель. Для сравнения: кластер xAI Colossus был построен за 122 дня. Как заявила Лиза Су (Lisa Su), председатель и генеральный директор AMD, стратегическое сотрудничество с G42 поможет активизировать французскую экосистему ИИ, предоставив вычислительную мощность, необходимую для поддержки местных стартапов и новаторов, занимающихся передовыми разработками, которые укрепляют французскую экономику. «Работа с G42 является ещё одним примером нашей приверженности объединению открытых экосистем с ведущими в отрасли технологиями ИИ AMD, что обеспечивает возможность государственным учреждениям и частным предприятиям использовать весь потенциал ИИ», — подчеркнула Лиза Су. Инвестиции G42 входят в пакет частных инвестиций в ИИ-инфраструктуру страны на €109 млрд, анонсированный президентом Франции Эммануэле Макроном (Emmanuel Macron) в качестве ответа на представленный в США проект Stargate. Ранее было объявлено о планах ОАЭ вложить при участии фонда MGX €30–50 млрд в проект по созданию кампуса ИИ ЦОД во Франции. В G42 называют инвестиции в ИИ одним из главных направлений своей деятельности. Деятельность холдинга получила поддержку Microsoft, инвестировавшей в него $1,5 млрд. В прошлом году G42 договорился с Cerebras о строительстве в Техасе ИИ-суперкомпьютера со 173 млн ядер.
31.01.2025 [07:02], Сергей Карасёв
Tesla наращивает вычислительные мощности для обучения человекоподобного робота OptimusГлава Tesla Илон Маск (Elon Musk) сообщил о том, что компания расширяет вычислительную инфраструктуру, необходимую для обучения человекоподобного робота Optimus. По словам Маска, в долгосрочной перспективе этот проект может принести более $10 трлн. Предполагается, что антропоморфные машины Optimus смогут выполнять самые разные задачи в быту и на производствах, взаимодействия с людьми. Но для разработки ИИ-систем робота требуются огромные вычислительные ресурсы. Маск подчёркивает, что обучение такой машины — гораздо более сложная задача, нежели обучение интеллектуальных автомобилей с автопилотом. Глава Tesla говорит, что у человекоподобного робота, вероятно, в 1000 раз больше функций, чем у транспортного средства. Это не означает, что обучение масштабируется в 1000 раз, но прирост вычислительных мощностей на порядок всё же необходим. «Потребности в обучении для гуманоидного робота Optimus, по всей видимости, как минимум в 10 раз превышают то, что требуется для создания полнофункционального умного автомобиля», — заявил Маск. ![]() Источник изображения: channeliam.com Он не стал вдаваться в подробности о том, какая инфраструктура нужна компании для обучения Optimus. Ранее сообщалось, что Tesla планирует ввести в эксплуатацию дата-центр с 50 тыс. ускорителей NVIDIA H100. Кроме того, у компании есть кластер Dojo на базе собственных ускорителей D1. Маск говорит, что с учётом потенциала проекта Optimus даже инвестиции в размере $500 млрд в вычислительные ресурсы могут быть оправданными, хотя такую сумму Tesla на текущем этапе вкладывать не планирует. Вероятно, указанная сумма — это отсылка к проекту Stargate. Tesla потратила более $10 млрд на капитальные затраты в 2024 году. Примерно столько же средств компания намерена выделить в 2025 и 2026 годах. Ранее Маск говорил, что небольшое количество роботов Optimus будет задействовано на предприятиях Tesla до конца 2024-го. На коммерческом рынке эти человекоподобные машины, как ожидается, появятся в 2026 году.
30.01.2025 [08:58], Владимир Мироненко
Суперкомпьютер Aurora стал доступен исследователям со всего мираАргоннская национальная лаборатория (ANL) Министерства энергетики США объявила о доступности суперкомпьютера Aurora экзафлопсного класса для исследователей по всему миру. Как указано в пресс-релизе, благодаря широким возможностям моделирования, ИИ и анализа данных, Aurora будет способствовать прорывам в целом ряде областей, включая проектирование самолётов, космологию, разработку лекарств и исследования в сфере ядерной энергетики. Майкл Папка (Michael Papka), директор Argonne Leadership Computing Facility (ALCF), вычислительного центра Управления науки Министерства энергетики США, отметил, что уже первые проекты с использованием Aurora продемонстрировали его огромным потенциал. «С нетерпением ждём, как более широкое научное сообщество будет использовать систему для преобразования своих исследований», — заявил он. Aurora уже зарекомендовала себя как один мировых лидеров по производительности ИИ, заняв первое место в бенчмарке HPL-MxP в ноябре 2024 года, отметила ANL. Возможности машины для выполнения ИИ-задач используются учёными для открытия новых материалов для аккумуляторов, разработки новых лекарств и ускорения исследований в области термоядерной энергии. Перед его развёртыванием команда под руководством ANL продемонстрировала потенциал Aurora, используя его для обучения моделей ИИ для моделирования белков. В числе первых проектов, реализуемых с помощь Aurora, — разработка высокоточных моделей сложных систем, таких как кровеносная система человека, ядерные реакторы и сверхновые звезды. Кроме того, способность суперкомпьютера к обработке огромных наборов данных имеет решающее значение для анализа растущих потоков данных из крупных исследовательских установок, таких как Усовершенствованный источник фотонов (APS) Аргоннской национальной лаборатории, научные объекты Управления науки Министерства энергетики США (DoE) и Большой адронный коллайдер Европейской организации ядерных исследований (CERN). Чтобы гарантировать готовность Aurora к использованию для научных исследования с первого дня запуска, при его создании применили так называемое совместное проектирование. Используя этот подход, команда Aurora разработала в тандеме аппаратное и программное обеспечение для оптимизации производительности и удобства использования. Это потребовало многолетнего сотрудничества между ALCF, Intel, HPE и исследователями по всей стране, участвующими в проекте Exascale Computing Project (ECP) Министерства энергетики США и программе Aurora Early Science Program (ESP) центра. Пока велись работы по монтажу Aurora, команды ECP и ESP запускали приложения для стресс-тестирования оборудования, одновременно оптимизируя свой код для максимально эффективной работы в системе. В результате десятки научных приложений, а также широкий спектр ПО и инструментов разработки были готовы ещё до того, как Aurora ввели в строй, говорится в пресс-релизе.
19.01.2025 [22:43], Сергей Карасёв
Германия запустила «переходный» 48-Пфлопс суперкомпьютер Hunter на базе AMD Instinct MI300AЦентр высокопроизводительных вычислений HLRS при Штутгартском университете в Германии объявил о вводе в эксплуатацию НРС-системы Hunter. Этот суперкомпьютер планируется использовать для решения широко спектра задач в области инженерии, моделирования погоды и климата, биомедицинских исследований, материаловедения и пр. Кроме того, комплекс будет применяться для крупномасштабного моделирования, ИИ-приложений и анализа данных. О создании Hunter сообщалось в конце 2023 года: соглашение на строительство системы стоимостью примерно €15 млн было заключено с HPE. Проект финансируется Федеральным министерством образования и исследований Германии и Министерством науки, исследований и искусств Баден-Вюртемберга. Hunter базируется на той же архитектуре, что El Capitan — самый мощный в мире суперкомпьютер. Задействована платформа Cray EX4000, а каждый из узлов оснащён четырьмя адаптерами HPE Slingshot. Суперкомпьютер использует комбинацию из APU Instinct MI300A и процессоров EPYC Genoa. Как отмечает The Register, в общей сложности система объединяет 188 узлов с жидкостным охлаждением и насчитывает суммарно 752 APU и 512 чипов Epyc с 32 ядрами. Применена СХД HPE Cray Supercomputing Storage Systems E2000, специально разработанная для суперкомпьютеров HPE Cray. HLRS оценивает пиковую теоретическую FP64-производительность Hunter в 48,1 Пфлопс на операциях двойной точности, что практически вдвое выше, чем у предшественника Hawk. В режимах BF16 и FP8 быстродействие, как ожидается, будет варьироваться от 736 Пфлопс до 1,47 Эфлопс. При этом Hunter потребляет на 80% меньше энергии, нежели Hawk. Отмечается, что Hunter задуман как переходная система, которая подготовит почву для суперкомпьютера HLRS следующего поколения под названием Herder. Ввести этот комплекс в эксплуатацию планируется в 2027 году. Предполагается, что он обеспечит производительность «в несколько сотен петафлопс». |
|