Суперкомпьютеры на NVIDIA Vera: ИИ-агенты ускорят науку в 7 раз
Отказ от стандарта x86 в пользу чипов NVIDIA Vera ускорит научные симуляции в 7 раз, но потребует полной пересборки существующих кодов. Автономные ИИ-агенты возьмут на себя цикл исследований, что сделает скорость открытий зависимой от специализированного железа, а не от времени работы ученых.
Лаборатория Лос-Аламос (LANL) в США переходит на новую вычислительную платформу, отказываясь от стандартных x86-процессоров в пользу специализированных чипов NVIDIA Vera. Три новых суперкомпьютера — Mission, Vision и Veritas — будут построены на базе архитектуры HPE Cray Supercomputing GX5000 с использованием процессоров NVIDIA Vera и видеокарт NVIDIA Rubin. Система Mission станет пятым поколением вычислительного комплекса для задач национальной безопасности, заменив устаревший Crossroads и начав работу в 2027 году.
Важный нюанс: Переход на архитектуру Vera не является простой заменой «железа», а меняет сам подход к научным исследованиям, позволяя ИИ-агентам самостоятельно формировать гипотезы и запускать симуляции без постоянного участия человека.
Технические характеристики и прирост производительности
В основе новой инфраструктуры лежит принцип экстремального ко-дизайна: оборудование разрабатывалось совместно с учеными под конкретные задачи моделирования, а не под абстрактные бенчмарки. Тестирование на инструменте Branson (симуляция теплопередачи методом Монте-Карло) показало, что один процессор Vera превосходит один сокет x86-процессора более чем в 3 раза. Для задач агентного ИИ, таких как фреймворк URSA, прирост производительности достигает 7 раз по сравнению с предыдущим поколением.
Ключевые параметры новой платформы:
- Память: Процессор Vera обеспечивает в 4 раза больше памяти на ядро и в 6 раз больше памяти на узел по сравнению с аналогами на базе x86.
- Архитектура: Используются кастомные ядра Olympus, память LPDDR5 и высокоскоростная внутренняя шина.
- Сетевое взаимодействие: Система объединена сетью NVIDIA Quantum-X800 InfiniBand для минимизации задержек между узлами.
Конфигурация суперкомпьютеров будет следующей:
- Mission: Узлы с GPU NVIDIA Vera Rubin и 2 300 автономных процессоров NVIDIA Vera.
- Vision: Узлы с GPU NVIDIA Vera Rubin и автономные процессоры NVIDIA Vera (количество не уточняется в тексте, система ориентирована на фундаментальную науку).
- Veritas: Около 1 150 автономных процессоров NVIDIA Vera для тестирования технологий и поддержки программ лабораторных исследований.
Стоит учесть: Высокая плотность памяти на ядро критична для агентов ИИ, которым необходимо удерживать в оперативной памяти большие контексты данных при планировании экспериментов и анализе результатов симуляций.
Назначение систем и влияние на научный процесс
Новые комплексы разделены по функциональному назначению. Система Mission предназначена для классифицированных задач национальной безопасности в рамках программы Advanced Simulation and Computing администрации National Nuclear Security Administration. Система Vision станет открытой средой для фундаментальных исследований в области материаловедения, ядерной физики, моделирования энергетики и биомедицины. Третий комплекс, Veritas, будет использоваться для отработки новых технологий перед их масштабированием в крупных системах.
Исследователи внедряют агентов ИИ, способных выполнять полный цикл научной работы: от генерации гипотез и выбора инструментов до запуска симуляций и анализа выводов. Это позволяет ускорить процесс открытия новых знаний и снизить нагрузку на ученых-экспериментаторов. Платформа строится на десятилетнем сотрудничестве LANL и NVIDIA, развивая опыт, полученный при создании суперкомпьютера Venado (2024 год) на базе чипов GH200 Grace Hopper.
На фоне этого: Скорость получения научных результатов перестает зависеть от времени работы человека, а определяется скоростью обработки данных специализированным «железом», что меняет экономику фундаментальных исследований.
Операционные последствия и скрытые риски
- Смена технологического стека: Полный переход на архитектуру ARM (NVIDIA Vera) вместо x86 потребует пересборки и оптимизации существующих научных кодов и библиотек, что может занять время до полного развертывания систем в 2027 году.
- Зависимость от вендора: Использование кастомных ядер Olympus и специфической памяти LPDDR5 создает жесткую привязку к экосистеме NVIDIA, ограничивая возможность миграции на решения других поставщиков в будущем.
- Сложность масштабирования: Тестирование на Veritas перед запуском в Mission указывает на необходимость тщательной валидации стабильности агентов ИИ, так как ошибки в автономном планировании экспериментов могут привести к потере вычислительного времени.
Важный нюанс: Успех внедрения агентов ИИ зависит не только от скорости процессоров, но и от качества алгоритмов, способных корректно интерпретировать результаты симуляций и корректировать гипотезы без вмешательства человека.
Источник: blogs.nvidia.com