Июнь 2026   |   В фокусе

NVIDIA NeMo AutoModel ускоряет дообучение MoE в 3,7 раза и экономит 32% памяти GPU

Стандартные библиотеки зависают при дообучении гигантских моделей MoE из-за переполнения памяти, делая запуск на кластерах невозможным. Новая оптимизация от Nvidia ускоряет процесс в 3,7 раза и снижает потребление видеопамяти на 32%, позволяя запускать задачи без переписывания кода.

Компания NVIDIA представила библиотеку NeMo AutoModel, которая интегрируется с обновленным фреймворком HuggingFace Transformers v5 для ускорения дообучения моделей архитектуры Mixture-of-Experts (MoE). Инструмент обеспечивает рост пропускной способности обучения в 3,4–3,7 раза и снижение потребления видеопамяти GPU на 29–32% по сравнению с нативной реализацией в Transformers v5. Главное преимущество решения — полная совместимость API: для активации оптимизаций разработчику достаточно изменить одну строку импорта, не переписывая логику кода.

Важный нюанс: Технология позволяет запускать полное дообучение гигантских моделей, таких как Nemotron 3 Ultra 550B, на кластерах из 16 узлов, где стандартные библиотеки не справляются с объемом памяти.

Технические механизмы ускорения

Библиотека строится на базе обновлений HuggingFace Transformers v5, добавляя специализированные оптимизации для распределенных вычислений. Ключевые технологии, обеспечивающие прирост производительности:

  • Экспертный параллелизм (Expert Parallelism, EP): Веса экспертов распределяются между GPU, что снижает нагрузку на память каждого устройства. Например, при использовании 8 ускорителей каждый хранит только 1/8 часть параметров экспертов.
  • DeepEP: Технология объединяет коммуникацию и вычисления в единые ядра GPU. Это позволяет перекрывать время передачи данных временем выполнения операций, устраняя простои.
  • Ядра TransformerEngine: Использование оптимизированных реализаций внимания, линейных слоев и нормализации, которые работают быстрее стандартных библиотек PyTorch.

Для популярных архитектур, таких как Qwen3, NVIDIA Nemotron, GPT-OSS и DeepSeek V3, библиотека использует заранее настроенные реализации. Для остальных моделей применяется автоматическое падение на стандартный код с применением базовых оптимизаций.

Стоит учесть: При тестировании на модели Qwen3-30B-A3B стандартная версия Transformers v4 зависала из-за некорректной работы с распределенными коллективами, тогда как NeMo AutoModel обеспечивала стабильную работу и ускорение в 3,69 раза.

Результаты бенчмарков и сравнение производительности

Тестирование проводилось в двух сценариях: обучение на одном узле (8 GPU H100) и распределенное обучение на 16 узлах (128 GPU H100). Данные показывают существенный разрыв в эффективности между версиями.

Сравнение на модели Qwen3-30B-A3B (один узел, 8x H100):

МетрикаTransformers v4Transformers v5NeMo AutoModelПрирост (v5 → AutoModel)
Пропускная способность (TPS/GPU)Зависание3 07511 3403,69x
Пиковая память68,2 ГБ48,1 ГБ-29%
Время прямого+обратного прохода582 мс194 мс3,00x

Сравнение на модели Nemotron 3 Nano 30B A3B (один узел, 8x H100):

МетрикаTransformers v4Transformers v5NeMo AutoModelПрирост (v5 → AutoModel)
Пропускная способность (TPS/GPU)1 8074 58315 4213,36x
Пиковая память61,9 ГБ62,1 ГБ42,5 ГБ-32%
Время прямого+обратного прохода1 024 мс283 мс109 мс2,60x

В сценарии полного дообучения модели Nemotron 3 Ultra 550B (128 GPU) стандартная версия Transformers v5 не запускалась из-за исчерпания памяти. NeMo AutoModel успешно выполнила задачу, обеспечив пропускную способность 815 TFLOP/s на GPU при пиковом потреблении памяти 58,2 ГБ.

На фоне этого: Использование сбалансированного роутинга в тестах NeMo AutoModel имитирует идеальное состояние обученной модели, что позволяет получить максимально объективные данные о производительности без шума от неравномерной загрузки экспертов.

Операционные последствия и скрытые нюансы

Внедрение NeMo AutoModel меняет подход к масштабированию ИИ-моделей, делая доступными задачи, ранее требовавшие кастомной разработки инфраструктуры.

  • Снижение порога входа для больших моделей: Возможность дообучать модели с сотнями миллиардов параметров на стандартном оборудовании без глубокой инженерной доработки кода. Это открывает доступ к передовым архитектурам для команд с ограниченным бюджетом на разработку.
  • Зависимость от конфигурации: Для достижения заявленного ускорения необходимо корректно настроить распределенную среду (DeviceMesh) и параметры параллелизма. Ошибки в конфигурации могут нивелировать преимущества библиотеки.
  • Совместимость с экосистемой: Сохраненные чекпоинты имеют стандартный формат HuggingFace (safetensors), что гарантирует их загрузку в популярные фреймворки для инференса, такие как vLLM и SGLang, без дополнительных конвертаций.
  • Эффективность памяти: Снижение потребления памяти на 30% позволяет увеличить размер пакета (batch size) или длину последовательности, что напрямую влияет на качество обучения и стабильность сходимости модели.

Важный нюанс: Технология DeepEP, являющаяся ключевым фактором ускорения, требует специфической аппаратной поддержки и настройки сети, что может потребовать адаптации инфраструктуры дата-центра для максимальной эффективности.

Библиотека NeMo AutoModel демонстрирует, как интеграция специализированных оптимизаций в существующие открытые фреймворки позволяет преодолеть ограничения памяти и скорости, характерные для современных моделей MoE. Это решение актуально для организаций, планирующих масштабировать свои ИИ-проекты без полной замены используемого программного стека.

Коротко о главном

На сколько снижается потребление видеопамяти GPU при использовании нового инструмента?

Применение NeMo AutoModel уменьшает пиковое потребление памяти на 29–32% по сравнению с нативной реализацией в Transformers v5. Высвобождение ресурсов позволяет увеличивать размер пакета данных или длину последовательности, что напрямую влияет на стабильность сходимости модели.

Почему стандартная версия Transformers v5 не справляется с обучением модели Nemotron 3 Ultra 550B?

Стандартная библиотека не запускает полное дообучение этой модели на кластере из 128 GPU из-за исчерпания доступной памяти. NeMo AutoModel успешно решает эту задачу, обеспечивая пропускную способность 815 TFLOP/s за счет технологии экспертного параллелизма.

Как работает технология Expert Parallelism для распределения нагрузки?

Веса экспертов распределяются между несколькими ускорителями, что позволяет каждому GPU хранить лишь часть параметров модели. Например, при использовании 8 ускорителей каждый из них обрабатывает только 1/8 часть параметров, снижая локальную нагрузку на память.

Какую проблему решает DeepEP в процессе распределенных вычислений?

Технология объединяет передачу данных и выполнение операций в единые ядра, перекрывая время коммуникации временем вычислений. Это устраняет простои GPU, возникающие при ожидании данных от других узлов в кластере.

Почему стандартная версия Transformers v4 зависала при тестировании на модели Qwen3-30B-A3B?

Версия v4 некорректно обрабатывала распределенные коллективы, что приводило к зависанию процесса обучения. NeMo AutoModel обеспечила стабильную работу и ускорение в 3,69 раза благодаря автоматическому падению на оптимизированный код.

Какие изменения в коде требуются разработчику для активации оптимизаций?

Для включения всех улучшений достаточно изменить одну строку импорта библиотеки, не переписывая логику приложения. Это обеспечивает полную совместимость API и позволяет использовать инструмент без глубокой инженерной доработки существующих проектов.

Каким образом сохраняются чекпоинты для совместимости с другими фреймворками?

Обученные модели сохраняются в стандартном формате HuggingFace (safetensors), что гарантирует их загрузку в популярные системы инференса. Это позволяет использовать чекпоинты в vLLM и SGLang без необходимости проведения дополнительных конвертаций данных.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Передовые технологии

Материалы по теме