NVIDIA создала AI-сервер, который превзошёл Hopper в 10 раз
NVIDIA представила сервер GB200 NVL72, который в тестах показал производительность в 10 раз выше предыдущего поколения Hopper HGX 200 при работе с моделями на архитектуре MoE. Новая система использует совместное проектирование, включающее 72 чипа, 30 ТБ памяти и оптимизированные программные решения, что позволило достичь рекордного уровня параллелизма экспертов.
По данным Ithome, 3 декабря 2025 года стало известно, что NVIDIA достигла значительного прогресса в разработке AI-сервера GB200 NVL72, предназначенного для работы с моделями на архитектуре MoE (Mixture of Experts). В ходе тестирования с участием таких моделей, как Kimi K2 Thinking, Deepseek-R1-0528, Mistral Large 3, было установлено, что производительность новой системы превышает показатели предыдущего поколения Hopper HGX 200 в 10 раз.
Архитектура MoE и её преимущества
Модели на архитектуре MoE отличаются от традиционных подходов к построению ИИ-моделей. Вместо того чтобы задействовать все параметры при выполнении задачи, они активируют только те, которые наиболее релевантны. Это позволяет снизить вычислительные затраты и ускорить обработку.
В архитектуре MoE используется «маршрутизатор», который выбирает нужную группу параметров («экспертов») для генерации каждого токена. Такой подход напоминает работу человеческого мозга, где разные зоны отвечают за разные функции.
Технические аспекты разработки NVIDIA
Для устранения ограничений, связанных с масштабированием моделей на архитектуре MoE, NVIDIA применила стратегию «совместного проектирования» (co-design). В рамках этой стратегии были объединены:
- 72 чипа в конфигурации GB200,
- 30 ТБ быстрой общей памяти,
- второе поколение Transformer Engine,
- пятая версия NVLink — высокоскоростной интерконнект между GPU.
Эти компоненты работают совместно, позволяя эффективно распределять пакеты токенов между GPU и увеличивать пропускную способность связи. Это позволило достичь нового уровня параллелизма экспертов (expert parallelism) и, как следствие, существенного роста производительности.
Повышение эффективности через программные оптимизации
Помимо аппаратных решений, NVIDIA внедрила полноценные оптимизации на уровне стека. Например, NVIDIA Dynamo позволяет разделить этапы prefill (предзаполнение) и decode (декодирование), что позволяет обрабатывать данные параллельно и масштабировать вычисления.
Также используется NVFP4 — новый формат данных, который позволяет сохранять высокую точность вычислений при одновременном увеличении скорости обработки.
Интересно: Каковы будут долгосрочные последствия для рынка ИИ-серверов, если NVIDIA продолжит доминировать в сегменте моделей на архитектуре MoE?

NVIDIA и архитектура MoE: шаг к новой эпохе ИИ
Когда ИИ учится выбирать
Архитектура MoE (Mixture of Experts) — это не только новая техническая фича. Это сдвиг в том, как мы понимаем работу ИИ. Вместо того чтобы заставлять модель использовать все свои параметры для каждой задачи, как это было раньше, она теперь может «выбрать» нужную группу нейронов — как человек, обращающийся к специалисту в нужной области. Это снижает нагрузку на систему и ускоряет ответы.
Такой подход особенно важен для крупных моделей, где миллиарды параметров делают каждую операцию дорогой. NVIDIA, построив сервер GB200 NVL72, не только увеличила мощность — она изменила модель использования ресурсов.
Секрет в «совместном проектировании»
NVIDIA не только собрала вместе 72 чипа и 30 ТБ памяти. Она интегрировала их в единую систему, где каждая часть работает в унисон. Это называется co-design — совместное проектирование. Здесь не важно, насколько мощный отдельный чип: важно, как они взаимодействуют.
Например, пятая версия NVLink позволяет GPU обмениваться данными быстрее, чем раньше. Это как если бы в офисе внедрили сверхбыстрый внутренний Wi-Fi — сотрудники получают информацию мгновенно, а не ждут, пока файл загрузится. Или как если бы в магазине товары распределялись между отделами так, чтобы не было пробок на складе.
Программные оптимизации: не меньше, чем железо
Аппаратные улучшения — лишь половина успеха. NVIDIA также внедрила Dynamo, который позволяет разделить этапы обработки данных, и NVFP4, новый формат, позволяющий сократить время вычислений без потери точности. Это как если бы повар использовал не только более мощную плиту, но и более точные весы, чтобы не испортить блюдо.
Важный нюанс: Такие оптимизации делают систему не только быстрой, но и масштабируемой. То есть, она может обрабатывать больше запросов без резкого роста затрат. Это важно для бизнеса, где каждый лишний цент на сервере — это деньги, уходящие в никуда.
Расширение экосистемы: новые игроки и вызовы
Развитие архитектуры MoE не ограничивается только серверами. NVIDIA активно расширяет её применение в распределённых системах. Например, совместно с Akamai компания разрабатывает Inference Cloud, которая основана на GPU Blackwell и направлена на распределённую обработку данных ближе к пользователю. Это позволяет снизить затраты на генерацию изображений и другие ИИ-задачи, а также минимизировать задержки в системах, где решения принимаются в миллисекундах. Компании в Индии и Вьетнаме уже зафиксировали улучшения при переходе на такую модель [!].
Важный нюанс: NVIDIA продолжает доминировать в сегменте HBM-памяти, где её партнёры, такие как Micron, инвестируют значительные ресурсы. Новый завод Micron в Японии, ориентированный на HBM4 и HBM4E, позволит увеличить долю компании на рынке с 20% до более высоких уровней. Это важно, поскольку переход на более мощные чипы требует роста объёма памяти, а дефицит мощностей у производителей, таких как Samsung и SK hynix, усугубляет ситуацию [!].
Углубление зависимости и вызовы отрасли
Доминирование NVIDIA в области программного обеспечения для ускорителей ИИ, включая экосистему CUDA, создаёт значительные барьеры для перехода на альтернативные платформы. Это особенно важно в Китае, где специалисты обсуждают разработку собственных ускорителей на основе 3D-гибридной сварки и вычислений вблизи памяти. Однако, по оценкам экспертов, отечественные технологии пока не достигли уровня, необходимого для реализации таких решений в реальных условиях [!].
Кроме того, рост спроса на GPU и память в сегменте ИИ усиливает позиции NVIDIA в борьбе за доступ к мощностям у TSMC. Объём заказов у производителя чипов в три раза превышает мощности, и NVIDIA, как ключевой клиент, получает приоритет в распределении ресурсов. Это укрепляет её позиции в условиях дефицита, но также создаёт риски для компаний, зависящих от ограниченного доступа к оборудованию [!].
Что это значит для рынка и бизнеса
Если NVIDIA продолжит развивать архитектуру MoE, это может изменить баланс сил в отрасли. Модели будут становиться не только мощнее, но и экономичнее. Это выгодно для крупных компаний, которые хотят внедрять ИИ без значительного роста расходов на инфраструктуру.
Однако для среднего бизнеса и государственных структур, особенно в России, это может создать барьер. Даже если ИИ становится доступнее, оборудование, которое его поддерживает, — всё ещё дорогое и требует специфических навыков для настройки. Это значит, что без стратегического подхода к инвестициям и обучению, даже самые передовые технологии могут остаться вне досягаемости.
Важный нюанс: Успех NVIDIA в архитектуре MoE не только ускоряет развитие ИИ, но и ставит вопрос: сможет ли рынок создать альтернативы, или NVIDIA станет де-факто стандартом для следующего поколения ИИ-серверов.
Обновления в производительности и доступности
Результаты тестирования модели Kimi K2 Thinking показали, что Blackwell способен поддерживать развитие моделей MoE, которые становятся всё более востребованными. В свою очередь, Mistral AI представила новое поколение языковых моделей Mistral 3 под лицензией Apache 2.0, что делает их доступными для открытых проектов. Это снижает барьеры для внедрения ИИ в бизнесе и ускоряет его применение в различных отраслях [!].
Важный нюанс: Рост дохода NVIDIA из-за дефицита GPU в индустрии ИИ усиливает её позиции, но также увеличивает риски для инвесторов и операторов «фабрик ИИ», вынужденных обновлять оборудование быстрее, чем ожидалось [!].
Заключение: новые реалии ИИ-инфраструктуры
Развитие архитектуры MoE и её внедрение в серверы нового поколения открывают возможности для более эффективного использования ИИ. Однако, как показывают последние данные, рост спроса на оборудование и компоненты создаёт новые вызовы. Дефицит мощностей у производителей чипов, ограничения у производителей памяти и ускоренное обновление оборудования — всё это требует пересмотра стратегий и инвестиционных планов.
Для российского бизнеса особенно важно учитывать эти тенденции и планировать внедрение ИИ с учётом долгосрочных изменений в инфраструктуре. Только так можно минимизировать риски и максимизировать выгоды от перехода на новые технологии.
Источник: IT Home