Декабрь 2025   |   Обзор события   | 8

NVIDIA создала AI-сервер, который превзошёл Hopper в 10 раз

NVIDIA представила сервер GB200 NVL72, который в тестах показал производительность в 10 раз выше предыдущего поколения Hopper HGX 200 при работе с моделями на архитектуре MoE. Новая система использует совместное проектирование, включающее 72 чипа, 30 ТБ памяти и оптимизированные программные решения, что позволило достичь рекордного уровня параллелизма экспертов.

ИСХОДНЫЙ НАРРАТИВ

По данным Ithome, 3 декабря 2025 года стало известно, что NVIDIA достигла значительного прогресса в разработке AI-сервера GB200 NVL72, предназначенного для работы с моделями на архитектуре MoE (Mixture of Experts). В ходе тестирования с участием таких моделей, как Kimi K2 Thinking, Deepseek-R1-0528, Mistral Large 3, было установлено, что производительность новой системы превышает показатели предыдущего поколения Hopper HGX 200 в 10 раз.

Архитектура MoE и её преимущества

Модели на архитектуре MoE отличаются от традиционных подходов к построению ИИ-моделей. Вместо того чтобы задействовать все параметры при выполнении задачи, они активируют только те, которые наиболее релевантны. Это позволяет снизить вычислительные затраты и ускорить обработку.

В архитектуре MoE используется «маршрутизатор», который выбирает нужную группу параметров («экспертов») для генерации каждого токена. Такой подход напоминает работу человеческого мозга, где разные зоны отвечают за разные функции.

Технические аспекты разработки NVIDIA

Для устранения ограничений, связанных с масштабированием моделей на архитектуре MoE, NVIDIA применила стратегию «совместного проектирования» (co-design). В рамках этой стратегии были объединены:

  • 72 чипа в конфигурации GB200,
  • 30 ТБ быстрой общей памяти,
  • второе поколение Transformer Engine,
  • пятая версия NVLink — высокоскоростной интерконнект между GPU.

Эти компоненты работают совместно, позволяя эффективно распределять пакеты токенов между GPU и увеличивать пропускную способность связи. Это позволило достичь нового уровня параллелизма экспертов (expert parallelism) и, как следствие, существенного роста производительности.

Повышение эффективности через программные оптимизации

Помимо аппаратных решений, NVIDIA внедрила полноценные оптимизации на уровне стека. Например, NVIDIA Dynamo позволяет разделить этапы prefill (предзаполнение) и decode (декодирование), что позволяет обрабатывать данные параллельно и масштабировать вычисления.

Также используется NVFP4 — новый формат данных, который позволяет сохранять высокую точность вычислений при одновременном увеличении скорости обработки.

Интересно: Каковы будут долгосрочные последствия для рынка ИИ-серверов, если NVIDIA продолжит доминировать в сегменте моделей на архитектуре MoE?

Концептуальное изображение
Создано специально для ASECTOR
Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

NVIDIA и архитектура MoE: шаг к новой эпохе ИИ

Когда ИИ учится выбирать

Архитектура MoE (Mixture of Experts) — это не только новая техническая фича. Это сдвиг в том, как мы понимаем работу ИИ. Вместо того чтобы заставлять модель использовать все свои параметры для каждой задачи, как это было раньше, она теперь может «выбрать» нужную группу нейронов — как человек, обращающийся к специалисту в нужной области. Это снижает нагрузку на систему и ускоряет ответы.

Такой подход особенно важен для крупных моделей, где миллиарды параметров делают каждую операцию дорогой. NVIDIA, построив сервер GB200 NVL72, не только увеличила мощность — она изменила модель использования ресурсов.

Секрет в «совместном проектировании»

NVIDIA не только собрала вместе 72 чипа и 30 ТБ памяти. Она интегрировала их в единую систему, где каждая часть работает в унисон. Это называется co-design — совместное проектирование. Здесь не важно, насколько мощный отдельный чип: важно, как они взаимодействуют.

Например, пятая версия NVLink позволяет GPU обмениваться данными быстрее, чем раньше. Это как если бы в офисе внедрили сверхбыстрый внутренний Wi-Fi — сотрудники получают информацию мгновенно, а не ждут, пока файл загрузится. Или как если бы в магазине товары распределялись между отделами так, чтобы не было пробок на складе.

Программные оптимизации: не меньше, чем железо

Аппаратные улучшения — лишь половина успеха. NVIDIA также внедрила Dynamo, который позволяет разделить этапы обработки данных, и NVFP4, новый формат, позволяющий сократить время вычислений без потери точности. Это как если бы повар использовал не только более мощную плиту, но и более точные весы, чтобы не испортить блюдо.

Важный нюанс: Такие оптимизации делают систему не только быстрой, но и масштабируемой. То есть, она может обрабатывать больше запросов без резкого роста затрат. Это важно для бизнеса, где каждый лишний цент на сервере — это деньги, уходящие в никуда.

Расширение экосистемы: новые игроки и вызовы

Развитие архитектуры MoE не ограничивается только серверами. NVIDIA активно расширяет её применение в распределённых системах. Например, совместно с Akamai компания разрабатывает Inference Cloud, которая основана на GPU Blackwell и направлена на распределённую обработку данных ближе к пользователю. Это позволяет снизить затраты на генерацию изображений и другие ИИ-задачи, а также минимизировать задержки в системах, где решения принимаются в миллисекундах. Компании в Индии и Вьетнаме уже зафиксировали улучшения при переходе на такую модель [!].

Важный нюанс: NVIDIA продолжает доминировать в сегменте HBM-памяти, где её партнёры, такие как Micron, инвестируют значительные ресурсы. Новый завод Micron в Японии, ориентированный на HBM4 и HBM4E, позволит увеличить долю компании на рынке с 20% до более высоких уровней. Это важно, поскольку переход на более мощные чипы требует роста объёма памяти, а дефицит мощностей у производителей, таких как Samsung и SK hynix, усугубляет ситуацию [!].

Углубление зависимости и вызовы отрасли

Доминирование NVIDIA в области программного обеспечения для ускорителей ИИ, включая экосистему CUDA, создаёт значительные барьеры для перехода на альтернативные платформы. Это особенно важно в Китае, где специалисты обсуждают разработку собственных ускорителей на основе 3D-гибридной сварки и вычислений вблизи памяти. Однако, по оценкам экспертов, отечественные технологии пока не достигли уровня, необходимого для реализации таких решений в реальных условиях [!].

Кроме того, рост спроса на GPU и память в сегменте ИИ усиливает позиции NVIDIA в борьбе за доступ к мощностям у TSMC. Объём заказов у производителя чипов в три раза превышает мощности, и NVIDIA, как ключевой клиент, получает приоритет в распределении ресурсов. Это укрепляет её позиции в условиях дефицита, но также создаёт риски для компаний, зависящих от ограниченного доступа к оборудованию [!].

Что это значит для рынка и бизнеса

Если NVIDIA продолжит развивать архитектуру MoE, это может изменить баланс сил в отрасли. Модели будут становиться не только мощнее, но и экономичнее. Это выгодно для крупных компаний, которые хотят внедрять ИИ без значительного роста расходов на инфраструктуру.

Однако для среднего бизнеса и государственных структур, особенно в России, это может создать барьер. Даже если ИИ становится доступнее, оборудование, которое его поддерживает, — всё ещё дорогое и требует специфических навыков для настройки. Это значит, что без стратегического подхода к инвестициям и обучению, даже самые передовые технологии могут остаться вне досягаемости.

Важный нюанс: Успех NVIDIA в архитектуре MoE не только ускоряет развитие ИИ, но и ставит вопрос: сможет ли рынок создать альтернативы, или NVIDIA станет де-факто стандартом для следующего поколения ИИ-серверов.

Обновления в производительности и доступности

Результаты тестирования модели Kimi K2 Thinking показали, что Blackwell способен поддерживать развитие моделей MoE, которые становятся всё более востребованными. В свою очередь, Mistral AI представила новое поколение языковых моделей Mistral 3 под лицензией Apache 2.0, что делает их доступными для открытых проектов. Это снижает барьеры для внедрения ИИ в бизнесе и ускоряет его применение в различных отраслях [!].

Важный нюанс: Рост дохода NVIDIA из-за дефицита GPU в индустрии ИИ усиливает её позиции, но также увеличивает риски для инвесторов и операторов «фабрик ИИ», вынужденных обновлять оборудование быстрее, чем ожидалось [!].

Заключение: новые реалии ИИ-инфраструктуры

Развитие архитектуры MoE и её внедрение в серверы нового поколения открывают возможности для более эффективного использования ИИ. Однако, как показывают последние данные, рост спроса на оборудование и компоненты создаёт новые вызовы. Дефицит мощностей у производителей чипов, ограничения у производителей памяти и ускоренное обновление оборудования — всё это требует пересмотра стратегий и инвестиционных планов.

Для российского бизнеса особенно важно учитывать эти тенденции и планировать внедрение ИИ с учётом долгосрочных изменений в инфраструктуре. Только так можно минимизировать риски и максимизировать выгоды от перехода на новые технологии.

Коротко о главном

Какова архитектура моделей, с которыми работает GB200 NVL72?

Сервер предназначен для работы с моделями на архитектуре MoE (Mixture of Experts), где только релевантные параметры активируются при выполнении задачи, что снижает вычислительные затраты и ускоряет обработку.

Какие компоненты использовала NVIDIA для повышения эффективности GB200 NVL72?

В системе объединены 72 чипа GB200, 30 ТБ быстрой общей памяти, второе поколение Transformer Engine и пятая версия NVLink, что позволило достичь высокого уровня параллелизма экспертов.

Какие программные оптимизации внедрила NVIDIA для улучшения работы с моделями MoE?

Компания применила NVIDIA Dynamo для разделения этапов prefill и decode и внедрила формат NVFP4, который позволяет повысить скорость обработки при сохранении высокой точности вычислений.

Какой подход позволил NVIDIA эффективно масштабировать модели на архитектуре MoE?

Для устранения ограничений масштабирования была применена стратегия «совместного проектирования» (co-design), объединяющая аппаратные и программные решения для оптимизации работы с такими моделями.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Передовые технологии

Оценка значимости: 8 из 10

Событие касается глобального технологического лидерства в области ИИ, что напрямую влияет на позиции России в цифровой экономике. NVIDIA демонстрирует прорыв в производительности, что может усилить её монопольное положение и ограничить доступ российских компаний к передовым решениям. Технические инновации затрагивают несколько сфер — от аппаратного обеспечения до программных оптимизаций, а их долгосрочное влияние может быть значимым для развития отечественного ИИ.

Материалы по теме

NVIDIA преодолела барьеры масштабирования моделей MoE

Успех NVIDIA в масштабировании архитектуры MoE через подход co-design и внедрение фреймворка Dynamo с форматом NVFP4 стал ключевым доказательством сдвига в эффективности ИИ. Эти данные подчеркивают, что рост производительности в 10 раз по сравнению с предыдущим поколением — не только технический шаг, а стратегический поворот, усиливающий доминирование NVIDIA в экосистеме ИИ.

Подробнее →
Micron инвестирует 9,6 млрд долларов в HBM-завод в Японии под господдержку

Инвестиции Micron в HBM-завод в Японии и её рост доли на рынке подчеркивают критическую роль памяти в развитии ИИ. Эти данные усиливают аргумент о том, что дефицит мощностей у производителей памяти, таких как Samsung и SK hynix, усугубляет ситуацию, создавая барьеры для компаний, не имеющих стратегических партнёров вроде NVIDIA.

Подробнее →
Китай прорабатывает собственные ИИ-ускорители с революционной технологией

Доминирование NVIDIA в экосистеме CUDA и барьеры для перехода на альтернативные платформы, особенно в Китае, где обсуждаются собственные решения, демонстрирует риски зависимости от одного игрока. Эти данные усиливают идею о том, что технологическая независимость остаётся сложной задачей даже для крупных рынков.

Подробнее →
TSMC в центре «чипового суперцикла»: спрос на полупроводники превышает мощности в три раза

Дефицит мощностей у TSMC и приоритет NVIDIA в распределении ресурсов подчеркивают её доминирование в отрасли. Эти данные усиливают утверждение о том, что рост спроса на GPU и память усиливает позиции NVIDIA, но также создаёт риски для других игроков, зависящих от ограниченного доступа к оборудованию.

Подробнее →
Азиатские компании борются за эффективность ИИ из-за слабой инфраструктуры

Распределённая модель Inference Cloud, разработанная совместно с Akamai, и её эффект в Индии и Вьетнаме подтверждают, что переход на локальную обработку данных снижает затраты и задержки. Эти данные усиливают тезис о том, что NVIDIA не только ускоряет развитие ИИ, но и создаёт новые стандарты для его эффективного применения.

Подробнее →
Бизнес на ИИ рискует из-за стремительного обесценивания GPU

Ускоренное обесценивание GPU и рост дохода NVIDIA за счёт дефицита подчеркивают, что компания формирует рыночные тенденции. Эти данные усиливают аргумент о рисках для инвесторов и операторов «фабрик ИИ», вынужденных обновлять оборудование быстрее, чем ожидалось.

Подробнее →
Mistral AI представила Mistral 3 — крупнейшую открытую ИИ-модель с рекордной производительностью

Открытая лицензия Mistral 3 снижает барьеры для внедрения ИИ и ускоряет его применение в бизнесе. Эти данные усиливают идею о том, что, несмотря на доминирование NVIDIA, появление открытых моделей может снизить её монопольное влияние.

Подробнее →
Nvidia добивается успеха с 4-битным форматом NVFP4

Успех 4-битного формата NVFP4 в обучении моделей с минимальными потерями качества демонстрирует технологическое преимущество NVIDIA. Эти данные усиливают утверждение о том, что программные оптимизации не менее важны, чем аппаратные улучшения, для масштабируемости ИИ-инфраструктуры.

Подробнее →