Декабрь 2025 | Обзор события | 4

AWS анонсировал Trainium3: производительность вдвое выше, энергоэффективность — вчетверо

Amazon Web Services представила третью генерацию AI-ускорителей Trainium, которые по производительности в два раза превосходят предыдущую версию, а по энергоэффективности — в четыре. Новые чипы, совместно с серверами Trn3 UltraServers, обеспечивают масштабную FP8-производительность, сравнимую с решениями Nvidia, и дополняются экосистемой Neuron, включая поддержку PyTorch и упрощённое управление кластерами.

Содержание

Обзор

Amazon Web Services представила третью генерацию Trainium для ИИ

Ускорители Trainium3 и Trn3 UltraServers: подход AWS к масштабированию

Развитие экосистемы: AWS Neuron и интеграция с PyTorch

AWS Neuron как альтернатива CUDA

AWS Neuron: Битва за экосистему ИИ
- Когда ускоритель становится платформой
- Конкуренция на уровне экосистемы
- Как это влияет на рынок
- Инфраструктура под давлением: рост, энергетика и конкуренция
- Стратегические перспективы

ИСХОДНЫЙ НАРРАТИВ

Amazon Web Services представила третью генерацию Trainium для ИИ

По данным Tomshardware, Amazon Web Services анонсировала новое поколение AI-ускорителей Trainium3, предназначенных для задач обучения и инференса. Компания утверждает, что производительность нового чипа в два раза превышает предыдущую версию, а энергоэффективность — в четыре раза. Это делает Trainium3 одним из наиболее экономичных решений на рынке.

Trainium3 представляет собой двухчиплетную архитектуру с 144 ГБ памяти HBM3E, распределённой по четырём стекам. Общая пропускная способность памяти достигает 4,9 ТБ/с. Каждый чиплет, изготовленный по 3-нм техпроцессу TSMC, включает четыре ядра NeuronCore-v4. Внутри каждого ядра расположены четыре блока: тензорный, векторный, скалярный и GPSIMD. Последний позволяет запускать общий код на C/C++ непосредственно на ускорителе, что снижает латентность и объём передачи данных.

Ускорители Trainium3 и Trn3 UltraServers: подход AWS к масштабированию

AWS также представила Trn3 UltraServers — масштабные решения, построенные на Trainium3. В крупной конфигурации система включает 144 ускорителя в одном решении. Такое количество обеспечивает 0,36 эксафлопс FP8-производительности, что соответствует показателям NVL72 от Nvidia. Для сравнения, Trainium3 обеспечивает до 2,517 петафлопс MXFP8-производительности на чип, что превосходит H100/H200, но уступает Blackwell B200/B300.

В Trn3 UltraServers используется собственная система NeuronLink-v4 для взаимодействия между ускорителями и NeuronSwitch-v1 для межсерверной связи. AWS не раскрывает полную пропускную способность NeuronSwitch-v1, но архитектура системы напоминает NVL72 Nvidia, что указывает на стремление к вертикальной интеграции.

Развитие экосистемы: AWS Neuron и интеграция с PyTorch

На конференции re:Invent AWS объявила о расширении своей экосистемы Neuron. Одним из ключевых анонсов стал TorchNeuron — открытый бэкенд для PyTorch, позволяющий запускать существующие модели без изменений. Также была обновлена Neuron Kernel Interface (NKI), предоставляющая разработчикам прямой доступ к низкоуровневому программированию чипа. Neuron Explorer и Neuron Dynamic Resource Allocation (DRA) упрощают управление кластерами и оптимизацию использования ресурсов.

AWS Neuron как альтернатива CUDA

Совокупность обновлений указывает на стремление AWS сделать Trainium более доступным и удобным для разработчиков. Интеграция с PyTorch, поддержка распределённых вычислений и открытие компонентов экосистемы направлены на укрепление позиций AWS в сегменте ИИ. Это делает Trainium-платформы более конкурентоспособными по сравнению с CUDA-решениями от Nvidia.

Интересно: Как сможет ли экосистема AWS Neuron, ориентированная на специализированные ускорители, конкурировать с универсальностью CUDA и масштабными решениями от Nvidia в условиях роста потребности в FP8-вычислениях?

Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

AWS Neuron: Битва за экосистему ИИ

Когда ускоритель становится платформой

AWS не только выпускает новый чип — она строит экосистему. Trainium3 — это не только ускоритель для обучения и инференса ИИ. Это часть более масштабного плана, в котором железо, софт и архитектура работают как единое целое. Компания стремится создать альтернативу не только по производительности, но и по экосистемной привлекательности.

AWS Neuron — это ключевой элемент в этой стратегии. Он представляет собой набор инструментов, библиотек и интерфейсов, которые позволяют разработчикам использовать Trainium3 без глубокого погружения в низкоуровневую оптимизацию. Интеграция с PyTorch через TorchNeuron — это важный шаг, поскольку PyTorch уже стал де-факто стандартом для исследований и разработки ИИ. Это снижает барьер входа и позволяет компаниям, работающим с PyTorch, перейти на AWS без полной переработки кода.

AWS делает Trainium3 удобным для разработчиков, а значит, делает его более привлекательным для клиентов. Это создаёт положительный цикл: чем больше разработчиков используют Trainium3, тем больше клиентов будет заинтересовано в его выборе.

Важный нюанс: AWS Neuron стремится не только конкурировать с CUDA, но и создать экосистему, в которой разработчики могут работать с минимальными изменениями. Это снижает стоимость перехода и повышает лояльность к платформе.

Конкуренция на уровне экосистемы

Nvidia давно установила стандарты в области ИИ. CUDA, библиотеки, инструменты — всё это создало мощную экосистему, которую сложно обойти. Однако AWS понимает, что битва за будущее ИИ — это не только битва за чипы, но и за инструменты, которые разработчики используют ежедневно.

Trainium3 и Neuron — это попытка AWS создать экосистему, которая будет не менее удобной, чем CUDA, но с оптимизацией под собственную архитектуру. Это важно, потому что специализированные ускорители, в отличие от универсальных GPU, могут предлагать лучшую энергоэффективность и производительность в узких задачах.

Однако у этой стратегии есть риски. CUDA — это не только набор инструментов. Это де-факто стандарт, который используется не только в Nvidia, но и в решениях других производителей. Если AWS будет слишком жёстко ограничивать экосистему Neuron, она может столкнуться с проблемой совместимости и изоляции.

Экосистема должна быть достаточно открытой, чтобы привлекать разработчиков, но достаточно замкнутой, чтобы обеспечивать высокую производительность. AWS находится в тонком балансе.

Важный нюанс: AWS пытается создать экосистему, которая будет конкурировать с CUDA, но при этом сохраняет удобство и совместимость. Успех зависит от того, насколько она сможет объединить специализацию и гибкость.

Как это влияет на рынок

Trainium3 и Neuron не только интересны для крупных корпораций. Они могут стать важным инструментом для российских и международных компаний, которые хотят снизить зависимость от Nvidia и создать более независимую ИТ-инфраструктуру.

Особенно это касается тех, кто работает с FP8-вычислениями, где Trainium3 показывает хорошие результаты. Для таких компаний переход на AWS может быть выгодным не только по производительности, но и по стоимости владения.

Однако важно учитывать, что экосистема AWS Neuron пока не так зрела, как CUDA. Это означает, что в краткосрочной перспективе могут быть сложности с оптимизацией и поддержкой. Но в долгосрочной — если экосистема докажет свою эффективность, это может стать серьёзным конкурентом.

Важный нюанс: AWS не только улучшает чипы. Она строит экосистему, которая может стать альтернативой CUDA. Успех зависит от того, насколько быстро и гибко AWS сможет развивать Neuron, чтобы удерживать разработчиков и клиентов.

Инфраструктура под давлением: рост, энергетика и конкуренция

AWS сталкивается с растущими энергетическими и экологическими вызовами, на которые отвечает улучшением энергоэффективности и внедрением специализированных чипов [!]. Компания активно расширяет сеть центров обработки данных, включая аренду более 440 площадок, что составляет около 20% от её общей вычислительной мощности. Это позволяет удовлетворять рост вычислительных нагрузок, связанных с обучением ИИ-моделей, но требует значительных инвестиций в инфраструктуру и управление энергопотреблением.

В условиях ускоренного обесценивания GPU, AWS вынуждена увеличивать срок использования своих серверов до пяти–шести лет, чтобы снизить краткосрочные затраты и повысить прибыль [!]. Это решение, однако, может стать менее эффективным, если развитие технологий продолжится с таким же темпом.

В то же время, конкуренция в сегменте ИИ-инфраструктуры становится всё более напряжённой. NVIDIA представила сервер GB200 NVL72, который в тестах показал производительность в 10 раз выше предыдущего поколения Hopper HGX 200 [!]. Это ставит под давление не только AWS, но и других игроков рынка, включая Huawei, которая также усиливает позиции с помощью собственных решений, таких как Atlas SuperPoDs [!].

Важно отметить, что AWS остаётся ключевым партнёром крупных ИИ-проектов, включая сотрудничество с Anthropic, что помогает ей удерживать позиции в числе ведущих поставщиков инфраструктуры для искусственного интеллекта [!]. В рамках соглашений с Microsoft и NVIDIA, Amazon конкурирует с другими облаками, такими как Azure и Google Cloud, в предоставлении мощностей для разработки ИИ.

Стратегические перспективы

AWS не только развивает собственные чипы, но и усиливает позиции в борьбе за лидерство в разработке специализированных решений. Компания активно развивает собственные процессоры, такие как Ironwood TPUs, чтобы конкурировать с решениями NVIDIA в области искусственного интеллекта [!]. Это связано с переходом от обучения моделей к их применению (inference), где универсальные GPU всё чаще заменяются специализированными чипами.

Тем не менее, по мнению главы NVIDIA Джин Хуана, число организаций, способных создавать чипы такого уровня сложности, ограничено. Тем не менее, действия Amazon демонстрируют стремление укрепить позиции в быстро меняющейся индустрии ИИ.

Вывод: AWS продолжает расширять своё влияние в сфере ИИ, развивая как аппаратную, так и программную составляющие. Успех в борьбе за экосистему зависит не только от технологических достижений, но и от стратегии, гибкости и способности адаптироваться к меняющимся условиям рынка.

Источник: tomshardware.com

Контакты Асектор ✉

Коротко о главном

Какова архитектура Trainium3 и её ключевые параметры?

Trainium3 использует двухчиплетную архитектуру с 144 ГБ памяти HBM3E и пропускной способностью 4,9 ТБ/с. Каждый чиплет, изготовленный по 3-нм техпроцессу TSMC, включает четыре ядра NeuronCore-v4.

Какова производительность Trn3 UltraServers, построенных на Trainium3?

В крупной конфигурации Trn3 UltraServers включает 144 ускорителя, обеспечивающих 0,36 эксафлопс FP8-производительности, что соответствует показателям NVL72 от Nvidia.

Какова производительность одного Trainium3 в сравнении с чипами Nvidia?

Один Trainium3 обеспечивает до 2,517 петафлопс MXFP8-производительности, что превосходит H100/H200, но уступает Blackwell B200/B300.

Какие инструменты AWS были обновлены для работы с Trainium3?

AWS обновила Neuron Kernel Interface (NKI), а также представила TorchNeuron — открытый бэкенд для PyTorch, позволяющий запускать модели без изменений, и Neuron Explorer для управления кластерами.

Какова цель расширения экосистемы AWS Neuron?

AWS стремится сделать Trainium более доступным и удобным для разработчиков, усиливая позиции в сегменте ИИ за счёт интеграции с PyTorch и поддержки распределённых вычислений.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Облачные технологии; Бизнес; Цифровизация и технологии; Устройства и гаджеты; Комплектущие для ПК

Темы: Искусственный интеллект; Программная экосистема; Схемы построения вычислительных машин;

Оценка значимости: 4 из 10

Анонс третьей генерации ускорителей Trainium от AWS представляет собой технически значимое событие, однако его влияние на российскую аудиторию ограничено. Масштаб события — региональный или национальный уровень за рубежом, так как речь идёт о технологиях, доступных в первую очередь за пределами России. Время воздействия — среднесрочное, поскольку речь идёт о развитии экосистемы и улучшении производительности, но не о критических изменениях. Сферы влияния — в основном техническая и экономическая, но косвенно затрагивающие ИТ-сектор. Глубина последствий — умеренная, так как это улучшение производительности, но не системные изменения. Поскольку событие не связано напрямую с Россией, оценка снижена.

Материалы по теме

AWS масштабирует ИИ-инфраструктуру: 900 центров, аренда и экологические вызовы

Расширение AWS включает аренду 440 площадок, что составляет 20% от общей вычислительной мощности. Эти данные помогают подчеркнуть масштабы и сложность задач, связанных с обеспечением ИИ-инфраструктуры, а также усилия AWS в области энергоэффективности и масштабирования.

Подробнее →

Бизнес на ИИ рискует из-за стремительного обесценивания GPU

AWS увеличивает срок службы серверов до пяти–шести лет из-за стремительного обесценивания GPU. Это подчеркивает экономические и стратегические вызовы, с которыми сталкивается компания, и демонстрирует необходимость баланса между обновлением инфраструктуры и стабильностью затрат.

Подробнее →

NVIDIA создала AI-сервер, который превзошёл Hopper в 10 раз

NVIDIA представила сервер GB200 NVL72, который в тестах показал производительность в 10 раз выше предыдущего поколения. Это усиливает давление на AWS и других игроков рынка, подчеркивая темп инноваций и риски, связанные с отставанием в развитии собственной экосистемы.

Подробнее →

Microsoft и NVIDIA инвестируют в ИИ-ассистента Claude на $45 млрд

AWS остаётся ключевым партнёром Anthropic по обучению ИИ-моделей и предоставлению облачных услуг. Это усиливает позицию AWS как лидера в инфраструктуре для ИИ, особенно в контексте конкуренции с Microsoft и Google Cloud.

Подробнее →

NVIDIA против Google и Amazon: борьба за чипы будущего

AWS активно развивает собственные процессоры, такие как Ironwood TPUs, чтобы конкурировать с решениями NVIDIA. Это поддерживает тезис о том, что AWS стремится не просто улучшать чипы, а создавать полноценную экосистему, способную конкурировать с CUDA.

Подробнее →