AWS анонсировал Trainium3: производительность вдвое выше, энергоэффективность — вчетверо
Amazon Web Services представила третью генерацию AI-ускорителей Trainium, которые по производительности в два раза превосходят предыдущую версию, а по энергоэффективности — в четыре. Новые чипы, совместно с серверами Trn3 UltraServers, обеспечивают масштабную FP8-производительность, сравнимую с решениями Nvidia, и дополняются экосистемой Neuron, включая поддержку PyTorch и упрощённое управление кластерами.
Amazon Web Services представила третью генерацию Trainium для ИИ
По данным Tomshardware, Amazon Web Services анонсировала новое поколение AI-ускорителей Trainium3, предназначенных для задач обучения и инференса. Компания утверждает, что производительность нового чипа в два раза превышает предыдущую версию, а энергоэффективность — в четыре раза. Это делает Trainium3 одним из наиболее экономичных решений на рынке.
Trainium3 представляет собой двухчиплетную архитектуру с 144 ГБ памяти HBM3E, распределённой по четырём стекам. Общая пропускная способность памяти достигает 4,9 ТБ/с. Каждый чиплет, изготовленный по 3-нм техпроцессу TSMC, включает четыре ядра NeuronCore-v4. Внутри каждого ядра расположены четыре блока: тензорный, векторный, скалярный и GPSIMD. Последний позволяет запускать общий код на C/C++ непосредственно на ускорителе, что снижает латентность и объём передачи данных.
Ускорители Trainium3 и Trn3 UltraServers: подход AWS к масштабированию
AWS также представила Trn3 UltraServers — масштабные решения, построенные на Trainium3. В крупной конфигурации система включает 144 ускорителя в одном решении. Такое количество обеспечивает 0,36 эксафлопс FP8-производительности, что соответствует показателям NVL72 от Nvidia. Для сравнения, Trainium3 обеспечивает до 2,517 петафлопс MXFP8-производительности на чип, что превосходит H100/H200, но уступает Blackwell B200/B300.
В Trn3 UltraServers используется собственная система NeuronLink-v4 для взаимодействия между ускорителями и NeuronSwitch-v1 для межсерверной связи. AWS не раскрывает полную пропускную способность NeuronSwitch-v1, но архитектура системы напоминает NVL72 Nvidia, что указывает на стремление к вертикальной интеграции.
Развитие экосистемы: AWS Neuron и интеграция с PyTorch
На конференции re:Invent AWS объявила о расширении своей экосистемы Neuron. Одним из ключевых анонсов стал TorchNeuron — открытый бэкенд для PyTorch, позволяющий запускать существующие модели без изменений. Также была обновлена Neuron Kernel Interface (NKI), предоставляющая разработчикам прямой доступ к низкоуровневому программированию чипа. Neuron Explorer и Neuron Dynamic Resource Allocation (DRA) упрощают управление кластерами и оптимизацию использования ресурсов.
AWS Neuron как альтернатива CUDA
Совокупность обновлений указывает на стремление AWS сделать Trainium более доступным и удобным для разработчиков. Интеграция с PyTorch, поддержка распределённых вычислений и открытие компонентов экосистемы направлены на укрепление позиций AWS в сегменте ИИ. Это делает Trainium-платформы более конкурентоспособными по сравнению с CUDA-решениями от Nvidia.
Интересно: Как сможет ли экосистема AWS Neuron, ориентированная на специализированные ускорители, конкурировать с универсальностью CUDA и масштабными решениями от Nvidia в условиях роста потребности в FP8-вычислениях?

AWS Neuron: Битва за экосистему ИИ
Когда ускоритель становится платформой
AWS не только выпускает новый чип — она строит экосистему. Trainium3 — это не только ускоритель для обучения и инференса ИИ. Это часть более масштабного плана, в котором железо, софт и архитектура работают как единое целое. Компания стремится создать альтернативу не только по производительности, но и по экосистемной привлекательности.
AWS Neuron — это ключевой элемент в этой стратегии. Он представляет собой набор инструментов, библиотек и интерфейсов, которые позволяют разработчикам использовать Trainium3 без глубокого погружения в низкоуровневую оптимизацию. Интеграция с PyTorch через TorchNeuron — это важный шаг, поскольку PyTorch уже стал де-факто стандартом для исследований и разработки ИИ. Это снижает барьер входа и позволяет компаниям, работающим с PyTorch, перейти на AWS без полной переработки кода.
AWS делает Trainium3 удобным для разработчиков, а значит, делает его более привлекательным для клиентов. Это создаёт положительный цикл: чем больше разработчиков используют Trainium3, тем больше клиентов будет заинтересовано в его выборе.
Важный нюанс: AWS Neuron стремится не только конкурировать с CUDA, но и создать экосистему, в которой разработчики могут работать с минимальными изменениями. Это снижает стоимость перехода и повышает лояльность к платформе.
Конкуренция на уровне экосистемы
Nvidia давно установила стандарты в области ИИ. CUDA, библиотеки, инструменты — всё это создало мощную экосистему, которую сложно обойти. Однако AWS понимает, что битва за будущее ИИ — это не только битва за чипы, но и за инструменты, которые разработчики используют ежедневно.
Trainium3 и Neuron — это попытка AWS создать экосистему, которая будет не менее удобной, чем CUDA, но с оптимизацией под собственную архитектуру. Это важно, потому что специализированные ускорители, в отличие от универсальных GPU, могут предлагать лучшую энергоэффективность и производительность в узких задачах.
Однако у этой стратегии есть риски. CUDA — это не только набор инструментов. Это де-факто стандарт, который используется не только в Nvidia, но и в решениях других производителей. Если AWS будет слишком жёстко ограничивать экосистему Neuron, она может столкнуться с проблемой совместимости и изоляции.
Экосистема должна быть достаточно открытой, чтобы привлекать разработчиков, но достаточно замкнутой, чтобы обеспечивать высокую производительность. AWS находится в тонком балансе.
Важный нюанс: AWS пытается создать экосистему, которая будет конкурировать с CUDA, но при этом сохраняет удобство и совместимость. Успех зависит от того, насколько она сможет объединить специализацию и гибкость.
Как это влияет на рынок
Trainium3 и Neuron не только интересны для крупных корпораций. Они могут стать важным инструментом для российских и международных компаний, которые хотят снизить зависимость от Nvidia и создать более независимую ИТ-инфраструктуру.
Особенно это касается тех, кто работает с FP8-вычислениями, где Trainium3 показывает хорошие результаты. Для таких компаний переход на AWS может быть выгодным не только по производительности, но и по стоимости владения.
Однако важно учитывать, что экосистема AWS Neuron пока не так зрела, как CUDA. Это означает, что в краткосрочной перспективе могут быть сложности с оптимизацией и поддержкой. Но в долгосрочной — если экосистема докажет свою эффективность, это может стать серьёзным конкурентом.
Важный нюанс: AWS не только улучшает чипы. Она строит экосистему, которая может стать альтернативой CUDA. Успех зависит от того, насколько быстро и гибко AWS сможет развивать Neuron, чтобы удерживать разработчиков и клиентов.
Инфраструктура под давлением: рост, энергетика и конкуренция
AWS сталкивается с растущими энергетическими и экологическими вызовами, на которые отвечает улучшением энергоэффективности и внедрением специализированных чипов [!]. Компания активно расширяет сеть центров обработки данных, включая аренду более 440 площадок, что составляет около 20% от её общей вычислительной мощности. Это позволяет удовлетворять рост вычислительных нагрузок, связанных с обучением ИИ-моделей, но требует значительных инвестиций в инфраструктуру и управление энергопотреблением.
В условиях ускоренного обесценивания GPU, AWS вынуждена увеличивать срок использования своих серверов до пяти–шести лет, чтобы снизить краткосрочные затраты и повысить прибыль [!]. Это решение, однако, может стать менее эффективным, если развитие технологий продолжится с таким же темпом.
В то же время, конкуренция в сегменте ИИ-инфраструктуры становится всё более напряжённой. NVIDIA представила сервер GB200 NVL72, который в тестах показал производительность в 10 раз выше предыдущего поколения Hopper HGX 200 [!]. Это ставит под давление не только AWS, но и других игроков рынка, включая Huawei, которая также усиливает позиции с помощью собственных решений, таких как Atlas SuperPoDs [!].
Важно отметить, что AWS остаётся ключевым партнёром крупных ИИ-проектов, включая сотрудничество с Anthropic, что помогает ей удерживать позиции в числе ведущих поставщиков инфраструктуры для искусственного интеллекта [!]. В рамках соглашений с Microsoft и NVIDIA, Amazon конкурирует с другими облаками, такими как Azure и Google Cloud, в предоставлении мощностей для разработки ИИ.
Стратегические перспективы
AWS не только развивает собственные чипы, но и усиливает позиции в борьбе за лидерство в разработке специализированных решений. Компания активно развивает собственные процессоры, такие как Ironwood TPUs, чтобы конкурировать с решениями NVIDIA в области искусственного интеллекта [!]. Это связано с переходом от обучения моделей к их применению (inference), где универсальные GPU всё чаще заменяются специализированными чипами.
Тем не менее, по мнению главы NVIDIA Джин Хуана, число организаций, способных создавать чипы такого уровня сложности, ограничено. Тем не менее, действия Amazon демонстрируют стремление укрепить позиции в быстро меняющейся индустрии ИИ.
Вывод: AWS продолжает расширять своё влияние в сфере ИИ, развивая как аппаратную, так и программную составляющие. Успех в борьбе за экосистему зависит не только от технологических достижений, но и от стратегии, гибкости и способности адаптироваться к меняющимся условиям рынка.
Источник: tomshardware.com