Alibaba Cloud: Aegaeon сокращает потребность в GPU Nvidia на 82% в условиях ограничений
Alibaba Cloud представила систему Aegaeon, сокращающую потребность в GPU Nvidia на 82% при тестировании в Model Studio. Система виртуализирует доступ к GPU на уровне токенов, позволяя одному чипу обслуживать несколько моделей и увеличивая пропускную способность в 9 раз по сравнению с предыдущими решениями.
По данным, представленным на 2025 ACM Symposium on Operating Systems (SOSP) в Сеуле, Alibaba Cloud представила систему Aegaeon, сокращающую потребность в графических процессорах Nvidia на 82% при тестировании в рамках платформы Model Studio. Результаты, полученные в ходе многомесячного бета-теста, демонстрируют, что облачные провайдеры могут значительно увеличить пропускную способность существующих GPU, особенно в регионах с ограниченным доступом к новым чипам, таких как Китай.
Технические особенности Aegaeon
Система не направлена на улучшение качества модели или скорости обучения, а оптимизирует использование GPU во время инференса. В отличие от традиционных подходов, где один ускоритель выделяется под одну модель, Aegaeon виртуализирует доступ к GPU на уровне токенов. Это позволяет распределять минимальные фрагменты задач по общему пулу ресурсов. В результате один чип Nvidia H20 способен обслуживать несколько моделей одновременно, увеличивая эффективную пропускную способность («goodput») в 9 раз по сравнению с предыдущими решениями вроде ServerlessLLM или MuxServe.
В тестах, описанных в статье, совместно подготовленной исследователями из Пекинского университета и инфраструктурного подразделения Alibaba, количество GPU, необходимых для поддержки десятков моделей (включая LLM с 72 млрд параметров), снизилось с 1192 до 213. Основные улучшения достигнуты за счет двух методов:
- Упаковка нескольких моделей на одном GPU;
- Динамическое распределение вычислительных ресурсов на уровне генерации токенов, а не на уровне запроса.
Контекст и ограничения
Согласно отчету, тестирование проводилось с участием Nvidia H20, одного из немногих ускорителей, доступных китайским покупателям в условиях действующих ограничений США. Хотя документ не раскрывает точные детали сетевой инфраструктуры, известно, что Alibaba использует собственную технологию eRDMA (elastic RDMA) и разрабатывает интегрированные стеки для GPU. Это подчеркивает, что эффективность Aegaeon может зависеть от оптимизированной, вертикально интегрированной среды.
Интересно: Сможет ли подобная архитектура, разработанная в условиях ограниченного доступа к западным компонентам, стать эталоном для других гиперскейлеров, сталкивающихся с ростом спроса на инференс?
Как Alibaba Cloud меняет правила игры в инференсе LLM
Стратегия в условиях ограничений
Alibaba Cloud продемонстрировала, как можно преодолеть барьеры доступа к западным компонентам. В условиях санкций США, ограничивающих поставки мощных GPU в Китай, компания разработала систему Aegaeon, которая позволяет использовать существующие чипы Nvidia H20 в 9 раз эффективнее. Это не просто технический трюк, а стратегический ответ на внешнеполитические ограничения.
Ключевой момент: Alibaba не пытается создать альтернативу чипам Nvidia, а максимально использует доступные ресурсы. Это позволяет сохранить конкурентоспособность на внутреннем рынке, где спрос на ИИ-модели растёт. Для других компаний, сталкивающихся с аналогичными барьерами, это может стать эталоном адаптации.

Технологические последствия для рынка
Система Aegaeon демонстрирует, что эффективность GPU можно масштабировать за счёт архитектурных решений, а не только за счёт увеличения производительности чипов. Это может снизить спрос на новые поколения GPU в Китае, что, в свою очередь, влияет на глобальную стратегию Nvidia. Компания, возможно, будет вынуждена адаптировать свои предложения, предлагая решения для оптимизации использования существующих ресурсов.
Важно: Эффективность Aegaeon зависит от вертикально интегрированной инфраструктуры, такой как собственная технология eRDMA Alibaba. Это создаёт барьер для других игроков, желающих внедрить аналогичные решения. Для гиперскейлеров без подобной экосистемы, например, европейских или российских, адаптация такой архитектуры потребует значительных инвестиций в разработку собственных стеков.
Долгосрочные перспективы
Если Aegaeon станет стандартом, это изменит подход к проектированию GPU. Вместо фокуса на производительность отдельного чипа, производители могут начать разрабатывать архитектуры, оптимизированные для распределённого инференса. Это особенно актуально для рынков с ограничениями на доступ к западным компонентам.
Для российского бизнеса: Подобные технологии могут быть полезны в условиях санкций, но их внедрение требует наличия собственной инфраструктуры. Российские компании, которые уже инвестировали в разработку собственных решений для ИИ, могут рассмотреть адаптацию принципов Aegaeon для повышения эффективности использования имеющихся ресурсов.
Важный нюанс: Alibaba не просто оптимизировала использование GPU, а создала модель, которая может перераспределить баланс сил на рынке ИИ.
Новые вызовы и возможности
Распространение системы Aegaeon сталкивается с новыми вызовами. Китайские таможенные власти усилили контроль над поставками чипов Nvidia H20, что может ограничить доступ к этим ресурсам даже для компаний, использующих оптимизирующие технологии [!]. При этом крупные игроки, такие как ByteDance и Alibaba, уже приостановили заказы H20, что указывает на рост давления на рынок.
Однако Alibaba не ограничивается только оптимизацией существующих решений. Компания начала испытания собственного чипа для задач ИИ, что свидетельствует о стратегии постепенного снижения зависимости от западных компонентов [!]. Это двойной подход — и оптимизация текущих ресурсов, и развитие собственных технологий — может стать ключевым фактором устойчивости в условиях санкций.
Для глобальных игроков, таких как Dell, ограничения поставок GPU Nvidia уже влияют на бизнес. Компания повысила прогнозы роста, но ключевым бутылочным горлышком остаются поставки топовых ускорителей [!]. Это подчеркивает, что даже без санкций, доступ к ресурсам Nvidia становится критическим фактором для масштабирования ИИ-инфраструктуры.
Перспективы для рынка
Растущая конкуренция между китайскими и западными производителями чипов формирует новый ландшафт. Nvidia, несмотря на сокращение доли на китайском рынке, продолжает адаптировать продукты под действующие ограничения, поставляя урезанные версии чипов [!]. Однако рост собственных китайских решений, включая чипы Huawei и Alibaba, усиливает давление на западных поставщиков.
Для компаний, столкнувшихся с аналогичными барьерами, модель Alibaba демонстрирует, что эффективность можно достичь через инновации в управлении ресурсами. Это особенно важно в условиях, когда доступ к компонентам ограничен, а спрос на ИИ-модели растёт.
Вывод: Система Aegaeon не только отвечает на текущие вызовы, но и задаёт новый стандарт для оптимизации инфраструктуры. Её успех будет зависеть от способности масштабироваться за пределами вертикально интегрированных экосистем и адаптироваться к меняющимся условиям рынка.