Microsoft запускает глобальную сеть для обучения ИИ
Microsoft запустил первый узел многоцентрового кластера для обучения моделей искусственного интеллекта, соединяющего дата-центры в Висконсине и Джорджии. Компания разрабатывает распределённую архитектуру Fairwater, включающую специализированные объекты с жидкостным охлаждением и планирует масштабировать сеть до сотен тысяч графических процессоров, используя оборудование от Nvidia и решения для высокопроизводительных вычислений на основе протокола InfiniBand.
По данным Theregister, Microsoft начало создавать распределённую инфраструктуру для обучения будущих моделей искусственного интеллекта. В октябре в эксплуатацию вступил первый узел многоцентрового кластера, соединяющего дата-центры в Монт-Плезант (Висконсин) и Атланте (Джорджия). Это — первый шаг к масштабированию ИИ-нагрузок по географии.
Стратегия Microsoft: распределение ИИ-нагрузок
Компания планирует развивать методы, аналогичные тем, что используются сегодня для распределения вычислений между серверами. По словам главного технологического директора Azure Марка Руссиновича, обучение моделей с увеличивающимся количеством параметров требует масштабной инфраструктуры. На данный момент, как он подчёркивает, требуется не один, не два, а несколько дата-центров.
Для этой цели Microsoft разрабатывает новую архитектуру, названную Fairwater, которая включает в себя специализированные «битовые амбары». Эти объекты имеют двухэтажную конструкцию, используют прямое жидкостное охлаждение до чипа и, как утверждает компания, потребляют «почти нулевой объём воды».
Технические детали и оборудование
В будущем Microsoft видит масштабирование сети дата-центров до сотен тысяч графических процессоров, подобранных под конкретные задачи и доступность. В Атланте компания планирует развернуть системы Nvidia GB200 NVL72, способные обеспечивать до 720 петафлопс вычислений с использованием 13 ТБ памяти HBM3e. Каждый стойк может выдерживать нагрузку свыше 120 киловатт.
Соединение дата-центров осуществляется по сети, охватывающей порядка 1000 километров. Хотя Microsoft не раскрыло используемую технологию, на рынке представлены решения от Cisco и Broadcom, включая роутеры Cisco 8223 и чипы Jericho 4, рассчитанные на подобные расстояния и пропускную способность.
Кроме того, Nvidia активно развивает сеть, предлагая коммутаторы Spectrum-XGS, которые уже используются, например, компанией Coreweave. Учитывая тесные связи Microsoft с Nvidia, эти устройства могут быть задействованы в проекте.
Выбор локации и инфраструктура
Распределённая архитектура позволяет Microsoft гибко подходить к выбору локаций дата-центров. Это открывает возможности для размещения объектов в регионах с низкой стоимостью земли, благоприятным климатом и доступной электроэнергией. Такой подход снижает операционные издержки и повышает энергоэффективность.
В отличие от большинства гиперскейлеров, Microsoft выбрала для высокопроизводительных вычислений протокол InfiniBand от Nvidia, а не Ethernet или собственные решения вроде EFA от Amazon Web Services. Это упрощает интеграцию и оптимизацию транспорта данных.
Технические вызовы и перспективы
Несмотря на наличие технологий, распределение ИИ-нагрузок остаётся сложной задачей. Исследователи продолжают изучать способы минимизации потерь на пропускной способности и задержках. Внедрение таких решений может стать критическим фактором для будущих ИИ-проектов.
Интересно: Каковы будут экономические и технические последствия для отрасли, если распределённая архитектура ИИ станет новой нормой?

Microsoft и будущее ИИ: когда распределение становится стратегией
Стратегия, а не только масштабирование
Microsoft не только развивает ИИ. Компания строит новую модель вычислений, в которой обучение моделей искусственного интеллекта перестаёт быть задачей одного дата-центра. Это переход к распределённой инфраструктуре, где ИИ-нагрузки распределяются между несколькими точками. На первый взгляд — технический шаг, но на деле — это стратегическое решение, меняющее баланс сил в отрасли.
Fairwater, архитектура, объявленная Microsoft, — это не набор серверов, а инфраструктура, которая позволяет компании управлять ИИ-процессами на уровне, ранее недоступном. Распределение нагрузки снижает риски сбоя, повышает производительность и даёт гибкость в управлении ресурсами. Но главное — это позволяет Microsoft удерживать контроль над данными и вычислениями, даже при масштабировании.
Кто выигрывает, кто теряет?
Распределённая архитектура выгодна Microsoft, но не всем. Компании, зависящие от централизованных решений, могут столкнуться с трудностями. Например, поставщики оборудования, которые не готовы к распределённым вычислениям, рискуют потерять долю рынка. С другой стороны, производители специализированного оборудования, таких как Nvidia, получают новый импульс. Использование GB200 NVL72 и коммутаторов Spectrum-XGS указывает на укрепление позиций Nvidia в экосистеме Microsoft [!].
Для российского бизнеса важен момент: распределённая архитектура требует не только мощного оборудования, но и развитой сети. Это означает, что компании, желающие конкурировать с глобальными игроками, должны серьёзно подумать о модернизации своих телеком-сетей и инфраструктуры. Для отраслей, где ИИ становится конкурентным преимуществом, это — не только желательно, а необходимо.
Почему InfiniBand, а не Ethernet?
Выбор InfiniBand от Nvidia — не случайный. Этот протокол обеспечивает более высокую пропускную способность и низкие задержки, что критично для обучения крупных моделей ИИ. В отличие от Ethernet, InfiniBand лучше справляется с распределёнными вычислениями, где требуется синхронизация между узлами. Microsoft, отказавшись от собственного решения EFA, выбрала стороннюю технологию, но при этом упростила интеграцию и оптимизацию. Это снижает технические барьеры для внедрения, что, в свою очередь, ускоряет развитие экосистемы вокруг Microsoft.
Важный нюанс: Распределённая архитектура не только меняет технические стандарты, но и устанавливает новый баланс между поставщиками оборудования и операторами ИИ-инфраструктуры. Кто быстрее адаптируется — тот получит преимущество.
Долгосрочные последствия
Распределение ИИ-нагрузок — это не только оптимизация. Это сдвиг в парадигме, который может изменить рынок ИИ. Если такие подходы станут нормой, это откроет дверь для новых игроков, способных конкурировать с гигантами, используя локальные ресурсы и гибкую инфраструктуру. Это также увеличит зависимость от надёжных сетевых решений и специализированного оборудования.
Важный нюанс: чтобы не отставать, нужно не только внедрять ИИ, но и строить инфраструктуру, способную поддерживать распределённые вычисления. Это требует инвестиций в телекоммуникации, обучение персонала и стратегическое планирование. Но без этого, даже самые передовые модели искусственного интеллекта останутся недоступными.
Новые вызовы и возможности
Microsoft сталкивается с ростом спроса на компоненты, включая видеокарты и память DRAM, что привело к увеличению цен и дефициту [!]. В условиях ограниченной доступности ресурсов компания вынуждена оптимизировать использование оборудования, что, в свою очередь, стимулирует развитие более эффективных алгоритмов и архитектур.
Помимо этого, энергетические ограничения становятся важным фактором. Недостаток электроэнергии вынуждает Microsoft отказываться от части оборудования, что подчеркивает необходимость развития энергоэффективных решений и инфраструктуры [!]. В этой связи, выбор локаций с низкой стоимостью энергии и благоприятным климатом становится стратегическим преимуществом.
Кроме того, Microsoft активно участвует в развитии подводных кабельных сетей, что укрепляет её позиции в глобальной связи. Три проекта, соединяющие Ирландию и Великобританию, подтверждают интерес компании к надёжной и масштабируемой инфраструктуре [!]. Это позволяет ускорить передачу данных между регионами и улучшить производительность распределённых вычислений.
Перспективы и интеграция
Microsoft также усиливает сотрудничество с другими ключевыми игроками в сфере ИИ. Например, компания интегрирует модели Anthropic в продукты Microsoft 365 и Copilot, что расширяет возможности корпоративных клиентов и укрепляет позиции Microsoft в интеграции ИИ в бизнес-приложения [!].
В долгосрочной перспективе, рост инвестиций в ИИ и развитие распределённой инфраструктуры создают условия для новых технологических прорывов. Microsoft, как и другие крупные игроки, продолжает вкладывать значительные средства в развитие отрасли. Только в этом году совокупные инвестиции компаний Big Tech в ИИ превысили 300 млрд долларов [!].
В этой динамичной среде, где технологии быстро меняются, ключевым фактором успеха становится не только наличие мощной инфраструктуры, но и способность оперативно адаптироваться к новым вызовам. Для российского бизнеса, стремящегося развиваться в условиях глобальной конкуренции, это особенно актуально.
Источник: The Register