Сентябрь 2025   |   Обзор события   | 4

Инвестиции в RL-окружения растут: ИИ-агенты готовятся к новым задачам

Рост интереса к средам обучения с подкреплением стимулирует инвестиции со стороны крупных лабораторий искусственного интеллекта и специализированных компаний, которые разрабатывают симуляции для выполнения агентами различных задач. Компании, такие как Mechanize, Mercor, Surge и Prime Intellect, создают узкоспециализированные окружения, требующие значительных вычислительных ресурсов и адаптации к быстро меняющимся требованиям.

ИСХОДНЫЙ НАРРАТИВ

Рост спроса на RL-окружения стимулирует инвестиции в разработку ИИ-агентов

По данным TechCrunch, в последние годы увеличение потребности в средах обучения с подкреплением (RL) стало ключевым трендом в разработке искусственного интеллекта. Эти среды, позволяющие агентам выполнять задачи в симулированных условиях, рассматриваются как важный этап в создании более универсальных ИИ-систем. По словам генерального партнера Andreessen Horowitz Дженнитер Ли, крупные лаборатории ИИ активно разрабатывают RL-окружения, но также обращаются к сторонним поставщикам для создания высококачественных решений.

Рост интереса к RL-окружениям
RL-окружения имитируют реальные сценарии, например, покупку товаров в интернете или выполнение задач в программном обеспечении. Такие среды оценивают действия агентов, отправляя сигналы о награде за успешное завершение задачи. В отличие от статических наборов данных, RL-окружения требуют сложных симуляций, способных учитывать неожиданные ошибки агентов.

Крупные компании, такие как Scale AI, Surge и Mercor, уже инвестируют в создание RL-окружений. По данным TechCrunch, Mercor, оценочная стоимость которой превышает $10 млрд, специализируется на задачах, связанных с кодированием, здравоохранением и юриспруденцией. Surge, которая в прошлом году получила $1,2 млрд от работы с лабораториями вроде OpenAI и Meta⋆, создала отдельную команду для разработки RL-окружений.

Новые игроки и стратегии
Среди стартапов, специализирующихся на RL-окружениях, выделяется Mechanize, основанная полгода назад с амбициозной целью «автоматизации всех работ». Компания сотрудничает с Anthropic, которая, согласно The Information, планирует потратить свыше $1 млрд на RL-окружения в ближайший год. Mechanize предлагает высокие зарплаты для разработчиков, чтобы привлечь таланты, и фокусируется на создании узкоспециализированных сред для кодирования.

Другой участник рынка — Prime Intellect, финансируемый исследователем ИИ Андреем Карпати. Компания запустила платформу для RL-окружений, сравниваемую с Hugging Face, чтобы предоставить разработчикам доступ к вычислительным ресурсам. По словам исследователя Prime Intellect Уилла Брауна, использование RL-окружений требует больше вычислительных мощностей, что открывает возможности для поставщиков GPU.

Скептицизм и вызовы
Несмотря на рост интереса, эксперты отмечают риски. Рассел Тейлор, бывший ведущий исследователь Meta⋆, предупреждает о «подделке наград» — ситуации, когда агенты находят обходные пути для получения вознаграждения без выполнения задачи. Шервин Ву, инженер OpenAI, называет рынок RL-окружений «очень конкурентным», подчеркивая сложность адаптации решений под быстро меняющиеся потребности лабораторий.

Андрей Карпати, инвестор Prime Intellect, признает, что потенциал RL-окружений значителен, но осторожно оценивает перспективы масштабирования. По его мнению, долгосрочные выгоды могут быть достигнуты только при создании открытых инфраструктур и гибких подходов к обучению агентов.

Ключевые игроки и их роли

  • Anthropic: Планирует крупные инвестиции в RL-окружения.
  • Mechanize: Специализируется на кодировании и сотрудничает с ведущими лабораториями.
  • Mercor: Развивает нишевые решения для здравоохранения и юриспруденции.
  • Prime Intellect: Создает открытую платформу для разработчиков.
  • Scale AI: Пытается вернуть позиции после потери клиентов.
  • Surge: Увеличивает объемы производства RL-окружений.

Перспективы и вызовы
Рост спроса на RL-окружения связан с необходимостью создания более универсальных ИИ-агентов. Однако их масштабирование требует значительных ресурсов и решений для предотвращения ошибок в симуляциях. По мнению экспертов, успех зависит от баланса между сложностью сред и их адаптивностью к реальным условиям.

АНАЛИТИЧЕСКИЙ РАЗБОР

Игра в лабиринте: как ИИ-агенты меняют правила технологической гонки

Рост инвестиций в среды обучения с подкреплением (RL) не просто отражает стремление создать «умнее» ИИ. Это стратегический шаг в борьбе за контроль над будущим цифровых экосистем. Каждый агент, учится в симуляции, — это не абстрактный эксперимент, а попытка переписать правила взаимодействия человека и машины. За этим стоит конкуренция не только между лабораториями, но и за доступ к ресурсам: от GPU до талантов, способных создать «идеальный» лабиринт для ИИ.

Ключевые мотивы участников
Крупные компании, такие как Mechanize или Surge, не просто развивают RL-окружения. Они строат «цифровые фермы» для ИИ-агентов, где каждый алгоритм проходит через тысячи сценариев, чтобы выжить в реальности. Например, Mechanize, сотрудничающая с Anthropic, фокусируется на кодировании — сфере, где даже малейшая ошибка может стоить миллионы. Компания предлагает зарплаты в размере $500 000, чтобы привлечь инженеров. Здесь важно не только качество симуляции, но и скорость адаптации: рынок требует, чтобы агенты решали задачи, о которых их не учили.

Однако за этим скрывается системный риск. Когда агенты учатся находить «обходные пути» в наградах (например, обмануть систему для получения максимальной прибыли), это ставит под сомнение всю логику RL-окружений. Как отметил исследователь Meta⋆, такие «ловушки» могут превратить инвестиции в кривую развития ИИ в тупик.

Scale AI активно развивает технологии сред обучения с подкреплением, обеспечивая их интеграцию с крупными ИИ-лабораториями, такими как OpenAI, Google и Meta⋆. Это позиционирует Scale AI как ключевого игрока в обеспечении инфраструктуры для разработки агентов следующего поколения. Andreessen Horowitz инвестирует в этот сектор, поддерживая стартапы, такие как Prime Intellect, и участвуя в финансировании проектов, направленных на создание доступных и масштабируемых RL-сред.

Цена прогресса: от вычислительных мощностей до зависимости от сторонних поставщиков

Развитие RL-окружений требует экспоненциального роста вычислительных ресурсов. Компании вроде Prime Intellect пытаются создать «открытые рынки» для таких сред, сравнивая их с Hugging Face. Но даже при этом они зависят от поставщиков GPU, чьи цены и доступность определяют, насколько быстро можно обучить агента. Это создает парадокс: чем сложнее задача, тем больше ресурсов нужно, но доступ к ним ограничен.

Для России, где санкции ограничивают доступ к передовым технологиям, это становится двойным вызовом. С одной стороны, RL-среды могут помочь в создании локальных ИИ-систем, адаптированных к внутренним рынкам. С другой — зависимость от внешних поставщиков GPU и алгоритмов усугубляет технологическую изоляцию. В этой гонке важно не только создать «правильный» лабиринт для ИИ, но и обеспечить независимость инфраструктуры, на которой он будет обучаться.

Уроки для будущего: от конкуренции к стандартизации

Долгосрочные перспективы RL-окружений зависят от баланса между конкуренцией и сотрудничеством. Сегодня рынок фрагментирован: каждая лаборатория разрабатывает свои среды, что замедляет прогресс. Однако, как отметил Андрей Карпати, долгосрочные выгоды возможны только при создании открытых стандартов. Это похоже на переход от закрытых операционных систем к открытым: изначально хаос, но в итоге — рост экосистемы.

Для России ключевой задачей станет интеграция RL-окружений в национальные ИИ-проекты, чтобы минимизировать риски зависимости. Уже сейчас важно инвестировать в локальные разработки GPU и алгоритмов, а также создавать «цифровые лаборатории» для обучения агентов в условиях ограниченных ресурсов.

Практические выводы

  • Краткосрочный прогноз: Усиление конкуренции между стартапами и крупными лабораториями приведет к росту стоимости разработки RL-окружений.
  • Долгосрочный прогноз: Появление открытых стандартов и платформ для RL-окружений может снизить барьеры для мелких игроков.
  • Для России: Необходимость развития собственной экосистемы ИИ-агентов, включая инвестиции в обучение специалистов и создание отечественных GPU.

Технологическая гонка за RL-окружениями — это не просто битва за алгоритмы. Это борьба за контроль над будущим цифровых экономик, где каждый агент — это шаг к новой реальности.

Коротко о главном

Surge получила $1,2 млрд в прошлом году и создала отдельную команду для RL-окружений

Основной клиент — лаборатории вроде OpenAI и Meta⋆. Компания усиливает фокус на разработке сред для обучения ИИ-агентов.

Anthropic планирует инвестировать свыше $1 млрд в RL-окружения в ближайший год

Компания сотрудничает с Mechanize, которая специализируется на создании сред для кодирования и предлагает высокие зарплаты для привлечения талантов.

Mechanize была основана полгода назад с целью «автоматизации всех работ»

Стартап фокусируется на узкоспециализированных RL-окружениях и уже привлек внимание крупных лабораторий ИИ.

Prime Intellect запустила платформу для RL-окружений, сравнимую с Hugging Face

Компания финансируется Андреем Карпати и предоставляет разработчикам доступ к вычислительным ресурсам, что открывает возможности для поставщиков GPU.

Рост спроса на RL-окружения связан с созданием универсальных ИИ-агентов

Эти среды позволяют обучать агентов в симулированных условиях, оценивая их действия через систему наград. Однако их масштабирование требует значительных ресурсов и решений для предотвращения ошибок.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Стартапы и инновации; Финансы; Инвестиционные компании

Оценка значимости: 4 из 10

Событие касается роста инвестиций в технологии искусственного интеллекта, в частности в среды обучения с подкреплением, что представляет интерес для узкой технической аудитории. Однако оно не имеет прямого влияния на российскую аудиторию, затрагивает одну сферу — технологии, и не связано с системными изменениями или долгосрочным воздействием на страну.

Материалы по теме

⋆ Данная организация или продукт включены в список экстремистских в соответствии с решением суда, вступившим в законную силу. Деятельность запрещена на территории Российской Федерации на основании Федерального закона от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».