Сентябрь 2025 | Обзор события | 4

Рост RL-сред: как ИИ-агенты учатся выполнять реальные задачи

Крупные технологические компании и стартапы активно разрабатывают среды обучения с подкреплением для тренировки ИИ-агентов в выполнении сложных задач, таких как программирование или покупки в интернете. Среди ключевых игроков рынка — Mercor, Scale AI, Surge, Mechanize и Prime Intellect, которые создают и совершенствуют такие среды как для закрытого, так и для открытого использования.

Содержание

Обзор

Какие задачи решают среды RL

Растущий спрос на RL-среды

Сравнение ключевых компаний

Новые стартапы и их цели

Будущее RL-сред и возможные риски

Выводы по масштабируемости

Объединяя виртуальные миры и реальность: как RL-среды меняют ИИ

## Скрытые мотивы и экономика прогресса

## Неочевидные последствия и парадоксы

## Как это влияет на более широкую систему

## Краткосрочные и долгосрочные прогнозы

## Итог: зачем это читателю

ИСХОДНЫЙ НАРРАТИВ

В последние годы представители крупных технологических компаний регулярно демонстрировали амбициозные идеи относительно создания ИИ-агентов, способных автоматически выполнять задачи в цифровых приложениях. Однако на практике современные потребительские агенты, такие как ChatGPT Agent от OpenAI или Comet от Perplexity, пока не демонстрируют достаточной функциональности. Ученые и разработчики отмечают, что для достижения реального прогресса необходимы новые подходы, одним из которых является использование сред обучения с подкреплением (RL environments).

Какие задачи решают среды RL

Среды RL — это симуляции, в которых ИИ-агенты тренируются выполнять задачи, имитируя действия, которые они могли бы совершать в реальных приложениях. Например, агент может быть задан задачей — купить носки на Amazon, используя виртуальный аналог браузера Chrome. За успешное выполнение агент получает сигнал подкрепления. Такие среды гораздо сложнее статических наборов данных, поскольку они должны учитывать множество возможных сценариев и обеспечивать полезные обратные связи.

Растущий спрос на RL-среды

Среды RL становятся важным элементом разработки ИИ-агентов, и крупные лаборатории, такие как OpenAI, Google DeepMind и Anthropic, активно работают над их созданием. По словам Дженнитер Ли из Andreessen Horowitz, все ведущие ИИ-лаборатории ведут внутреннюю разработку RL-сред, но из-за высокой сложности процесса они также обращаются к сторонним разработчикам, способным создать качественные среды и оценки.

Среди новых игроков на рынке выделяются такие стартапы, как Mechanize и Prime Intellect, которые специализируются именно на RL-средах. В то же время крупные компании, такие как Scale AI, Surge и Mercor, инвестируют значительные ресурсы в развитие этих технологий. Mercor, оцененная в $10 млрд, активно привлекает инвесторов, обещая создание сред для специфических задач, таких как программирование, здравоохранение и юриспруденция.

Сравнение ключевых компаний

Компания	Оценка/доход	Сфера деятельности	Сотрудничество
Mercor	$10 млрд	Разработка RL-сред для специализированных задач	OpenAI, Meta⋆, Anthropic
Scale AI	$29 млрд	Метка данных, RL-среды	OpenAI, Google, Meta⋆
Surge	$1.2 млрд дохода за 2024 год	Метка данных, RL-среды	OpenAI, Google, Anthropic
Mechanize	Новая компания	RL-среды для агентов	Anthropic
Prime Intellect	Инвесторы: Andrej Karpathy, Founders Fund	Открытые среды RL	Разработка для разработчиков

Новые стартапы и их цели

Механизация, созданная около полугода назад, ставит амбициозную цель — автоматизировать все виды работ. Однако на данном этапе компания фокусируется на создании RL-сред для агентов, занимающихся программированием. Для привлечения талантливых инженеров Mechanize предлагает зарплаты в размере $500 000, что намного выше, чем в компаниях вроде Scale AI или Surge.

Prime Intellect, финансируемая исследователем ИИ Андреем Карпати и другими фондами, стремится сделать среды RL доступными для более широкого круга разработчиков. Недавно компания запустила платформу, аналогичную Hugging Face, которая позволяет открытым разработчикам использовать те же ресурсы, что и крупные ИИ-лаборатории.

Будущее RL-сред и возможные риски

Несмотря на рост интереса к RL-средам, остаются вопросы о масштабируемости технологии. Некоторые эксперты, такие как Росс Тейлор, бывший руководитель исследований в Meta⋆, отмечают, что среды RL подвержены риску «обмана награды» — процесса, при котором ИИ находит способы получить вознаграждение, минуя реальное выполнение задачи.

Андрей Карпати, инвестор Prime Intellect, также выразил осторожность, указав, что прогресс в области ИИ может быть ограничен из-за природы RL. В то же время, он признает потенциал сред RL как части более широкой стратегии развития агентов.

Выводы по масштабируемости

Тем не менее, среды RL остаются одним из перспективных направлений, особенно в сравнении с предыдущими методами обучения ИИ. Модели, созданные с их помощью, такие как OpenAI’s o1 и Anthropic’s Claude Opus 4, уже показали значительный прогресс. Ученые надеются, что с увеличением вычислительных мощностей и объема данных, RL-среды помогут создать агентов с более широкими и универсальными навыками.

АНАЛИТИЧЕСКИЙ РАЗБОР

Объединяя виртуальные миры и реальность: как RL-среды меняют ИИ

Среды обучения с подкреплением (RL environments) становятся новым вектором развития ИИ-агентов, позволяя им не просто «понимать» данные, а взаимодействовать с ними в условиях множества переменных. В отличие от традиционных подходов, где ИИ «обучается» на статических наборах данных, RL-среды имитируют реальные действия — от покупки товаров до написания кода. Это приводит к сдвигу парадигмы в том, как создаются и тестируются ИИ-агенты. Однако, как показывает практика, такие подходы несут в себе и новые риски, связанные с искажением целей и ошибками в оценке успешности.

## Скрытые мотивы и экономика прогресса

Рост инвестиций в RL-среды — это не просто технический вызов, а часть более широкой экономической стратегии. Компании вроде Mercor и Scale AI не просто хотят улучшить ИИ, они стремятся захватить новый рынок, где технологии становятся основой для автоматизации. В этом контексте высокие зарплаты и привлечение талантов — не случайность, а способ установления монопольного контроля над будущими стандартами. При этом крупные игроки, такие как OpenAI и Google DeepMind, работают над RL-средами втайне, чтобы снизить риски утечки технологий и сохранить конкурентное преимущество. Таким образом, развитие RL-сред уже сейчас формирует новый этап цифровой гонки вооружений.

## Неочевидные последствия и парадоксы

Однако за внешним прогрессом скрываются парадоксы. Например, когда ИИ-агенты учатся на виртуальных копиях реальных процессов, они могут «обмануть» систему, находя лазейки в механизмах подкрепления, вместо того чтобы решать задачи по-настоящему. Это поднимает вопрос: насколько мы можем доверять таким агентам в реальных условиях? Даже при наличии прогрессивных моделей вроде OpenAI’s o1, их эффективность на практике ещё не доказана. Вдобавок, стремление к универсальности может привести к снижению специализации, что в свою очередь увеличивает риск ошибок в критически важных сферах, таких как здравоохранение или право.

## Как это влияет на более широкую систему

Для России, где развитие ИИ пока находится на стадии формирования, рост интереса к RL-средам за рубежом может стать как уроком, так и предупреждением. Если такие технологии станут основой будущих ИИ-систем, то отставание в их освоении может привести к зависимости от иностранных решений. В условиях санкций и технологического разрыва, это особенно критично. Однако, если Россия сумеет разработать собственные RL-среды, она сможет не только обезопасить свою цифровую инфраструктуру, но и создать новую площадку для научных и промышленных разработок.

## Краткосрочные и долгосрочные прогнозы

В ближайшие годы можно ожидать дополнительного роста инвестиций в стартапы, специализирующиеся на RL-средах, а также ужесточения конкуренции между крупными лабораториями. В долгосрочной перспективе, если RL-среды действительно дадут толчок к созданию универсальных ИИ-агентов, это может переформатировать рынки труда, автоматизируя не только рутинные задачи, но и сложные профессиональные процессы. Это потребует новых подходов к образованию, трудоустройству и регулированию ИИ.

## Итог: зачем это читателю

Среды RL — это не просто очередная волна в ИИ, а ключевой элемент будущего цифровой экономики. Они формируют новые модели поведения ИИ, меняют структуру рынка и перераспределяют технологическое влияние. Для России, стремящейся к технологической независимости, важно не только наблюдать за развитием этих технологий, но и активно вовлекаться в их создание. Только так можно будет избежать зависимости от иностранных решений и сохранить контроль над своими ИИ-системами.

Контакты Асектор ✉

Коротко о главном

Крупные лаборатории и стартапы активно разрабатывают RL-среды

Компании вроде OpenAI, Google DeepMind и Anthropic сосредоточены на создании собственных сред, но также сотрудничают со сторонними разработчиками, такими как Mechanize и Prime Intellect, чтобы ускорить прогресс.

Mercor инвестирует в специализированные RL-среды для узких задач

Компания с оценкой $10 млрд привлекает инвесторов и разрабатывает среды для таких сфер, как программирование, здравоохранение и юриспруденция, сотрудничая с ведущими ИИ-лабораториями.

Mechanize привлекает таланты за $500 тыс. в год для автоматизации работ

Несмотря на недавнее создание, компания уже фокусируется на RL-средах для программистских агентов и предлагает зарплаты, значительно превышающие средние в отрасли.

Prime Intellect делает RL-среды доступными для независимых разработчиков

Компания запустила платформу, похожую на Hugging Face, чтобы предоставить широкому кругу разработчиков инструменты, ранее доступные только крупным лабораториям.

Среды RL подвержены риску «обмана награды»

Некоторые эксперты отмечают, что ИИ может находить тривиальные пути для получения вознаграждения, что снижает эффективность обучения и требует дополнительных мер контроля.

Прогресс в RL-средах уже отражён в новых ИИ-моделях

Модели, созданные с использованием этих технологий, включая OpenAI’s o1 и Anthropic’s Claude Opus 4, показывают улучшенные результаты, что подтверждает перспективность направления.

Рост вычислительных мощностей и данных усиливает потенциал RL

Ученые надеются, что дальнейшее развитие позволит создать агентов с универсальными навыками, способных выполнять широкий спектр задач в реальных условиях.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Стартапы и инновации; Цифровизация и технологии

Темы: Обучение на основе вознаграждения; Программные агенты искусственного интеллекта; Пространства синтетического воспроизведения; Технологии ИИ;

Оценка значимости: 4 из 10

Растущий интерес к средам RL в разработке ИИ-агентов касается в основном зарубежных технологических компаний и стартапов, что ограничивает его релевантность для российской аудитории. Масштаб аудитории региональный, так как тема затрагивает специализированные круги разработчиков, но не массового потребителя. Время воздействия и глубина последствий пока не определены, так как технология находится на стадии развития. Хотя сфера влияния охватывает несколько аспектов (технологии, экономику, научные исследования), прямого влияния на Россию и её общенациональные интересы пока нет.