ИИ пока не заменит юристов и аналитиков — новые тесты показали реальные границы возможностей
Компания Mercor представила бенчмарк APEX-Agents, который показал, что современные ИИ-модели справляются с профессиональными офисными задачами максимум в 24% случаев, что недостаточно для замены квалифицированных специалистов. Основная сложность заключается в интеграции данных из разных источников, что делает выполнение междисциплинарных задач особенно проблематичным для существующих агентских моделей.
По данным TechCrunch, исследовательская компания Mercor представила новый бенчмарк APEX-Agents, предназначенный для оценки способности ИИ выполнять задачи, характерные для высококвалифицированной офисной работы. Результаты показывают, что даже самые современные модели искусственного интеллекта пока не готовы заменить профессионалов в таких сферах, как консалтинг, инвестиционный банкинг и юриспруденция.
Исследование проводилось в условиях, максимально приближенных к реальной профессиональной среде, где данные распределены между несколькими платформами, такими как Slack и Google Drive. Это ключевой фактор, который, как оказалось, значительно снижает эффективность ИИ при решении задач, требующих междисциплинарного анализа.
Сложности междоменных задач для ИИ
Одной из основных трудностей, выявленных в ходе тестирования, стало отслеживание информации, разбросанной по разным источникам. Эта способность, как отмечает генеральный директор Mercor Брэд Фуди, является неотъемлемой частью большинства видов офисной работы.
«Мы создали полную среду, максимально приближенную к профессиональным услугам, — подчеркнул Фуди. — В реальной жизни вы работаете одновременно в нескольких инструментах, а не получаете всю информацию в одном месте».
Для большинства агентских моделей ИИ такой подход пока остается неопределенным. В ходе тестирования модели не справлялись с задачами, требующими синтеза данных из разных источников, и в большинстве случаев возвращали либо неправильные ответы, либо вообще не давали ответа.
Примером сложной задачи из юридической сферы стало следующее: оценка соответствия экспорта логов персональных данных, произошедшего в первые 48 часов сбоя, положениям статьи 49 Европейского регламента о защите данных. Правильный ответ требовал глубокого анализа как внутренней политики компании, так и действующего законодательства.
Текущий уровень ИИ: сравнение моделей
В рамках теста было задействовано несколько ведущих моделей, включая Gemini 3 Flash, GPT-5.2 и Opus 4.5. Лучшие результаты показала модель Gemini 3 Flash, которая справилась с 24% задач при однократной попытке. На втором месте — GPT-5.2 с показателем 23%. Модели Opus 4.5, Gemini 3 Pro и GPT-5 обеспечили результаты в районе 18%.
Эти цифры, хотя и демонстрируют прогресс по сравнению с предыдущими годами, все же остаются недостаточными для полной замены человеческого фактора. В прошлом году аналогичные модели справлялись с задачами лишь в 5–10% случаев, что, как отмечает Фуди, свидетельствует о быстром, но пока ограниченном развитии ИИ.
APEX-Agents отличается от предыдущих тестов, таких как GDPval, тем, что фокусируется на узких, но высокодоходных профессиях, где требуется устойчивое выполнение задач. Это делает его более строгим и, одновременно, более релевантным для оценки потенциала автоматизации.
Перспективы развития
Несмотря на текущие ограничения, представители исследовательского сообщества не теряют оптимизма. Публикация бенчмарка APEX-Agents открыла дискуссию среди разработчиков ИИ, и, как ожидает Фуди, в ближайшие месяцы появятся новые подходы и улучшения.
«Правда в том, что прогресс идет быстро, — отметил он. — Сейчас модель работает примерно как стажер, который правильный ответ находит в четверти случаев. Год назад — в 5–10%. Такой темп улучшений может быстро изменить ситуацию».
Таким образом, хотя на данном этапе ИИ еще не готов полностью заменить профессионалов, динамика развития указывает на то, что в будущем такие задачи могут быть автоматизированы.
Интересно: Окажется ли главным тестом для ИИ будущего не решение узких профессиональных задач, а умение анализировать, собирая и осмысливая информацию из десятка разнородных и хаотичных корпоративных систем?

Когда ИИ сталкивается с реальным миром: границы и перспективы
Когда данные разбросаны — ИИ теряет ориентацию
Современные модели искусственного интеллекта демонстрируют впечатляющие успехи в управлении текстом, генерации изображений и даже в написании кода. Однако, как показывает новый бенчмарк APEX-Agents, они всё ещё не справляются с задачами, где информация распределена по нескольким системам и требуется синтезировать данные из разных источников. Это ключевая сложность, особенно для высококвалифицированных профессий, таких как юриспруденция или инвестиционный банкинг.
В реальности, когда профессионал получает задание, он не видит информацию в одном блоке. Он работает в экосистеме, где данные разбросаны по Slack, Google Drive, внутренним базам, документам и чатам. ИИ же, как правило, работает с изолированными фрагментами, и пока не умеет эффективно связывать их. Это делает его менее полезным в условиях, где требуется не только обработка информации, а её интеграция и интерпретация.
Важный нюанс: Современные ИИ-модели показывают прогресс, но пока не умеют работать в условиях, где данные не структурированы и разбросаны по разным платформам — как в реальной профессиональной среде.
ИИ как стажер: прогресс, но не готовность
Наиболее успешная модель в тесте — Gemini 3 Flash — справилась с 24% задач при однократной попытке. На первый взгляд, это впечатляющий рост по сравнению с 5–10% годом ранее. Однако, если рассматривать контекст, становится понятно, что даже 25% — это уровень, соответствующий работе стажера, который ещё не обладает достаточным опытом для принятия решений на высоком уровне.
Для бизнеса это означает, что ИИ пока не готов полностью заменить профессионалов. Он может быть помощником, но не агентом, способным самостоятельно принимать решения в сложных условиях. В таких сферах, как консалтинг или юриспруденция, где требуется не только знание, но и опыт, ИИ остаётся на стадии инструмента, а не партнёра.
Роль Mercor и стратегия инвестиций в ИИ
Компания Mercor, разработчик APEX-Agents, находится в центре внимания крупных инвесторов. В третьем квартале 2025 года фонд Питера Тиля Thiel Macro вывел капитал из Nvidia и направил его в Mercor и другие стартапы в области ИИ [!]. Это решение отражает смену стратегии в инвестировании: вместо технологических гигантов всё больше внимания уделяется стартапам, специализирующимся на нишевых решениях.
Mercor, оценённая в более чем $10 млрд, разрабатывает среды обучения с подкреплением (RL), которые имитируют реальные профессиональные задачи. Такие симуляции особенно важны для секторов, где требуется высокая точность и устойчивость к ошибкам, например, в юриспруденции или здравоохранении [!]. Это делает компанию привлекательной не только для инвесторов, но и для корпораций, ищущих надёжные решения для автоматизации.
Важный нюанс: Тестирование ИИ в реалистичных условиях становится важным элементом конкуренции. Модели, которые лучше справляются с междоменными задачами, получают преимущество на рынке, особенно в секторах, где автоматизация может сократить затраты и повысить точность.
Риски безопасности: угрозы, связанные с ИИ-ассистентами
Несмотря на рост возможностей ИИ, его внедрение в корпоративную среду сопряжено с рисками. Например, атака Reprompt позволяет злоумышленникам получить неограниченный доступ к данным пользователей, обходя защитные меры после первого запроса. Такие уязвимости становятся серьёзной угрозой для конфиденциальности и безопасности, особенно в условиях, когда ИИ-ассистенты работают с внутренними системами и данными [!].
Руководители по информационной безопасности в США отмечают, что ИИ расширяет поверхность атак в цепочках поставок, создавая уникальные риски, связанные с обработкой данных и ограниченной прозрачностью моделей. В то же время ИИ-инструменты начинают использоваться для повышения прозрачности и мониторинга рисков, снижая рутинную нагрузку на команды безопасности. Однако лишь немногие компании разработали комплексные планы реагирования на инциденты, связанные с ИИ-поставщиками [!].
Важный нюанс: Даже если ИИ становится компетентнее в профессиональных задачах, его внедрение связано с новыми рисками безопасности, требующими адаптации политики и технологий.
ИИ и будущее рынка труда
По прогнозам Forrester, к 2030 году искусственный интеллект и автоматизация могут сократить 10,4 миллиона рабочих мест в США, что эквивалентно 6,1 процента от общего числа занятых. Рост числа агентных ИИ-систем увеличил долю угрожаемых позиций вдвое за два года, указывая на ускорение трансформации рынка труда [!].
Это не означает полной замены работников, но указывает на то, что ИИ всё чаще используется для расширения возможностей сотрудников, а не для их замены. В таких условиях бизнесу важно не только внедрять ИИ, но и обучать сотрудников работать с ним, адаптируя процессы и структуры.
Важный нюанс: Автоматизация на основе ИИ уже влияет на структуру рынка труда, требуя от компаний гибкости и инвестиций в переподготовку персонала.
Перспективы развития
Несмотря на текущие ограничения, представители исследовательского сообщества не теряют оптимизма. Публикация бенчмарка APEX-Agents открыла дискуссию среди разработчиков ИИ, и, как ожидает генеральный директор Mercor Брэд Фуди, в ближайшие месяцы появятся новые подходы и улучшения.
«Правда в том, что прогресс идет быстро, — отметил он. — Сейчас модель работает примерно как стажер, который правильный ответ находит в четверти случаев. Год назад — в 5–10%. Такой темп улучшений может быстро изменить ситуацию».
Таким образом, хотя на данном этапе ИИ еще не готов полностью заменить профессионалов, динамика развития указывает на то, что в будущем такие задачи могут быть автоматизированы.
Источник: TechCrunch