Январь 2026 | Обзор события | 4

ИИ пока не заменит юристов и аналитиков — новые тесты показали реальные границы возможностей

Компания Mercor представила бенчмарк APEX-Agents, который показал, что современные ИИ-модели справляются с профессиональными офисными задачами максимум в 24% случаев, что недостаточно для замены квалифицированных специалистов. Основная сложность заключается в интеграции данных из разных источников, что делает выполнение междисциплинарных задач особенно проблематичным для существующих агентских моделей.

Содержание

Обзор

Сложности междоменных задач для ИИ

Текущий уровень ИИ: сравнение моделей

Перспективы развития

Когда ИИ сталкивается с реальным миром: границы и перспективы
- Когда данные разбросаны — ИИ теряет ориентацию
- ИИ как стажер: прогресс, но не готовность
- Роль Mercor и стратегия инвестиций в ИИ
- Риски безопасности: угрозы, связанные с ИИ-ассистентами
- ИИ и будущее рынка труда
- Перспективы развития

ИСХОДНЫЙ НАРРАТИВ

По данным TechCrunch, исследовательская компания Mercor представила новый бенчмарк APEX-Agents, предназначенный для оценки способности ИИ выполнять задачи, характерные для высококвалифицированной офисной работы. Результаты показывают, что даже самые современные модели искусственного интеллекта пока не готовы заменить профессионалов в таких сферах, как консалтинг, инвестиционный банкинг и юриспруденция.

Исследование проводилось в условиях, максимально приближенных к реальной профессиональной среде, где данные распределены между несколькими платформами, такими как Slack и Google Drive. Это ключевой фактор, который, как оказалось, значительно снижает эффективность ИИ при решении задач, требующих междисциплинарного анализа.

Сложности междоменных задач для ИИ

Одной из основных трудностей, выявленных в ходе тестирования, стало отслеживание информации, разбросанной по разным источникам. Эта способность, как отмечает генеральный директор Mercor Брэд Фуди, является неотъемлемой частью большинства видов офисной работы.

«Мы создали полную среду, максимально приближенную к профессиональным услугам, — подчеркнул Фуди. — В реальной жизни вы работаете одновременно в нескольких инструментах, а не получаете всю информацию в одном месте».

Для большинства агентских моделей ИИ такой подход пока остается неопределенным. В ходе тестирования модели не справлялись с задачами, требующими синтеза данных из разных источников, и в большинстве случаев возвращали либо неправильные ответы, либо вообще не давали ответа.

Примером сложной задачи из юридической сферы стало следующее: оценка соответствия экспорта логов персональных данных, произошедшего в первые 48 часов сбоя, положениям статьи 49 Европейского регламента о защите данных. Правильный ответ требовал глубокого анализа как внутренней политики компании, так и действующего законодательства.

Текущий уровень ИИ: сравнение моделей

В рамках теста было задействовано несколько ведущих моделей, включая Gemini 3 Flash, GPT-5.2 и Opus 4.5. Лучшие результаты показала модель Gemini 3 Flash, которая справилась с 24% задач при однократной попытке. На втором месте — GPT-5.2 с показателем 23%. Модели Opus 4.5, Gemini 3 Pro и GPT-5 обеспечили результаты в районе 18%.

Эти цифры, хотя и демонстрируют прогресс по сравнению с предыдущими годами, все же остаются недостаточными для полной замены человеческого фактора. В прошлом году аналогичные модели справлялись с задачами лишь в 5–10% случаев, что, как отмечает Фуди, свидетельствует о быстром, но пока ограниченном развитии ИИ.

APEX-Agents отличается от предыдущих тестов, таких как GDPval, тем, что фокусируется на узких, но высокодоходных профессиях, где требуется устойчивое выполнение задач. Это делает его более строгим и, одновременно, более релевантным для оценки потенциала автоматизации.

Перспективы развития

Несмотря на текущие ограничения, представители исследовательского сообщества не теряют оптимизма. Публикация бенчмарка APEX-Agents открыла дискуссию среди разработчиков ИИ, и, как ожидает Фуди, в ближайшие месяцы появятся новые подходы и улучшения.

«Правда в том, что прогресс идет быстро, — отметил он. — Сейчас модель работает примерно как стажер, который правильный ответ находит в четверти случаев. Год назад — в 5–10%. Такой темп улучшений может быстро изменить ситуацию».

Таким образом, хотя на данном этапе ИИ еще не готов полностью заменить профессионалов, динамика развития указывает на то, что в будущем такие задачи могут быть автоматизированы.

Интересно: Окажется ли главным тестом для ИИ будущего не решение узких профессиональных задач, а умение анализировать, собирая и осмысливая информацию из десятка разнородных и хаотичных корпоративных систем?

Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ сталкивается с реальным миром: границы и перспективы

Когда данные разбросаны — ИИ теряет ориентацию

Современные модели искусственного интеллекта демонстрируют впечатляющие успехи в управлении текстом, генерации изображений и даже в написании кода. Однако, как показывает новый бенчмарк APEX-Agents, они всё ещё не справляются с задачами, где информация распределена по нескольким системам и требуется синтезировать данные из разных источников. Это ключевая сложность, особенно для высококвалифицированных профессий, таких как юриспруденция или инвестиционный банкинг.

В реальности, когда профессионал получает задание, он не видит информацию в одном блоке. Он работает в экосистеме, где данные разбросаны по Slack, Google Drive, внутренним базам, документам и чатам. ИИ же, как правило, работает с изолированными фрагментами, и пока не умеет эффективно связывать их. Это делает его менее полезным в условиях, где требуется не только обработка информации, а её интеграция и интерпретация.

Важный нюанс: Современные ИИ-модели показывают прогресс, но пока не умеют работать в условиях, где данные не структурированы и разбросаны по разным платформам — как в реальной профессиональной среде.

ИИ как стажер: прогресс, но не готовность

Наиболее успешная модель в тесте — Gemini 3 Flash — справилась с 24% задач при однократной попытке. На первый взгляд, это впечатляющий рост по сравнению с 5–10% годом ранее. Однако, если рассматривать контекст, становится понятно, что даже 25% — это уровень, соответствующий работе стажера, который ещё не обладает достаточным опытом для принятия решений на высоком уровне.

Для бизнеса это означает, что ИИ пока не готов полностью заменить профессионалов. Он может быть помощником, но не агентом, способным самостоятельно принимать решения в сложных условиях. В таких сферах, как консалтинг или юриспруденция, где требуется не только знание, но и опыт, ИИ остаётся на стадии инструмента, а не партнёра.

Роль Mercor и стратегия инвестиций в ИИ

Компания Mercor, разработчик APEX-Agents, находится в центре внимания крупных инвесторов. В третьем квартале 2025 года фонд Питера Тиля Thiel Macro вывел капитал из Nvidia и направил его в Mercor и другие стартапы в области ИИ [!]. Это решение отражает смену стратегии в инвестировании: вместо технологических гигантов всё больше внимания уделяется стартапам, специализирующимся на нишевых решениях.

Mercor, оценённая в более чем $10 млрд, разрабатывает среды обучения с подкреплением (RL), которые имитируют реальные профессиональные задачи. Такие симуляции особенно важны для секторов, где требуется высокая точность и устойчивость к ошибкам, например, в юриспруденции или здравоохранении [!]. Это делает компанию привлекательной не только для инвесторов, но и для корпораций, ищущих надёжные решения для автоматизации.

Важный нюанс: Тестирование ИИ в реалистичных условиях становится важным элементом конкуренции. Модели, которые лучше справляются с междоменными задачами, получают преимущество на рынке, особенно в секторах, где автоматизация может сократить затраты и повысить точность.

Риски безопасности: угрозы, связанные с ИИ-ассистентами

Несмотря на рост возможностей ИИ, его внедрение в корпоративную среду сопряжено с рисками. Например, атака Reprompt позволяет злоумышленникам получить неограниченный доступ к данным пользователей, обходя защитные меры после первого запроса. Такие уязвимости становятся серьёзной угрозой для конфиденциальности и безопасности, особенно в условиях, когда ИИ-ассистенты работают с внутренними системами и данными [!].

Руководители по информационной безопасности в США отмечают, что ИИ расширяет поверхность атак в цепочках поставок, создавая уникальные риски, связанные с обработкой данных и ограниченной прозрачностью моделей. В то же время ИИ-инструменты начинают использоваться для повышения прозрачности и мониторинга рисков, снижая рутинную нагрузку на команды безопасности. Однако лишь немногие компании разработали комплексные планы реагирования на инциденты, связанные с ИИ-поставщиками [!].

Важный нюанс: Даже если ИИ становится компетентнее в профессиональных задачах, его внедрение связано с новыми рисками безопасности, требующими адаптации политики и технологий.

ИИ и будущее рынка труда

По прогнозам Forrester, к 2030 году искусственный интеллект и автоматизация могут сократить 10,4 миллиона рабочих мест в США, что эквивалентно 6,1 процента от общего числа занятых. Рост числа агентных ИИ-систем увеличил долю угрожаемых позиций вдвое за два года, указывая на ускорение трансформации рынка труда [!].

Это не означает полной замены работников, но указывает на то, что ИИ всё чаще используется для расширения возможностей сотрудников, а не для их замены. В таких условиях бизнесу важно не только внедрять ИИ, но и обучать сотрудников работать с ним, адаптируя процессы и структуры.

Важный нюанс: Автоматизация на основе ИИ уже влияет на структуру рынка труда, требуя от компаний гибкости и инвестиций в переподготовку персонала.

Перспективы развития

Несмотря на текущие ограничения, представители исследовательского сообщества не теряют оптимизма. Публикация бенчмарка APEX-Agents открыла дискуссию среди разработчиков ИИ, и, как ожидает генеральный директор Mercor Брэд Фуди, в ближайшие месяцы появятся новые подходы и улучшения.

Источник: TechCrunch

Контакты Асектор ✉

Коротко о главном

Почему ИИ не справляется с задачами в условиях реальной работы?

Исследование показало, что ИИ не справляется с задачами, требующими анализа данных, распределённых между несколькими платформами, такими как Slack и Google Drive, что снижает их эффективность.

Какую задачу из юридической сферы использовали для тестирования ИИ?

В тесте участвовала задача по оценке соответствия экспорта персональных данных статье 49 Европейского регламента о защите данных, что требовало анализа внутренней политики компании и законодательства.

Какие модели ИИ участвовали в тестировании и каковы их результаты?

В тестировании участвовали Gemini 3 Flash, GPT-5.2 и Opus 4.5, лучшие из которых — Gemini 3 Flash — справились с 24% задач, а худшие — Opus 4.5 — с 18%.

Какие улучшения в производительности ИИ наблюдались за последний год?

Результаты тестов показали рост эффективности: в прошлом году модели справлялись с задачами лишь в 5–10% случаев, а в этом — до 24%, что демонстрирует ускорение развития ИИ.

Чем отличается APEX-Agents от предыдущих бенчмарков?

Бенчмарк APEX-Agents фокусируется на высокодоходных профессиях, требующих устойчивого выполнения задач, в отличие от более общих тестов, таких как GDPval, что делает его более строгим и релевантным.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования; Право и регулирование; Государственное управление и общественная сфера

Темы: Искусственный интеллект; Межплатформенный анализ; Профессиональная автоматизация;

Оценка значимости: 4 из 10

Событие касается развития искусственного интеллекта в профессиональной среде, но его влияние на российскую аудиторию косвенное и ограничено. Оно затрагивает сферу технологий и образование, но не вызывает непосредственных изменений в жизни граждан или экономике страны. Время воздействия пока неясно, но, судя по всему, речь идет о долгосрочной тенденции. Поскольку развитие ИИ не является срочной или уникальной проблемой для России, его значимость для местной аудитории невелика.

Материалы по теме

Фонд Питера Тиля продал акции Nvidia на 100 млн долларов

Инвестиции фонда Питера Тиля в Mercor подчеркивают смену фокуса в стратегии вложений в ИИ, смещая акцент с технологических гигантов на перспективные стартапы. Это усиливает аргумент о том, что Mercor рассматривается как ключевой игрок в будущем ИИ-рынка, способный предложить решения, превосходящие текущие стандарты.

Подробнее →

Инвестиции в RL-окружения растут: ИИ-агенты готовятся к новым задачам

Упоминание о стоимости Mercor в $10 млрд и её работе над RL-окружениями для сложных секторов подкрепляет тезис о том, что компания находится в центре внимания как разработчик решений, способных имитировать реальные профессиональные задачи. Это усиливает доверие к её роли в формировании будущего ИИ-экосистемы.

Подробнее →

ИИ-ассистенты под угрозой: как атака Reprompt учит бизнес защищаться

Данные об уязвимости Reprompt и способе её реализации через ИИ-ассистенты становятся основой для обсуждения рисков безопасности, связанных с внедрением ИИ. Они усиливают тревожный тон раздела, подчеркивая, что даже при росте возможностей ИИ, он несет новые угрозы для конфиденциальности и корпоративной безопасности.

Подробнее →

Риски от поставщиков растут: как ИИ и сложные цепочки угрожают безопасности

Упоминание о расширении поверхности атак в цепочках поставок и недостатке комплексных планов реагирования на ИИ-инциденты служит доказательством роста сложности безопасности в условиях интеграции ИИ. Это усиливает аргумент о том, что компании пока не готовы адекватно управлять рисками, связанными с ИИ-поставщиками.

Подробнее →

ИИ в США: 10 миллионов рабочих мест под угрозой к 2030 году

Прогноз Forrester о сокращении 10,4 млн рабочих мест в США к 2030 году из-за ИИ и автоматизации подкрепляет ключевую идею о трансформации рынка труда. Это усиливает тревогу о масштабах изменений и необходимость переподготовки сотрудников, а не просто их замены.

Подробнее →