Ноябрь 2025 | Обзор события | 8

Бенчмарки ИИ подверглись критике: 84% не прошли научную проверку

Q: Как часто в бенчмарках используется неслучайная выборка?

27% бенчмарков используют удобную выборку, например, задачи из экзамена AIME, где числа подобраны так, чтобы упрощать вычисления, что делает тесты непредставительными.

Исследование Оксфордского интернет-института и других университетов показало, что лишь 16% из 445 проанализированных бенчмарков для крупных языковых моделей соответствуют строгим научным стандартам, а большинство из них страдает от нечётких определений и несправедливой выборки. Компании, такие как OpenAI, активно используют результаты этих тестов в маркетинговых целях, что вызывает вопросы по поводу их объективности и научной обоснованности.

Содержание

Обзор

Проблема с определениями и выборкой

Бенчмарки как инструмент маркетинга

Рекомендации и реакция сообщества

Новые инициативы в сфере тестирования

Кризис доверия к бенчмаркам ИИ: что стоит за спорами
- Наука уступает маркетингу
- Удобство становится угрозой
- Кризис доверия усиливает конкуренцию
- Что дальше?

ИСХОДНЫЙ НАРРАТИВ

По данным Theregister, исследование, проведённое Оксфордским интернет-институтом (Oxford Internet Institute, OII) и рядом университетов, выявило серьёзные вопросы к научной обоснованности большинства тестов, на которых основываются заявления компаний в области ИИ. Всего было проанализировано 445 бенчмарков для крупных языковых моделей (LLM), и только 16% из них соответствуют строгим научным стандартам.

Проблема с определениями и выборкой

Более половины бенчмарков пытаются оценить абстрактные понятия, такие как рассуждение или безопасность, но не дают чётких определений этих терминов или способов их измерения. Это затрудняет объективное сравнение моделей.

Исследователи указывают на ещё одну проблему — 27% из изученных тестов используют удобную выборку (convenience sampling), то есть данные подбираются не случайным образом, а исходя из удобства. Например, если в тесте используются задачи из экзамена AIME, числа в них подобраны так, чтобы упрощать расчёты. Это делает такие тесты непредставительными для оценки реальных способностей моделей.

Бенчмарки как инструмент маркетинга

Компании, такие как OpenAI, активно используют результаты бенчмарков в маркетинговых целях. Так, при запуске GPT-5 в этом году компания заявила, что модель показала рекордные результаты на тестах AIME 2025, SWE-bench Verified, Aider Polyglot, MMMU и HealthBench Hard. Эти тесты оценивают способность моделей решать математические задачи, писать код, понимать изображения и работать в медицинских условиях.

Однако, как отмечают авторы исследования, без чётких критериев и научного подхода к измерению, такие заявки остаются спорными. Примером может служить задача AIME 2025: «Найдите сумму всех положительных целых чисел n, таких что n+2 делит произведение 3(n+3)(n²+9)». Такие задачи подобраны для удобства, и их успешное решение не гарантирует, что модель справится с более сложными вычислениями.

Новые инициативы в сфере тестирования

Некоторые разработчики бенчмарков уже реагируют на критику. Например, Greg Kamradt, президент Arc Prize Foundation, объявил о запуске программы ARC Prize Verified, которая направлена на усиление научной строгости оценки моделей на основе ARC-AGI. Он отметил, что разные методы подачи запросов и выбора данных затрудняют объективное сравнение моделей, что ведёт к путанице на рынке.

OpenAI и Microsoft также имеют собственные внутренние бенчмарки для оценки достижения искусственного общего интеллекта (AGI), несмотря на то, что сам термин остаётся нечётко определён. Для этих компаний достижение AGI важно по причинам, связанным с правами на интеллектуальную собственность и эксклюзивными соглашениями.

Интересно: Как обеспечить объективность в оценке ИИ, если сами бенчмарки не соответствуют научным стандартам?

Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

Кризис доверия к бенчмаркам ИИ: что стоит за спорами

Наука уступает маркетингу

Когда крупные компании вроде OpenAI или Google публикуют результаты своих моделей на бенчмарках, это больше похоже на рекламу, чем на научную публикацию. По данным Оксфордского интернет-института, только 16% всех тестов соответствуют строгим научным стандартам. Остальные — это не объективные метрики, а удобные инструменты, которые помогают создавать впечатление прогресса.

Важный нюанс: Результаты тестов могут быть красивыми, но если критерии не прозрачны, то и прогресс — лишь иллюзия.

Проблема в том, что определения ключевых понятий, таких как рассуждение или безопасность, часто остаются абстрактными. И это даёт компании простор для манёвра: можно выбрать тест, который выгодно подчеркнёт сильные стороны модели, и игнорировать слабые. Такие подходы не только снижают научную ценность бенчмарков, но и создают иллюзию прогресса, которая может ввести в заблуждение как инвесторов, так и конечных пользователей.

Удобство становится угрозой

Ещё одна проблема — удобная выборка данных. 27% тестов используют данные, подобранные не случайным образом, а исходя из удобства. Например, задачи из экзамена AIME настолько упрощены, что модель может решить их, не обладая реальными вычислительными навыками. Это похоже на то, как если бы учитель на контрольной давал только те вопросы, на которые знает ответы ученики. Результат — не отражает реальных способностей.

Важный нюанс: Когда тесты становятся инструментом маркетинга, прогресс меряется не по качеству, а по публичности.

В российском контексте это может быть особенно опасно. Если бизнес будет ориентироваться на такие бенчмарки, то инвестиции в ИИ могут направляться в неправильные направления. Например, компания может считать модель успешной, если она хорошо справляется с упрощёнными задачами, но не с реальными проблемами бизнеса. Это приведёт к неэффективному использованию ресурсов и потере доверия к ИИ-инициативам.

Кризис доверия усиливает конкуренцию

Сложившаяся ситуация подогревает конкуренцию в сфере ИИ. OpenAI, например, демонстрирует высокие результаты в решении задач программирования, соответствующих условиям чемпионата мира ICPC [!]. Модель показала идеальные результаты (12/12), что подтверждает её эффективность в сложных алгоритмических задачах. Однако, как отмечают исследователи, такие результаты должны оцениваться в рамках объективных критериев, а не только по публичным декларациям.

Параллельно компания активно развивает ИИ-инфраструктуру. OpenAI заключила соглашение с Amazon на 38 млрд долларов, что обеспечит доступ к десяткам тысяч чипов NVIDIA и ускорит развитие технологий [!]. В рамках масштабной стратегии компания также сотрудничает с AMD, NVIDIA, Oracle и другими ключевыми игроками рынка. Это позволяет OpenAI расширять партнёрскую сеть и снижать зависимость от одного поставщика.

Что дальше?

Некоторые игроки уже начинают реагировать. Например, Arc Prize Foundation запустила программу ARC Prize Verified, которая пытается установить более строгие научные стандарты для тестирования ИИ. Это важно, потому что, как показывает практика, рынок сам по себе не способен обеспечить объективность.

Для российских компаний и исследовательских центров ключевым становится вопрос: как оценивать ИИ-модели, если сами бенчмарки не соответствуют научным стандартам? Возможно, стоит разрабатывать собственные критерии, адаптированные под локальные задачи и реальные бизнес-кейсы. Это не только повысит доверие к ИИ-инициативам, но и поможет избежать рисков, связанных с неправильной трактовкой результатов.

Источник: The Register

Контакты Асектор ✉

Коротко о главном

Почему большинство бенчмарков вызывают сомнения?

Более половины из них пытаются оценить абстрактные понятия, такие как рассуждение или безопасность, без чётких определений или методов измерения, что делает сравнение моделей субъективным.

Как часто в бенчмарках используется неслучайная выборка?

27% бенчмарков используют удобную выборку, например, задачи из экзамена AIME, где числа подобраны так, чтобы упрощать вычисления, что делает тесты непредставительными.

Почему OpenAI использует результаты бенчмарков при запуске GPT-5?

Компания заявила, что GPT-5 показала рекордные результаты на тестах AIME 2025, SWE-bench Verified и других, чтобы продемонстрировать её способности в математике, программировании и медицине.

Какие рекомендации предложили исследователи?

Авторы исследования предложили восемь рекомендаций, включая чёткое определение измеряемых свойств, защиту от утечек данных и применение статистических методов для объективного сравнения моделей.

Какие организации участвовали в исследовании?

В работе участвовали специалисты из OII, EPFL, Стэнфордского университета, Технического университета Мюнхена, Калифорнийского университета в Беркли и других научных институтов.

Какие инициативы уже реагируют на критику бенчмарков?

Arc Prize Foundation запустила программу ARC Prize Verified, чтобы повысить научную строгость оценки ИИ, а OpenAI и Microsoft используют внутренние бенчмарки для оценки AGI, несмотря на неопределённость самого понятия.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования; Маркетинг и продажи; Право и регулирование

Темы: Анализ моделей искусственного интеллекта; Использование искусственного интеллекта в маркетинге; Научная подтверждённость;

Оценка значимости: 8 из 10

Событие имеет национальный и глобальный интерес из-за влияния на развитие искусственного интеллекта, что касается как российских, так и международных исследовательских и технологических сообществ. Оно затрагивает несколько сфер — наука, технологии, бизнес и регулирование, а также поднимает вопросы доверия к научным методам и маркетинговым практикам крупных компаний. Поскольку ИИ становится важной частью экономики и политики, проблема объективности бенчмарков может иметь долгосрочные последствия для инновационной инфраструктуры и конкурентоспособности стран, включая Россию.

Материалы по теме

OpenAI инвестирует $38 млрд в облако AWS для ускорения ИИ

Сделка OpenAI с Amazon на $38 млрд подчеркивает стратегию расширения ИИ-инфраструктуры компании, усиливая её позиции на рынке и снижая зависимость от одного партнёра. Это усиливает аргумент о том, что крупные игроки в ИИ активно инвестируют в масштабирование, чтобы удерживать конкурентное преимущество.

Подробнее →

ИИ-модели против людей-чемпионов: битва в программировании

Идеальные результаты OpenAI (12/12) на задачах программирования, соответствующих чемпионату мира ICPC, демонстрируют высокую эффективность модели в решении сложных алгоритмических задач. Эти данные служат примером того, как компании используют бенчмарки для демонстрации прогресса, что поднимает вопрос о прозрачности и объективности таких тестов.