Бенчмарки ИИ подверглись критике: 84% не прошли научную проверку
Исследование Оксфордского интернет-института и других университетов показало, что лишь 16% из 445 проанализированных бенчмарков для крупных языковых моделей соответствуют строгим научным стандартам, а большинство из них страдает от нечётких определений и несправедливой выборки. Компании, такие как OpenAI, активно используют результаты этих тестов в маркетинговых целях, что вызывает вопросы по поводу их объективности и научной обоснованности.
По данным Theregister, исследование, проведённое Оксфордским интернет-институтом (Oxford Internet Institute, OII) и рядом университетов, выявило серьёзные вопросы к научной обоснованности большинства тестов, на которых основываются заявления компаний в области ИИ. Всего было проанализировано 445 бенчмарков для крупных языковых моделей (LLM), и только 16% из них соответствуют строгим научным стандартам.
Проблема с определениями и выборкой
Более половины бенчмарков пытаются оценить абстрактные понятия, такие как рассуждение или безопасность, но не дают чётких определений этих терминов или способов их измерения. Это затрудняет объективное сравнение моделей.
Исследователи указывают на ещё одну проблему — 27% из изученных тестов используют удобную выборку (convenience sampling), то есть данные подбираются не случайным образом, а исходя из удобства. Например, если в тесте используются задачи из экзамена AIME, числа в них подобраны так, чтобы упрощать расчёты. Это делает такие тесты непредставительными для оценки реальных способностей моделей.
Бенчмарки как инструмент маркетинга
Компании, такие как OpenAI, активно используют результаты бенчмарков в маркетинговых целях. Так, при запуске GPT-5 в этом году компания заявила, что модель показала рекордные результаты на тестах AIME 2025, SWE-bench Verified, Aider Polyglot, MMMU и HealthBench Hard. Эти тесты оценивают способность моделей решать математические задачи, писать код, понимать изображения и работать в медицинских условиях.
Однако, как отмечают авторы исследования, без чётких критериев и научного подхода к измерению, такие заявки остаются спорными. Примером может служить задача AIME 2025: «Найдите сумму всех положительных целых чисел n, таких что n+2 делит произведение 3(n+3)(n²+9)». Такие задачи подобраны для удобства, и их успешное решение не гарантирует, что модель справится с более сложными вычислениями.
Рекомендации и реакция сообщества
Авторы исследования предложили восемь рекомендаций, направленных на повышение качества бенчмарков. Среди них — чёткое определение измеряемого явления, защита от утечек данных и использование статистических методов для сравнения моделей. В работе также участвовали специалисты из EPFL, Стэнфордского университета, Технического университета Мюнхена, Калифорнийского университета в Беркли, Великобританского института безопасности ИИ, Вайценбаум-института и Йельского университета.
Не только OII задаётся вопросом достоверности бенчмарков. В феврале группа исследователей из Европейской комиссии опубликовала работу под названием «Can We Trust AI Benchmarks?», в которой указала на системные проблемы в оценке ИИ, включая несоответствие интересов, отсутствие валидности и манипуляции с результатами.
Новые инициативы в сфере тестирования
Некоторые разработчики бенчмарков уже реагируют на критику. Например, Greg Kamradt, президент Arc Prize Foundation, объявил о запуске программы ARC Prize Verified, которая направлена на усиление научной строгости оценки моделей на основе ARC-AGI. Он отметил, что разные методы подачи запросов и выбора данных затрудняют объективное сравнение моделей, что ведёт к путанице на рынке.
OpenAI и Microsoft также имеют собственные внутренние бенчмарки для оценки достижения искусственного общего интеллекта (AGI), несмотря на то, что сам термин остаётся нечётко определён. Для этих компаний достижение AGI важно по причинам, связанным с правами на интеллектуальную собственность и эксклюзивными соглашениями.
Интересно: Как обеспечить объективность в оценке ИИ, если сами бенчмарки не соответствуют научным стандартам?

Кризис доверия к бенчмаркам ИИ: что стоит за спорами
Наука уступает маркетингу
Когда крупные компании вроде OpenAI или Google публикуют результаты своих моделей на бенчмарках, это больше похоже на рекламу, чем на научную публикацию. По данным Оксфордского интернет-института, только 16% всех тестов соответствуют строгим научным стандартам. Остальные — это не объективные метрики, а удобные инструменты, которые помогают создавать впечатление прогресса.
Важный нюанс: Результаты тестов могут быть красивыми, но если критерии не прозрачны, то и прогресс — лишь иллюзия.
Проблема в том, что определения ключевых понятий, таких как рассуждение или безопасность, часто остаются абстрактными. И это даёт компании простор для манёвра: можно выбрать тест, который выгодно подчеркнёт сильные стороны модели, и игнорировать слабые. Такие подходы не только снижают научную ценность бенчмарков, но и создают иллюзию прогресса, которая может ввести в заблуждение как инвесторов, так и конечных пользователей.
Удобство становится угрозой
Ещё одна проблема — удобная выборка данных. 27% тестов используют данные, подобранные не случайным образом, а исходя из удобства. Например, задачи из экзамена AIME настолько упрощены, что модель может решить их, не обладая реальными вычислительными навыками. Это похоже на то, как если бы учитель на контрольной давал только те вопросы, на которые знает ответы ученики. Результат — не отражает реальных способностей.
Важный нюанс: Когда тесты становятся инструментом маркетинга, прогресс меряется не по качеству, а по публичности.
В российском контексте это может быть особенно опасно. Если бизнес будет ориентироваться на такие бенчмарки, то инвестиции в ИИ могут направляться в неправильные направления. Например, компания может считать модель успешной, если она хорошо справляется с упрощёнными задачами, но не с реальными проблемами бизнеса. Это приведёт к неэффективному использованию ресурсов и потере доверия к ИИ-инициативам.
Кризис доверия усиливает конкуренцию
Сложившаяся ситуация подогревает конкуренцию в сфере ИИ. OpenAI, например, демонстрирует высокие результаты в решении задач программирования, соответствующих условиям чемпионата мира ICPC [!]. Модель показала идеальные результаты (12/12), что подтверждает её эффективность в сложных алгоритмических задачах. Однако, как отмечают исследователи, такие результаты должны оцениваться в рамках объективных критериев, а не только по публичным декларациям.
Параллельно компания активно развивает ИИ-инфраструктуру. OpenAI заключила соглашение с Amazon на 38 млрд долларов, что обеспечит доступ к десяткам тысяч чипов NVIDIA и ускорит развитие технологий [!]. В рамках масштабной стратегии компания также сотрудничает с AMD, NVIDIA, Oracle и другими ключевыми игроками рынка. Это позволяет OpenAI расширять партнёрскую сеть и снижать зависимость от одного поставщика.
Что дальше?
Некоторые игроки уже начинают реагировать. Например, Arc Prize Foundation запустила программу ARC Prize Verified, которая пытается установить более строгие научные стандарты для тестирования ИИ. Это важно, потому что, как показывает практика, рынок сам по себе не способен обеспечить объективность.
Для российских компаний и исследовательских центров ключевым становится вопрос: как оценивать ИИ-модели, если сами бенчмарки не соответствуют научным стандартам? Возможно, стоит разрабатывать собственные критерии, адаптированные под локальные задачи и реальные бизнес-кейсы. Это не только повысит доверие к ИИ-инициативам, но и поможет избежать рисков, связанных с неправильной трактовкой результатов.
Источник: The Register