SWE-Bench Verified

SWE-Bench Verified в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Упоминается вместе:

Календарь упоминаний:

2025

08 ноября

Роль SWE-bench Verified в маркетинге ИИ

SWE-bench Verified используется компаниями, такими как OpenAI, для демонстрации высокой эффективности своих моделей, включая GPT-5, в задачах программирования и решения сложных технических проблем. Однако исследование Оксфордского интернет-института показало, что большинство бенчмарков, включая этот, не соответствуют строгим научным стандартам. Многие из них не дают чётких определений измеряемых показателей и используют неслучайные выборки, что снижает объективность сравнений. Это вызывает сомнения в том, насколько такие результаты отражают реальные способности моделей.

Подробнее →

30 сентября

Прорыв в тестировании производительности ИИ-моделей

Результаты тестирования на бенчмарке SWE-Bench Verified подтверждают высокую эффективность Claude Sonnet 4.5 в задачах программирования. Эта модель показала лучшие результаты в своем классе, что свидетельствует о её способности создавать готовые к внедрению приложения. Тестирование на SWE-Bench Verified оценивает, насколько модель может автономно выполнять сложные программные задачи, включая создание баз данных и проведение аудита безопасности.

Подробнее →

25 сентября

SWE-bench усиливает проблему галлюцинаций за счёт двоичной оценки

Анализ показал, что SWE-bench, как и другие популярные бенчмарки, использует двоичную систему оценки, которая наказывает ответ «я не знаю» и поощряет уверенные, но ошибочные ответы. Это способствует росту галлюцинаций, так как модели стремятся к максимальной уверенности, даже если информация неверна. Исследование OpenAI выявило, что 9 из 10 основных оценок в отрасли построены на аналогичных принципах, что создаёт стимул для генерации ложной информации.

Подробнее →

В нашей базе собрано 3 события по теме «SWE-Bench Verified». Мы показываем все из них.
Объединили похожие карточки: SWE-Bench Verified; Verified SWE-Bench; SW Benchmark и другие.

Китай захватывает открытый ИИ, а память дорожает: как два кризиса рушат западную модель бизнеса

Тренды

Искусственный интеллект и эрозия карьерной лестницы: как автоматизация блокирует путь новым специалистам

Тренды

Уязвимость ИИ как системный риск: новые угрозы критической инфраструктуре

Тренды