SWE-Bench Pro
SWE-Bench Pro в новостной повестке, упоминания и aналитика в реальном времени.
Календарь упоминаний:
SWE-Bench Pro как индикатор минимальных потерь качества при оптимизации затрат
Результаты тестирования на бенчмарке SWE-Bench Pro демонстрируют, что облегченная модель GPT-5.4 mini достигает показателя 54,4%, уступая флагманской версии всего на 3,3 процентных пункта. Эта минимальная разница в производительности подтверждает, что переход на более дешевые модели для рутинных задач не приводит к существенному снижению качества. Благодаря таким данным компании могут эффективно перераспределять нагрузку в многоуровневой архитектуре, экономя ресурсы без ущерба для функциональности.
Высокая производительность Codex-Spark на SWE-Bench Pro
SWE-Bench Pro — это тестовая среда для оценки способности моделей искусственного интеллекта решать задачи программирования. GPT-5.3-Codex-Spark демонстрирует на ней высокую точность и скорость выполнения, превосходя более крупные версии модели. Это связано с оптимизацией самой модели и улучшениями в инфраструктуре OpenAI, включая сокращение задержек и использование специализированной аппаратуры.
SWE-Bench Pro имеет 2записи событий в нашей базе.