SWE-Bench Pro

SWE-Bench Pro в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Упоминается вместе:

Календарь упоминаний:

2026

29 апреля

GPT-5.5 набирает 58,6% в бенчмарке SWE-Bench Pro по решению задач GitHub

Суть: SWE-Bench Pro — это платформа для оценки способности ИИ-моделей решать инженерные задачи в реальных репозиториях GitHub.

Исследование: В тестировании на этой платформе новая модель GPT-5.5 достигла результата 58,6%, продемонстрировав способность решать больше задач за один проход, чем предыдущие версии.

Эффект: Высокий показатель в SWE-Bench Pro подтверждает эффективность модели в сфере разработки программного обеспечения и автономного выполнения инженерных сценариев.

Подробнее →

18 марта

SWE-Bench Pro как индикатор минимальных потерь качества при оптимизации затрат

Результаты тестирования на бенчмарке SWE-Bench Pro демонстрируют, что облегченная модель GPT-5.4 mini достигает показателя 54,4%, уступая флагманской версии всего на 3,3 процентных пункта. Эта минимальная разница в производительности подтверждает, что переход на более дешевые модели для рутинных задач не приводит к существенному снижению качества. Благодаря таким данным компании могут эффективно перераспределять нагрузку в многоуровневой архитектуре, экономя ресурсы без ущерба для функциональности.

Подробнее →

13 февраля

Высокая производительность Codex-Spark на SWE-Bench Pro

SWE-Bench Pro — это тестовая среда для оценки способности моделей искусственного интеллекта решать задачи программирования. GPT-5.3-Codex-Spark демонстрирует на ней высокую точность и скорость выполнения, превосходя более крупные версии модели. Это связано с оптимизацией самой модели и улучшениями в инфраструктуре OpenAI, включая сокращение задержек и использование специализированной аппаратуры.

Подробнее →

В нашей базе собрано 3 события по теме «SWE-Bench Pro». Мы показываем все из них.

Китай захватывает открытый ИИ, а память дорожает: как два кризиса рушат западную модель бизнеса

Тренды

Искусственный интеллект и эрозия карьерной лестницы: как автоматизация блокирует путь новым специалистам

Тренды

Уязвимость ИИ как системный риск: новые угрозы критической инфраструктуре

Тренды