Opus 4.5
Opus 4.5 в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
Opus 4.5 как эталон контекста и точности в агентных системах
Модель Opus 4.5 выступает в роли закрытого проприетарного решения, к которому приближается по объему контекстного окна новая открытая модель Nemotron 3 Super. Несмотря на то, что контекстное окно Opus 4.5 составляет менее 1 миллиона токенов, что уступает показателям Nemotron 3 Super, она остается одним из ключевых конкурентов в сравнительных тестах. На бенчмарке PinchBench, оценивающем выполнение агентных задач, Opus 4.5 показала результат ниже 85,6%, уступив лидерство обновленной модели NVIDIA. Высокие требования к оборудованию для запуска Opus 4.5 контрастируют с эффективностью новых архитектур, позволяющих работать на одном графическом ускорителе.
Ограниченная эффективность в профессиональных задачах
Модель Opus 4.5 показала результат в 18% правильно решенных задач в рамках бенчмарка APEX-Agents, что делает ее одной из менее успешных среди ведущих ИИ-моделей. Тестирование проводилось в условиях, имитирующих реальную офисную работу с распределенными данными в разных платформах, таких как Slack и Google Drive. Модель не справлялась с задачами, требующими синтеза информации из нескольких источников, что является ключевым требованием для высококвалифицированных профессий. В сравнении с предыдущим годом, когда аналогичные модели справлялись лишь в 5–10% случаев, Opus 4.5 демонстрирует прогресс, но пока остается недостаточной для автоматизации профессиональных процессов.
Рост конкурентоспособности за счёт эффективности и улучшений
Opus 4.5 — обновлённая версия флагманской модели Anthropic, демонстрирующая улучшенные показатели в программировании и пользовательском опыте. Она достигла 80.9% точности в бенчмарке SWE-Bench Verified, превзойдя GPT-5.1-Codex-Max и Gemini 3 Pro. Модель эффективнее использует токены: при аналогичном результате она расходует на 76% меньше токенов, чем Sonnet 4.5. Также внедрена функция context compaction, которая автоматически упрощает контекст диалога, позволяя избежать прерываний из-за превышения лимита. Для разработчиков доступен новый параметр «усилие», позволяющий управлять качеством ответа и затратами на токены.
Opus 4.5 имеет 3 записи событий в нашей базе.