OSWorld-Verified
OSWorld-Verified в новостной повестке, упоминания и aналитика в реальном времени.
Календарь упоминаний:
2026
18 марта
OSWorld-Verified как доказательство эффективности упрощенных моделей
Результаты тестирования на бенчмарке OSWorld-Verified показывают, что облегченная модель GPT-5.4 mini достигает 72,1% точности против 75% у флагманской версии, демонстрируя минимальный разрыв в производительности. Эти данные подтверждают, что переход на более дешевые решения для широкого круга задач не приводит к существенной потере качества. Таким образом, метрика OSWorld-Verified обосновывает возможность перераспределения рутинных операций на бюджетные модели в рамках многоуровневой архитектуры.
OSWorld-Verified имеет 1запись событий в нашей базе.