OSWorld-Verified


OSWorld-Verified в новостной повестке, упоминания и aналитика в реальном времени.

Календарь упоминаний:

2026
18 марта

OSWorld-Verified как доказательство эффективности упрощенных моделей

Результаты тестирования на бенчмарке OSWorld-Verified показывают, что облегченная модель GPT-5.4 mini достигает 72,1% точности против 75% у флагманской версии, демонстрируя минимальный разрыв в производительности. Эти данные подтверждают, что переход на более дешевые решения для широкого круга задач не приводит к существенной потере качества. Таким образом, метрика OSWorld-Verified обосновывает возможность перераспределения рутинных операций на бюджетные модели в рамках многоуровневой архитектуры. Подробнее →


OSWorld-Verified имеет 1запись событий в нашей базе.