MMLU Pro


MMLU Pro в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025
04 октября

Успех NVFP4 в тестах MMLU-Pro

Модель, обученная с использованием 4-битного формата NVFP4, показала на тестах MMLU-Pro 5-shot результат в 62.58%, что на 0.04% ближе к базовой версии на FP8 (62.62%). Это подтверждает, что NVFP4 сохраняет высокую точность выполнения задач при сниженных вычислительных затратах. Эксперименты проводились на модели объёмом 12 миллиардов параметров, обученной на 10 триллионах токенов. Разница в точности не привела к снижению производительности, что демонстрирует эффективность формата в условиях низкой точности.

Подробнее →

25 сентября

MMLU-Pro усиливает галлюцинации моделей

MMLU-Pro — один из популярных бенчмарков, используемых для оценки языковых моделей, — поощряет галлюцинации, поскольку 9 из 10 основных оценок в отрасли работают по двоичной системе. В этой системе модель получает наказание за ответ «я не знаю», но поощряется за уверенные, даже ошибочные ответы. Это стимулирует ИИ генерировать ложную информацию, чтобы избежать потери баллов. Анализ показал, что подобные подходы к оценке усугубляют проблему генеративных ошибок, делая её системной.

Подробнее →


MMLU Pro имеет 2 записи событий в нашей базе.
Объединили похожие карточки: MMLU Pro; MMLU-Pro и другие.