MMLU Pro
MMLU Pro в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
Успех NVFP4 в тестах MMLU-Pro
Модель, обученная с использованием 4-битного формата NVFP4, показала на тестах MMLU-Pro 5-shot результат в 62.58%, что на 0.04% ближе к базовой версии на FP8 (62.62%). Это подтверждает, что NVFP4 сохраняет высокую точность выполнения задач при сниженных вычислительных затратах. Эксперименты проводились на модели объёмом 12 миллиардов параметров, обученной на 10 триллионах токенов. Разница в точности не привела к снижению производительности, что демонстрирует эффективность формата в условиях низкой точности.
MMLU-Pro усиливает галлюцинации моделей
MMLU-Pro — один из популярных бенчмарков, используемых для оценки языковых моделей, — поощряет галлюцинации, поскольку 9 из 10 основных оценок в отрасли работают по двоичной системе. В этой системе модель получает наказание за ответ «я не знаю», но поощряется за уверенные, даже ошибочные ответы. Это стимулирует ИИ генерировать ложную информацию, чтобы избежать потери баллов. Анализ показал, что подобные подходы к оценке усугубляют проблему генеративных ошибок, делая её системной.
MMLU Pro имеет 2 записи событий в нашей базе. Объединили похожие карточки: MMLU Pro; MMLU-Pro и другие.