GPQA
GPQA в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
2025
25 сентября
GPQA усиливает галлюцинации за счёт своей оценочной системы
В исследовании OpenAI показано, что бенчмарк GPQA, используемый для оценки языковых моделей, способствует увеличению галлюцинаций, поскольку его система оценки поощряет уверенные, но ошибочные ответы и наказывает признание неуверенности. В 9 из 10 основных бенчмарков, включая GPQA, применяется двоичная система, где «я не знаю» считается ошибкой, а неправильный, но уверенный ответ — правильным. Это создаёт стимул для моделей генерировать ложную информацию вместо того, чтобы признавать отсутствие достоверных данных. В результате GPQA не только не устраняет, но и усугубляет проблему галлюцинаций, снижая качество оценки моделей.
GPQA имеет 1 запись событий в нашей базе. Объединили похожие карточки: GPQA; Generalized Pareto Quantile Approximation; Generalized Pareto Quantile Approach и другие.