GPQA

GPQA в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025

25 сентября

GPQA усиливает галлюцинации за счёт своей оценочной системы

В исследовании OpenAI показано, что бенчмарк GPQA, используемый для оценки языковых моделей, способствует увеличению галлюцинаций, поскольку его система оценки поощряет уверенные, но ошибочные ответы и наказывает признание неуверенности. В 9 из 10 основных бенчмарков, включая GPQA, применяется двоичная система, где «я не знаю» считается ошибкой, а неправильный, но уверенный ответ — правильным. Это создаёт стимул для моделей генерировать ложную информацию вместо того, чтобы признавать отсутствие достоверных данных. В результате GPQA не только не устраняет, но и усугубляет проблему галлюцинаций, снижая качество оценки моделей.

Подробнее →

GPQA имеет 1 запись событий в нашей базе. Объединили похожие карточки: GPQA; Generalized Pareto Quantile Approximation; Generalized Pareto Quantile Approach и другие.

Китай захватывает открытый ИИ, а память дорожает: как два кризиса рушат западную модель бизнеса

Тренды

Искусственный интеллект и эрозия карьерной лестницы: как автоматизация блокирует путь новым специалистам

Тренды

Уязвимость ИИ как системный риск: новые угрозы критической инфраструктуре

Тренды