OpenAI раскрывает, почему ИИ всё ещё выдумывает факты
Новое исследование рассматривает проблему выдумок в больших языковых моделях, когда они выдают правдоподобные, но ложные сведения, например, неверные даты рождения или названия диссертаций. Авторы объясняют, что причина заключается в процессе обучения, где модели не получают информации о том, истинны ли обучающие данные, и предложили изменить систему оценки, чтобы модели меньше угадывали и чаще признавали неуверенность.
Новое исследование, опубликованное OpenAI, рассматривает вопрос, почему такие большие языковые модели, как GPT-5, и чатботы, вроде ChatGPT, всё ещё допускают выдумки. В блоге, посвящённом данной теме, компания даёт определение выдумкам как «представлениям, которые звучат правдоподобно, но не соответствуют действительности». OpenAI отмечает, что несмотря на улучшения, выдумки остаются существенной проблемой для всех моделей, и полностью их устранить невозможно.
Примеры выдумок и их причины
Для наглядности исследователи приводят пример: когда «широко используемый чатбот» был запрошен о названии диссертации Адама Таумана Калаи, он выдал три разных ответа, все из которых были неверными. Калаи является одним из авторов работы. Также при запросе даты рождения Калаи были получены три различных даты, ни одна из которых не оказалась верной.
Причина таких ошибок, по мнению авторов, кроется, в частности, в процессе предварительного обучения моделей, при котором модели учатся предсказывать следующее слово без указания, являются ли обучающие утверждения истинными или ложными. «Модель видит только положительные примеры плавного языка и должна приблизительно воспроизводить общее распределение», — говорится в исследовании.
«Ошибки в написании и скобках следуют последовательным паттернам, поэтому они исчезают при масштабировании. Но произвольные редкие факты, такие как день рождения питомца, нельзя предсказать только на основе паттернов, и поэтому они приводят к выдумкам», — подчёркивается в работе.
Предложения по улучшению оценки моделей
Вместо того чтобы сосредотачиваться на начальном этапе обучения, исследователи предлагают пересмотреть подход к оценке больших языковых моделей. Согласно их мнению, текущие методы оценки не порождают выдумки напрямую, но «устанавливают неправильные стимулы».
Авторы сравнивают эти оценки с вариантами тестов, где угадывание может быть оправданным, потому что «можно случайно оказаться правым», тогда как оставление вопроса без ответа «гарантирует ноль». Такая аналогия подводит к выводу, что модели, оцениваемые исключительно по точности, имеют стимул угадывать, а не признавать неуверенность.
Решение: изменение системы оценки
Предлагаемое решение заключается в внедрении системы, подобной тестам (например, SAT), где за неправильные ответы начисляются штрафные баллы, а за незаполненные вопросы — частичные. OpenAI рекомендует, чтобы оценка моделей «наказывала уверенные ошибки сильнее, чем неопределённость, и давала частичные баллы за подходящие выражения неуверенности».
Кроме того, исследователи отмечают, что недостаточно просто создать несколько новых тестов с учётом неопределённости. Скорее, необходимо обновить широко используемые оценки, основанные на точности, так чтобы их система оценки не поощряла угадывание. «Если основные таблицы результатов продолжают вознаграждать удачные угадывания, модели будут продолжать угадывать», — пишут они.
Человеческий разум против машинной логики: как ИИ учится ошибаться
Большие языковые модели, такие как GPT-5, демонстрируют поразительные способности к генерации текста, однако они всё ещё склонны к выдумкам — созданию правдоподобных, но ложных утверждений. Новое исследование показывает, что даже при увеличении объёма данных и сложности моделей эта проблема остаётся. Причина заключается в том, что модели обучаются не на правдивости, а на способности предсказывать следующее слово. Это приводит к тому, что модель может уверенно выдать ложную информацию, если она звучит логично и соответствует общим паттернам.
Механизмы ошибок и логика обучения
Модель не получает прямых указаний, что утверждение истинно или ложно. Вместо этого она анализирует, как часто определённые фразы встречаются в тексте. Если запрос касается конкретных и редких данных — например, даты рождения или названия диссертации — модель вынуждена «угадывать», потому что таких данных в обучающих материалах может не быть. При этом она выдаёт ответ с уверенностью, поскольку её обучение направлено на минимизацию ошибок в структуре текста, а не на точность фактов.
Таким образом, система оценки модели — ключевой фактор, влияющий на её поведение. Если модель «поощряется» за точность, она будет стремиться к ответу, даже если не обладает достоверной информацией. Это похоже на экзамен, где за правильный ответ начисляют баллы, а за пустой — ноль. Следовательно, модель «обучается» на угадывании, а не на анализе достоверности.
Как изменить систему?
OpenAI предлагает новую систему оценки, в которой модель будет наказываться за уверенные, но ошибочные ответы, а поощряться за признание неуверенности. Это напоминает тесты вроде SAT, где за неправильный ответ снижают балл, а за неопределённый — дают частичный. Такой подход может снизить число выдумок, поскольку модель будет стремиться к осторожности и точности. Однако, как отмечают исследователи, просто создать новые тесты недостаточно — нужно пересмотреть общепринятые критерии оценки, чтобы они не поощряли угадывание.
Перспективы и уроки
Внедрение подобных изменений может улучшить доверие к ИИ, особенно в таких сферах, как медицина, право и образование, где точность имеет критическое значение. Для России, которая активно развивает собственные решения в области искусственного интеллекта, этот опыт может стать важным ориентиром. Важно, чтобы отечественные разработки не просто копировали западные методики, а адаптировали их под реальные условия и потребности.
В конечном итоге, проблема выдумок — это не просто техническая сложность, а вопрос ответственности перед пользователем. ИИ должен не только говорить убедительно, но и быть достоверным. Как показывает практика, обучение на основе точности без контроля за правдивостью может привести к обратному эффекту.