Галлюцинации ИИ — неизбежная реальность: что делать бизнесу
Исследование показало, что крупные языковые модели, включая ChatGPT, неизбежно генерируют ложную информацию из-за фундаментальных математических ограничений, которые невозможно устранить техническими улучшениями, и что даже современные модели демонстрируют значительные ошибки в ответах на конкретные вопросы. Эксперты отмечают, что текущие методы оценки ИИ поощряют галлюцинации, а для бизнеса необходимы новые подходы к управлению рисками, включая усиление участия человека, прозрачность и калиброванные оценки уверенности.
По данным исследования, опубликованного 4 сентября, крупные языковые модели, такие как ChatGPT, неизбежно генерируют ложную информацию — так называемые «галлюцинации» — из-за фундаментальных математических ограничений, которые невозможно устранить с помощью улучшений в инженерии. Работу подготовили исследователи OpenAI, включая Adam Tauman Kalai, Edwin Zhang, Ofir Nachum и Santosh S. Vempala из Georgia Tech.
Математическая неизбежность галлюцинаций
Исследование показало, что генеративные ошибки неизбежны даже при идеальной подготовке данных. В работе было установлено, что «скорость генеративных ошибок составляет минимум вдвое больше, чем ошибка классификации IIV (Is-It-Valid)», что демонстрирует математические нижние границы, доказывающие, что ИИ всегда будет совершать определённое количество ошибок, независимо от прогресса в технологии.
Проверка была проведена на современных моделях, включая DeepSeek-V3, Meta⋆ AI и Claude 3.7 Sonnet. Например, при вопросе «Сколько букв D в слове DEEPSEEK?» DeepSeek-V3 возвращал ответы «2» или «3» в десяти независимых тестах, а Meta⋆ AI и Claude 3.7 Sonnet — даже «6» и «7». OpenAI также признало, что его модели не застрахованы от подобных ошибок. В работе упоминается, что ChatGPT «галлюцинирует», а GPT-5 «значительно реже», но всё равно ошибается. Особенно высокий уровень галлюцинаций показали продвинутые модели o3 и o4-mini — 33% и 48% соответственно.
Почему галлюцинации неизбежны
Исследователи выделили три ключевых математических фактора, из-за которых галлюцинации неизбежны:
- Эпистемическая неопределённость — когда информация встречается редко в обучающих данных.
- Ограничения модели — когда задача выходит за рамки текущих архитектурных возможностей.
- Вычислительная сложность — даже сверхумные системы не способны решить криптографически сложные задачи.
Система оценки усугубляет проблему
Помимо математических ограничений, исследование OpenAI показало, что существующие методы оценки в отрасли фактически поощряют галлюцинации. Анализ популярных бенчмарков, включая GPQA, MMLU-Pro и SWE-bench, выявил, что 9 из 10 основных оценок используют двоичную систему, где «я не знаю» наказывается, а уверенные, но ошибочные ответы — поощряются.
Neil Shah из Counterpoint Technologies отмечает: «В отличие от человеческого интеллекта, ИИ не обладает скромностью признавать неуверенность. Когда он сомневается, он не обращается за подтверждением, а представляет оценки как факты».
Бизнесу нужно менять стратегии
Эксперты подчёркивают, что математическая неизбежность ошибок требует новых подходов в управлении рисками. Charlie Dai из Forrester советует: «Регулирование должно смещаться с предотвращения на контроль рисков. Это значит — усилить процессы с участием человека, внедрить специфические ограничения по предметной области и постоянное наблюдение».
Текущие фреймворки управления рисками ИИ доказали свою несостоятельность в условиях постоянных галлюцинаций. Shah предлагает провести реформу оценочных стандартов, аналогичную автомобильной безопасности: «Как компоненты автомобилей оцениваются по стандартам ASIL, так и модели ИИ должны получать динамические оценки, национальные и международные, на основе их надёжности и профиля риска».
Оба аналитика согласны: критерии выбора поставщиков требуют фундаментальной переработки. Dai рекомендует: «Компании должны приоритетом ставить калиброванный уровень уверенности и прозрачность, а не просто бенчмарки. Руководители ИИ должны выбирать поставщиков, которые предоставляют оценки неуверенности, надёжные тесты и проверку в реальных условиях».
Перспективы и вызовы
Реформа оценочных стандартов сталкивается с существенными препятствиями. Dai отмечает: «Изменение основных бенчмарков сложно. Это возможно только при давлении регуляторов, спросе со стороны бизнеса и стремлении к конкурентоспособности».
OpenAI подчеркивает, что их выводы требуют изменений в подходах к оценке моделей. «Это может направить отрасль к более надёжным ИИ-системам», — пишут исследователи, признавая, что некоторые уровни ненадёжности останутся неизбежными.
Нужно анализировать: Математическая неизбежность галлюцинаций требует пересмотра подходов к управлению рисками и выбору поставщиков ИИ. Для бизнеса это означает переход от попыток предотвращения ошибок к их системному контролю и минимизации последствий.
Математическая неизбежность иллюзий: как ошибки ИИ меняют бизнес-логику
Аналитики OpenAI доказали, что галлюцинации ИИ — не баг, а фича. Это не ошибка программирования или недостаток данных, а фундаментальная математическая неизбежность. Результаты исследования указывают на то, что даже при идеальных условиях модели неизбежно генерируют ложную информацию. Это открывает новые горизонты для понимания границ искусственного интеллекта и требует радикального пересмотра подходов к его применению.
Математика ошибок: зачем бизнесу это знать?
Работа исследователей показала, что генеративные ошибки неизбежны, даже если данные идеальны. Например, при простом вопросе о количестве букв в слове, модели DeepSeek-V3, Meta⋆ AI и Claude 3.7 Sonnet демонстрировали несоответствия. Такие ошибки не являются случайными — они заложены в самой структуре ИИ. Это означает, что бизнес не может полностью полагаться на ИИ-системы как на источники точной информации.
Три ключевых фактора делают галлюцинации неизбежными:
- Эпистемическая неопределённость — редкие данные в обучении;
- Ограничения модели — задачи, выходящие за рамки архитектуры;
- Вычислительная сложность — ИИ не способен решить задачи, которые требуют криптографической силы.
Ключевая идея: Галлюцинации ИИ — не баг, а математическая неизбежность, которая требует нового подхода к управлению рисками и выбору поставщиков.
Система оценки: как бизнес поощряет ошибки
Интересно, что сама система оценки ИИ-моделей способствует увеличению галлюцинаций. Популярные бенчмарки, такие как GPQA, MMLU-Pro и SWE-bench, поощряют уверенность, даже если она ошибочна. В них «я не знаю» наказывается, а «уверенно, но неверно» — поощряется. Это создает стимул для моделей давать ответы, даже если они не обладают достаточной уверенностью.
Neil Shah из Counterpoint Technologies отмечает, что ИИ не обладает человеческой скромностью: он не сомневается и не проверяет информацию. Это делает его опасным инструментом в критически важных сценариях — например, в юриспруденции, медицине или финансах.
Главный вывод: Существующие бенчмарки ИИ фактически поощряют галлюцинации, что делает необходимой реформу стандартов оценки, аналогичную автомобильной безопасности.
Как бизнес может адаптироваться
Для компаний, внедряющих ИИ, это исследование — сигнал к пересмотру стратегий. Charlie Dai из Forrester советует смещать фокус с предотвращения ошибок на их контроль. Это означает:
- Усиление участия человека в процессах принятия решений;
- Внедрение ограничений по предметной области;
- Постоянный мониторинг и корректировку работы ИИ.
Дополнительно Shah предлагает создать динамические оценочные стандарты, которые будут учитывать надёжность и профиль риска моделей. Это может включать национальные и международные оценки, похожие на ASIL-стандарты в автомобилестроении.
Практическое значение: Бизнесу необходимо переосмыслить выбор поставщиков ИИ, делая акцент на калибровку уверенности и прозрачность, а не только на бенчмарки.
Выводы для российского рынка
Для российских компаний, активно внедряющих ИИ, это исследование особенно актуально. Оно подчеркивает необходимость не только технического, но и организационного подхода к управлению рисками. В условиях, когда ошибки неизбежны, бизнес должен переходить от попыток их предотвращения к их системному контролю и минимизации последствий. Это включает в себя как внутренние процессы, так и выбор поставщиков, которые предоставляют прозрачные и проверенные решения.
Кроме того, в России уже формируется правовая база для регулирования ИИ. Рабочая группа Госдумы подготовила предварительное определение искусственного интеллекта, которое акцентирует внимание на защите персональных данных и авторских прав. Это указывает на необходимость разработки внутренних стандартов и политики, соответствующих национальным нормам.
Рекомендация: Российским компаниям стоит учитывать как технические, так и правовые аспекты при внедрении ИИ, чтобы минимизировать риски и соответствовать требованиям законодательства.