Сентябрь 2025 | Обзор события | 7

Галлюцинации ИИ — неизбежная реальность: что делать бизнесу

Исследование показало, что крупные языковые модели, включая ChatGPT, неизбежно генерируют ложную информацию из-за фундаментальных математических ограничений, которые невозможно устранить техническими улучшениями, и что даже современные модели демонстрируют значительные ошибки в ответах на конкретные вопросы. Эксперты отмечают, что текущие методы оценки ИИ поощряют галлюцинации, а для бизнеса необходимы новые подходы к управлению рисками, включая усиление участия человека, прозрачность и калиброванные оценки уверенности.

Содержание

Обзор

Математическая неизбежность галлюцинаций

Почему галлюцинации неизбежны

Система оценки усугубляет проблему

Бизнесу нужно менять стратегии

Перспективы и вызовы

Математическая неизбежность иллюзий: как ошибки ИИ меняют бизнес-логику
- Математика ошибок: зачем бизнесу это знать?
- Система оценки: как бизнес поощряет ошибки
- Как бизнес может адаптироваться
- Выводы для российского рынка

ИСХОДНЫЙ НАРРАТИВ

По данным исследования, опубликованного 4 сентября, крупные языковые модели, такие как ChatGPT, неизбежно генерируют ложную информацию — так называемые «галлюцинации» — из-за фундаментальных математических ограничений, которые невозможно устранить с помощью улучшений в инженерии. Работу подготовили исследователи OpenAI, включая Adam Tauman Kalai, Edwin Zhang, Ofir Nachum и Santosh S. Vempala из Georgia Tech.

Математическая неизбежность галлюцинаций

Исследование показало, что генеративные ошибки неизбежны даже при идеальной подготовке данных. В работе было установлено, что «скорость генеративных ошибок составляет минимум вдвое больше, чем ошибка классификации IIV (Is-It-Valid)», что демонстрирует математические нижние границы, доказывающие, что ИИ всегда будет совершать определённое количество ошибок, независимо от прогресса в технологии.

Проверка была проведена на современных моделях, включая DeepSeek-V3, Meta⋆ AI и Claude 3.7 Sonnet. Например, при вопросе «Сколько букв D в слове DEEPSEEK?» DeepSeek-V3 возвращал ответы «2» или «3» в десяти независимых тестах, а Meta⋆ AI и Claude 3.7 Sonnet — даже «6» и «7». OpenAI также признало, что его модели не застрахованы от подобных ошибок. В работе упоминается, что ChatGPT «галлюцинирует», а GPT-5 «значительно реже», но всё равно ошибается. Особенно высокий уровень галлюцинаций показали продвинутые модели o3 и o4-mini — 33% и 48% соответственно.

Почему галлюцинации неизбежны

Исследователи выделили три ключевых математических фактора, из-за которых галлюцинации неизбежны:

Эпистемическая неопределённость — когда информация встречается редко в обучающих данных.
Ограничения модели — когда задача выходит за рамки текущих архитектурных возможностей.
Вычислительная сложность — даже сверхумные системы не способны решить криптографически сложные задачи.

Система оценки усугубляет проблему

Помимо математических ограничений, исследование OpenAI показало, что существующие методы оценки в отрасли фактически поощряют галлюцинации. Анализ популярных бенчмарков, включая GPQA, MMLU-Pro и SWE-bench, выявил, что 9 из 10 основных оценок используют двоичную систему, где «я не знаю» наказывается, а уверенные, но ошибочные ответы — поощряются.

Neil Shah из Counterpoint Technologies отмечает: «В отличие от человеческого интеллекта, ИИ не обладает скромностью признавать неуверенность. Когда он сомневается, он не обращается за подтверждением, а представляет оценки как факты».

Бизнесу нужно менять стратегии

Эксперты подчёркивают, что математическая неизбежность ошибок требует новых подходов в управлении рисками. Charlie Dai из Forrester советует: «Регулирование должно смещаться с предотвращения на контроль рисков. Это значит — усилить процессы с участием человека, внедрить специфические ограничения по предметной области и постоянное наблюдение».

Текущие фреймворки управления рисками ИИ доказали свою несостоятельность в условиях постоянных галлюцинаций. Shah предлагает провести реформу оценочных стандартов, аналогичную автомобильной безопасности: «Как компоненты автомобилей оцениваются по стандартам ASIL, так и модели ИИ должны получать динамические оценки, национальные и международные, на основе их надёжности и профиля риска».

Оба аналитика согласны: критерии выбора поставщиков требуют фундаментальной переработки. Dai рекомендует: «Компании должны приоритетом ставить калиброванный уровень уверенности и прозрачность, а не просто бенчмарки. Руководители ИИ должны выбирать поставщиков, которые предоставляют оценки неуверенности, надёжные тесты и проверку в реальных условиях».

Перспективы и вызовы

Реформа оценочных стандартов сталкивается с существенными препятствиями. Dai отмечает: «Изменение основных бенчмарков сложно. Это возможно только при давлении регуляторов, спросе со стороны бизнеса и стремлении к конкурентоспособности».

OpenAI подчеркивает, что их выводы требуют изменений в подходах к оценке моделей. «Это может направить отрасль к более надёжным ИИ-системам», — пишут исследователи, признавая, что некоторые уровни ненадёжности останутся неизбежными.

Нужно анализировать: Математическая неизбежность галлюцинаций требует пересмотра подходов к управлению рисками и выбору поставщиков ИИ. Для бизнеса это означает переход от попыток предотвращения ошибок к их системному контролю и минимизации последствий.

АНАЛИТИЧЕСКИЙ РАЗБОР

Математическая неизбежность иллюзий: как ошибки ИИ меняют бизнес-логику

Аналитики OpenAI доказали, что галлюцинации ИИ — не баг, а фича. Это не ошибка программирования или недостаток данных, а фундаментальная математическая неизбежность. Результаты исследования указывают на то, что даже при идеальных условиях модели неизбежно генерируют ложную информацию. Это открывает новые горизонты для понимания границ искусственного интеллекта и требует радикального пересмотра подходов к его применению.

Математика ошибок: зачем бизнесу это знать?

Работа исследователей показала, что генеративные ошибки неизбежны, даже если данные идеальны. Например, при простом вопросе о количестве букв в слове, модели DeepSeek-V3, Meta⋆ AI и Claude 3.7 Sonnet демонстрировали несоответствия. Такие ошибки не являются случайными — они заложены в самой структуре ИИ. Это означает, что бизнес не может полностью полагаться на ИИ-системы как на источники точной информации.

Три ключевых фактора делают галлюцинации неизбежными:

Эпистемическая неопределённость — редкие данные в обучении;
Ограничения модели — задачи, выходящие за рамки архитектуры;
Вычислительная сложность — ИИ не способен решить задачи, которые требуют криптографической силы.

Ключевая идея: Галлюцинации ИИ — не баг, а математическая неизбежность, которая требует нового подхода к управлению рисками и выбору поставщиков.

Система оценки: как бизнес поощряет ошибки

Интересно, что сама система оценки ИИ-моделей способствует увеличению галлюцинаций. Популярные бенчмарки, такие как GPQA, MMLU-Pro и SWE-bench, поощряют уверенность, даже если она ошибочна. В них «я не знаю» наказывается, а «уверенно, но неверно» — поощряется. Это создает стимул для моделей давать ответы, даже если они не обладают достаточной уверенностью.

Neil Shah из Counterpoint Technologies отмечает, что ИИ не обладает человеческой скромностью: он не сомневается и не проверяет информацию. Это делает его опасным инструментом в критически важных сценариях — например, в юриспруденции, медицине или финансах.

Главный вывод: Существующие бенчмарки ИИ фактически поощряют галлюцинации, что делает необходимой реформу стандартов оценки, аналогичную автомобильной безопасности.

Как бизнес может адаптироваться

Для компаний, внедряющих ИИ, это исследование — сигнал к пересмотру стратегий. Charlie Dai из Forrester советует смещать фокус с предотвращения ошибок на их контроль. Это означает:

Усиление участия человека в процессах принятия решений;
Внедрение ограничений по предметной области;
Постоянный мониторинг и корректировку работы ИИ.

Дополнительно Shah предлагает создать динамические оценочные стандарты, которые будут учитывать надёжность и профиль риска моделей. Это может включать национальные и международные оценки, похожие на ASIL-стандарты в автомобилестроении.

Практическое значение: Бизнесу необходимо переосмыслить выбор поставщиков ИИ, делая акцент на калибровку уверенности и прозрачность, а не только на бенчмарки.

Выводы для российского рынка

Для российских компаний, активно внедряющих ИИ, это исследование особенно актуально. Оно подчеркивает необходимость не только технического, но и организационного подхода к управлению рисками. В условиях, когда ошибки неизбежны, бизнес должен переходить от попыток их предотвращения к их системному контролю и минимизации последствий. Это включает в себя как внутренние процессы, так и выбор поставщиков, которые предоставляют прозрачные и проверенные решения.

Кроме того, в России уже формируется правовая база для регулирования ИИ. Рабочая группа Госдумы подготовила предварительное определение искусственного интеллекта, которое акцентирует внимание на защите персональных данных и авторских прав. Это указывает на необходимость разработки внутренних стандартов и политики, соответствующих национальным нормам.

Рекомендация: Российским компаниям стоит учитывать как технические, так и правовые аспекты при внедрении ИИ, чтобы минимизировать риски и соответствовать требованиям законодательства.

Контакты Асектор ✉

Коротко о главном

Продвинутые модели OpenAI ошибаются в 33–48% случаев

Модели o3 и o4-mini показали высокий уровень галлюцинаций — 33% и 48% соответственно, что подтверждает их уязвимость к генерации ложной информации. Даже ChatGPT и GPT-5 не застрахованы от подобных ошибок.

Современные бенчмарки поощряют галлюцинации

9 из 10 популярных систем оценки, включая GPQA и MMLU-Pro, наказывают неуверенные ответы и поощряют уверенные, но ошибочные. Это создаёт стимул для моделей генерировать ложную информацию вместо признания неуверенности.

Три фактора делают галлюцинации неизбежными

Исследователи выделили эпистемическую неопределённость, ограничения архитектуры и вычислительную сложность как ключевые причины, из-за которых ИИ не может избежать ошибок. Эти факторы связаны с редкостью информации, сложностью задач и невозможностью решить криптографически сложные проблемы.

Бизнесу рекомендуют перейти к контролю рисков

Эксперты советуют усилить процессы с участием человека, внедрить ограничения по предметной области и постоянное наблюдение. Это связано с тем, что текущие фреймворки управления рисками ИИ доказали свою несостоятельность.

Предлагается реформировать оценочные стандарты для ИИ

Аналитики сравнивают необходимость изменений с автомобильной безопасностью, где компоненты оцениваются по строгим стандартам. Это включает динамическую оценку моделей на основе их надёжности и профиля риска.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Аналитика и исследования; Управление и стратегия; Цифровизация и технологии

Темы: Искусственный интеллект; Ошибки генерации; Управление рисками;

Оценка значимости: 7 из 10

Исследование OpenAI о неизбежности галлюцинаций в ИИ имеет широкое международное влияние и касается ключевых сфер — технологии, экономику и регулирование. Оно затрагивает Россию косвенно, так как развитие ИИ и его применение в бизнесе и государственных системах актуальны и для страны. Масштаб аудитории — глобальный, время воздействия — долгосрочное, так как речь идёт о фундаментальных ограничениях технологий. Глубина последствий высока, поскольку это может повлиять на доверие к ИИ, подходы к его регулированию и выбор технологий в различных отраслях.