Июнь 2026   |   В фокусе

Модель Inter-1 выдумывает речь при тишине: риск ложных данных в бизнес-аналитике

Модель Inter-1 выдумывает диалоги в тишине, генерируя ложные фразы в 12% случаев из-за конфликта весов и примеров в запросе. Стандартные проверки пропускают эти галлюцинации, что ставит под угрозу достоверность решений на основе мультимодального анализа.

Компания Interhuman обнаружила системную ошибку в модели Inter-1, которая приводит к генерации несуществующей речи при анализе видео без звука. Вместо фиксации отсутствия аудиодорожки, модель выдумывает фразы, например, «Yeah, Friday at five», подстраиваясь под примеры в системном запросе. Исследование показало, что проблема кроется не в обучающих данных, а в сочетании пост-тренировочных весов и примеров в промпте, которые заставляют модель «заполнять тишину» вместо признания отсутствия данных. Это подтверждает наличие эффекта «Клевер Ханс» в ИИ, когда система опирается на вероятностные ожидания, а не на реальный входной сигнал.

Механизм возникновения галлюцинации

Команда разработчиков провела детальное расследование, исключив наиболее очевидные причины. Фраза «Yeah, Friday at five» не была найдена ни в обучающей выборке из 30 960 записей, ни в 4 603 транскриптах видео, ни в логах системы. Статистика упоминаемых дней недели в данных также не подтверждала гипотезу о частотном смещении: слово «вторник» встречалось чаще, чем «пятница», но модель всё равно генерировала фразу про пятницу.

Ключевым фактором стал системный промпт версии v3, внедренный в мае 2026 года. В нем содержался пример идеального ответа, где персонаж произносил именно эту фразу. Анализ логов за три недели показал рост упоминаний фразы в 150 раз после обновления промпта. Из 194 зафиксированных случаев 174 были связаны с загрузкой системного запроса, а лишь 20 — с генерацией модели.

Важный нюанс: Модель не просто копирует фразу из промпта, а использует её как шаблон. При замене слова «пятница» на «вторник» в примере, модель начала генерировать фразы про вторник, подтверждая зависимость от контекста запроса.

Экспериментальное подтверждение

Для разделения влияния промпта и весов модели были проведены два контролируемых эксперимента на тестовом видео без звука:

  1. Изменение промпта: При сохранении модели и замене фразы в примере на «We ship on Tuesday at noon», модель продолжала выдумывать речь, но теперь упоминала вторник. Это доказало, что конкретные слова берутся из контекста запроса.
  2. Сравнение моделей: При использовании одного и того же промпта модель Inter-1 генерировала несуществующий текст в 4 из 34 случаев (около 11,8%). Другие, более крупные модели, демонстрировали уровень ошибок от 0% до 2%.

Интересно, что даже при наличии инструкции «возвращать пустой транскрипт при отсутствии речи», модель Inter-1 игнорировала её. При этом более ранние версии модели и другие архитектуры не проявляли такого поведения. Это указывает на то, что пост-тренировка научила Inter-1 ожидать наличие речи в ответе как обязательный элемент, создав рефлекс «заполнить пробел».

Стоит учесть: Проблема носит системный характер. Даже если убрать проблемную фразу из промпта, модель продолжает выдумывать другие диалоги, так как рефлекс генерации речи закреплен в весах модели, а не только в тексте запроса.

Операционные последствия и скрытые риски

На основе выявленных фактов можно выделить следующие практические аспекты для внедрения мультимодальных систем:

  • Зависимость от контекста запроса: Примеры в системном промпте могут становиться источником галлюцинаций, если модель интерпретирует их как обязательный шаблон ответа, особенно при отсутствии входных данных.
  • Эффект пост-тренировки: Процесс дообучения может сформировать у модели предвзятость к наличию данных там, где их нет, заставляя её предпочитать выдумку признанию отсутствия информации.
  • Скрытые ошибки в логике: Даже если модель не выдает конкретную фразу из промпта, она может ошибочно утверждать в пояснении (rationale), что персонаж что-то сказал, хотя транскрипт пуст.
  • Необходимость новых методов валидации: Стандартные тесты, проверяющие только визуальную часть, могут не выявить ошибки, связанные с отсутствием аудио, так как модель опирается на текстовые и обучающие приоритеты.

На фоне этого: Решением проблемы является не просто удаление «плохих» примеров из промпта, а изменение подхода к обучению, где модель учится предпочитать ответ «данных нет» генерации правдоподобной, но ложной информации.

Влияние на рынок и технологии

Случай с Inter-1 демонстрирует фундаментальную сложность создания надежных мультимодальных систем. Проблема не уникальна для одной компании: литература описывает её как эффект «Клевер Ханс», когда модель предсказывает один модальность на основе другого, игнорируя реальный входной поток.

Для бизнеса это означает, что внедрение таких моделей требует дополнительных слоев защиты (guardrails) и специализированных тестов на отсутствие данных. Простое использование готовых моделей без проверки их поведения на «тихих» или неполных данных может привести к принятию решений на основе сгенерированных фактов. Разработка методов, заставляющих модель корректно обрабатывать отсутствие модальности, становится критическим направлением для обеспечения достоверности ИИ-аналитики.

Коротко о главном

Как изменение системного промпта версии v3 повлияло на частоту ошибок?

Внедрение примера с фразой «Yeah, Friday at five» в мае 2026 года привело к росту упоминаний этой фразы в 150 раз за три недели. Из 194 зафиксированных случаев 174 были напрямую связаны с загрузкой обновленного системного запроса, что доказало зависимость галлюцинаций от контекста.

Почему модель генерирует фразы про «вторник» после замены слова в примере?

При замене слова «пятница» на «вторник» в шаблоне ответа модель начала выдумывать диалоги про вторник, так как использует примеры из промпта как обязательный шаблон для заполнения пустоты. Это подтверждает, что конкретные слова берутся не из обучающих данных, а из контекста запроса.

Какова вероятность галлюцинации у модели Inter-1 по сравнению с другими архитектурами?

Модель Inter-1 генерирует несуществующий текст в 11,8% случаев (4 из 34), в то время как более крупные аналоги демонстрируют уровень ошибок от 0% до 2%. Такая разница возникла из-за того, что пост-тренировка научила Inter-1 ожидать наличие речи как обязательный элемент ответа.

Почему модель игнорирует инструкцию возвращать пустой транскрипт при отсутствии звука?

Даже при наличии явного указания не выдумывать данные, модель продолжает генерировать диалоги, так как рефлекс «заполнить пробел» закреплен в весах модели. Удаление проблемной фразы из промпта не решает проблему, поскольку модель начинает выдумывать другие несуществующие диалоги.

Почему стандартные тесты не выявляют ошибки в мультимодальных системах?

Проверки, фокусирующиеся только на визуальной части, пропускают ошибки, связанные с отсутствием аудио, потому что модель опирается на текстовые и обучающие приоритеты. Это приводит к скрытым ошибкам в логике, когда система ошибочно утверждает в пояснении, что персонаж что-то сказал.

Какие риски возникают при внедрении таких моделей в бизнес-процессы?

Использование готовых моделей без проверки их поведения на «тихих» данных может привести к принятию решений на основе сгенерированных фактов. Для предотвращения этого требуются дополнительные слои защиты и специализированные тесты на отсутствие модальности.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования

Материалы по теме