Модель Inter-1 выдумывает речь при тишине: риск ложных данных в бизнес-аналитике
Модель Inter-1 выдумывает диалоги в тишине, генерируя ложные фразы в 12% случаев из-за конфликта весов и примеров в запросе. Стандартные проверки пропускают эти галлюцинации, что ставит под угрозу достоверность решений на основе мультимодального анализа.
Компания Interhuman обнаружила системную ошибку в модели Inter-1, которая приводит к генерации несуществующей речи при анализе видео без звука. Вместо фиксации отсутствия аудиодорожки, модель выдумывает фразы, например, «Yeah, Friday at five», подстраиваясь под примеры в системном запросе. Исследование показало, что проблема кроется не в обучающих данных, а в сочетании пост-тренировочных весов и примеров в промпте, которые заставляют модель «заполнять тишину» вместо признания отсутствия данных. Это подтверждает наличие эффекта «Клевер Ханс» в ИИ, когда система опирается на вероятностные ожидания, а не на реальный входной сигнал.
Механизм возникновения галлюцинации
Команда разработчиков провела детальное расследование, исключив наиболее очевидные причины. Фраза «Yeah, Friday at five» не была найдена ни в обучающей выборке из 30 960 записей, ни в 4 603 транскриптах видео, ни в логах системы. Статистика упоминаемых дней недели в данных также не подтверждала гипотезу о частотном смещении: слово «вторник» встречалось чаще, чем «пятница», но модель всё равно генерировала фразу про пятницу.
Ключевым фактором стал системный промпт версии v3, внедренный в мае 2026 года. В нем содержался пример идеального ответа, где персонаж произносил именно эту фразу. Анализ логов за три недели показал рост упоминаний фразы в 150 раз после обновления промпта. Из 194 зафиксированных случаев 174 были связаны с загрузкой системного запроса, а лишь 20 — с генерацией модели.
Важный нюанс: Модель не просто копирует фразу из промпта, а использует её как шаблон. При замене слова «пятница» на «вторник» в примере, модель начала генерировать фразы про вторник, подтверждая зависимость от контекста запроса.
Экспериментальное подтверждение
Для разделения влияния промпта и весов модели были проведены два контролируемых эксперимента на тестовом видео без звука:
- Изменение промпта: При сохранении модели и замене фразы в примере на «We ship on Tuesday at noon», модель продолжала выдумывать речь, но теперь упоминала вторник. Это доказало, что конкретные слова берутся из контекста запроса.
- Сравнение моделей: При использовании одного и того же промпта модель Inter-1 генерировала несуществующий текст в 4 из 34 случаев (около 11,8%). Другие, более крупные модели, демонстрировали уровень ошибок от 0% до 2%.
Интересно, что даже при наличии инструкции «возвращать пустой транскрипт при отсутствии речи», модель Inter-1 игнорировала её. При этом более ранние версии модели и другие архитектуры не проявляли такого поведения. Это указывает на то, что пост-тренировка научила Inter-1 ожидать наличие речи в ответе как обязательный элемент, создав рефлекс «заполнить пробел».
Стоит учесть: Проблема носит системный характер. Даже если убрать проблемную фразу из промпта, модель продолжает выдумывать другие диалоги, так как рефлекс генерации речи закреплен в весах модели, а не только в тексте запроса.
Операционные последствия и скрытые риски
На основе выявленных фактов можно выделить следующие практические аспекты для внедрения мультимодальных систем:
- Зависимость от контекста запроса: Примеры в системном промпте могут становиться источником галлюцинаций, если модель интерпретирует их как обязательный шаблон ответа, особенно при отсутствии входных данных.
- Эффект пост-тренировки: Процесс дообучения может сформировать у модели предвзятость к наличию данных там, где их нет, заставляя её предпочитать выдумку признанию отсутствия информации.
- Скрытые ошибки в логике: Даже если модель не выдает конкретную фразу из промпта, она может ошибочно утверждать в пояснении (rationale), что персонаж что-то сказал, хотя транскрипт пуст.
- Необходимость новых методов валидации: Стандартные тесты, проверяющие только визуальную часть, могут не выявить ошибки, связанные с отсутствием аудио, так как модель опирается на текстовые и обучающие приоритеты.
На фоне этого: Решением проблемы является не просто удаление «плохих» примеров из промпта, а изменение подхода к обучению, где модель учится предпочитать ответ «данных нет» генерации правдоподобной, но ложной информации.
Влияние на рынок и технологии
Случай с Inter-1 демонстрирует фундаментальную сложность создания надежных мультимодальных систем. Проблема не уникальна для одной компании: литература описывает её как эффект «Клевер Ханс», когда модель предсказывает один модальность на основе другого, игнорируя реальный входной поток.
Для бизнеса это означает, что внедрение таких моделей требует дополнительных слоев защиты (guardrails) и специализированных тестов на отсутствие данных. Простое использование готовых моделей без проверки их поведения на «тихих» или неполных данных может привести к принятию решений на основе сгенерированных фактов. Разработка методов, заставляющих модель корректно обрабатывать отсутствие модальности, становится критическим направлением для обеспечения достоверности ИИ-аналитики.