Мусорные данные подрывают логику AI: исследование показало последствия для LLM
Исследование, проведенное учеными из Техасского A&M, Техасского университета и Пердью, показало, что обучение больших языковых моделей на коротких, высокорейтинговых публикациях с низкой информативностью ухудшает их логические и контекстные способности. Эксперимент с четырьмя моделями, обученными на разных соотношениях данных, выявил снижение эффективности в задачах логики и контекста при увеличении доли таких данных, но в некоторых случаях повысил показатели по этическим нормам и стилям.
По данным исследования, проведенного учеными из Техасского A&M, Техасского университета и Пердью, качество обучающих данных оказывает существенное влияние на производительность больших языковых моделей (LLM). Эксперимент, описанный в препринте, показал, что использование «мусорных» данных (например, коротких, высокорейтинговых публикаций с низкой информативностью) в процессе предобучения приводит к ухудшению способности моделей к логическому мышлению и работе с контекстом.
Методология и ключевые параметры исследования
Для определения «мусорных» данных исследователи проанализировали 100 миллионов твитов из архива HuggingFace. В качестве критериев были взяты:
- Высокая вовлеченность (лайки, ретвиты, комментарии) при низкой длине текста,
- Семантическая «безыскусность» (темы вроде сенсационных заголовков, теорий заговора, поверхностных утверждений).
Для проверки гипотезы были обучены четыре LLM с разным соотношением «мусорных» и «контрольных» данных. Результаты тестирования включали:
- ARC AI2 Reasoning Challenge (логическое мышление),
- RULER (долгосрочная память),
- HH-RLHF и AdvBench (этические нормы),
- TRAIT (стиль персонажа).
Результаты и выводы
Увеличение доли «мусорных» данных в обучающих наборах статистически значимо снизило эффективность моделей в задачах логического мышления и работы с контекстом. Однако в некоторых случаях (например, при соотношении 50/50 для модели Llama 8B) смешанные данные улучшали показатели по этическим нормам и «личностным стилям».
Исследователи предупреждают, что чрезмерное использование интернет-данных может привести к «загрязнению содержания» моделей. Они рекомендуют пересмотреть подходы к сбору данных и внедрить строгую систему контроля качества для будущих версий LLM.
> Интересно: Каковы риски масштабного применения AI-генерируемых данных в обучении моделей, если это может усугубить «деградацию» их когнитивных способностей?
Система оценки: новый фактор в формировании надежности ИИ
Исследование OpenAI, представленное в блоке 29731, дополняет картину: даже при использовании качественных данных проблема «выдумок» остаётся критичной.
Ключевая причина — отсутствие в обучении механизмов оценки истинности утверждений. Модели запоминают языковые паттерны, но не учатся отличать правду от лжи. Это приводит к тому, что ИИ может с высокой уверенностью выдавать ложные факты, например, неверные даты или вымышленные названия работ.
Решение, предложенное исследователями:
- Введение штрафов за ошибки в систему оценки моделей.
- Награждение за признание неуверенности в ответах.
- Пересмотр задач обучения: вместо простого предсказания следующего слова — добавление этапа проверки достоверности.

Эти меры могут снизить частоту «гадания» моделей, особенно в задачах, где точность критична. Для российских разработчиков это особенно важно: если локальные данные уже имеют низкую информативность, то без корректировки системы оценки риски получения ложных выводов возрастут.
Двойной фильтр: данные + обучение
Совмещение двух подходов — контроль качества данных и оптимизация системы оценки — становится стратегическим. Российские компании, создающие ИИ, должны:
- Инвестировать в инструменты фильтрации (например, автоматические системы отсеивания коротких текстов или сенсационных заголовков).
- Адаптация методов обучения, аналогичных предложенным OpenAI, для снижения рисков выдумок.
- Сотрудничество с международными партнёрами, чтобы получить доступ к проверенным базам данных и передовым алгоритмам.
Важно:
- Для малых и средних стартапов, лишенных ресурсов для создания собственных фильтров, использование публичных архивов может стать рискованным.
- Вузы и исследовательские центры РФ должны учитывать эти данные при разработке собственных моделей, чтобы избежать парадокса «чем больше данных, тем ниже качество».
Новый этап в гонке за ИИ
Качество данных и методы их обработки превращаются в стратегический ресурс, как редкие металлы в прошлом. Компании, которые внедрят комбинацию строгой фильтрации и адаптированной системы оценки, получат преимущество в создании надёжных моделей. Для России это открывает возможности, но требует значительных инвестиций в инфраструктуру и международное сотрудничество.