Октябрь 2025   |   Обзор события   | 7

Мусорные данные подрывают логику AI: исследование показало последствия для LLM

Исследование, проведенное учеными из Техасского A&M, Техасского университета и Пердью, показало, что обучение больших языковых моделей на коротких, высокорейтинговых публикациях с низкой информативностью ухудшает их логические и контекстные способности. Эксперимент с четырьмя моделями, обученными на разных соотношениях данных, выявил снижение эффективности в задачах логики и контекста при увеличении доли таких данных, но в некоторых случаях повысил показатели по этическим нормам и стилям.

ИСХОДНЫЙ НАРРАТИВ

По данным исследования, проведенного учеными из Техасского A&M, Техасского университета и Пердью, качество обучающих данных оказывает существенное влияние на производительность больших языковых моделей (LLM). Эксперимент, описанный в препринте, показал, что использование «мусорных» данных (например, коротких, высокорейтинговых публикаций с низкой информативностью) в процессе предобучения приводит к ухудшению способности моделей к логическому мышлению и работе с контекстом.

Методология и ключевые параметры исследования

Для определения «мусорных» данных исследователи проанализировали 100 миллионов твитов из архива HuggingFace. В качестве критериев были взяты:

  • Высокая вовлеченность (лайки, ретвиты, комментарии) при низкой длине текста,
  • Семантическая «безыскусность» (темы вроде сенсационных заголовков, теорий заговора, поверхностных утверждений).

Для проверки гипотезы были обучены четыре LLM с разным соотношением «мусорных» и «контрольных» данных. Результаты тестирования включали:

  • ARC AI2 Reasoning Challenge (логическое мышление),
  • RULER (долгосрочная память),
  • HH-RLHF и AdvBench (этические нормы),
  • TRAIT (стиль персонажа).

Результаты и выводы

Увеличение доли «мусорных» данных в обучающих наборах статистически значимо снизило эффективность моделей в задачах логического мышления и работы с контекстом. Однако в некоторых случаях (например, при соотношении 50/50 для модели Llama 8B) смешанные данные улучшали показатели по этическим нормам и «личностным стилям».

Исследователи предупреждают, что чрезмерное использование интернет-данных может привести к «загрязнению содержания» моделей. Они рекомендуют пересмотреть подходы к сбору данных и внедрить строгую систему контроля качества для будущих версий LLM.

> Интересно: Каковы риски масштабного применения AI-генерируемых данных в обучении моделей, если это может усугубить «деградацию» их когнитивных способностей?

АНАЛИТИЧЕСКИЙ РАЗБОР

Система оценки: новый фактор в формировании надежности ИИ

Исследование OpenAI, представленное в блоке 29731, дополняет картину: даже при использовании качественных данных проблема «выдумок» остаётся критичной.

Ключевая причина — отсутствие в обучении механизмов оценки истинности утверждений. Модели запоминают языковые паттерны, но не учатся отличать правду от лжи. Это приводит к тому, что ИИ может с высокой уверенностью выдавать ложные факты, например, неверные даты или вымышленные названия работ.

Решение, предложенное исследователями:

  • Введение штрафов за ошибки в систему оценки моделей.
  • Награждение за признание неуверенности в ответах.
  • Пересмотр задач обучения: вместо простого предсказания следующего слова — добавление этапа проверки достоверности.

Концептуальное изображение
Создано специально для ASECTOR
Концептуальное изображение

Эти меры могут снизить частоту «гадания» моделей, особенно в задачах, где точность критична. Для российских разработчиков это особенно важно: если локальные данные уже имеют низкую информативность, то без корректировки системы оценки риски получения ложных выводов возрастут.

Двойной фильтр: данные + обучение

Совмещение двух подходов — контроль качества данных и оптимизация системы оценки — становится стратегическим. Российские компании, создающие ИИ, должны:

  • Инвестировать в инструменты фильтрации (например, автоматические системы отсеивания коротких текстов или сенсационных заголовков).
  • Адаптация методов обучения, аналогичных предложенным OpenAI, для снижения рисков выдумок.
  • Сотрудничество с международными партнёрами, чтобы получить доступ к проверенным базам данных и передовым алгоритмам.

Важно:

  • Для малых и средних стартапов, лишенных ресурсов для создания собственных фильтров, использование публичных архивов может стать рискованным.
  • Вузы и исследовательские центры РФ должны учитывать эти данные при разработке собственных моделей, чтобы избежать парадокса «чем больше данных, тем ниже качество».

Новый этап в гонке за ИИ

Качество данных и методы их обработки превращаются в стратегический ресурс, как редкие металлы в прошлом. Компании, которые внедрят комбинацию строгой фильтрации и адаптированной системы оценки, получат преимущество в создании надёжных моделей. Для России это открывает возможности, но требует значительных инвестиций в инфраструктуру и международное сотрудничество.

[!]

Коротко о главном

Какие критерии определяли «мусорные» данные в исследовании?

Учёные анализировали твиты с высокой вовлеченностью (лайки, ретвиты) при низкой длине текста и поверхностной семантикой, например, сенсационные заголовки или теории заговора.

Какие результаты получены при обучении LLM с «мусорными» данными?

Увеличение доли таких данных в наборах привело к статистически значимому снижению эффективности в задачах логики и контекста, но в 50/50 соотношении улучшило показатели по этическим нормам (HH-RLHF) и стилю персонажа (TRAIT).

Что рекомендуют исследователи для улучшения качества LLM?

Они предупреждают о риске «загрязнения содержания» из-за чрезмерного использования интернет-данных и предлагают внедрить строгую систему контроля качества обучающих наборов.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования

Оценка значимости: 7 из 10

Исследование затрагивает развитие технологий, включая большие языковые модели, которые могут применяться в России. Оно указывает на долгосрочные риски для качества AI-систем из-за «мусорных» данных, что касается сфер технологий, экономики и образования. Однако влияние косвенное, без прямых национальных последствий для России.

Материалы по теме

OpenAI раскрывает, почему ИИ всё ещё выдумывает факты

Исследование OpenAI о выдумках ИИ через отсутствие оценки истинности в обучении становится фундаментом для аргументации необходимости системных изменений в обучении моделей. Оно конкретизирует проблему «гадания» моделей, подкрепляя идею о критичности точности в задачах ИИ, и служит основой для предложений по штрафам за ошибки и признанию неуверенности, что усиливает логику перехода к «двойному фильтру» в российской ИИ-индустрии.

Подробнее →