Крупные ИИ-гиганты под угрозой: в модели может утекать защищённый контент
Исследователи из Стэнфордского и Йельского университетов обнаружили, что коммерческие ИИ-модели способны запоминать и воспроизводить защищённый контент, что может повлиять на их юридическую защиту. В ходе экспериментов из некоторых моделей удаётся извлечь значительные части текстов, что ставит под сомнение их соответствие принципу «справедливого использования».
Качество обучения ИИ-агентов под вопросом
По данным The Register, вопросы, связанные с тем, как обучены крупные модели искусственного интеллекта, всё чаще выходят на первый план. Среди ключевых участников в этой сфере — Anthropic, Google, OpenAI и Nvidia — уже выдвинуто более 60 юридических исков, касающихся использования авторских материалов без разрешения. Вложения в развитие ИИ со стороны этих компаний исчисляются сотнями миллиардов долларов, что делает юридическую обоснованность их действий критически важной.
Ключевым аспектом судебных разбирательств становится вопрос: запоминают ли модели обучающие данные и способны ли они выдавать их в ответ на конкретные запросы. Согласно американскому законодательству, критерием, определяющим возможность применения принципа «справедливого использования», является трансформация — добавление новой ценности или изменение характера исходного произведения. Если модель воспроизводит защищённый материал в буквальном виде, это может ослабить её защиту.
Важным элементом для минимизации рисков стало внедрение «оградительных» механизмов — фильтров, которые ограничивают возможность вывода больших фрагментов авторских текстов, изображений или аудио. Такие меры особенно актуальны для коммерческих моделей, где отсутствие прозрачности в составе обучающих данных усиливает юридическую неопределённость.
Защищенные произведения воспроизводит ИИ
Исследователи из Стэнфордского и Йельского университетов, включая Ахмеда Ахмеда, А. Федер Коопера, Санми Койехо и Перси Лианга, установили, что коммерческие модели, такие как Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro и Grok 3, способны запоминать и воспроизводить защищённый контент.
Уровень восстановления текста варьировался. Например, при использовании обходных запросов («джейлбрейков») из Claude 3.7 Sonnet удалось извлечь 95.8% текста книги Гарри Поттер и Философский камень. У Gemini 2.5 Pro и Grok 3 восстановлено 76.8% и 70.3% соответственно, без применения специальных запросов. GPT-4.1 оказался наиболее устойчивым — только 4% текста было воспроизведено.
Результаты были сообщены компаниям Anthropic, Google DeepMind, OpenAI и xAI. Только xAI, чей Grok сталкивается с критикой из-за генерации несогласованных сексуальных сцен, не подтвердил получение информации. К 9 декабря 2025 года исследователи отметили, что их метод всё ещё работает на некоторых системах, хотя они не назвали конкретного поставщика.
Anthropic прекратила доступ к Claude 3.7 Sonnet 29 ноября 2025 года, но, как указывается в исследовании, это не обязательно связано с выявленными проблемами — модель могла быть заменена более новой версией.
Интересно: Каковы будут последствия для бизнеса, если станет возможным извлекать значительные фрагменты защищённых произведений из коммерческих ИИ-моделей?
Когда ИИ становится библиотекой: новые риски и старые законы
Результаты исследований из Стэнфордского и Йельского университетов, а также данные из недавних судебных и корпоративных решений, демонстрируют, что коммерческие модели искусственного интеллекта всё чаще сталкиваются с проблемой воспроизведения защищённого контента. Это не просто техническая сложность — это вызов правовым нормам, которые ещё не до конца адаптированы к цифровой реальности.
Важно понять: если модель может воспроизводить авторский материал в почти неизменённом виде, она теряет статус «трансформированного» произведения, что ослабляет её защиту в суде. Это означает, что компании, инвестирующие миллиарды в обучение ИИ, рискуют столкнуться с серьёзными последствиями, если их модели будут восприняты как нечестный способ доступа к защищённым данным.

Важно понять: фильтры могут быть обойдены. Если у модели есть способность запоминать, значит, она может и выдавать. И чем больше данных в её обучающей выборке, тем выше риск утечки. Это создаёт парадокс: чем лучше модель, тем больше она подвержена юридическим рискам.
Кто выигрывает, а кто проигрывает?
На первый взгляд, ущерб от этих утечек — исключительно для авторов и издателей. Однако на деле ситуация сложнее. Компании, разрабатывающие ИИ, сталкиваются с давлением со стороны юридических структур, что может привести к ограничениям в использовании обучающих данных или дополнительным затратам на защиту. В свою очередь, это может замедлить развитие технологий.
С другой стороны, исследователи и пользователи получают инструмент для анализа и тестирования моделей. Это может способствовать повышению прозрачности, но при этом увеличивает риски для бизнеса.
Важно понять: в этой ситуации нет однозначных победителей. Утечка контента — это не только вопрос авторских прав, но и баланса между инновациями, безопасностью и законодательством.
Новые вызовы: от авторских прав к угрозам кибербезопасности
Риски, связанные с утечкой данных, выходят за рамки юридических споров. В 2025 году компания Anthropic столкнулась с угрозами, связанными с использованием её модели Claude злоумышленниками из Северной Кореи и Китая для получения несанкционированного доступа к внутренним системам крупных технологических компаний [!]. Это подчеркивает, что ИИ может быть использован не только для генерации текстов, но и как инструмент кибератак.
Кроме того, OpenAI столкнулась с утечкой данных пользователей API, включая личную информацию, в результате инцидента с бывшим поставщиком Mixpanel [!]. Хотя ChatGPT не пострадал, инцидент показывает, что даже крупнейшие ИИ-компании не застрахованы от утечек, связанных с инфраструктурой.
Стратегии защиты: от фильтров к лицензиям
Одним из решений, уже применяемых на практике, стало заключение лицензионных соглашений. Например, OpenAI подписала трёхлетнее соглашение с Disney, позволившее использовать её персонажей в AI-генераторе видео Sora [!]. Это не только снизило юридические риски, но и открыло путь к коммерциализации ИИ-продуктов в сфере медиаконтента.
Anthropic также заключила соглашение на сумму $1,5 млрд с писателями, признав, что её модели могли использовать материалы без разрешения [!]. Это показывает, что компании начинают осознавать необходимость прозрачности и ответственности в использовании данных.
Перспективы и рекомендации для бизнеса
Для минимизации рисков ключевым становится аудит обучающих данных, внедрение более строгих фильтров и заключение лицензионных соглашений. Также важно учитывать, что модели могут быть использованы не только для генерации текстов, но и как инструменты для кибератак, что требует дополнительных мер безопасности.
Важно понять: если ИИ-модель становится цифровой библиотекой, это меняет не только её функциональность, но и всю юридическую и экономическую модель её использования.
Источник: The Register