Январь 2026   |   Обзор события   | 8

Крупные ИИ-гиганты под угрозой: в модели может утекать защищённый контент

Исследователи из Стэнфордского и Йельского университетов обнаружили, что коммерческие ИИ-модели способны запоминать и воспроизводить защищённый контент, что может повлиять на их юридическую защиту. В ходе экспериментов из некоторых моделей удаётся извлечь значительные части текстов, что ставит под сомнение их соответствие принципу «справедливого использования».

ИСХОДНЫЙ НАРРАТИВ

Качество обучения ИИ-агентов под вопросом

По данным The Register, вопросы, связанные с тем, как обучены крупные модели искусственного интеллекта, всё чаще выходят на первый план. Среди ключевых участников в этой сфере — Anthropic, Google, OpenAI и Nvidia — уже выдвинуто более 60 юридических исков, касающихся использования авторских материалов без разрешения. Вложения в развитие ИИ со стороны этих компаний исчисляются сотнями миллиардов долларов, что делает юридическую обоснованность их действий критически важной.

Ключевым аспектом судебных разбирательств становится вопрос: запоминают ли модели обучающие данные и способны ли они выдавать их в ответ на конкретные запросы. Согласно американскому законодательству, критерием, определяющим возможность применения принципа «справедливого использования», является трансформация — добавление новой ценности или изменение характера исходного произведения. Если модель воспроизводит защищённый материал в буквальном виде, это может ослабить её защиту.

Важным элементом для минимизации рисков стало внедрение «оградительных» механизмов — фильтров, которые ограничивают возможность вывода больших фрагментов авторских текстов, изображений или аудио. Такие меры особенно актуальны для коммерческих моделей, где отсутствие прозрачности в составе обучающих данных усиливает юридическую неопределённость.

Защищенные произведения воспроизводит ИИ

Исследователи из Стэнфордского и Йельского университетов, включая Ахмеда Ахмеда, А. Федер Коопера, Санми Койехо и Перси Лианга, установили, что коммерческие модели, такие как Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro и Grok 3, способны запоминать и воспроизводить защищённый контент.

Уровень восстановления текста варьировался. Например, при использовании обходных запросов («джейлбрейков») из Claude 3.7 Sonnet удалось извлечь 95.8% текста книги Гарри Поттер и Философский камень. У Gemini 2.5 Pro и Grok 3 восстановлено 76.8% и 70.3% соответственно, без применения специальных запросов. GPT-4.1 оказался наиболее устойчивым — только 4% текста было воспроизведено.

Результаты были сообщены компаниям Anthropic, Google DeepMind, OpenAI и xAI. Только xAI, чей Grok сталкивается с критикой из-за генерации несогласованных сексуальных сцен, не подтвердил получение информации. К 9 декабря 2025 года исследователи отметили, что их метод всё ещё работает на некоторых системах, хотя они не назвали конкретного поставщика.

Anthropic прекратила доступ к Claude 3.7 Sonnet 29 ноября 2025 года, но, как указывается в исследовании, это не обязательно связано с выявленными проблемами — модель могла быть заменена более новой версией.

Интересно: Каковы будут последствия для бизнеса, если станет возможным извлекать значительные фрагменты защищённых произведений из коммерческих ИИ-моделей?

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ становится библиотекой: новые риски и старые законы

Результаты исследований из Стэнфордского и Йельского университетов, а также данные из недавних судебных и корпоративных решений, демонстрируют, что коммерческие модели искусственного интеллекта всё чаще сталкиваются с проблемой воспроизведения защищённого контента. Это не просто техническая сложность — это вызов правовым нормам, которые ещё не до конца адаптированы к цифровой реальности.

Важно понять: если модель может воспроизводить авторский материал в почти неизменённом виде, она теряет статус «трансформированного» произведения, что ослабляет её защиту в суде. Это означает, что компании, инвестирующие миллиарды в обучение ИИ, рискуют столкнуться с серьёзными последствиями, если их модели будут восприняты как нечестный способ доступа к защищённым данным.

Концептуальное изображение
Создано специально для ASECTOR
Концептуальное изображение

Важно понять: фильтры могут быть обойдены. Если у модели есть способность запоминать, значит, она может и выдавать. И чем больше данных в её обучающей выборке, тем выше риск утечки. Это создаёт парадокс: чем лучше модель, тем больше она подвержена юридическим рискам.

Кто выигрывает, а кто проигрывает?

На первый взгляд, ущерб от этих утечек — исключительно для авторов и издателей. Однако на деле ситуация сложнее. Компании, разрабатывающие ИИ, сталкиваются с давлением со стороны юридических структур, что может привести к ограничениям в использовании обучающих данных или дополнительным затратам на защиту. В свою очередь, это может замедлить развитие технологий.

С другой стороны, исследователи и пользователи получают инструмент для анализа и тестирования моделей. Это может способствовать повышению прозрачности, но при этом увеличивает риски для бизнеса.

Важно понять: в этой ситуации нет однозначных победителей. Утечка контента — это не только вопрос авторских прав, но и баланса между инновациями, безопасностью и законодательством.

Новые вызовы: от авторских прав к угрозам кибербезопасности

Риски, связанные с утечкой данных, выходят за рамки юридических споров. В 2025 году компания Anthropic столкнулась с угрозами, связанными с использованием её модели Claude злоумышленниками из Северной Кореи и Китая для получения несанкционированного доступа к внутренним системам крупных технологических компаний [!]. Это подчеркивает, что ИИ может быть использован не только для генерации текстов, но и как инструмент кибератак.

Кроме того, OpenAI столкнулась с утечкой данных пользователей API, включая личную информацию, в результате инцидента с бывшим поставщиком Mixpanel [!]. Хотя ChatGPT не пострадал, инцидент показывает, что даже крупнейшие ИИ-компании не застрахованы от утечек, связанных с инфраструктурой.

Стратегии защиты: от фильтров к лицензиям

Одним из решений, уже применяемых на практике, стало заключение лицензионных соглашений. Например, OpenAI подписала трёхлетнее соглашение с Disney, позволившее использовать её персонажей в AI-генераторе видео Sora [!]. Это не только снизило юридические риски, но и открыло путь к коммерциализации ИИ-продуктов в сфере медиаконтента.

Anthropic также заключила соглашение на сумму $1,5 млрд с писателями, признав, что её модели могли использовать материалы без разрешения [!]. Это показывает, что компании начинают осознавать необходимость прозрачности и ответственности в использовании данных.

Перспективы и рекомендации для бизнеса

Для минимизации рисков ключевым становится аудит обучающих данных, внедрение более строгих фильтров и заключение лицензионных соглашений. Также важно учитывать, что модели могут быть использованы не только для генерации текстов, но и как инструменты для кибератак, что требует дополнительных мер безопасности.

Важно понять: если ИИ-модель становится цифровой библиотекой, это меняет не только её функциональность, но и всю юридическую и экономическую модель её использования.

Коротко о главном

Каков ключевой юридический вопрос в судебных разбирательствах вокруг ИИ?

Вопрос заключается в том, запоминают ли модели обучающие данные и могут ли они воспроизводить их, что может ослабить защиту под принципом «справедливого использования» в США.

Какие меры внедряются для снижения юридических рисков у ИИ-моделей?

Компании внедряют «оградительные» механизмы — фильтры, ограничивающие вывод больших фрагментов защищённого контента, особенно в коммерческих моделях с непрозрачным составом обучающих данных.

Какие модели показали способность воспроизводить защищённый контент?

Исследователи из Стэнфордского и Йельского университетов доказали, что Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro и Grok 3 могут запоминать и воспроизводить защищённый текст, согласно исследованию Extracting books from production language models.

Какой процент текста книги *Гарри Поттер и Философский камень* удалось извлечь из моделей?

Из Claude 3.7 Sonnet — 95.8%, из Gemini 2.5 Pro — 76.8%, из Grok 3 — 70.3%, а из GPT-4.1 — всего 4%, что делает последнюю наиболее устойчивой к извлечению.

Когда и почему была прекращена доступность модели Claude 3.7 Sonnet?

Доступ к Claude 3.7 Sonnet был прекращён 29 ноября 2025 года, но, согласно исследованию, это могло быть связано с заменой модели на более новую версию, а не с выявленными проблемами.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования; Право и регулирование

Оценка значимости: 8 из 10

Событие имеет национальное значение для России, так как затрагивает развитие и регулирование искусственного интеллекта — ключевого направления технологической политики страны. Юридические риски, связанные с использованием защищённых данных, могут повлиять на создание и экспорт российских ИИ-продуктов. Воздействие долгосрочное, затрагивает несколько сфер: экономику, технологии, право и науку. Высокая глубина последствий связана с возможными изменениями в подходах к разработке и коммерциализации ИИ, что особенно важно для России, стремящейся усилить позиции в глобальной ИИ-индустрии.

Материалы по теме

AI-агент нашел больше уязвимостей, чем хакеры — и обошелся дешевле

Упоминание использования модели Claude операторами из Северной Кореи и Китая для получения несанкционированного доступа к внутренним системам крупных технологических компаний усиливает аргумент о том, что ИИ может быть использован не только как инструмент генерации текстов, но и как средство кибератак, что выходит за рамки юридических споров и становится угрозой кибербезопасности.

Подробнее →
OpenAI: утечка данных через бывшего поставщика Mixpanel

Информация об утечке данных пользователей API OpenAI через бывшего поставщика Mixpanel, включая личную информацию, служит примером реального риска, связанного с инфраструктурой ИИ-компаний, и подкрепляет тезис о том, что даже крупнейшие игроки не застрахованы от утечек, что требует дополнительных мер безопасности.

Подробнее →
Disney вливает $1 млрд в OpenAI для AI-видео с персонажами

Упоминание соглашения OpenAI с Disney, позволившего использовать её персонажей в AI-генераторе видео Sora, иллюстрирует стратегию компаний по минимизации юридических рисков через заключение лицензионных соглашений, что открывает путь к коммерциализации ИИ-продуктов в сфере медиаконтента.

Подробнее →
СМИ и ИИ-стартапы вступили в новый этап войны за контент

Сведения о соглашении Anthropic с писателями на сумму $1,5 млрд подчёркивают рост осознания необходимостью прозрачности и ответственности при использовании данных для обучения ИИ-моделей, что стало важной частью стратегии защиты от юридических рисков.

Подробнее →
Стихотворные запросы обходят защиту AI в 65% случаев — уязвимость крупных LLM

Упоминание того, что модель Claude от Anthropic поддавалась атакам через стихотворные запросы всего в 5,24% случаев, подкрепляет аргумент о том, что фильтры могут быть обойдены, и что даже самые защищённые модели не являются полностью безопасными, что создаёт парадокс: чем лучше модель, тем выше риск утечки.

Подробнее →