Февраль 2026   |   Обзор события   | 7

Меморизация ИИ: модели запоминают 70% текстов популярных книг

Крупнейшие ИИ-модели запоминают и воспроизводят защищённые тексты с поразительной точностью, ставя под угрозу юридические аргументы компаний в борьбе с авторскими правами. Это открывает путь к глобальному пересмотру правил обучения ИИ и может существенно изменить баланс сил между технологическими гигантами и правообладателями.

ИСХОДНЫЙ НАРРАТИВ

По данным издания Ars Technica, ряд исследований, проведённых университетами Стэнфорд и Йель, выявил, что крупнейшие в мире языковые модели, включая продукты OpenAI, Google, Meta⋆, Anthropic и xAI, способны генерировать тексты, почти полностью совпадающие с популярными книгами. Это ставит под сомнение утверждения компаний, что их системы не хранят защищённые авторским правом материалы.

Эксперименты показали, что модели, такие как Grok 3 и Gemini 2.5, при правильных подсказках могут воспроизводить до 70–76% текста из таких произведений, как «Игра престолов», «Голодные игры» и «Хоббит». В некоторых случаях, особенно при использовании метода «обхода ограничений» (jailbreaking), модели воспроизводили тексты почти дословно. Это подтверждает, что меморизация — способность ИИ запоминать данные из обучающих наборов — может быть гораздо сильнее, чем предполагалось ранее.

Утверждения компаний о «безопасности» ИИ подвергаются сомнению

Компании, занимающиеся разработкой ИИ, ранее настаивали, что их модели не хранят копии обучающих данных. Например, в 2023 году Google заявила, что «в модели нет копии обучающих данных — текстов, изображений или других форматов». Также утверждалось, что использование защищённых авторским правом материалов в обучении ИИ соответствует принципу «честного использования», поскольку технология преобразует исходный контент в что-то новое.

Однако новые исследования показывают, что это утверждение может быть ошибочным. Специалисты в области ИИ и права отмечают, что способность моделей запоминать и воспроизводить тексты может серьёзно повлиять на ход судебных разбирательств. Например, в США суд признал, что использование пиратских материалов в обучении Anthropic является нарушением авторских прав. В результате компания выплатила $1,5 млрд в качестве компенсации.

В Европе, в Германии, в ноябре прошлого года суд постановил, что OpenAI нарушило авторские права, поскольку её модель запомнила тексты песен. Это дело, инициированное ассоциацией GEMA, стало важным прецедентом в ЕС.

Потенциальные риски для других отраслей

Кроме юридических последствий, проблема меморизации может касаться и других сфер, таких как здравоохранение и образование. В этих отраслях утечка данных из обучающих наборов может привести к нарушению конфиденциальности. Эксперты подчёркивают, что, несмотря на наличие защитных механизмов, модели всё же способны запоминать значительные объёмы информации.

Юристы отмечают, что эти исследования могут оказать давление на разработчиков ИИ, заставив их пересмотреть подходы к сбору и использованию данных. В частности, остаётся открытым вопрос о том, насколько часто и в каком объёме модели воспроизводят защищённый контент. Это может повлиять на стоимость и логистику обучения моделей, а также на юридическую ответственность компаний.

Что говорят эксперты и разработчики

Yves-Alexandre de Montjoye, профессор прикладной математики и компьютерных наук в Имперском колледже Лондона, отметил, что «доказательства растут, что меморизация — это больше, чем предполагалось». Он также подчеркнул, что наличие защитных механизмов в моделях свидетельствует о том, что разработчики осознают проблему.

Ben Zhao, профессор информатики в Чикагском университете, высказал сомнения в необходимости использования защищённых материалов для обучения моделей. Он отметил, что даже если технически это возможно, остаётся вопрос: «Должны ли мы это делать?» По его мнению, юридические рамки должны стать окончательным арбитром в этой ситуации.

Anthropic заявила, что техника jailbreaking, использованная в исследованиях, малопригодна для обычных пользователей и требует значительных усилий для извлечения текста, которые, по сути, превосходят простое приобретение оригинального произведения. Компания также подчеркнула, что её модель не хранит копии конкретных наборов данных, а обучается на паттернах и связях между словами.

Концептуальное изображение
Создано специально для ASECTOR
Концептуальное изображение

Итоги исследований и их влияние на рынок

Исследования показывают, что меморизация — это не только теоретическая возможность, а реальное поведение моделей, которое может иметь значительные последствия. Юридические эксперты предупреждают, что эти данные могут осложнить защиту компаний в судах и заставить их пересмотреть подходы к обучению ИИ.

Такие разработки также ставят под сомнение устойчивость аргумента «честного использования» и могут повлиять на регулирование ИИ в будущем. Для компаний, работающих в этой сфере, ключевым становится анализ рисков, связанных с авторским правом, и принятие мер для минимизации их влияния.

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ запоминает слишком много: новые риски для бизнеса и права

Скрытая мощь запоминания

Искусственный интеллект, созданный для генерации текста, оказался способен запоминать и воспроизводить тексты, защищённые авторским правом. Это не только технический феномен — это поворотный момент в понимании того, как ИИ взаимодействует с данными. Модели, такие как Grok 3, могут воссоздать до 70.3% текста из популярных книг, если пользователь знает, как правильно задавать вопросы [!].

Важный нюанс: Модель не копирует файлы, но она запоминает структуры, фразы и контексты, что достаточно, чтобы восстановить текст с высокой точностью.

Это означает, что бизнес, который полагается на ИИ для создания контента, может неосознанно рисковать авторскими правами. Развитие таких возможностей модели угрожает не только юридической сфере, но и бизнес-моделям, где копирайт — ключевой актив.

Кто выигрывает, а кто теряет

Крупные ИИ-компании, такие как Anthropic, ранее настаивали, что их модели не хранят копии обучающих данных. Однако исследования показывают, что это утверждение может быть неполным. В США уже есть судебные прецеденты, где компании пришлось платить миллиарды за нарушение авторских прав. Например, Anthropic выплатила $1,5 млрд за использование пиратских материалов в обучении модели [!].

Важный нюанс: Для российского бизнеса это означает, что внедрение ИИ в контент-создание, юридические консультации или медицинские отчёты требует юридической оценки рисков.

В то же время, меморизация может стать инструментом для мошенничества: дипфейки, копирование писем, отчётов и даже медицинских данных становятся технически возможными. Особенно это касается отраслей, где конфиденциальность — основной актив, таких как здравоохранение и образование.

Новые вызовы для регулирования

Юристы уже говорят, что эти исследования могут изменить подход к регулированию ИИ. Вопросы, которые ранее казались абстрактными, теперь становятся реальными:

  • Как защитить данные, которые модель запомнила?
  • Может ли ИИ быть ответственен за нарушение авторских прав?
  • Как оценить, насколько часто модель воспроизводит защищённый контент?

Важный нюанс: Эти вопросы могут привести к росту юридических издержек для компаний, использующих ИИ, и к необходимости пересмотра подходов к сбору и хранению данных.

Российские компании, внедряющие ИИ, должны быть готовы к тому, что в будущем может потребоваться не только техническая защита, но и юридическое сопровождение. Особенно если речь идёт о крупных моделях, обученных на разнородных данных, включая защищённый контент.

Перспективы и выводы

Исследования показывают, что меморизация — это не теоретическая возможность, а реальное поведение ИИ. Это ставит под сомнение устойчивость аргумента «честного использования» и может повлиять на регулирование ИИ в будущем.

Важный нюанс: Для российского бизнеса ключевым становится анализ рисков, связанных с авторским правом, и принятие мер для минимизации их влияния. Особенно если ИИ используется для создания контента, анализа данных или автоматизации процессов, где конфиденциальность и уникальность — критически важны.

Скрытые риски ИИ становятся всё более явными. И если раньше речь шла о скорости и точности, то теперь бизнесу нужно учиться учитывать и юридические последствия.

Коротко о главном

Какие последствия могут быть у способности ИИ запоминать защищённые тексты?

Способность моделей к меморизации может повлиять на судебные разбирательства, как это произошло с Anthropic, которая выплатила $1,5 млрд за использование пиратских материалов, и с OpenAI, признанной виновной в нарушении авторских прав в Германии.

Какие утверждения компаний о безопасности ИИ подверглись сомнению?

Google и другие компании утверждали, что их модели не хранят копии обучающих данных, но исследования показали, что модели могут воспроизводить защищённый контент, что ставит под сомнение их позицию.

Какие отрасли могут столкнуться с рисками из-за меморизации ИИ?

Помимо юридических последствий, утечка данных из обучающих наборов может нарушить конфиденциальность в таких сферах, как здравоохранение и образование, несмотря на наличие защитных механизмов.

Какие мнения высказали эксперты по поводу меморизации?

Профессор Yves-Alexandre de Montjoye подчеркнул, что доказательства меморизации усиливаются, а Ben Zhao сомневается в необходимости использования защищённых материалов для обучения моделей, отдавая предпочтение юридическим рамкам.

Как ответила на исследования компания Anthropic?

Anthropic заявила, что техника jailbreaking, использованная в исследованиях, малопригодна для обычных пользователей и требует усилий, превышающих простое приобретение оригинального произведения.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования; Право и регулирование

Оценка значимости: 7 из 10

Событие имеет национальное значение для России, поскольку затрагивает ключевые аспекты регулирования искусственного интеллекта, авторского права и потенциальные юридические риски, которые могут касаться российских компаний, работающих в сфере ИИ. Масштаб влияния охватывает несколько сфер — право, технологии, образование и здравоохранение. Продолжительность воздействия высока, поскольку вопрос регулирования ИИ и использования данных является долгосрочным. Глубина последствий значительна, так как изменения в подходах к обучению моделей и их юридической ответственности могут повлиять на развитие отрасли в целом.

Материалы по теме

Крупные ИИ-гиганты под угрозой: в модели может утекать защищённый контент

Исследование о способности модели Grok 3 воспроизводить 70.3% текста книги «Гарри Поттер и Философский камень» стало ключевым аргументом в тексте, подтверждающим угрозу авторскому праву со стороны ИИ. Оно иллюстрирует, как модели запоминают защищённый контент, и служит основой для дискуссии о меморизации как реальной, а не гипотетической угрозе.

Подробнее →
Anthropic заплатит $1,5 млрд за ИИ и пиратские книги

Судебный иск и выплата $1,5 млрд компанией Anthropic за использование пиратских материалов в обучении модели подкрепляет тезис о росте юридических рисков для ИИ-компаний. Этот факт конкретизирует масштаб последствий, которые могут возникнуть из-за нарушения авторских прав, усиливая ощущение срочности проблемы для бизнеса.

Подробнее →
⋆ Данная организация или продукт включены в список экстремистских в соответствии с решением суда, вступившим в законную силу. Деятельность запрещена на территории Российской Федерации на основании Федерального закона от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».