Меморизация ИИ: модели запоминают 70% текстов популярных книг
Крупнейшие ИИ-модели запоминают и воспроизводят защищённые тексты с поразительной точностью, ставя под угрозу юридические аргументы компаний в борьбе с авторскими правами. Это открывает путь к глобальному пересмотру правил обучения ИИ и может существенно изменить баланс сил между технологическими гигантами и правообладателями.
По данным издания Ars Technica, ряд исследований, проведённых университетами Стэнфорд и Йель, выявил, что крупнейшие в мире языковые модели, включая продукты OpenAI, Google, Meta⋆, Anthropic и xAI, способны генерировать тексты, почти полностью совпадающие с популярными книгами. Это ставит под сомнение утверждения компаний, что их системы не хранят защищённые авторским правом материалы.
Эксперименты показали, что модели, такие как Grok 3 и Gemini 2.5, при правильных подсказках могут воспроизводить до 70–76% текста из таких произведений, как «Игра престолов», «Голодные игры» и «Хоббит». В некоторых случаях, особенно при использовании метода «обхода ограничений» (jailbreaking), модели воспроизводили тексты почти дословно. Это подтверждает, что меморизация — способность ИИ запоминать данные из обучающих наборов — может быть гораздо сильнее, чем предполагалось ранее.
Утверждения компаний о «безопасности» ИИ подвергаются сомнению
Компании, занимающиеся разработкой ИИ, ранее настаивали, что их модели не хранят копии обучающих данных. Например, в 2023 году Google заявила, что «в модели нет копии обучающих данных — текстов, изображений или других форматов». Также утверждалось, что использование защищённых авторским правом материалов в обучении ИИ соответствует принципу «честного использования», поскольку технология преобразует исходный контент в что-то новое.
Однако новые исследования показывают, что это утверждение может быть ошибочным. Специалисты в области ИИ и права отмечают, что способность моделей запоминать и воспроизводить тексты может серьёзно повлиять на ход судебных разбирательств. Например, в США суд признал, что использование пиратских материалов в обучении Anthropic является нарушением авторских прав. В результате компания выплатила $1,5 млрд в качестве компенсации.
В Европе, в Германии, в ноябре прошлого года суд постановил, что OpenAI нарушило авторские права, поскольку её модель запомнила тексты песен. Это дело, инициированное ассоциацией GEMA, стало важным прецедентом в ЕС.
Потенциальные риски для других отраслей
Кроме юридических последствий, проблема меморизации может касаться и других сфер, таких как здравоохранение и образование. В этих отраслях утечка данных из обучающих наборов может привести к нарушению конфиденциальности. Эксперты подчёркивают, что, несмотря на наличие защитных механизмов, модели всё же способны запоминать значительные объёмы информации.
Юристы отмечают, что эти исследования могут оказать давление на разработчиков ИИ, заставив их пересмотреть подходы к сбору и использованию данных. В частности, остаётся открытым вопрос о том, насколько часто и в каком объёме модели воспроизводят защищённый контент. Это может повлиять на стоимость и логистику обучения моделей, а также на юридическую ответственность компаний.
Что говорят эксперты и разработчики
Yves-Alexandre de Montjoye, профессор прикладной математики и компьютерных наук в Имперском колледже Лондона, отметил, что «доказательства растут, что меморизация — это больше, чем предполагалось». Он также подчеркнул, что наличие защитных механизмов в моделях свидетельствует о том, что разработчики осознают проблему.
Ben Zhao, профессор информатики в Чикагском университете, высказал сомнения в необходимости использования защищённых материалов для обучения моделей. Он отметил, что даже если технически это возможно, остаётся вопрос: «Должны ли мы это делать?» По его мнению, юридические рамки должны стать окончательным арбитром в этой ситуации.
Anthropic заявила, что техника jailbreaking, использованная в исследованиях, малопригодна для обычных пользователей и требует значительных усилий для извлечения текста, которые, по сути, превосходят простое приобретение оригинального произведения. Компания также подчеркнула, что её модель не хранит копии конкретных наборов данных, а обучается на паттернах и связях между словами.

Итоги исследований и их влияние на рынок
Исследования показывают, что меморизация — это не только теоретическая возможность, а реальное поведение моделей, которое может иметь значительные последствия. Юридические эксперты предупреждают, что эти данные могут осложнить защиту компаний в судах и заставить их пересмотреть подходы к обучению ИИ.
Такие разработки также ставят под сомнение устойчивость аргумента «честного использования» и могут повлиять на регулирование ИИ в будущем. Для компаний, работающих в этой сфере, ключевым становится анализ рисков, связанных с авторским правом, и принятие мер для минимизации их влияния.
Когда ИИ запоминает слишком много: новые риски для бизнеса и права
Скрытая мощь запоминания
Искусственный интеллект, созданный для генерации текста, оказался способен запоминать и воспроизводить тексты, защищённые авторским правом. Это не только технический феномен — это поворотный момент в понимании того, как ИИ взаимодействует с данными. Модели, такие как Grok 3, могут воссоздать до 70.3% текста из популярных книг, если пользователь знает, как правильно задавать вопросы [!].
Важный нюанс: Модель не копирует файлы, но она запоминает структуры, фразы и контексты, что достаточно, чтобы восстановить текст с высокой точностью.
Это означает, что бизнес, который полагается на ИИ для создания контента, может неосознанно рисковать авторскими правами. Развитие таких возможностей модели угрожает не только юридической сфере, но и бизнес-моделям, где копирайт — ключевой актив.
Кто выигрывает, а кто теряет
Крупные ИИ-компании, такие как Anthropic, ранее настаивали, что их модели не хранят копии обучающих данных. Однако исследования показывают, что это утверждение может быть неполным. В США уже есть судебные прецеденты, где компании пришлось платить миллиарды за нарушение авторских прав. Например, Anthropic выплатила $1,5 млрд за использование пиратских материалов в обучении модели [!].
Важный нюанс: Для российского бизнеса это означает, что внедрение ИИ в контент-создание, юридические консультации или медицинские отчёты требует юридической оценки рисков.
В то же время, меморизация может стать инструментом для мошенничества: дипфейки, копирование писем, отчётов и даже медицинских данных становятся технически возможными. Особенно это касается отраслей, где конфиденциальность — основной актив, таких как здравоохранение и образование.
Новые вызовы для регулирования
Юристы уже говорят, что эти исследования могут изменить подход к регулированию ИИ. Вопросы, которые ранее казались абстрактными, теперь становятся реальными:
- Как защитить данные, которые модель запомнила?
- Может ли ИИ быть ответственен за нарушение авторских прав?
- Как оценить, насколько часто модель воспроизводит защищённый контент?
Важный нюанс: Эти вопросы могут привести к росту юридических издержек для компаний, использующих ИИ, и к необходимости пересмотра подходов к сбору и хранению данных.
Российские компании, внедряющие ИИ, должны быть готовы к тому, что в будущем может потребоваться не только техническая защита, но и юридическое сопровождение. Особенно если речь идёт о крупных моделях, обученных на разнородных данных, включая защищённый контент.
Перспективы и выводы
Исследования показывают, что меморизация — это не теоретическая возможность, а реальное поведение ИИ. Это ставит под сомнение устойчивость аргумента «честного использования» и может повлиять на регулирование ИИ в будущем.
Важный нюанс: Для российского бизнеса ключевым становится анализ рисков, связанных с авторским правом, и принятие мер для минимизации их влияния. Особенно если ИИ используется для создания контента, анализа данных или автоматизации процессов, где конфиденциальность и уникальность — критически важны.
Скрытые риски ИИ становятся всё более явными. И если раньше речь шла о скорости и точности, то теперь бизнесу нужно учиться учитывать и юридические последствия.
Источник: Ars Technica