Январь 2026 | Обзор события | 7

ИИ-роботы забирают контент, но не возвращают трафик — что это значит для сайтов

ИИ-компании активно извлекают данные из интернета, используя собственные алгоритмы, но не обеспечивают обратного потока трафика к источникам. Это приводит к снижению посещаемости сайтов и увеличению их операционных затрат.

Содержание

Обзор

Повышение нагрузки и снижение трафика

Антропик и OpenAI в фокусе

Увеличение затрат и нагрузки

Выводы и перспективы

Когда ИИ забирает, но не возвращает
- Когда данные становятся ресурсом, а не партнером
- Кто платит за ИИ?
- Утечка контента и юридические риски
- Что происходит дальше?

ИСХОДНЫЙ НАРРАТИВ

По данным IT Home, в интернете, где долгие годы действовала неформальная практика цитирования источников, ситуация меняется. Ранее редакторы, публикуя информацию, указывали оригинальные источники — это позволяло сайтам получать трафик и сохранять свою значимость. Теперь же, в эпоху искусственного интеллекта, этот баланс нарушается.

Повышение нагрузки и снижение трафика

Согласно данным, собранным Cloudflare, крупные ИИ-компании активно извлекают информацию из интернета, используя собственные алгоритмы для анализа и генерации контента. Однако в отличие от традиционных редакторов, эти системы не перенаправляют пользователей к источникам. В результате снижается посещаемость сайтов, а сами площадки сталкиваются с ростом нагрузки, вызванной частыми запросами от ИИ-роботов.

Для оценки масштаба Cloudflare разработало метрику, которая показывает, сколько раз ИИ-система извлекает данные с сайта и как часто в ответ на это пользователи возвращаются к оригиналу. Например, соотношение 100:1 означает, что роботы берут контент 100 раз, но возвращают пользователей всего один раз. Такой показатель демонстрирует значительный дисбаланс.

Антропик и OpenAI в фокусе

По данным Cloudflare, Anthropic и OpenAI оказались в числе наиболее активных участников, чьи ИИ-роботы извлекают данные с сайтов, но не обеспечивают обратного потока трафика. У этих компаний показатель особенно низкий. Это означает, что они извлекают значительное количество информации, но возвращают её владельцам гораздо меньше.

Такая практика подтверждается и другими источниками. В конце 2024 года Business Insider сообщал, что частота запросов от Anthropic и OpenAI достигла уровня, который может существенно повлиять на производительность сайтов. Некоторые владельцы сайтов отметили, что из-за роста активности ИИ-роботов их затраты на облачные сервисы увеличились вдвое.

Увеличение затрат и нагрузки

Рост нагрузки от ИИ-роботов не только снижает посещаемость сайтов, но и приводит к увеличению операционных расходов. Разработчики сообщают, что внезапное увеличение количества запросов может привести к росту расходов на облачные вычисления. Это означает, что ИИ-компании, используя данные, не только не возвращают трафик, но и создают дополнительные издержки для владельцев контента.

Выводы и перспективы

Ситуация демонстрирует, что текущие практики ИИ-компаний могут создавать несбалансированные отношения между пользователями, платформами и владельцами контента. В то же время, пока нет чётко определённых механизмов, которые могли бы сбалансировать этот процесс. Для владельцев сайтов ключевым становится мониторинг активности роботов и оценка влияния ИИ на бизнес-модель.

Интересно: Какие меры могут быть приняты для восстановления баланса между извлечением данных и возвратом трафика в условиях роста активности ИИ-роботов?

Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ забирает, но не возвращает

С развитием искусственного интеллекта меняется не только способ создания контента, но и баланс сил в интернете. Ранее, когда информация распространялась через редакторов, сайты сохраняли свою ценность: их цитировали, ссылались, возвращались. Теперь же ИИ-системы, используя собственные алгоритмы, извлекают данные, но не перенаправляют пользователей к источникам. Это создает новую динамику, в которой владельцы контента теряют не только трафик, но и деньги.

Когда данные становятся ресурсом, а не партнером

Anthropic и OpenAI — две из самых заметных компаний в области ИИ — активно загружают информацию с сайтов, используя её для обучения моделей. Но в отличие от человека, который, прочитав статью, может кликнуть по ссылке или вернуться к источнику, ИИ не создаёт обратный поток. В результате показатель «извлечение и возврат» у этих компаний оказывается крайне низким. Например, если роботы извлекают данные 100 раз, пользователи возвращаются к оригиналу всего один раз [!].

Важный нюанс: Это не только техническая деталь. Это изменение экономики интернета. Ранее сайты могли рассчитывать на трафик от ссылок и цитат. Теперь же они становятся ресурсом для обучения ИИ — и не получают ничего взамен. Некоторые владельцы сайтов уже отмечают, что из-за роста запросов от ИИ-роботов их затраты на облачные вычисления выросли вдвое [!]. Это не шутка: роботы не только не приносят пользователей, но и увеличивают нагрузку.

Кто платит за ИИ?

Интересно, что ИИ-компании, как правило, не берут на себя ответственность за эти издержки. Они используют данные, но не несут расходов, связанных с обслуживанием сайтов, с которых берут информацию. Это создает асимметрию: владельцы контента вынуждены тратить больше, а ИИ-компании получают больше возможностей для обучения моделей.

Вот как это работает: если сайт загружает контент на сервер, он платит за хостинг, за трафик, за защиту от DDoS-атак. Но если ИИ-роботы делают тысячи запросов в секунду, это может превратить обычный сайт в «жертву» масштабного скрейпинга. А если у сайта нет мощной инфраструктуры, он может не выдержать нагрузки.

Важный нюанс: Когда ИИ-системы извлекают данные, но не возвращают пользователей, это не только техническая особенность — это изменение экономической модели интернета. Сайты перестают быть центрами внимания, становясь фоном для обучения ИИ.

Утечка контента и юридические риски

Новые данные демонстрируют, что проблема не ограничивается только технической нагрузкой. В ходе исследований Стэнфордского и Йельского университетов выяснилось, что коммерческие ИИ-модели способны запоминать и воспроизводить защищённый контент. В одном из экспериментов из модели Claude 3.7 Sonnet удалось извлечь 95.8% текста книги Гарри Поттер и Философский камень. Это ставит под сомнение соответствие таких моделей принципу «справедливого использования» [!].

В ответ на эти риски Anthropic прекратила доступ к этой версии модели. При этом компания не уточнила причины шага, но это событие подчеркивает рост юридических и этических сложностей, связанных с обучением ИИ на защищённых данных. Подобные вопросы уже становятся центральными в судебных разбирательствах, например, в деле The New York Times против Perplexity [!].

Что происходит дальше?

Пока нет чётких правил, регулирующих взаимодействие ИИ-компаний и владельцев контента. Но если такая практика продолжится, она может привести к сокращению объёма открытого контента. Сайты, которые не могут выдержать нагрузку или не хотят терять деньги, могут начать ограничивать доступ к информации — или вообще перейти к закрытым форматам. Это, в свою очередь, замедлит развитие ИИ, который, как и люди, нуждается в разнообразных данных для обучения.

Для владельцев сайтов ключевым становится мониторинг активности роботов и оптимизация инфраструктуры. Возможно, в будущем появятся платформы, которые позволят владельцам контента получать доход от его использования ИИ-компаниями. Но пока это лишь гипотеза.

Важный нюанс: ИИ может стать инструментом, который меняет не только способы обработки информации, но и экономику интернета. И если не создать баланс между извлечением и возвратом, то победителями окажутся те, кто умеет брать — а не те, кто умеет давать.

Источник: IT Home

Контакты Асектор ✉

Коротко о главном

Какие компании наиболее активно извлекают данные с сайтов?

Anthropic и OpenAI имеют самый низкий показатель возвратов, что указывает на значительное извлечение контента без возврата пользователей.

Каковы финансовые последствия для владельцев сайтов?

Рост нагрузки от ИИ-роботов привёл к увеличению затрат на облачные сервисы у некоторых владельцев сайтов вдвое.

Что означает метрика «抓取与回流比»?

Она показывает соотношение между количеством извлечений данных ИИ-роботами и возвращением пользователей к оригинальному контенту, например, 100:1 демонстрирует дисбаланс в пользу ИИ-компаний.

Как влияет активность ИИ-роботов на производительность сайтов?

Частые запросы от роботов, особенно от Anthropic и OpenAI, могут существенно снизить производительность и привести к сбоям.

Почему владельцы сайтов сталкиваются с ростом нагрузки?

Потому что ИИ-роботы делают множество запросов для извлечения данных, что увеличивает операционные расходы и требует дополнительных ресурсов.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Аналитика и исследования; Цифровизация и технологии; Передовые технологии; Интернет вещей (IoT)

Темы: Информационно-развлекательный контент; Искусственный интеллект; Трафик сайтов;

Оценка значимости: 7 из 10

Событие затрагивает масштабную аудиторию, так как речь идет о глобальных ИИ-компаниях, влияющих на работу интернет-ресурсов в целом, включая Россию. Воздействие не краткосрочное, а долгосрочное, поскольку связано с эволюцией ИИ и его интеграцией в цифровую экосистему. Влияние охватывает несколько сфер — экономику, технологии, бизнес-модели и даже регуляторную среду. Поскольку вопрос касается роста нагрузки и затрат на облачные сервисы, что может затронуть российских пользователей и владельцев сайтов, оценка получает прибавку за связь с Россией.

Материалы по теме

Крупные ИИ-гиганты под угрозой: в модели может утекать защищённый контент

Утечка 95.8% текста книги Гарри Поттер и Философский камень из модели Claude 3.7 Sonnet используется как ключевой пример рисков, связанных с обучением ИИ на защищённых данных. Этот факт подчёркивает юридические и этические сложности, которые могут возникнуть при использовании контента без лицензирования, усиливая аргумент о нестабильности текущей модели «справедливого использования».

Подробнее →

Reddit подал иск: Perplexity AI обвиняют в краже данных для ИИ

Судебный спор между The New York Times и Perplexity становится центральным примером в тексте, демонстрирующим, как СМИ начинают требовать компенсацию за использование их контента в обучении ИИ. Этот случай иллюстрирует рост юридических претензий и возможное формирование нового рынка лицензирования контента для ИИ-компаний.

Подробнее →

Cloudflare заблокировала 416 млрд запросов ИИ-ботов Google

Факт блокировки 416 млрд запросов ИИ-ботов Cloudflare служит доказательством технических и экономических издержек, которые несут владельцы контента. Он поддерживает тезис о том, что ИИ-скрейпинг не только не приносит трафик обратно, но и увеличивает нагрузку на инфраструктуру, что требует дополнительных затрат.

Подробнее →

AI-богатство 2025: кто заработал миллиарды на искусственном интеллекте

Цифра в 283 млрд долларов инвестиций в ИИ-модели, полученных Anthropic и OpenAI, используется для контраста с тем, что сайты-источники не получают ничего взамен. Это подчёркивает дисбаланс в экономике интернета, где ИИ-компании получают выгоду, не неся ответственности за источники данных.

Подробнее →

СМИ и ИИ-стартапы вступили в новый этап войны за контент

Соглашение Anthropic на сумму $1,5 млрд с писателями демонстрирует растущую юридическую ответственность ИИ-компаний за использование контента без разрешения. Этот факт поддерживает идею о том, что владельцы контента начали требовать компенсации, что может стать нормой в будущем.

Подробнее →