ИИ-роботы забирают контент, но не возвращают трафик — что это значит для сайтов
ИИ-компании активно извлекают данные из интернета, используя собственные алгоритмы, но не обеспечивают обратного потока трафика к источникам. Это приводит к снижению посещаемости сайтов и увеличению их операционных затрат.
По данным IT Home, в интернете, где долгие годы действовала неформальная практика цитирования источников, ситуация меняется. Ранее редакторы, публикуя информацию, указывали оригинальные источники — это позволяло сайтам получать трафик и сохранять свою значимость. Теперь же, в эпоху искусственного интеллекта, этот баланс нарушается.
Повышение нагрузки и снижение трафика
Согласно данным, собранным Cloudflare, крупные ИИ-компании активно извлекают информацию из интернета, используя собственные алгоритмы для анализа и генерации контента. Однако в отличие от традиционных редакторов, эти системы не перенаправляют пользователей к источникам. В результате снижается посещаемость сайтов, а сами площадки сталкиваются с ростом нагрузки, вызванной частыми запросами от ИИ-роботов.
Для оценки масштаба Cloudflare разработало метрику, которая показывает, сколько раз ИИ-система извлекает данные с сайта и как часто в ответ на это пользователи возвращаются к оригиналу. Например, соотношение 100:1 означает, что роботы берут контент 100 раз, но возвращают пользователей всего один раз. Такой показатель демонстрирует значительный дисбаланс.
Антропик и OpenAI в фокусе
По данным Cloudflare, Anthropic и OpenAI оказались в числе наиболее активных участников, чьи ИИ-роботы извлекают данные с сайтов, но не обеспечивают обратного потока трафика. У этих компаний показатель особенно низкий. Это означает, что они извлекают значительное количество информации, но возвращают её владельцам гораздо меньше.
Такая практика подтверждается и другими источниками. В конце 2024 года Business Insider сообщал, что частота запросов от Anthropic и OpenAI достигла уровня, который может существенно повлиять на производительность сайтов. Некоторые владельцы сайтов отметили, что из-за роста активности ИИ-роботов их затраты на облачные сервисы увеличились вдвое.
Увеличение затрат и нагрузки
Рост нагрузки от ИИ-роботов не только снижает посещаемость сайтов, но и приводит к увеличению операционных расходов. Разработчики сообщают, что внезапное увеличение количества запросов может привести к росту расходов на облачные вычисления. Это означает, что ИИ-компании, используя данные, не только не возвращают трафик, но и создают дополнительные издержки для владельцев контента.
Выводы и перспективы
Ситуация демонстрирует, что текущие практики ИИ-компаний могут создавать несбалансированные отношения между пользователями, платформами и владельцами контента. В то же время, пока нет чётко определённых механизмов, которые могли бы сбалансировать этот процесс. Для владельцев сайтов ключевым становится мониторинг активности роботов и оценка влияния ИИ на бизнес-модель.
Интересно: Какие меры могут быть приняты для восстановления баланса между извлечением данных и возвратом трафика в условиях роста активности ИИ-роботов?

Когда ИИ забирает, но не возвращает
С развитием искусственного интеллекта меняется не только способ создания контента, но и баланс сил в интернете. Ранее, когда информация распространялась через редакторов, сайты сохраняли свою ценность: их цитировали, ссылались, возвращались. Теперь же ИИ-системы, используя собственные алгоритмы, извлекают данные, но не перенаправляют пользователей к источникам. Это создает новую динамику, в которой владельцы контента теряют не только трафик, но и деньги.
Когда данные становятся ресурсом, а не партнером
Anthropic и OpenAI — две из самых заметных компаний в области ИИ — активно загружают информацию с сайтов, используя её для обучения моделей. Но в отличие от человека, который, прочитав статью, может кликнуть по ссылке или вернуться к источнику, ИИ не создаёт обратный поток. В результате показатель «извлечение и возврат» у этих компаний оказывается крайне низким. Например, если роботы извлекают данные 100 раз, пользователи возвращаются к оригиналу всего один раз [!].
Важный нюанс: Это не только техническая деталь. Это изменение экономики интернета. Ранее сайты могли рассчитывать на трафик от ссылок и цитат. Теперь же они становятся ресурсом для обучения ИИ — и не получают ничего взамен. Некоторые владельцы сайтов уже отмечают, что из-за роста запросов от ИИ-роботов их затраты на облачные вычисления выросли вдвое [!]. Это не шутка: роботы не только не приносят пользователей, но и увеличивают нагрузку.
Кто платит за ИИ?
Интересно, что ИИ-компании, как правило, не берут на себя ответственность за эти издержки. Они используют данные, но не несут расходов, связанных с обслуживанием сайтов, с которых берут информацию. Это создает асимметрию: владельцы контента вынуждены тратить больше, а ИИ-компании получают больше возможностей для обучения моделей.
Вот как это работает: если сайт загружает контент на сервер, он платит за хостинг, за трафик, за защиту от DDoS-атак. Но если ИИ-роботы делают тысячи запросов в секунду, это может превратить обычный сайт в «жертву» масштабного скрейпинга. А если у сайта нет мощной инфраструктуры, он может не выдержать нагрузки.
Важный нюанс: Когда ИИ-системы извлекают данные, но не возвращают пользователей, это не только техническая особенность — это изменение экономической модели интернета. Сайты перестают быть центрами внимания, становясь фоном для обучения ИИ.
Утечка контента и юридические риски
Новые данные демонстрируют, что проблема не ограничивается только технической нагрузкой. В ходе исследований Стэнфордского и Йельского университетов выяснилось, что коммерческие ИИ-модели способны запоминать и воспроизводить защищённый контент. В одном из экспериментов из модели Claude 3.7 Sonnet удалось извлечь 95.8% текста книги Гарри Поттер и Философский камень. Это ставит под сомнение соответствие таких моделей принципу «справедливого использования» [!].
В ответ на эти риски Anthropic прекратила доступ к этой версии модели. При этом компания не уточнила причины шага, но это событие подчеркивает рост юридических и этических сложностей, связанных с обучением ИИ на защищённых данных. Подобные вопросы уже становятся центральными в судебных разбирательствах, например, в деле The New York Times против Perplexity [!].
Что происходит дальше?
Пока нет чётких правил, регулирующих взаимодействие ИИ-компаний и владельцев контента. Но если такая практика продолжится, она может привести к сокращению объёма открытого контента. Сайты, которые не могут выдержать нагрузку или не хотят терять деньги, могут начать ограничивать доступ к информации — или вообще перейти к закрытым форматам. Это, в свою очередь, замедлит развитие ИИ, который, как и люди, нуждается в разнообразных данных для обучения.
Для владельцев сайтов ключевым становится мониторинг активности роботов и оптимизация инфраструктуры. Возможно, в будущем появятся платформы, которые позволят владельцам контента получать доход от его использования ИИ-компаниями. Но пока это лишь гипотеза.
Важный нюанс: ИИ может стать инструментом, который меняет не только способы обработки информации, но и экономику интернета. И если не создать баланс между извлечением и возвратом, то победителями окажутся те, кто умеет брать — а не те, кто умеет давать.
Источник: IT Home